خانه --> شاخص گذاری (indexing)

شاخص گذاری (indexing)

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و … . لازمه ی ایجاد …

ادامه نوشته »

ایندکس معکوس (inverted index) چیست؟

ایندکس معکوس

در قسمت های قبل روشهای شاخص گذاری بر روی داده ها را بررسی نمودیم. اکنون در بخش ایندکس معکوس (inverted index) مورد مطالعه قرار میدهیم. شاخص­ گذاری معکوس، یک مکانیزم مبتنی بر کلمه است که برای جستجوی سریع اسناد شامل یک کلمه­ خاص به کار می­رود. در اینجا منظور از سند، دنباله محدودی از کاراکترها است …

ادامه نوشته »

انواع ایندکس یا اندیس در پایگاه داده (Index)

انواع ایندکس

انواع ایندکس: از اندیس‌ها می‌توان برای بهبود عملکرد پایگاه‌داده استفاده کرد. اندیس‌ها به سرویس‌دهنده پایگاه‌داده اجازه می‌دهد تا سطرهای خاص را سریع‌تر از حالت بدون اندیس بیابد. در مباحث قبل به ایندکس معکوس و ایندکس ثانویه اشاره شده است. اکنون انواع اصلی که مبانی شاخص گذاری هستند مورد بررسی قرار میگیرد. انواع ایندکس های  متداول …

ادامه نوشته »

ایندکس ثانویه در کاساندرا (شاخص گذاری)

ایندکس ثانویه در کاساندرا

در بخش های قبل در رابطه با روش های ایندکس بر روی داده ها مطالبی ارائه شد و همچنین به بررسی انواع کلید ها  و  مدل ستون ها در کاساندرا پرداختیم در این مبحث به بررسی ایندکس ثانویه در کاساندرا خواهیم پرداخت. پیشنهاد می شود قبل از مطالعه این مطلب دو مبحث ذکر شده در …

ادامه نوشته »