قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و tab و … . لازمه ی ایجاد …
ادامه نوشته »ایندکس معکوس (inverted index) چیست؟
در قسمت های قبل روشهای شاخص گذاری بر روی داده ها را بررسی نمودیم. اکنون در بخش ایندکس معکوس (inverted index) مورد مطالعه قرار میدهیم. شاخص گذاری معکوس، یک مکانیزم مبتنی بر کلمه است که برای جستجوی سریع اسناد شامل یک کلمه خاص به کار میرود. در اینجا منظور از سند، دنباله محدودی از کاراکترها است …
ادامه نوشته »انواع ایندکس یا اندیس در پایگاه داده (Index)
انواع ایندکس: از اندیسها میتوان برای بهبود عملکرد پایگاهداده استفاده کرد. اندیسها به سرویسدهنده پایگاهداده اجازه میدهد تا سطرهای خاص را سریعتر از حالت بدون اندیس بیابد. در مباحث قبل به ایندکس معکوس و ایندکس ثانویه اشاره شده است. اکنون انواع اصلی که مبانی شاخص گذاری هستند مورد بررسی قرار میگیرد. انواع ایندکس های متداول …
ادامه نوشته »ایندکس ثانویه در کاساندرا (شاخص گذاری)
در بخش های قبل در رابطه با روش های ایندکس بر روی داده ها مطالبی ارائه شد و همچنین به بررسی انواع کلید ها و مدل ستون ها در کاساندرا پرداختیم در این مبحث به بررسی ایندکس ثانویه در کاساندرا خواهیم پرداخت. پیشنهاد می شود قبل از مطالعه این مطلب دو مبحث ذکر شده در …
ادامه نوشته »