صفحه نخست --> متن کاوی

متن کاوی

دانلود ایست واژه‌ها یا Stop Word در زبان فارسی

ایست واژه‌ها یا Stop Word: کلماتی هستند که با وجود به تکرار بسیار زیاد آن و حضور آنها در اغلب اسناد فاقد اطلاعات معنابخش هستند. بنابراین با حذف آن‌ها کارایی الگوریتم‌ها افزایش  و حجم پردازش کاهش می‌یابد. ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از ...

ادامه مطلب

تعریف پیکره واژگان یا WordNet چیست؟

پیکره واژگان یا WordNet

پیکره واژگان یا WordNet یک مجموعه ی نسبتا بزرگ از لغات و ارتباط آن ها در ساختار متون است. وردنت در حقیقت رابطه معنایی بین دو کلمه را بیان میکند. به عنوان مثال کبوتر از نوع پرنده است و پرنده یک نوع حیوان است و حیوان یک نوع جاندار است. ...

ادامه مطلب

خلاصه ­سازی متن یا summarization در حوزه متن کاوی

خلاصه ­سازی متن یا summarization

خلاصه ­سازی متن یا summarization، فشرده ­سازی متن به حالت کوتاه­تر از متن اصلی است، به طوری که محتوای اطلاعاتی متن و به طور کلی مفاهیم کلی متن حفظ شود. به توجه به اینکه اسناد زیادی در اینترنت موجود است که بیشتر آنها محتوی اطلاعات غیر ضروری می­باشد، اهمیت خلاصه­ ...

ادامه مطلب

تشخیص موجودیت های اسمی یا نامدار (NER)

تشخیص موجودیت های اسمی (NER)

فراییند تشخیص موجودیت های اسمی (NER) برای تشخیص اسامی و نوع آنها به کار می ­رود. تشخیص موجودیت­ های اسمی فرآیندی است که هدف از آن تشخیص و شناسایی کلمات یا عباراتی است که نمایانگر یک موجودیت می­باشند. برای تشخیص موجودیت­ های اسمی از قبیل نام­ افراد، سازمان­ها، مکان­ها و ...

ادامه مطلب

نقش برچسب گذار (POS tagger) در پردازش متن

برچسب گذار (POS tagger)

یکی از بخش­ های کلیدی در پردازش متن تعیین نقش کلمه در جمله است. در واقع با ابزار برچسب گذار (POS tagger) نقش کلمه از نظر فعل، فاعل، نوع اسم و غیره مشخص می­شود. برچسب­گذاری در پردازش زبان بعد از بخش­ های واحدساز و ریشه­ یاب و حذف پسوندهای خاص ...

ادامه مطلب

نقش ریشه­ یاب (Stemmer) در تحلیل متن

ریشه­ یاب (Stemmer)

در این مبحث مولفه ریشه­ یاب (Stemmer) در فرایند پردازش متن تشریح می‌گردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، ...

ادامه مطلب

نقش واحدساز (Tokenizer) در پردازش متن

واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم.  واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند و آن را برای تحلیل ...

ادامه مطلب

روش‏ های تشخیص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد مواجه شویم. در بیشتر موارد مخصوصا ...

ادامه مطلب

ایندکس معکوس (inverted index) چیست؟

ایندکس معکوس

در قسمت های قبل روشهای شاخص گذاری بر روی داده ها را بررسی نمودیم. اکنون در بخش ایندکس معکوس (inverted index) مورد مطالعه قرار میدهیم. شاخص­ گذاری معکوس، یک مکانیزم مبتنی بر کلمه است که برای جستجوی سریع اسناد شامل یک کلمه­ خاص به کار می­رود. در اینجا منظور از سند، ...

ادامه مطلب

محصولات و تکنولوژی های آپاچی در حوزه کلان داده و داده کاوی (ActiveMQ, OrientDB, Ant, AVRO, CouchDB, Elastic , Hadoop, Lucene, Mahout, Nutch, OpenNLP, Solr, Spark, Zookeper)

تکنولوژی های آپاچی

یکی از موسسات مطرح در زمینه پشتیبانی از داده های حجیم، بنیاد آپاچی می باشد. لذا شناخت محصولات و تکنولوژی های نرم افزاری آپاچی بسیار لازم است. معمولا از مجموعه ی این تکنولوژی ها تحت عنوان اکوسیستم هدوپ یاد میشود. در این مبحث تکنولوژی های آپاچی بررسی خواهد. ActiveMQ این ...

ادامه مطلب

انواع ایندکس یا اندیس در پایگاه داده (Index)

انواع ایندکس

انواع ایندکس: از اندیس‌ها می‌توان برای بهبود عملکرد پایگاه‌داده استفاده کرد. اندیس‌ها به سرویس‌دهنده پایگاه‌داده اجازه می‌دهد تا سطرهای خاص را سریع‌تر از حالت بدون اندیس بیابد. در مباحث قبل به ایندکس معکوس و ایندکس ثانویه اشاره شده است. اکنون انواع اصلی که مبانی شاخص گذاری هستند مورد بررسی قرار ...

ادامه مطلب