مقدمه ای بر اسامی مکان: یکی از انواع موجودیت های نامدار، اسم مکان است. برای استفاده پژوهشگران دیتاستی شامل بیش از 300 هزار اسم مکان واقعی جهت استفاده در تشخیص مجودیت های مکانی …
ادامه مطلببایگانی برچسب: پردازش متن
مراحل متن کاوی و پردازش متن به زبان خلاصه
مقدمه ای بر مراحل متن کاوی امروزه بخش وسیعی از دانش بهصورت متن، مستندات و دیگر صورتهای رسانهای نگهداری میشوند که همه آنها بهصورت غیر ساختاریافته هستند. یکی از کاربردهای دادهکاوی، متنکاوی است. …
ادامه مطلبدیتاست اسامی اشخاص حقیقی جهت استفاده در پردازش متن
بانک اسامی اشخاص حقیقی جهت استفاده در تشخیص موجودیت های اسمی: یکی از انواع موجودیت های اسمی، اسامی اشخاص حقیقی است. برای استفاده شما مجموعه داده ای شامل بیش از 15000 نفر از …
ادامه مطلبقطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)
قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده …
ادامه مطلبپردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی
jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت …
ادامه مطلبیکسان سازی یا نرمال سازی متون فارسی با استفاده از کتابخانه JHazm
در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابلدسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل میکنند. در …
ادامه مطلبخلاصه سازی متن یا summarization در حوزه متن کاوی
خلاصه سازی متن یا summarization، فشرده سازی متن به حالت کوتاهتر از متن اصلی است، به طوری که محتوای اطلاعاتی متن و به طور کلی مفاهیم کلی متن حفظ شود. به توجه به …
ادامه مطلبنقش ریشه یاب (Stemmer) در تحلیل متن و پردازش زبان طبیعی
در این مبحث مولفه ریشه یاب (Stemmer) در فرایند پردازش متن تشریح میگردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. در هر زبان، …
ادامه مطلبنقش واحدساز (Tokenizer) در پردازش متن و متن کاوی
واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. واحدساز (Tokenizer) مرز کلمات را در …
ادامه مطلب