خانه --> بایگانی برچسب: پردازش متن

بایگانی برچسب: پردازش متن

دیتاست اسامی اشخاص حقیقی جهت استفاده در پردازش متن

اسامی اشخاص حقیقی

بانک اسامی اشخاص حقیقی جهت استفاده در تشخیص موجودیت های اسمی: یکی از انواع موجودیت های اسمی، اسامی اشخاص حقیقی است. برای استفاده شما مجموعه داده ای شامل بیش از ۱۵۰۰۰ نفر از اسامی اشخاص حقیقی جهت استفاده NER ارائه شده است که در ادامه می توانید آن را دانلود کنید. تشخیص موجودیت‌های اسمی که …

ادامه نوشته »

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین  به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی متون میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، …

ادامه نوشته »

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال ۱۳۹۲ به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا برای زبان پایتون و بر …

ادامه نوشته »

خلاصه ­سازی متن یا summarization در حوزه متن کاوی

خلاصه ­سازی متن یا summarization

خلاصه ­سازی متن یا summarization، فشرده ­سازی متن به حالت کوتاه­تر از متن اصلی است، به طوری که محتوای اطلاعاتی متن و به طور کلی مفاهیم کلی متن حفظ شود. به توجه به اینکه اسناد زیادی در اینترنت موجود است که بیشتر آنها محتوی اطلاعات غیر ضروری می­باشد، اهمیت خلاصه­ سازی متون به منظور کاهش …

ادامه نوشته »

نقش ریشه­ یاب (Stemmer) در تحلیل متن

ریشه­ یاب (Stemmer)

در این مبحث مولفه ریشه­ یاب (Stemmer) در فرایند پردازش متن تشریح می‌گردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، این شکل ظاهری متفاوت از …

ادامه نوشته »

نقش واحدساز (Tokenizer) در پردازش متن

قطعه بندی متون

واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم.  واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند و آن را برای تحلیل های بعدی آماده میکند. در …

ادامه نوشته »