خانه > بایگانی برچسب: تحلیل متن

بایگانی برچسب: تحلیل متن

مجموعه داده وسایل و تجهیزات (appliances) جهت متن کاوی

مجموعه داده وسایل

برای تشخیص اینکه یک کلمه اسم است، راه ­های مختلفی وجود دارد که از جمله­ ی آنها مراجعه به لغت نامه، استفاده از وردنت، در نظر گرفتن ریشه ­ی کلمه، استفاده از قواعد نحوی ساخت واژه و غیره می­ باشد. یکی از روش ها مرسوم تشخیص اسم ­ها با استفاده یک لغتنامه از اسامی افراد، …

ادامه مطلب

دانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)

مجموعه داده اخبار

به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار با طبقه بندی موضوعی (classification) و خوشه بندی سلسله مراتبی در زیر برای دانلود ارائه شده است. دانلود مجموعه داده اخبار فارسی دسته بندی شده بررسی و مقایسه الگوریتمهای خوشه بندی سلسله مراتبی توصیف کلی از الگوریتمهای سلسله مراتبی در …

ادامه مطلب

مراحل پیش‌پردازش متن خبر فارسی

مراحل پیش‌پردازش

پیش‌پردازش متن فارسی برای پردازش زبان طبیعی و انجام عملیات خودکار بر روی متن مانند ترجمه، خلاصه‌سازی، تصحیح املا، استخراج کلمات کلیدی، خوشه بندی، طبقه بندی و غیره، نیازمند ابزارهایی جهت پیش‌پردازش و آماده‌سازی متون هستیم. پیش پردازش[1] داده ها، مهم‌ترین مرحله در فرایند کشف دانش از داده های متنی میباشد. پردازش متن به صورت …

ادامه مطلب

مجموعه داده (Data Set) اشعار حافظ

مجموعه داده اشعار حافظ

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. یکی از مشکلات دانشجویان ارشد و دکترا این است که: برای فلان تحقیق (مثلاً درس داده‌کاوی) یا پایان‌نامه، نیاز به یک دیتاست (DataSet = مجموعه داده) دارم، از کجا می‌توانم گیر بیاورم؟ هر چند می‌شود با جستجو، به …

ادامه مطلب

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا برای زبان پایتون و بر …

ادامه مطلب

نقش برچسب گذار (POS tagger) در پردازش متن

برچسب گذار (POS tagger)

یکی از بخش­ های کلیدی در پردازش متن تعیین نقش کلمه در جمله است. در واقع با ابزار برچسب گذار (POS tagger) نقش کلمه از نظر فعل، فاعل، نوع اسم و غیره مشخص می­شود. برچسب­گذاری در پردازش زبان بعد از بخش­ های واحدساز و ریشه­ یاب و حذف پسوندهای خاص قرار می­گیرد. برای بن‌واژه‌سازی کلمات …

ادامه مطلب

نقش ریشه­ یاب (Stemmer) در تحلیل متن

ریشه­ یاب (Stemmer)

در این مبحث مولفه ریشه­ یاب (Stemmer) در فرایند پردازش متن تشریح می‌گردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، این شکل ظاهری متفاوت از …

ادامه مطلب

روش‏ های تشخیص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد مواجه شویم. در بیشتر موارد مخصوصا اگر رنج تنوع زبان ها …

ادامه مطلب