صفحه نخست --> متن کاوی و تحلیل متن

متن کاوی و تحلیل متن

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT)

تشخیص و ردیابی موضوع

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT) برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده­[۱]­ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شده­اند به شرح زیر می‌باشند: جریان موضوعات جریان موضوعات به ...

ادامه مطلب

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و ...

ادامه مطلب

استخراج کلمات کلیدی از متن فارسی با روش های آماری

استخراج کلمات کلیدی

بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی مجموعه‌ای از لغات مهم در یک ...

ادامه مطلب

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال ۱۳۹۲ به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا ...

ادامه مطلب

استخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram

استخراج عبارات کلیدی

فرایند استخراج عبارات کلیدی منجر به کشف مجموعه‌ای از عبارات (KeyPhrase) مهم در یک سند میشود که توصیفی از محتوای سند را فراهم می‌آورد و برای اهداف مختلفی مورداستفاده قرار می‌گیرد. عبارات کلیدی، اطلاعات نحوی مفیدی را برای بسیاری از کارهای پردازش متن فراهم می‌کند، مثلاً در خوشه‌بندی متن، طبقه‌بندی ...

ادامه مطلب

یکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های متنی شامل تحلیل‌های صرفی و نحوی ...

ادامه مطلب

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا یکی از پروژه‌های متن باز Apache است که کلاسی برای شناسایی زبان متون دارد. Tika برای استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعیین زبان (که در مبحث تشخیص ...

ادامه مطلب

روش محاسبه تعداد کلمات کلیدی (key word) در اسناد متنی

محاسبه تعداد کلمات کلیدی

محاسبه تعداد کلمات کلیدی در اسناد متنی بر حسب تعداد کل کلمات هر سند در مطالب قبل به برخی از تکنیک های پردازش متن اشاره کردیم . در این مبحث به روش محاسبه تعداد کلمات کلیدی در اسناد متنی میپردازیم. کلمات کلیدی مجموعه ای از لغات مهم در یک متن ...

ادامه مطلب

تعریف پیکره واژگان یا WordNet چیست؟

پیکره واژگان یا WordNet

پیکره واژگان یا WordNet یک مجموعه ی نسبتا بزرگ از لغات و ارتباط آن ها در ساختار متون است. وردنت در حقیقت رابطه معنایی بین دو کلمه را بیان میکند. به عنوان مثال کبوتر از نوع پرنده است و پرنده یک نوع حیوان است و حیوان یک نوع جاندار است. ...

ادامه مطلب

خلاصه ­سازی متن یا summarization در حوزه متن کاوی

خلاصه ­سازی متن یا summarization

خلاصه ­سازی متن یا summarization، فشرده ­سازی متن به حالت کوتاه­تر از متن اصلی است، به طوری که محتوای اطلاعاتی متن و به طور کلی مفاهیم کلی متن حفظ شود. به توجه به اینکه اسناد زیادی در اینترنت موجود است که بیشتر آنها محتوی اطلاعات غیر ضروری می­باشد، اهمیت خلاصه­ ...

ادامه مطلب

تشخیص موجودیت های اسمی یا نامدار (NER)

دیتاست اسامی فارسی

فراییند تشخیص موجودیت های اسمی (NER) برای تشخیص اسامی و نوع آنها به کار می ­رود. تشخیص موجودیت­ های اسمی فرآیندی است که هدف از آن تشخیص و شناسایی کلمات یا عباراتی است که نمایانگر یک موجودیت می­باشند. برای تشخیص موجودیت­ های اسمی از قبیل نام­ افراد، سازمان­ها، مکان­ها و ...

ادامه مطلب

نقش برچسب گذار (POS tagger) در پردازش متن

برچسب گذار (POS tagger)

یکی از بخش­ های کلیدی در پردازش متن تعیین نقش کلمه در جمله است. در واقع با ابزار برچسب گذار (POS tagger) نقش کلمه از نظر فعل، فاعل، نوع اسم و غیره مشخص می­شود. برچسب­گذاری در پردازش زبان بعد از بخش­ های واحدساز و ریشه­ یاب و حذف پسوندهای خاص ...

ادامه مطلب

نقش ریشه­ یاب (Stemmer) در تحلیل متن

ریشه­ یاب (Stemmer)

در این مبحث مولفه ریشه­ یاب (Stemmer) در فرایند پردازش متن تشریح می‌گردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، ...

ادامه مطلب

نقش واحدساز (Tokenizer) در پردازش متن

قطعه بندی متون

واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم.  واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند و آن را برای تحلیل ...

ادامه مطلب

روش‏ های تشخیص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد مواجه شویم. در بیشتر موارد مخصوصا ...

ادامه مطلب