صفحه نخست --> متن کاوی --> روش محاسبه تعداد کلمات کلیدی (key word) در اسناد متنی

روش محاسبه تعداد کلمات کلیدی (key word) در اسناد متنی

محاسبه تعداد کلمات کلیدی در اسناد متنی بر حسب تعداد کل کلمات هر سند

در مطالب قبل به برخی از تکنیک های پردازش متن اشاره کردیم . در این مبحث به روش محاسبه تعداد کلمات کلیدی در اسناد متنی میپردازیم. کلمات کلیدی مجموعه ای از لغات مهم در یک متن هستند که توصیفی از محتوای مستند را فراهم می آورند و برای اهداف مختلفی قابل استفاده هستند. یکی از مهم ترین پیش نیازهایی که در فرآیند خوشه بندی ، طبقه بندی و استخراج اطلاعات ، مورد نیاز است، استخراج کلمات کلیدی از متن می باشد. بدیهی است که تعداد کلمات کلیدی، نباید به صورت مستقیم با زیاد شدن تعداد کلمات در متن، افزایش یابد. به عنوان مثال اگر میزان متن ۲۰ برابر شود نباید تعداد کلمات کلیدی آن ۲۰ برابر شود. یا به عبارتی دیگر  هر رابطه مستقیمی با افزایش حجم مجاز نیست. تعداد مناسبِ عبارات کلیدی برای هر متن یک ارتباط لگاریتمی با تعداد کلمات کلیدی آن متن دارد.  روش محاسبه تعداد کلمات کلیدی از رابطه ریاضی زیر برای هر سند متنی استخراج  می­گردد:

که در این رابطه WN تعداد کل کلمات موجود در متن است. نمومه کد زیر با زبان برنامه نویسی جاوا برای محاسبه تعداد کلمات کلیدی (key word) در اسناد متنی نوشته شده است:

double numberOfKeyWords = 2.21 * Math.log(normalizedText.split(” “).length) – 3.43;

 

نمودار تعداد کلمات کلیدی اسناد بر حسب تعداد کل کلمات هر سند

آدرس کانال تلگرام ما:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *