روش محاسبه تعداد کلمات کلیدی (key word) در اسناد متنی

محاسبه تعداد کلمات کلیدی در اسناد متنی بر حسب تعداد کل کلمات هر سند محاسبه تعداد کلمات کلیدی

در مطالب قبل به برخی از تکنیک های پردازش متن اشاره کردیم . در این مبحث به روش انتخاب تعداد کلمات کلیدی در اسناد متنی میپردازیم. کلمات کلیدی مجموعه ای از لغات مهم در یک متن هستند که توصیفی از محتوای مستند را فراهم می آورند و برای اهداف مختلفی قابل استفاده هستند. یکی از مهم ترین پیش نیازهایی که در فرآیند خوشه بندی ، طبقه بندی و استخراج اطلاعات ، مورد نیاز است، استخراج کلمات کلیدی از متن می باشد. بدیهی است که تعداد کلمات کلیدی، نباید به صورت مستقیم با زیاد شدن تعداد کلمات در متن، افزایش یابد. به عنوان مثال اگر میزان متن 20 برابر شود نباید تعداد کلمات کلیدی آن 20 برابر شود. یا به عبارتی دیگر  هر رابطه مستقیمی با افزایش حجم مجاز نیست. تعداد مناسبِ عبارات کلیدی برای هر متن یک ارتباط لگاریتمی با تعداد کلمات کلیدی آن متن دارد.  روش محاسبه تعداد کلمات کلیدی از رابطه ریاضی زیر برای هر سند متنی استخراج  می­گردد:

که در این رابطه WN تعداد کل کلمات موجود در متن است. نمومه کد زیر با زبان برنامه نویسی جاوا برای احتساب تعداد کلمات کلیدی (key word) در اسناد متنی نوشته شده است:

double numberOfKeyWords = 2.21 * Math.log(normalizedText.split(” “).length) – 3.43;

 

نمودار تعداد کلمات کلیدی اسناد بر حسب تعداد کل کلمات هر سند

محاسبه تعداد کلمات کلیدی
نمودار تعداد کلمات کلیدی

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

 

بازدیدها: 1638

همچنین ببینید

آموزش خلاصه اسپرینگ

آموزش فارسی اسپرینگ بوت (Spring Boot) به صورت کاربردی

در این مبحث قصد دارم به صورت خلاصه به آموزش کاربردی اسپرینگ بوت بپردازم. برای …

اتصال به cassandra با جاوا

نحوه اتصال به کاساندرا با جاوا (قسمت دوم برنامه نمونه)

در قسمت اول با درایور یا راه اندازهای کاساندرا نسخه 3 برای اتصال به جاوا …

دیدگاهتان را بنویسید