صفحه نخست --> متن کاوی و تحلیل متن --> استخراج کلمات کلیدی از متن فارسی با روش های آماری

استخراج کلمات کلیدی از متن فارسی با روش های آماری

بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی مجموعه‌ای از لغات مهم در یک سند هستند که توصیفی از محتوای سند را فراهم می‌آورند و برای اهداف مختلفی مورداستفاده قرار می‌گیرند. کلمات کلیدی اطلاعات نحوی مفیدی را برای بسیاری از کارهای پردازش متن فراهم می‌کند، به عبارتی استخراج کلمات کلیدی، فرآیند شناسایی خودکار اصطلاحات به کار رفته در یک سند است.

 

استخراج کلمات کلیدی
مراحل الی در استخراج کلمات کلیدی

 

با یافتن کلمات کلیدی می‌توان راحت‌تر و در زمانی کوتاه‌تر به مفهوم یک متن، خبر یا مقاله پی برد. یکی از عملیات­های مهم در فرآیندهای خوشه ­بندی، طبقه­ بندی، استخراج اطلاعات­ و مشخص کردن موضوع مورد بحث در یک سند، تشخیص کلمات کلیدی متن است. استخراج کلمات کلیدی به معنای انتخاب تعدادی کلمه (عبارت) از متن است به‌گونه‌ای که بتواند معنای متن را توصیف کند و هدف از متن را نمایش دهد. برای انتخاب کلمات کاندید به عنوان کلمات کلیدی، بایستی تمام کلمات، عبارات، اصطلاحات و مفاهیمی که می­توانند به طور بالقوه کلمات کلیدی باشند را استخراج می­کنیم. سپس با استفاده از تکنیک‌های پردازش متن و یادگیری ماشین، خواص هر کاندید محاسبه و یک نمره یا آستانه احتمالی به آن اختصاص می­یابد. سپس تمام کاندیداها را می­توان به وسیله ترکیب خواص، برای انتخاب مجموعه نهایی کلمات کلیدی یک سند ارزیابی کرد. به عنوان مثال، یک عبارت کاندید در عنوان یک کتاب، به احتمال بسیار زیاد یک کلمه کلیدی است.

استخراج کلمات کلیدی
کشف ارتباطات یکی از کاربرد های مهم استخراج کلمات کلیدی

 

 

استخراج کلمات کلیدی معمولا به کمک الگوریتم‌های متنوع و با استفاده از ویژگی‌های آماری اسناد، کلمات و عبارات کلیدی متون انجام میشود. و این پروسه معمولاً در سه مرحله انجام می‌گیرد. ابتدا مجموعه‌ای از کلمات و عبارات به‌عنوان کاندید انتخاب می‌شوند و سپس برای هر کاندید ویژگی‌هایی که باعث می‌شوند آن کلمه یا عبارت به‌عنوان کلمات کلیدی در نظر گرفته شود محاسبه می‌شوند. مثلاً کلمه کاندیدی که در عنوان نیز وجود دارد احتمالاً کلمه کلیدی است و یا ویژگی‌های دیگری نظیر طول و تعداد رخداد کلمات کلیدی در متن، محل حضور کلمه کلیدی در متن، میزان شباهت با دیگر کاندیدها…محاسبه می‌شوند. در مرحله‌ی آخر نیز تمامی کاندیدها با ترکیب کردن ویژگی‌ها در یک فرمول و یا با استفاده از فن‌های یادگیری ماشین امتیازبندی شده و کلمات و عبارات با بیشترین امتیاز به‌عنوان کلمات کلیدی انتخاب می‌شوند.

به طور کلی سه روش متداول برای استخراج کلمات کلیدی وجود دارد:

  • روش TF-IDF
  • روش­ مبتنی بر یادگیری ماشین

که در ادامه به دو روش آماری پرکاربرد میپردازیم

روش TF

روش Term Frecuancy یک روش ابتدایی و خیلی پر کاربرد برای استخراج کلمات کلیدی ازمتن است. که در شکل زیر مراحل آن مشخص است.

  1. ایجاد وکتوری از واژگان درون سند یا متن
  2. دادن امتیاز به هر واژه بر اساس تکرار آن کلیمه
  3. مرتب کردن امتیاز های بصورت نزولی
  4. انتخاب تعداد کلمات کلیدی با امتیاز بیشتر (برای تصمیم گرفتن در مورد تعداد کلمات منتخب روش محاسبه تعداد کلمات کلیدی (key word) در اسناد متنی   را مطالعه کنید)
استخراج کلمات کلیدی
استخراج کلمات کلیدی بر اساس روش TF

کد جاوا مربوط به روش TF در ادامه آورده شده است.

/**
 * @param doc  list of strings
 * @param term String represents a term
 * @return term frequency of term in document
 */
private double tf(List<String> doc, String term) {
    double result = 0;
    for (String word : doc) {
        if (term.equalsIgnoreCase(word))
            result++;
    }
    return result / doc.size();
}

 

روش TF-IDF :

روش TF/IDF یک شاخص اندازه گیری در حوزه پردازش زبان وگفتار می‌باشد. هدف این شاخص تعیین میزان اهمیت یک لغت در متن است که این امر را با اعطای امتیاز کمتر به لغات کمتر تکرار و امتیاز بیشتر به لغات پر تکرار انجام می‌دهد. این روش تطابق نیازمند آن است که میزان تکرار تمامی ویژگی‌هایی که برای ما اهمیت دارند را استخراج نماییم. برای مثال در زمان وارد کردن یک آدرس احتمال آن وجود دارد که به جای کلمه کوچه، کوی ثبت شود. از این رو معیار تطابق کلماتی را که کمتر اهمیت دارند نظیر کوچه، کوی و خیابان را نادیده گرفته و به کلمات پر اهمیت تر متن توجه می‌کند.

روش TF-IDF : در این روش میزان تکرار یک کلمه در یک مستند را در مقابل تعداد تکرا آن در مجموعه کلیه مستندات در نظر می گیریم.

در روش TF-IDF وزن دهی کلمات تابعی از توزیع کلمات مختلف در مستندات است.

برای پیاده سازی این روش ابتدا یک مجموعه اسناد (برای مثال مجموعه اسناد همشهری) را در نظر می گیریم. به ازای تمام کلماتی که در پیکره وجود دارد ، بررسی می کنیم که هر کلمه در چه تعداد از سندها تکرار شده است و آن را ذخیره می کنیم .

سپس یک سند به عنوان ورودی دریافت می شود. هدف یافتن کلمات کلیدیِ سند دریافت شده است.
برای این منظور ابتدا بررسی می کنیم که هر یک از کلمات سند ورودی ، چند بار در همان سند استفاده شده است.
سپس به ازای تمام کلمات سند ورودی بررسی می کنیم که هر کلمه در چه تعداد از اسناد پیکره اصلی (برای مثال همشهری) وجود دارد.

بعد از طی کردن این مراحل به حساب کردن وزن کلمات می پردازیم :

تعیین وزن کلمات با استفاده از دو معیار term frequency و inverse document frequency انجام می شود که به شرح زیر محاسبه خواهند شد :

الگوریتم TF
الگوریتم TF
تصویر تی اف

که در آن :

f(t,d)f(t,d)

تعداد تکرار کلمه t در سند d (سند هدف) است و

max{f(w,d)}maxf(w,d)

تعداد پر تکرارترین کلمه در سند d می باشد

و

الگوریتم TFIDF
الگوریتم TFIDF

که در آن N تعداد کل اسناد موجود در پیکره است و

تصویر مخرج

بیانگر تعداد اسنادی است که کلمه t در آنها وجود دارد.

در نهایت وزن هر کلمه به صورت زیر محاسبه خواهد می شود :

آدرس کانال تلگرام ما:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *