خلاصه ­سازی متن یا summarization در حوزه متن کاوی

خلاصه ­سازی متن یا summarization، فشرده ­سازی متن به حالت کوتاه­تر از متن اصلی است، به طوری که محتوای اطلاعاتی متن و به طور کلی مفاهیم کلی متن حفظ شود. به توجه به اینکه اسناد زیادی در اینترنت موجود است که بیشتر آنها محتوی اطلاعات غیر ضروری می­باشد، اهمیت خلاصه­ سازی متون به منظور کاهش زمان مطالعه محسوس­تر می­شود. یک خلاصه­ ساز خوب باید، موضوعات متنوع موجود در سند را منعکس نماید در حالی که افزونگی را به کمترین حد ممکن برساند. از پیش نیاز های این فرایند گاهی میتوان به تشخیص موجودیت های اسمی و استخراج کلمات یا عبارات کلیدی اشاره کرد.

 خلاصه ­سازی متن(summarization)
فرایند خلاصه ­سازی متن یا summarization

روش­ های خلاصه ­سازی متن:

روش­ های خلاصه ­سازی متن یا summarization به دودسته اصلی تقسیم می­شوند:  روش­های انتزاعی [1] و روش­های استخراجی[2].

  • روش­های انتزاعی: در این روش ­ها، مفاهیم اصلی متن فهمیده شده و سپس، مفاهیم به زبان طبیعی و در قالب کلمات دوباره بازگو می­شود.
  • روش­های استخراجی: این روش ­ها، شامل انتخاب جملات،‌ پاراگراف­ها و … مهم از متن اصلی و سپس الحاق آنها به متن خلاصه­ شده می­باشد. اهمیت جملات مبتنی بر ویژگی­ های زبانی و آماری جملات تصمیم گرفته می­شود.

هر کدام از دو دسته ذکر شده در بالا دارای مشکلاتی می­باشد که در زیر به تعدادی از آنها اشاره خواهیم نمود:

  • مشکلات روش­های انتزاعی: بزرگترین چالش برای این روش­ها، مساله نمایش دوباره مفاهیم اصلی متن در قالب کلمات و جملات می­باشد. رسیدن به راه­حلی برای مساله، نیازمند تحلیل معنایی وسیع متون می­باشد. بنابراین، سیستم خلاصه­ساز متن باید کلیه قابلیت­های مرتبط با زبان­ طبیعی را داشته باشد.
  • مشکلات روش­ های استخراجی: امکان دارد که جملات استخراج شده طولانی­تر از متوسط طول جملات باشند و این باعث افزایش فضای مصرفی می­شود. ممکن است که تناقض بین موضوعات به خوبی نشان داده نشود. همچنین ممکن است که بعد از خلاصه­سازی، با حذف تعدادی از جملات بین ضمایر و اسم­های مرجع آن ها تداخلاتی پیش آید.

با توجه به مشکلات ذکر شده در بالا، روش­های استخراجی دارای پیچیدگی کمتری نسبت به روش ­های انتزاعی می­باشد. بنابراین، در ادامه به بررسی روش­ های استخراجی خواهیم پرداخت و دسته ­بندی از این روش ­ها ارائه خواهیم نمود.

روش­های استخراجی در دو مرحله انجام می­شوند: گام پیش­پردازش و گام پردازش.

گام پیش­ پردازش،‌ نمایش ساخت­ یافته از متون اصلی است. این گام شامل مراحل زیر می ­باشد:

  1. شناسایی مرز جملات
  2. حذف Stop-Word ها از متن
  3. Stemming

در گام پردازش،‌ ویژگی­ های تاثیرگذار برای تعیین ارتباط بین جملات شناسایی شده و سپس به این ویژگی­ ها وزن داده می­شود. امتیاز پایانی هر جمله محاسبه شده و در پایان جملات با امتیاز بالا برای متن خلاصه شده انتخاب می­شوند.

خروجی فرایند خلاصه ­سازی متن یا summarization:

خروجی این فرایند یک متن خلاصه شده از متن اصلی می­ باشد که بیان کننده مفاهیم و موضوعات موجود در متن می ­باشد.

خلاصه ­سازی متن یا summarization
یک روش برای خلاصه ­سازی متن یا summarization

 

تعدادی از روش­ های تعیین وزن جملات

  • روش Cue: این روش مبتنی بر این فرض می­باشد که وزن یک جمله با حضور و یا عدم حضور کلمات خاص در یک لغتنامه تعریف شده محاسبه می­شود.
  • روش عنوان: وزن جملات،‌ به عنوان مجموع همه کلمات متن ظاهر شده در عنوان و زیر تیترهای یک متن محاسبه می­شود.
  • روش مکان: این روش مبتنی بر این فرض می­باشد که جملات ابتدای متن و پاراگراف­ها، ‌احتمال بالاتری برای ارتباط با بقیه دارند.
  • ویژگی Cut-O طول جمله: جملات با طول کمتر از تعداد مشخصی کلمات دارای وزن کمتری می­باشند.
  • ویژگی عبارت – ثابت: جملات دارای کلمات و عبارات خاص دارای وزن بالاتری می­باشند.
  • ویژگی پاراگراف: این روش مشابه با روش مکان می­باشد.
  • ویژگی کلمه موضوعی: کلمات با تکرار بالا به عنوان کلمات ریشه­ای و موضوعی شناخته می­شوند.
  • ویژگی کلمه با حروف بزرگ: کلمات با حروف بزرگ به عنوان کلمات موضوعی شناخته می­شوند.

  روش­ های استخراجی خلاصه ­سازی متن یا summarization:

 خلاصه ­سازی متن(summarization)
دسته بندی روش های خلاصه ­سازی متن یا summarization
  1. فرکانس ترم – معکوس فرکانس سند (TF-IDF)
  2. روش مبتنی بر خوشه
  3. روش مبتنی بر گراف
  4. روش یادگیری ماشین
  5. روش LSA
  6. خلاصه­ سازی با استخراج مفهوم
  7. خلاصه­ سازی با شبکه­ های عصبی
  8. خلاصه­ سازی متون مبتنی بر منطق فازی
  9. خلاصه­ سازی متن با استفاده از رگرسیون برای تخمین وزن ویژگی­ها
  10. خلاصه ­سازی استخراجی چندین سند
  11. خلاصه ­سازی متن مبتنی بر پرس­وجو
  12. خلاصه ­سازی متن استخراجی چند زبانه

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

[1] Abstraction

[2] Extraction

بازدیدها: 8997

همچنین ببینید

اسامی مکان

مجموعه داده اسامی مکان برای تشخیص موجودیت های مکانی در پردازش زبان طبیعی

عناوين مطالب: 'مقدمه ای بر اسامی مکان:کاربردهای (Named-entity recognition) NERروشهای تشخیص اسم مکاندانلود دیتاست اسامی …

مجموعه داده اخبار

دانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)

به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار …

دیدگاهتان را بنویسید