خلاصه سازی متن یا summarization در حوزه متن کاوی
خلاصه سازی متن یا summarization، فشرده سازی متن به حالت کوتاهتر از متن اصلی است، به طوری که محتوای اطلاعاتی متن و به طور کلی مفاهیم کلی متن حفظ شود. به توجه به اینکه اسناد زیادی در اینترنت موجود است که بیشتر آنها محتوی اطلاعات غیر ضروری میباشد، اهمیت خلاصه سازی متون به منظور کاهش زمان مطالعه محسوستر میشود. یک خلاصه ساز خوب باید، موضوعات متنوع موجود در سند را منعکس نماید در حالی که افزونگی را به کمترین حد ممکن برساند. از پیش نیاز های این فرایند گاهی میتوان به تشخیص موجودیت های اسمی و استخراج کلمات یا عبارات کلیدی اشاره کرد.
عناوين مطالب: '
روش های خلاصه سازی متن:
روش های خلاصه سازی متن یا summarization به دودسته اصلی تقسیم میشوند: روشهای انتزاعی [1] و روشهای استخراجی[2].
- روشهای انتزاعی: در این روش ها، مفاهیم اصلی متن فهمیده شده و سپس، مفاهیم به زبان طبیعی و در قالب کلمات دوباره بازگو میشود.
- روشهای استخراجی: این روش ها، شامل انتخاب جملات، پاراگرافها و … مهم از متن اصلی و سپس الحاق آنها به متن خلاصه شده میباشد. اهمیت جملات مبتنی بر ویژگی های زبانی و آماری جملات تصمیم گرفته میشود.
هر کدام از دو دسته ذکر شده در بالا دارای مشکلاتی میباشد که در زیر به تعدادی از آنها اشاره خواهیم نمود:
- مشکلات روشهای انتزاعی: بزرگترین چالش برای این روشها، مساله نمایش دوباره مفاهیم اصلی متن در قالب کلمات و جملات میباشد. رسیدن به راهحلی برای مساله، نیازمند تحلیل معنایی وسیع متون میباشد. بنابراین، سیستم خلاصهساز متن باید کلیه قابلیتهای مرتبط با زبان طبیعی را داشته باشد.
- مشکلات روش های استخراجی: امکان دارد که جملات استخراج شده طولانیتر از متوسط طول جملات باشند و این باعث افزایش فضای مصرفی میشود. ممکن است که تناقض بین موضوعات به خوبی نشان داده نشود. همچنین ممکن است که بعد از خلاصهسازی، با حذف تعدادی از جملات بین ضمایر و اسمهای مرجع آن ها تداخلاتی پیش آید.
با توجه به مشکلات ذکر شده در بالا، روشهای استخراجی دارای پیچیدگی کمتری نسبت به روش های انتزاعی میباشد. بنابراین، در ادامه به بررسی روش های استخراجی خواهیم پرداخت و دسته بندی از این روش ها ارائه خواهیم نمود.
روشهای استخراجی در دو مرحله انجام میشوند: گام پیشپردازش و گام پردازش.
گام پیش پردازش، نمایش ساخت یافته از متون اصلی است. این گام شامل مراحل زیر می باشد:
- شناسایی مرز جملات
- حذف Stop-Word ها از متن
- Stemming
در گام پردازش، ویژگی های تاثیرگذار برای تعیین ارتباط بین جملات شناسایی شده و سپس به این ویژگی ها وزن داده میشود. امتیاز پایانی هر جمله محاسبه شده و در پایان جملات با امتیاز بالا برای متن خلاصه شده انتخاب میشوند.
خروجی فرایند خلاصه سازی متن یا summarization:
خروجی این فرایند یک متن خلاصه شده از متن اصلی می باشد که بیان کننده مفاهیم و موضوعات موجود در متن می باشد.
تعدادی از روش های تعیین وزن جملات
- روش Cue: این روش مبتنی بر این فرض میباشد که وزن یک جمله با حضور و یا عدم حضور کلمات خاص در یک لغتنامه تعریف شده محاسبه میشود.
- روش عنوان: وزن جملات، به عنوان مجموع همه کلمات متن ظاهر شده در عنوان و زیر تیترهای یک متن محاسبه میشود.
- روش مکان: این روش مبتنی بر این فرض میباشد که جملات ابتدای متن و پاراگرافها، احتمال بالاتری برای ارتباط با بقیه دارند.
- ویژگی Cut-O طول جمله: جملات با طول کمتر از تعداد مشخصی کلمات دارای وزن کمتری میباشند.
- ویژگی عبارت – ثابت: جملات دارای کلمات و عبارات خاص دارای وزن بالاتری میباشند.
- ویژگی پاراگراف: این روش مشابه با روش مکان میباشد.
- ویژگی کلمه موضوعی: کلمات با تکرار بالا به عنوان کلمات ریشهای و موضوعی شناخته میشوند.
- ویژگی کلمه با حروف بزرگ: کلمات با حروف بزرگ به عنوان کلمات موضوعی شناخته میشوند.
روش های استخراجی خلاصه سازی متن یا summarization:
- فرکانس ترم – معکوس فرکانس سند (TF-IDF)
- روش مبتنی بر خوشه
- روش مبتنی بر گراف
- روش یادگیری ماشین
- روش LSA
- خلاصه سازی با استخراج مفهوم
- خلاصه سازی با شبکه های عصبی
- خلاصه سازی متون مبتنی بر منطق فازی
- خلاصه سازی متن با استفاده از رگرسیون برای تخمین وزن ویژگیها
- خلاصه سازی استخراجی چندین سند
- خلاصه سازی متن مبتنی بر پرسوجو
- خلاصه سازی متن استخراجی چند زبانه
آدرس کانال تلگرام سایت بیگ دیتا:
آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel
جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.
[1] Abstraction
[2] Extraction
بازدیدها: 8997
برچسبsummarization text summarization پردازش متن خلاصه ساز متن خلاصه ساز متن(summarization) خلاصه سازی summarization خلاصه سازی متن خلاصه سازی متن یا summarization متن کاوی
همچنین ببینید
مجموعه داده اسامی مکان برای تشخیص موجودیت های مکانی در پردازش زبان طبیعی
عناوين مطالب: 'مقدمه ای بر اسامی مکان:کاربردهای (Named-entity recognition) NERروشهای تشخیص اسم مکاندانلود دیتاست اسامی …
دانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)
به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار …