خانه > متن کاوی و تحلیل متن > مراحل متن کاوی و پردازش متن به زبان خلاصه

مراحل متن کاوی و پردازش متن به زبان خلاصه

مقدمه ای بر مراحل متن کاوی

امروزه بخش وسیعی از دانش به‌صورت متن، مستندات و دیگر صورت‌های رسانه‌ای نگهداری می‌شوند که همه آن‌ها به‌صورت غیر ساختاریافته هستند. یکی از کاربردهای داده‌کاوی، متن‌کاوی است. ﺑـﺮای درﻳﺎﻓﺖ داﻧﺶ از اﻃﻼﻋﺎت ﻳﻚ ﻣﺘﻦ، ﻻزم اﺳﺖ اﺑﺘﺪا آن را درک ﻛـﺮد، ﺳـﭙﺲ ﭘـﺮدازش ﻛﺮد ﺗﺎ ﻓﻬﻤﻴﺪ ﭼﻪ ﻣﻌﺎﻧﻲ و ﻣﻔﺎﻫﻴﻤﻲ در آن ﻣﻮﺟﻮد اﺳﺖ؛ ﭼﻪ ارﺗﺒﺎﻃﻲ ﻣﻴﺎن ﻣﻔﺎﻫﻴﻢ وﺟﻮد دارد و از ﻣﻴﺎن اﻳﻦ ﻣﻔﺎﻫﻴﻢ ﻛﺪام ﺟﺪﻳﺪ و ﻛﺪام ﻗﺪﻳﻤﻲ اﺳﺖ؛ ازاین‌رو در ﻋﺼﺮ ﻓﻨـﺎوری، ﻫﺮ ﭼﻴﺰی ﺑﺎﻳﺪ ﺑﺘﻮاﻧﺪ به‌صورت ﺧﻮدﻛﺎر، اﻧﺠﺎم ﺷﻮد. “درک ﻣﻌﻨﻲ ﻣﺘﻮن ” ﻧﻴﺰ از اﻳﻦ ﺟﻤﻠﻪ ﻛﺎرﻫﺎ ﻣﺤﺴﻮب می‌شود. متن‌کاوی، ﻛـﺎوش داده‌های ﻣﺘﻨـﻲ (ﮔﺮوﻮر و ﻫﻤﻜـﺎران، 2004) و ﻳﺎ ﻛﺸﻒ داﻧﺶ در ﻣﺘﻦ[1]، از نام‌های موردقبول در این زﻣﻴﻨﻪ ﻫﺴﺘﻨﺪ. (بهزاد لک، جلال رضایی پور 1392)

مفهوم متن‌کاوی که به دریافت تمام اطلاعات موردنیاز از داده‌های متنی اشاره می‌کند، تقریباً عمری برابر با خود بازیابی اطلاعات دارد. به‌هرحال، متن‌کاوی دارای ویژگی‌های منحصربه‌فرد و اساسی است که باعث شده بین آن و بازیابی اطلاعات تمیز قائل شوند. متن‌کاوی در به دست آوردن اطلاعات مفیدی از داده‌های متنی که ذاتاً ساختار نیافته، غیر متشکل و نامنظم هستند، کمک می‌کند.

متن‌کاوی و یا کشف دانش از متن (Karanikas، 2002)، اشاره به فرآیندی می‌کند که باعث به دست آوردن الگوهای غیر بدیهی، جالب و باکیفیت بالا و همچنین اطلاعات و دانش از اسناد متنی ساختار نیافته می‌شود. متن‌کاوی که به‌عنوان کشف دانش از متن نیز شناخته می‌شود با داده‌کاوی تفاوت دارد، به این معنا که متن‌کاوی به جستجو در میان داده‌های متنی برای استخراج کردن اطلاعات مفید می‌پردازد که معمولاً طبیعتی ساختار نیافته دارند، درحالی‌که داده‌کاوی سعی در کشف دانش از پایگاه داده‌های ساختاریافته دارد. (Alwidian 2015)، دربیانی بسیار ساده، متن‌کاوی روند کشف و استخراج الگوهای معنادار و روابط از مجموعه متن است (حمیدرضا احمدیان 1395).

 

مراحل متن کاوی
نمایی از تخصص های مرتبط با متن کاوی

پردازش زبان طبیعی تلاش می‌کند همان‌طوری که مفاهیم زبان طبیعی به‌وسیله‌ی انسان تجزیه‌وتحلیل می‌شود، برای کامپیوتر هم قابل‌فهم باشد (Charu C. 2011) تحقیقات حوزه پردازش زبان‌های طبیعی به دنبال پاسخ برای سؤال‌های زیر است:

ماشین چگونه معنای یک جمله یا یک سند را درک می‌کنیم؟ برای این‌که بفهمیم چه کسی چه‌کاری را انجام داده و یا زمانی را که چیزی اتفاق افتاده است، یا چه چیزی واقعیت دارد و چه فرض یا پیش‌بینی‌ای کرده از چه معیارهایی استفاده می‌کنیم؟ چه کلماتی از اسم، فعل، قید و صفت‌ تشکیل‌دهنده بلوک‌های معنایی هستند؟ همبستگی مفهومی این کلمات در ساختار جمله و در متن نسبت به یکدیگر چگونه است؟ و این‌که آیا در نزدیک شدن به معنای واقعی یک متن کمک خواهد کرد؟

اﻳﻦ ﺣﻮزه، ﺗﻤﺎم فعالیت‌هایی ﻛﻪ به‌نوعی ﺑﻪ دﻧﺒﺎل ﻛﺴﺐ داﻧﺶ از ﻣﺘﻦ ﻫﺴﺘﻨﺪ را ﺷﺎﻣﻞ می‌شود. تحلیل داده‌های ﻣﺘﻨﻲ ﺗﻮﺳﻂ ﻓﻨﻮن ﻳﺎدﮔﻴﺮی ﻣﺎﺷﻴﻦ، ﺑﺎزﻳﺎﺑﻲ اﻃﻼﻋـﺎت ﻫﻮﺷـﻤﻨﺪ، ﭘﺮدازش زﺑﺎن ﻃﺒﻴﻌﻲ ﻳﺎ روش‌های ﻣﺮﺗﺒﻂ دﻳﮕﺮ، ﻫﻤﮕﻲ در زﻣﺮه ﻣﻘﻮﻟﻪ ﻳﺎدﮔﻴﺮی ﻣﺘﻦ ﻗـﺮار ﻣﻲ‌ﮔﻴﺮﻧﺪ. ﻳﻜﻲ از روش‌هایی ﻛﻪ ذﻛﺮ ﺷﺪ، اﺳﺘﻔﺎده از ﻓﻨـﻮن ﻳـﺎدﮔﻴﺮی ﻣﺎﺷـﻴﻦ درزمینه ﭘﺮدازش ﻣﺘﻦ اﺳﺖ. ﻣﺴﺌﻠﻪ قابل‌تأمل اﻳـﻦ اﺳـﺖ ﻛـﻪ اﻳـﻦ روش‌ها، در اﺑﺘـﺪا در ﻣـﻮرد داده‌های ﺳﺎﺧﺘﺎر‌ﻳﺎﻓﺘﻪ ﺑﻪ ﻛﺎر ﮔﺮﻓﺘﻪ ﺷﺪﻧﺪ و ﻋﻠﻤﻲ ﺑﻪ ﻧﺎم داده‌کاوی را به وجود آوردﻧـﺪ. داده‌های ساختاریافته ﺑﻪ داده‌هایی گفته می‌شود ﻛﻪ به‌طور ﻛـﺎﻣﻼً ﻣﺴـﺘﻘﻞ از ﻫﻤـﺪﻳﮕﺮ وﻟﻲ ﻳﻜﺴﺎن ازلحاظ ﺳﺎﺧﺘﺎری در ﻳـﻚ ﻣﺤـﻞ گردآوری‌شده‌اند.

اﻧـﻮاع ﺑﺎﻧـک‌هـﺎی اﻃﻼﻋﺎﺗﻲ را می‌توان به‌عنوان نمونه‌هایی از اﻳﻦ دﺳﺘﻪ اﻃﻼﻋﺎت ﻧﺎم ﺑﺮد. در این صورت‌مسئله داده‌کاوی ﻋﺒﺎرت است از ﻛﺴﺐ اﻃﻼﻋﺎت و داﻧﺶ از اﻳﻦ ﻣﺠﻤﻮﻋﻪ ساخت‌یافته؛ اﻣـﺎ در ﻣﻮرد ﻣﺘﻮن ﻛﻪ ﻋﻤﺪﺗﺎً غیر ساختاریافته ﻳﺎ ﻧﻴﻤﻪ ساخت‌یافته ﻫﺴـﺘﻨﺪ؛ اﺑﺘـﺪا ﺑﺎﻳـﺪ ﺗﻮﺳـﻂ روش‌هایی، آن‌ها را ﺳﺎﺧﺘﺎرﻣﻨﺪ ﻛﺮد و سپس از اﻳﻦ روش‌ها ﺑﺮای اﺳـﺘﺨﺮاج اﻃﻼﻋـﺎت و داﻧﺶ از آن‌ها اﺳﺘﻔﺎده ﻛﺮد. (بهمن حاتمی ناغانی، مسعود عابسی 1395). در ادامه به مراحل متن کاوی می پردازیم.

گام‌های و مراحل متن کاوی

در پژوهش‌های انجام‌شده، برای متن‌کاوی گام هایی ذکرشده که در زیر به عناوین مراحل متن کاوی اشاره‌شده است (Chiwara 2006). و در ادامه به توضیح هر گام می پردازیم.

  1. انتخاب متن
  2. پردازش متن
  3. تبدیل متن به صفات خاصه
  4. انتخاب صفات خاصه از متن
  5. داده‌کاوی بر روی متن (کشف دانش از متن)
  6. تفسیر و ارزیابی خروجی متن کاوی
مراحل متن کاوی
مراحل متن کاوی

انتخاب متن

 در این قدم مجموعه اسنادی که قصد کاوش در بین آن‌ها وجود دارد، به‌صورت متن موجود هستند. در این گام از مراحل متن کاوی باید اسناد متنی یا داده های متنی که ارزش تحلیل را دارند. گرد آوری شود.

پردازش متن

 در این قدم فرآیندهایی همچون فرمت، ساخت توکن، پاک‌سازی متن انجام می‌شود. در طی فرآیند جمع‌آوری متون، ممکن است که آن‌ها به‌خوبی سازمان‌یافته نباشند در این صورت به‌عنوان اطلاعات ازدست‌رفته یا یکپارچگی متون غیرعقلانی تفسیر می‌شوند. اگر متون، به‌درستی بررسی نشوند آنگاه متن‌کاوی ممکن است منجر به پدیده «ایجاد خروجی غلط توسط ورودی بی‌کیفیت و ناصحیح[2]» شود. در فاز پیش‌پردازش، مستندات به تعداد ثابتی از رده‌بندی‌های از پیش تعریف‌شده سازمان‌دهی می‌شوند. پیش‌پردازش، پیاده‌سازی موفقیت‌آمیز تحلیل متن را تضمین می‌کند اما ممکن است که زمان پردازش قابل‌توجهی را مصرف کند خروجی فاز پیش‌پردازش به دو صورت زیر است: (George Forman, 2008)

  • مبتنی بر سند

در این حالت نمایش درست مستندات اهمیت دارد. برای مثال تبدیل اسناد به یک فرمت میانی و نیمه ساخت‌یافته، یا به کار بردن یک نمایه بر روی آن‌ها یا هر نوع نمایش دیگری که کار کردن با اسناد را مؤثر می‌کند. هر موجودیت در این نمایش درنهایت بازهم یک سند خواهد بود.

  • مبتنی بر مفهوم

در این حالت نمایش اسناد بهبود بخشیده می‌شود، مفاهیم و معانی موجود در سند و ارتباط میان آن‌ها و هر نوع اطلاعات مفهومی دیگری که قابل‌استخراج است، از متن استخراج می‌شود. در این حالت نه با خود موجودیت بلکه با مفاهیمی که از این مستندات استخراج‌شده‌اند، مواجه هستیم.

تبدیل متن به صفات خاصه

 در این قدم از متون پردازش‌شده صفات خاصه استخراج می‌شود. فرایند استخراج ویژگی شامل مراحل زیر است (علیرضا درخشان، 1396):

  • تجزیه‌وتحلیل مورفولوژیک[3]: این روش با تک‌تک کلمات موجود در یک سند متنی سروکار دارد و شامل مراحل زیر است:
  • توکن بندی: در این مرحله سند از طریق حذف فضاهای خالی، کاما و کلیه علائم نگارشی به دنباله‌ای از رشته لغات تبدیل می‌شود.
  • حذف لغات توقف: در این مرحله لغات بازدارنده مانند a، The و یا or از متون حذف می‌شوند. این مرحله از طریق کاهش تعداد لغات موجب افزایش اثربخشی و کارایی می‌شود.
  • ریشه‌یابی: این مرحله تکنیک نرمال‌سازی زبان‌شناسی است و برای تبدیل لغت به فرم ریشه به کار می‌رود. مثلاً لغت honesty به لغت honest و یا walking به walk تبدیل می‌شود.
  • تجزیه‌وتحلیل نحوی: این قسمت بر روی ساختار یک‌زبان که اغلب نحو نامیده می‌شود تأکید دارد. به‌عنوان‌مثال زبان انگلیسی شامل اسم، فعل، قید، نقطه‌گذاری و دیگر بخش‌های گفتاری می‌شود (Li 2012).
  • برچسب‌گذاری اجزای واژگانی کلام: این نشانه‌گذاری معمولاً برای اضافه کردن دانش دستوری به یک لغت از یک جمله به کار می‌رود. اگر کلاس واژگانی کلمه شناخته‌شده باشد، آنگاه انجام تجزیه‌وتحلیل زبانی راحت‌تر است.
  • پارسینگ: تکنیکی است که برای بررسی ساختار گرامی یک جمله به کار می‌رود. جملات در یک ساختاری شبیه درخت نمایش داده می‌شوند که اصطلاحاً به آن درخت پارس گفته می‌شود که در اصل برای تجزیه‌وتحلیل درخواست‌های دستور زبانی صحیح در یک جمله به کار می‌رود. درخت پارس می‌توان با دو رویکرد بالا به پایین و یا پایین به بالا ساخته شود.
  • تجزیه‌وتحلیل معنایی: بر یافتن ارتباط معنادار بین واژگان تأکید دارد. چگونه معنای یک جمله به معنای عبارات، کلمات و تک‌واژه‌های تشکیل‌دهنده آن مربوط می‌شود.
    مراحل متن کاوی
    مراحل متن کاوی

    انتخاب صفات خاصه از متن

 در این قدم تعدادی از صفات خاصه برای انجام کاوش انتخاب می‌شوند، زیرا همه صفات خاصه برای انجام کاوش مفید واقع نیستند. انتخاب ویژگی شامل 3 تکنیک زیر است (Hwang 2014):

  • تکنیک انتخاب ویژگی مبتنی بر تکرار

هدف اصلی از انتخاب ویژگی، از بین بردن اطلاعات نامربوط و مزاحم از متن موردنظر است. در این قسمت مهم‌ترین ویژگی‌ها را از طریق امتیاز لغات انتخاب می‌کند. اهمیت لغت در سند توسط نمره اختصاص داده‌شده به آن مشخص می‌شود. سند متن به‌عنوان یک مدل فضای برداری ارائه می‌شود. در این مدل هر بعد نشان‌دهنده یک اصطلاح[4] مجزا، از یک کلمه، کلمه کلیدی یا یک عبارت است. ماتریس سند توسط n سند و m اصطلاح نشان داده می‌شود. مقادیر غیر صفر در این ماتریس نشان‌دهنده حضور اصطلاح در سند است.

در روش‌های قبلی متون به‌تنهایی و بدون در نظر گرفتن کل مجموعه پردازش می‌شدند و اگر تصمیمی مبنی بر جواب بودن یک متن گرفته می‌شد، آن تصمیم کاملاً متکی به همان متن و مستقل از متون دیگر گرفته‌شده و هیچ توجهی به وابستگی موجود بین متون مختلف و ارتباط بین آن‌ها نمی‌شد که این مسئله یکی از عوامل پایین بودن دقت جستجوها و ناکارآمدی آن‌ها به شمار می‌رفت. این روش بر پایه تحلیل معنایی نهفته بناشده است؛ که گامی را به مجموعه مراحل موجود در پروسه اندیس گذاری اضافه می‌کرد. این روش بجای آنکه در اندیس گذاری تنها یک متن را در نظر بگیرد، کل مجموعه اسناد را باهم و در کنار یکدیگر در نظر می‌گرفت تا ببیند که چه اسنادی لغات مشابه با لغات موجود در سند موردبررسی رادارند.

  • تکنیک نگاشت تصادفی

هنگامی‌که بردارهای داده‌ای دارای ابعاد بسیار بالایی هستند، استفاده از الگوریتم‌های تشخیص الگو و یا تحلیل داده که مکرراً مشابهات و یا فاصله فضای داده‌های اصلی را محاسبه می‌کنند غیرممکن است. LSI تطبیق واژگانی را از طریق اتخاذ یک رویکرد معنایی بهبود می‌بخشد، درحالی‌که تکنیک نگاشت تصادفی یک نقشه از محتوای یک مجموعه سند بزرگ ایجاد می‌کند. هر منطقه انتخاب‌شده در یک نقشه بیشتر می‌تواند برای استخراج اسناد جدید در موضوعات مشابه استفاده شود. تکنیک تصادفی شامل ماتریس تصادفی است که از ضرب بردارهای اصلی به دست می‌آید و یک بردار کاهش‌یافته ایجاد می‌کند. (دکتر علیرضا درخشان، شمیم ظهوریان 1396)

داده‌کاوی بر روی متن (کشف دانش از متن)

با توجه به صفات خاصه‌ی انتخاب‌شده در قدم قبل، در این قدم بر روی این صفات خاصه برای استخراج الگوهای مناسب، کاوش انجام می‌شود. همچنین موارد زیر به عنوان انواع روش های داده کاوی بر روی متن یا به عبارتی متن کاوی متصور است.

روش های متن کاوی
روش های متن کاوی

 

تفسیر و ارزیابی خروجی متن کاوی

درنهایت نتایج به‌دست‌آمده مورد ارزیابی قرارگرفته و برای موارد مختلف تفسیر و استفاده می‌شود. در ارزیابی معمولا معیارهای زیر متصور است.

  1. تشکیل ماتریس اختلاط (confusion matrix)
  2. دقت (Accuracy): به طور کلی، دقت به این معناست که مدل تا چه اندازه خروجی را درست پیش‌بینی می‌کند:
  3. صحت (Precision): وقتی که مدل نتیجه را مثبت (positive) پیش‌بینی می‌کند، این نتیجه تا چه اندازه درست است؟
  4. Recall: زمانی که ارزش false negatives بالا باشد، معیار Recall، معیار مناسبی خواهد بود.
  5. F1 Score: معیار F1، یک معیار مناسب برای ارزیابی دقت یک آزمایش است. این معیار Precision و Recall را با هم در نظر می‌گیرد. معیار F1 در بهترین حالت، یک و در بدترین حالت صفر است.

 

[1] -Knowledge Discovery in Textual Databases (KDT)

[2] -garbage in garbage out

[3]– Morphological analysis

[4] -Term

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *