صفحه نخست --> داده کاوی (DataMining) --> تعریف پیکره واژگان یا WordNet چیست؟

تعریف پیکره واژگان یا WordNet چیست؟

پیکره واژگان یا WordNet یک مجموعه ی نسبتا بزرگ از لغات و ارتباط آن ها در ساختار متون است. وردنت در حقیقت رابطه معنایی بین دو کلمه را بیان میکند. به عنوان مثال کبوتر از نوع پرنده است و پرنده یک نوع حیوان است و حیوان یک نوع جاندار است. از پیکره برای متن کاوی، تحلیل معنایی، اعتبارسنجی نظریات و بررسی درستی قواعد زبانی استفاده می شود. وردنت در واقع شبکه ای معنایی از بیش از یکصد هزار مفهومی است که بوسیله روابط معنایی به هم مرتبط هستند. پیکره زبانی می تواند یک زبانه یا چند زبانه باشد. وردنت انگلیسی یا شبکه واژگانی پرینستون (PWN) نخستین بار توسط جرج میلر و همکارانش در سال ۱۹۸۶ در آزمایشگاه علوم شناختی دانشگاه پرینستون بر اساس واژگان ذهنی و در حوزه ی پژوهش های روانشناسی زبان طراحی و ایجاد شد. آخرین نسخه از شبکه واژگان، نسخه ۳ می­باشد که در سال ۲۰۰۶ منتشر شد. پایگاه داده این نسخه شامل تقریباً ۱۵۰۰۰۰ لغت است که در بیش از ۱۱۵۰۰۰ گروه هم­ خانواده تقسیم شده­ است. نمونه­ ای از این نرم افزار در سایتhttp://wordnetweb.princeton.edu/ موجود می باشد و امکان استفاده از آن بصورت رایگان و آن­لاین وجود دارد.

پیکره واژگان یا WordNet
نمونه ای از ساختار متصور برای پیکره واژگان یا WordNet

 

پردازش زبان‌های طبیعی یکی از زیر شاخه‌های با اهمیت در حوزه گسترده هوش مصنوعی، دانش زبان‌شناسی و یکی از نیازهای اساسی عصر فناوری جهت استفاده بهینه از منابع اطلاعاتی است. امروزه با رشد حجم مستندات تولید شده و نیاز به نگهداری، دسته بندی، بازیابی و پردازش ماشینی و سریع آنها توجه به پردازش زبان طبیعی بیش از پیش خودنمایی می کند. که شبکه واژگان لغات را در گروه­ های هم­ خانواده قرار می­دهد. هرکدام از این گروه­ ها شامل لغاتی است که در یک متن می­توانند به جای یکدیگر استفاده شوند، که در واقع هر گروه یک مفهوم خاص را بیان می­کنند. این گروه­ های هم معنی به وسیله مفاهیم معنایی و روابط لغوی به یکدیگر مرتبط می­شوند، که نتیجه این کار شبکه ­ای است متشکل از لغات و مفاهیم که از نظر معنایی با یکدیگر ارتباط دارند.

نمونه ای از روابط در پیکره واژگان یا WordNet
نمونه ای از روابط در پیکره واژگان یا WordNet

 

در ساخت شبکه واژگان حداقل دو هدف اصلی وجود دارد. ۱) ساخت ترکیبی از فرهنگ لغت و دایره­المعارف­ای که کاربردی باشد. ۲) پشتیبانی از آنالیز خودکار متون و کاربردهای هوش مصنوعی.

انواعی پیکره های زبانی بر حسب دامنه متون

  • عام و گسترده : نمونه تصادفی یک زبانWordNetffhf
  • تخصصی : نماینده متون یک زمینه خاص

انواع پیکره های زبانی بر حسب کاربرد و اهداف

  • Spoken :‌ برای تحقیق روی فرم گفتاری زبان
  • Monitor:‌ برای بررسی تغییرات زبان در طول زمان
  • Parallel :‌ پیکره چندزبانه که متون اصلی در یک زبان و ترجمه آنها در یک یا چند زبان دیگرآمده است.

برای اینکه یک پیکره واژگان یا WordNet برای انجام تحقیقات زبانی مناسب تر باشد، معمولا آن را حاشیه نگاری می کنند. به عنوان مثال برچسب گذاری اجزا کلام (part-of-speech tagging) یا تعیین لم (lemmatization) هر کلمه یا تجزیه نحوی کامل متون(Parse)‌.

نمونه ای از تحلیل های انجام شده با پیکره واژگان یا WordNet
نمونه ای از تحلیل های انجام شده با پیکره واژگان یا WordNet

نمونه ای از تحلیل های انجام شده با پیکره واژگان یا WordNet
نمونه ای از تحلیل های انجام شده با پیکره واژگان یا WordNet

 

واژگان زبانی (Lexicon)

LEXICON یا واژگان زبانی جزء اصلی هر سیستم nlp است. چرا که اطلاعات اجزاء‌اصلی زبان (‌یعنی کلمات)‌را در خود دارد. هر سیستم بسته به هدفی که دارد خواسته های متفاوتی از واژگان دارد. برای برخی از کاربردهاٰ داشتن یک واژگان کلس و پوشاننده زبان لازم است و در برخی نیز تنها داشتن واژگانی که دامنه خاصی از زبان را می پوشاند کافی است.

واژگان می تواند یک یا چند زبانه باشد.

بسته به کاربردی که واژگان خواهد داشت مشخصات زیر در مورد آن تغییر می کند :‌

  • معماری و ساختار کلی واژگان
  • نحوه نگهداری و نمایش مداخل
  • سطح اطلاعات زبانی که با هر مدخل نگهداری می شود

در ساده ترین شکل کلمات به صورت لم نگهداری می شوند و به علاوه اطلاعات ریخت شناسی هم ذخیره می شود همه فرم های کلمه را از روی این قوانین بدست آورد.

جمع آوری پیکره واژگان یا WordNet

دربرای جمع آوری یک پیکره می توان ۳ مرحله کلی زیر را در نظر گرفت:

  • جمع آوری متون پیکره
  • توکن- توکن کردن متون
  • حاشیه نگاری متون

نکاتی که در جمع آوری پیکره زبانی باید مورد توجه قرار بگیرد :

  • متون جمع آوری شده باید نماینده زبان مورد نظر باشند، نباید بایاس داشته باشند. باید متعادل باشد و تمام خصوصیات زبان مورد نظر را منعکس کند.
  • نوع داده ها و فضای آنها (علمی یا تخیلی یا …) باید از پیش مورد توجه قرار بگیرد.
  • حداکثر اندازه متون باید از قبل مورد توافق قرار بگیرد.

مشکلات خاص زبان فارسی که باید از پیش مورد توجه قرار بگیرد :

  • به دلیل اینکه فارسی و عربی از یک خط استفاده می کنند، تشخیص این دو از یکدیگر خصوصا در جمع آوری پیکره به صورت اتوماتیک اهمیت دارد.
  • حروف ک و ی فارسی و عربی کدهای متفاوتی دارند ولی متاسفانه در متون به این نکته توجه نمی شود و صورت فارسی و عربی این حروف متناوبا به جای یکدیگر استفاده می شوند.
  • در تایپ متون فارسی در اغلب مواقع فاصله به جای نیم فاصله استفاده می شود که این مساله شناسایی کلماتی مثل “می شود” یا کلمات دیگر دو بخشی را مشکل می کند.
  • برخی کلمات در فارسی به دو صورت سرهم و جدا نوشته می شوند که در جمع آوری پیکره زبانی فارسی به این کلمات هم باید توجه ویژه ای داشت.
  • برخی از کلمات چند املا دارند، مثلا اتاق و اطاق
  • برخی از حروف و علائم که از زبان عربی وام گرفته شده اند در فارسی به صورت دلبخواهی استفاده می شوند یا کنار گذاشته می شوند، مثل تنوین و همزه .
  • شناسایی اسامی خاص در فارسی مشکل تر است : چون حروف مثل انگلیسی بزرگ و کوچک ندارند.

مراحلی که برای جمع آوری پیکره واژگان یا WordNet و استخراج لغتنامه از آن باید طی کنیم

  • طراحی پیکره : تصمیم گیری راجع به متونی که باید جمع آوری شوند و منابعی که این متون از آنجا جمع آوری شوند.
  • پیدا کردن راه حل مناسبی برای حل مشکلات فارسی ( تشخیص مرز جملات، تشخیص کلمات و …)
  • جمع آوری متون
  • توکن- توکن کردن متون
  • حاشیه نگاری و نشانه گذاری با توجه به کاربردهای آتی پیکره

با توجه به مراحل بالا و مشکلات مطرح برای فارسی به ارائه راه حل برای مسائل زیر نیاز داریم‌(نرم افزار)

  • تشخیص متون فارسی از غیر متون فارسی
  • تشخیص متون تکراری در مجموعه متون
  • جداسازی متن از بین کد های HTML ‌(‌در استخراج متن از صفحات می توان همه بخش های متنی را در نظر گرفت یا بدنه اصلی را تشخیص داد و از آن استفاده کرد.)

برخی از لغات و اصطلاحات :

Treebank : یک پیکره زبانی که جملات آن کامل تجزیه شده است.

آدرس کانال تلگرام ما:

t.me/bigdata_channel
برای ورود به کانال بر روی اینجا کلیک کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *