خانه > داده کاوی (DataMining) > تعریف پیکره واژگان یا WordNet چیست؟

تعریف پیکره واژگان یا WordNet چیست؟

پیکره واژگان یا WordNet یک مجموعه ی نسبتا بزرگ از لغات و ارتباط آن ها در ساختار متون است. وردنت در حقیقت رابطه معنایی بین دو کلمه را بیان میکند. به عنوان مثال کبوتر از نوع پرنده است و پرنده یک نوع حیوان است و حیوان یک نوع جاندار است. از پيکره براي متن کاوی، تحليل معنایی، اعتبارسنجي نظريات و بررسي درستي قواعد زباني استفاده مي شود. وردنت در واقع شبکه ای معنایی از بیش از یکصد هزار مفهومی است که بوسیله روابط معنایی به هم مرتبط هستند. پیکره زبانی می تواند یک زبانه یا چند زبانه باشد. وردنت انگلیسی یا شبکه واژگانی پرینستون (PWN) نخستین بار توسط جرج میلر و همکارانش در سال ۱۹۸۶ در آزمایشگاه علوم شناختی دانشگاه پرینستون بر اساس واژگان ذهنی و در حوزه ی پژوهش های روانشناسی زبان طراحی و ایجاد شد. آخرین نسخه از شبکه واژگان، نسخه ۳ می­باشد که در سال ۲۰۰۶ منتشر شد. پایگاه داده این نسخه شامل تقریباً ۱۵۰۰۰۰ لغت است که در بیش از ۱۱۵۰۰۰ گروه هم­ خانواده تقسیم شده­ است. نمونه­ ای از این نرم افزار در سایتhttp://wordnetweb.princeton.edu/ موجود می باشد و امکان استفاده از آن بصورت رایگان و آن­لاین وجود دارد.

پیکره واژگان یا WordNet
نمونه ای از ساختار متصور برای پیکره واژگان یا WordNet

 

پردازش زبان‌های طبیعی یکی از زیر شاخه‌های با اهمیت در حوزه گسترده هوش مصنوعی، دانش زبان‌شناسی و یکی از نیازهای اساسی عصر فناوری جهت استفاده بهینه از منابع اطلاعاتی است. امروزه با رشد حجم مستندات تولید شده و نیاز به نگهداری، دسته بندی، بازیابی و پردازش ماشینی و سریع آنها توجه به پردازش زبان طبیعی بیش از پیش خودنمایی می کند. که شبکه واژگان لغات را در گروه­ های هم­ خانواده قرار می­دهد. هرکدام از این گروه­ ها شامل لغاتی است که در یک متن می­توانند به جای یکدیگر استفاده شوند، که در واقع هر گروه یک مفهوم خاص را بیان می­کنند. این گروه­ های هم معنی به وسیله مفاهیم معنایی و روابط لغوی به یکدیگر مرتبط می­شوند، که نتیجه این کار شبکه ­ای است متشکل از لغات و مفاهیم که از نظر معنایی با یکدیگر ارتباط دارند.

نمونه ای از روابط در پیکره واژگان یا WordNet
نمونه ای از روابط در پیکره واژگان یا WordNet

 

در ساخت شبکه واژگان حداقل دو هدف اصلی وجود دارد. ۱) ساخت ترکیبی از فرهنگ لغت و دایره­المعارف­ای که کاربردی باشد. ۲) پشتیبانی از آنالیز خودکار متون و کاربردهای هوش مصنوعی.

انواعی پیکره های زبانی بر حسب دامنه متون

  • عام و گسترده : نمونه تصادفی یک زبانWordNetffhf
  • تخصصی : نماینده متون یک زمینه خاص

انواع پيکره هاي زباني بر حسب کاربرد و اهداف

  • Spoken :‌ براي تحقيق روي فرم گفتاري زبان
  • Monitor:‌ براي بررسي تغييرات زبان در طول زمان
  • Parallel :‌ پيکره چندزبانه که متون اصلي در يک زبان و ترجمه آنها در يک يا چند زبان ديگرآمده است.

برای اینکه یک پیکره واژگان یا WordNet برای انجام تحقیقات زبانی مناسب تر باشد، معمولا آن را حاشیه نگاری می کنند. به عنوان مثال برچسب گذاری اجزا کلام (part-of-speech tagging) یا تعیین لم (lemmatization) هر کلمه یا تجزیه نحوی کامل متون(Parse)‌.

نمونه ای از تحلیل های انجام شده با پیکره واژگان یا WordNet
نمونه ای از تحلیل های انجام شده با پیکره واژگان یا WordNet

نمونه ای از تحلیل های انجام شده با پیکره واژگان یا WordNet
نمونه ای از تحلیل های انجام شده با پیکره واژگان یا WordNet

 

واژگان زباني (Lexicon)

LEXICON يا واژگان زباني جزء اصلي هر سيستم nlp است. چرا که اطلاعات اجزاء‌اصلي زبان (‌يعني کلمات)‌را در خود دارد. هر سيستم بسته به هدفي که دارد خواسته هاي متفاوتي از واژگان دارد. براي برخي از کاربردهاٰ داشتن يک واژگان کلس و پوشاننده زبان لازم است و در برخي نيز تنها داشتن واژگاني که دامنه خاصي از زبان را مي پوشاند کافي است.

واژگان مي تواند يک يا چند زبانه باشد.

بسته به کاربردي که واژگان خواهد داشت مشخصات زير در مورد آن تغيير مي کند :‌

  • معماري و ساختار کلي واژگان
  • نحوه نگهداري و نمايش مداخل
  • سطح اطلاعات زباني که با هر مدخل نگهداري مي شود

در ساده ترين شکل کلمات به صورت لم نگهداري مي شوند و به علاوه اطلاعات ريخت شناسي هم ذخيره مي شود همه فرم هاي کلمه را از روي اين قوانين بدست آورد.

جمع آوری پیکره واژگان یا WordNet

دربراي جمع آوري يک پيکره مي توان 3 مرحله کلي زير را در نظر گرفت:

  • جمع آوري متون پيکره
  • توکن- توکن کردن متون
  • حاشيه نگاري متون

نکاتی که در جمع آوری پیکره زبانی باید مورد توجه قرار بگیرد :

  • متون جمع آوری شده باید نماینده زبان مورد نظر باشند، نباید بایاس داشته باشند. باید متعادل باشد و تمام خصوصیات زبان مورد نظر را منعکس کند.
  • نوع داده ها و فضای آنها (علمی یا تخیلی یا …) باید از پیش مورد توجه قرار بگیرد.
  • حداکثر اندازه متون باید از قبل مورد توافق قرار بگیرد.

مشکلات خاص زبان فارسی که باید از پیش مورد توجه قرار بگیرد :

  • به دلیل اینکه فارسی و عربی از یک خط استفاده می کنند، تشخیص این دو از یکدیگر خصوصا در جمع آوری پیکره به صورت اتوماتیک اهمیت دارد.
  • حروف ک و ی فارسی و عربی کدهای متفاوتی دارند ولی متاسفانه در متون به این نکته توجه نمی شود و صورت فارسی و عربی این حروف متناوبا به جای یکدیگر استفاده می شوند.
  • در تایپ متون فارسی در اغلب مواقع فاصله به جای نیم فاصله استفاده می شود که این مساله شناسایی کلماتی مثل “می شود” یا کلمات دیگر دو بخشی را مشکل می کند.
  • برخی کلمات در فارسی به دو صورت سرهم و جدا نوشته می شوند که در جمع آوری پیکره زبانی فارسی به این کلمات هم باید توجه ویژه ای داشت.
  • برخی از کلمات چند املا دارند، مثلا اتاق و اطاق
  • برخی از حروف و علائم که از زبان عربی وام گرفته شده اند در فارسی به صورت دلبخواهی استفاده می شوند یا کنار گذاشته می شوند، مثل تنوین و همزه .
  • شناسایی اسامی خاص در فارسی مشکل تر است : چون حروف مثل انگلیسی بزرگ و کوچک ندارند.

مراحلی که برای جمع آوری پیکره واژگان یا WordNet و استخراج لغتنامه از آن باید طی کنیم

  • طراحی پیکره : تصمیم گیری راجع به متونی که باید جمع آوری شوند و منابعی که این متون از آنجا جمع آوری شوند.
  • پیدا کردن راه حل مناسبی برای حل مشکلات فارسی ( تشخیص مرز جملات، تشخیص کلمات و …)
  • جمع آوری متون
  • توکن- توکن کردن متون
  • حاشیه نگاری و نشانه گذاری با توجه به کاربردهای آتی پیکره

با توجه به مراحل بالا و مشکلات مطرح براي فارسي به ارائه راه حل براي مسائل زير نياز داريم‌(نرم افزار)

  • تشخيص متون فارسي از غير متون فارسي
  • تشخيص متون تکراري در مجموعه متون
  • جداسازي متن از بين کد هاي HTML ‌(‌در استخراج متن از صفحات مي توان همه بخش هاي متني را در نظر گرفت يا بدنه اصلي را تشخيص داد و از آن استفاده کرد.)

برخی از لغات و اصطلاحات :

Treebank : یک پیکره زبانی که جملات آن کامل تجزیه شده است.

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.