صفحه نخست --> متن کاوی و تحلیل متن --> تشخیص موجودیت های اسمی یا نامدار (NER)

تشخیص موجودیت های اسمی یا نامدار (NER)

فراییند تشخیص موجودیت های اسمی (NER) برای تشخیص اسامی و نوع آنها به کار می ­رود. تشخیص موجودیت­ های اسمی فرآیندی است که هدف از آن تشخیص و شناسایی کلمات یا عباراتی است که نمایانگر یک موجودیت می­باشند. برای تشخیص موجودیت­ های اسمی از قبیل نام­ افراد، سازمان­ها، مکان­ها و غیره بکار می­رود. همچنین به طور خاص می‌تواند ما را در حل مسائلی مانند رفع ابهام و تشخیص هویت اصلی بین اشخاصی با اسامی مشترک از روی موضوع متن و با کمک ابزارهای جانبی، یافتن نقل قول و ارجاعات در مقالات علمی یا یافتن ارتباط بین مقالات، تشخیص ارتباط میان اشخاص و انجمن‌ها با استفاده از اسامی و ارجاعات، بهینه کردن پاسخ‌های یک موتورِ جستجو در زمینه‌ی یافتن اسامی و غیره یاری دهد.

تشخیص موجودیت های اسمی (NER)
نمونه ای از تشخیص موجودیت های اسمی (NER) در زبان فارسی

 

برای تشخیص اینکه یک کلمه اسم است، راه ­های مختلفی وجود دارد که از جمله­ ی آنها مراجعه به لغت نامه، استفاده از وردنت، در نظر گرفتن ریشه ­ی کلمه، استفاده از قواعد نحوی ساخت واژه و غیره می­ باشد. در این ابزار پس از تشخیص اسم ­ها با استفاده یک لغتنامه از اسامی افراد، مکان­ها، مقادیر عددی و … نوع اسم تشخیص داده می­شود. تشخیص درست واحدهای اسمی، یک نیاز مهم در حل مسائلی در حوزه‌های جدید مانند پاسخگویی به سوالات، سیستم‌های خلاصه‌سازی، بازیابی اطلاعات، استخراج اطلاعات، ترجمه‌ی ماشینی، تفسیر ویدئویی و جستجوی معنایی در وب است. از جمله نمونه­ های ابزار های انگلیسی تشخیص موجودیت های اسمی (NER)، می­توان به Stanford NER و Illinois NER  اشاره کرد. در فرایند متن کاوی تشخیص موجودیت های اسمی، بعد مراحلی مثل تشخیص زبان، واحدساز، ریشه یابی کلمات و برچسب گذاری انجام می گیرد.

تشخیص موجودیت های اسمی (NER)
جایگاه تشخیص موجودیت های اسمی در متن کاوی

معرفی Stanford-CoreNlp از ابزارهای تشخیص موجودیت های اسمی (NER)

Stanford-CoreNlp مجموعه‌ای از ابزارهای آنالیز متن را در اختیار ما قرار میدهد. این ابزار متن خام انگلیسی را به عنوان ورودی دریافت میکند و کلمات استخراج شده از آن، مقوله واژگانی و برچسب موجودیت را برمیگرداند. به علاوه این ابزار میتواند ساختار جملات را تعیین و مشخص کند کدام عبارات اسمی به چه موجودیت‌هایی اشاره دارند. استفاده از این ابزار با چند خط کد و بسیار ساده است. به طور خلاصه این ابزار شامل امکانات زیر میباشد:

  • The part of speech tagger
  • The name entity recognizer (NER)
  • The parser
  • The coreference resolution system

NER Stanford پیاده سازی شده به زبان جاواست. در این ابزار از دسته‌بندی کننده CRF بهره گرفته شده و شامل مدل‌ ۴ کلاسه که روی داده‌ی آموزشی CoNLL آموزش دیده، مدل ۷ کلاسه که روی MUC آموزش دیده و مدل ۳ کلاسه که روی هر دوی این داده‌های آموزشی آموزش دیده شده می‌باشد. برچسب‌ موجودیت در این مدل‌ها عبارتند از:

  • ۳ کلاس: Location, Person, Organization
  • ۴ کلاس: Location, Person, Organization, Misc
  • ۷ کلاس: Time, Location, Organization, Person, Money, Percent, Date

معرفی Lbj-Tagger

این ابزار پیاده سازی شده به زبان جاواست  و امکان برچسب زنی موجودیت را در اختیار ما قرار میدهد. این ابزار شامل فهرست موجودیت‌های خاص زیر برای زبان انگلیسی می‌باشد:

  • اعداد اصلی ( یک، دو، سه، …)
  • اعداد ترتیبی (اول، دوم، …)
  • شرکت‌های شناخته شده (فورد، فیس‌بوک، …)
  • واحد پول ( دلار، دینار، …)
  • کشورها
  • مشاغل (بازیگر، …)
  • اسامی ( علی، احمد، …)
  • ملیت‌ها
  • ایالات
  • عناوین (ریاست جمهوری، وزیر کشور، …)
  • واحد اندازه‌گیری (متر، لیتر، …)
  • کلمات زمانی (ثانیه، هفته، …)
  • محصولات هنری (قلعه حیوانات، …)
  • رخدادها و مسابقات ورزشی ( لیگ برتر اسپانیا، …)
  • فیلم‌های سینمایی شناخته شده
  • محصولات ساخت دست بشر( آپولو۱۳،…)
  • سازمان‌ها
  • مشاهیر
  • آهنگ‌های شناخته شده

آدرس کانال تلگرام ما:

t.me/bigdata_channel
برای ورود به کانال بر روی اینجا کلیک کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *