دیتاست شناسایی موجودیت های نامدار برای تشخیص مشاغل در متن

در این پست قصد دارم اطلاعات مختصری در ارتباط با شناخت موجودیت های نامدار برای تشخیص مشاغل در متن ارائه خواهد شد.

مقدمه اي بر شناسایی موجودیت های نامدار

موجوديت نامدار به کلمه و يا عبارتي گفته ميشود که براي ارجاع به نمونه هاي يک مقوله ي مشخص مانند شخص، شرکت يا موسسه، تاريخ، بيماري، گونه هاي باکتري و ساير بکار ميرود. این حجم عظیم از اطلاعات که ساختار هم ندارند ( به این دلیل که برای مصرف انسان تولید شدند) به صورت مستقیم قابل پردازش توسط ماشین نیستند. شناسایی موجودیت های نامدار عملیاتی است که طی آن اسامی مناسبی از متن استخراج شده و در گروه های از پیش تعیین شده تقسیم می شوند.

مثال:

تازيخچه ي شناسایی موجودیت های نامدار

این مفهوم برای اولین بار در ششمین کنفرانس Message Understandingدر سال 1995 مطرح شد. نيازبه شناسايي موجوديتهاي نامدار، در دنياي امروز که عصرارتباطات و اطلاعات است رو به رشد  ميباشد. شناسايي موجوديتهاي نامدار براي جستجوهاي معنادار، ترجمه ي خودکار، استخراج خودکار مفاهيم متن، کشف ارجاعات درمتن وبسياري ديگر از زمينه هاي مربوط به پردازش زبان هاي طبيعي کاربرد دارد.

کاربرد شناسایی موجودیت های نامدار در تحليل متن

اينکه سيستم چه نوع موجوديتي را تشخيص دهد و يا به بيان ديگر دسته هاي معنايي موردنظرش چه باشند، وابسته به زمينه ي کاربردي سيستم ميباشد. به عنوان مثال:

  • شناسايي موجوديت نامداردر علم زيست شناسي ميتواند تشخيص اسامي وابسته به انواع پروتئین ها ،DNA  ها و نوع سلول ها و …. باشد
  • در حوزه ی پزشکی مي تواند تشخيص انواع بيماري ها، داروها، مراکز درماني و مانند اين ها و در حوزه تجارت نام شرکت ها و موسسات، تراکنش هاي مالي، بورس و غيره باشد.
  • همچنين اين امر مي تواند به صورت خيلي خاص مثلا فقط براي کشف اسامي شرکتهاي توليد کننده فولاد از روي متون مربوطه بکار رود.
  • يک دسته بندي عام در NER مورد استفاده قرار مي گيرد که در بسياري تحقيقات نيز ملاک مقايسه بوده است، دسته بندی بر اساس (شخص)(سازمان)(ناحیه) است.

کاربردها:

  • جستجوی معنایی
  • سیستم های پرسش و پاسخ
  • سیستم های خبره
  • کشف دانش
  • مدیریت دانش
  • نظر کاوی
  • بازیابی اطلاعات

مشکلات پایه ای:

تنوع موجودیت های نام دار

ابهام در نوع موجودیت ها

در ادامه مجموعه داده موجودیت های نامدار برای تشخیص بیش از 140 عدد شغل آمده است که برای شناسایی موجودیت های نامدار در متن ميتوانید از آن استفاده کنيد:

تشخیص مشاغل
شناسایی موجودیت های نامدار برای تشخیص مشاغل

منبع:

stanford website

http://fumblog.um.ac.ir/fumindex.php?op=ViewArticle&articleId=12564&blogId=1066

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *