دیتاست شناسایی موجودیت های نامدار برای تشخیص مشاغل در متن

در این پست قصد دارم اطلاعات مختصری در ارتباط با شناخت موجودیت های نامدار برای تشخیص مشاغل در متن ارائه خواهد شد.

مقدمه اي بر شناسایی موجودیت های نامدار

موجوديت نامدار به کلمه و يا عبارتي گفته ميشود که براي ارجاع به نمونه هاي يک مقوله ي مشخص مانند شخص، شرکت يا موسسه، تاريخ، بيماري، گونه هاي باکتري و ساير بکار ميرود. این حجم عظیم از اطلاعات که ساختار هم ندارند ( به این دلیل که برای مصرف انسان تولید شدند) به صورت مستقیم قابل پردازش توسط ماشین نیستند. شناسایی موجودیت های نامدار عملیاتی است که طی آن اسامی مناسبی از متن استخراج شده و در گروه های از پیش تعیین شده تقسیم می شوند.

مثال:

Input : Jim bought 300 shares of Acme Corp. in 2006.

Output : [Jim]Person bought 300 shares of [Acme Corp.] Organization in [2006]Time.

تازيخچه ي شناسایی موجودیت های نامدار

این مفهوم برای اولین بار در ششمین کنفرانس Message Understandingدر سال 1995 مطرح شد. نيازبه شناسايي موجوديتهاي نامدار، در دنياي امروز که عصرارتباطات و اطلاعات است رو به رشد  ميباشد. شناسايي موجوديتهاي نامدار براي جستجوهاي معنادار، ترجمه ي خودکار، استخراج خودکار مفاهيم متن، کشف ارجاعات درمتن وبسياري ديگر از زمينه هاي مربوط به پردازش زبان هاي طبيعي کاربرد دارد.

کاربرد شناسایی موجودیت های نامدار در تحليل متن

اينکه سيستم چه نوع موجوديتي را تشخيص دهد و يا به بيان ديگر دسته هاي معنايي موردنظرش چه باشند، وابسته به زمينه ي کاربردي سيستم ميباشد. به عنوان مثال:

  • شناسايي موجوديت نامداردر علم زيست شناسي ميتواند تشخيص اسامي وابسته به انواع پروتئین ها ،DNA  ها و نوع سلول ها و …. باشد
  • در حوزه ی پزشکی مي تواند تشخيص انواع بيماري ها، داروها، مراکز درماني و مانند اين ها و در حوزه تجارت نام شرکت ها و موسسات، تراکنش هاي مالي، بورس و غيره باشد.
  • همچنين اين امر مي تواند به صورت خيلي خاص مثلا فقط براي کشف اسامي شرکتهاي توليد کننده فولاد از روي متون مربوطه بکار رود.
  • يک دسته بندي عام در NER مورد استفاده قرار مي گيرد که در بسياري تحقيقات نيز ملاک مقايسه بوده است، دسته بندی بر اساس (شخص)(سازمان)(ناحیه) است.

کاربردها:

  • جستجوی معنایی
  • سیستم های پرسش و پاسخ
  • سیستم های خبره
  • کشف دانش
  • مدیریت دانش
  • نظر کاوی
  • بازیابی اطلاعات

مشکلات پایه ای:

تنوع موجودیت های نام دار

ابهام در نوع موجودیت ها

در ادامه مجموعه داده موجودیت های نامدار برای تشخیص بیش از 140 عدد شغل آمده است که برای شناسایی موجودیت های نامدار در متن ميتوانید از آن استفاده کنيد:

تشخیص مشاغل
شناسایی موجودیت های نامدار برای تشخیص مشاغل
فروشنده
تاجر
بازاریاب
مدیر
مسئول
رییس
رئیس
مدیرعامل
قائم مقام
قائم
آرایشگر
فیلمبردار
فیلم‌بردار
عکاس
نویسنده
طراح
کارمند
کارکن
معلم
مدرس
آهنگر
اغذیه‌فروش
مکانیک
انبارگردان
پرستار
بیمه‌گر
مترجم
پرده‌فروش
انباردار
تابلوساز
راننده
تاکسیران
تراشکار
تراش‌کار
تعمیرکار
عامل
خبرنگار
خادم
خراز
خیاط
داروفروش
داروساز
دامپزشک
پزشک
سردفتر
دفتردار
ناظم
مرجع
روزنامه‌نگار
ورزشکار
ورزشی‌نویس
ریخته‌گر
بافنده
ریسنده
کارگر
ساعت‌فروش
پلیس
رئیس‌پلیس
فرماندار
فرمانروا
پادشاه
ملکه
وزیر
رییس‌جمهور
رئیس‌جمهور
سمسار
سینمادار
شکارچی
صحاف
صراف
صنعتگر
صنعت‌گر
رنگرز
رنگ‌رز
طلاساز
طلافروش
عکاس
عینک‌ساز
عینکساز
عینک‌فروش
فرش‌فروش
یافنده
نگهبان
قابساز
قاب‌ساز
قالیشو
قناد
قهوه‌چی
دارنده
کارتن‌خواب
گیک
کتابدار
مقاله
مقاله‌نویس
کتاب‌فروش
کتابفروش
کفاش
کلانتر
کلید‌ساز
کلیدساز
گلفروش
گل‌فروش
لباس‌فروش
مجسمه‌ساز
موزه‌دار
نانوا
نجار
نقاش
هنرمند
گریمر
صدابردار
صداگذار
دوبلور
دوبلر
نگارگر
رهبر
ورزشکار
هتل‌دار
هتلدار
پاپ
مغ
سرباز
سرباز وظیفه
سرگرد
سرلشگر
افسر
پاسدار
وزیر
ملوان
ستوان
سروان
گروهبان
امیر
سرلشکر
سرخدمه
سرهنگ
سرباز
ستوان
سروان
سرتیپ

منبع:

stanford website

http://fumblog.um.ac.ir/fumindex.php?op=ViewArticle&articleId=12564&blogId=1066

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

Visits: 1378

همچنین ببینید

پیوند معنایی و مجموعه داده های هستان شناسی آنتولوژی فارسی

شناسایی موجودیت های نام دار و ایجاد پیوند معنایی با روش هستان شناسي

آشنایی اولیه ای مقوله پیوند موجودیت های نامدار در مبحث وب معنایی پیوند معنایی موجودیت …

دیتاست اخبار

دیتاست اخبار حدود چهار هزار خبر فارسی به تفکیک تاریخ

مجموعه داده اخبار فارسی شامل بیش از سه هزار خبر از خبرگزاری های مختلف است. …

دیدگاهتان را بنویسید