خانه --> متن کاوی و تحلیل متن --> دیتاست اسامی اشخاص حقیقی جهت استفاده در پردازش متن

دیتاست اسامی اشخاص حقیقی جهت استفاده در پردازش متن

بانک اسامی اشخاص حقیقی جهت استفاده در تشخیص موجودیت های اسمی:

یکی از انواع موجودیت های اسمی، اسامی اشخاص حقیقی است. برای استفاده شما مجموعه داده ای شامل بیش از ۱۵۰۰۰ نفر از اسامی اشخاص حقیقی جهت استفاده NER ارائه شده است که در ادامه می توانید آن را دانلود کنید.

تشخیص موجودیت‌های اسمی که یکی از حوزه‌های پژوهشی پردازش زبان طبیعی و بازیابی اطلاعات محسوب می‌شود، به روش‌هایی می‌پردازد که شناسایی موجودیت‌های اسمی را در متون ممکن می‌سازد. از مهم‌ترین انواع موجودیت‌های اسمی می‌توان به اسامی افراد، سازمان‌ها، مکان‌ها، پول، درصد، تاریخ، و زمان اشاره کرد. سیستم‌های تشخیص موجودیت اسمی موجودیت‌های یک متن را شناسایی کرده و آن‌ها را در یکی از انواع مشخص طبقه‌بندی ‌می‌کنند. امروزه برای عبارت “موجودیت نامدار” تعاریف متعددی ارائه شده است. تا جایی که در بعضی از منابع تا ۲۰ تعریف متفاوت از موجودیت نامدار ارائه شده است. به طور کلی، موجودیت­های نامدار، اسامی موجودیت­های دلخواه ما در یک متن دلخواه (مثل نام اشخاص، مکان­ها، داروها و بیماری­ها و …) هستند.

کاربردهای NER

برای تشخیص اینکه یک کلمه اسم است، راه ­های مختلفی وجود دارد که از جمله­ ی آنها مراجعه به لغت نامه، استفاده از وردنت، در نظر گرفتن ریشه ­ی کلمه، استفاده از قواعد نحوی ساخت واژه و غیره می­ باشد. تشخیص درست واحدهای اسمی، یک نیاز مهم در حل مسائلی در حوزه‌های جدید مانند پرسش و پاسخ، تحلیل روند، طبقه ­بندی اسناد، برچسب زنی خودکار متن، پاسخگویی به سوالات، سیستم‌های خلاصه‌سازی، بازیابی اطلاعات، استخراج اطلاعات، ترجمه‌ی ماشینی، تفسیر ویدئویی و جستجوی معنایی در وب و بسیاری کاربردهای دیگر است.

روشهای تشخیص اسامی اشخاص حقیقی

تا به امروز، سه رویکرد سنتی برای تشخیص موجودیت های نامدار ارائه شده است و سیستم های مدرن تشخیص موجودیت­های نامدار عمدتا از ترکیب این سه روش استفاده می­کنند:

  • روش­های مبتنی بر واژه ­نامه
  • روش­های مبتنی بر قواعد
  • روش های مبتنی بر یادگیری ماشین

یکی از انواع موجودیت های اسمی اسامی اشخاص حقیقی است. برای استفاده شما مجموعه داده ای شامل بیش از ۱۵۰۰۰ نفر از اسامی اشخاص حقیقی جهت استفاده در ماژول NER با روش­ مبتنی بر واژه ­نامه، ارائه شده است که در ادامه می توانید آن را دانلود کنید. همچنین یک نمومه دوهزار تایی برای مشاهده در زیر آماده است.

دانلود دیتاست اسامی افراد حقیقی

 

 

 

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

 

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *