دیتاست شناسایی موجودیت های نامدار برای تشخیص مشاغل در متن
در این پست قصد دارم اطلاعات مختصری در ارتباط با شناخت موجودیت های نامدار برای تشخیص مشاغل در متن ارائه خواهد شد.
مقدمه اي بر شناسایی موجودیت های نامدار
موجوديت نامدار به کلمه و يا عبارتي گفته ميشود که براي ارجاع به نمونه هاي يک مقوله ي مشخص مانند شخص، شرکت يا موسسه، تاريخ، بيماري، گونه هاي باکتري و ساير بکار ميرود. این حجم عظیم از اطلاعات که ساختار هم ندارند ( به این دلیل که برای مصرف انسان تولید شدند) به صورت مستقیم قابل پردازش توسط ماشین نیستند. شناسایی موجودیت های نامدار عملیاتی است که طی آن اسامی مناسبی از متن استخراج شده و در گروه های از پیش تعیین شده تقسیم می شوند.
مثال:
Input : Jim bought 300 shares of Acme Corp. in 2006. Output : [Jim]Person bought 300 shares of [Acme Corp.] Organization in [2006]Time.
تازيخچه ي شناسایی موجودیت های نامدار
این مفهوم برای اولین بار در ششمین کنفرانس Message Understandingدر سال 1995 مطرح شد. نيازبه شناسايي موجوديتهاي نامدار، در دنياي امروز که عصرارتباطات و اطلاعات است رو به رشد ميباشد. شناسايي موجوديتهاي نامدار براي جستجوهاي معنادار، ترجمه ي خودکار، استخراج خودکار مفاهيم متن، کشف ارجاعات درمتن وبسياري ديگر از زمينه هاي مربوط به پردازش زبان هاي طبيعي کاربرد دارد.
کاربرد شناسایی موجودیت های نامدار در تحليل متن
اينکه سيستم چه نوع موجوديتي را تشخيص دهد و يا به بيان ديگر دسته هاي معنايي موردنظرش چه باشند، وابسته به زمينه ي کاربردي سيستم ميباشد. به عنوان مثال:
- شناسايي موجوديت نامداردر علم زيست شناسي ميتواند تشخيص اسامي وابسته به انواع پروتئین ها ،DNA ها و نوع سلول ها و …. باشد
- در حوزه ی پزشکی مي تواند تشخيص انواع بيماري ها، داروها، مراکز درماني و مانند اين ها و در حوزه تجارت نام شرکت ها و موسسات، تراکنش هاي مالي، بورس و غيره باشد.
- همچنين اين امر مي تواند به صورت خيلي خاص مثلا فقط براي کشف اسامي شرکتهاي توليد کننده فولاد از روي متون مربوطه بکار رود.
- يک دسته بندي عام در NER مورد استفاده قرار مي گيرد که در بسياري تحقيقات نيز ملاک مقايسه بوده است، دسته بندی بر اساس (شخص)(سازمان)(ناحیه) است.
کاربردها:
- جستجوی معنایی
- سیستم های پرسش و پاسخ
- سیستم های خبره
- کشف دانش
- مدیریت دانش
- نظر کاوی
- بازیابی اطلاعات
مشکلات پایه ای:
تنوع موجودیت های نام دار
ابهام در نوع موجودیت ها
در ادامه مجموعه داده موجودیت های نامدار برای تشخیص بیش از 140 عدد شغل آمده است که برای شناسایی موجودیت های نامدار در متن ميتوانید از آن استفاده کنيد:
فروشنده تاجر بازاریاب مدیر مسئول رییس رئیس مدیرعامل قائم مقام قائم آرایشگر فیلمبردار فیلمبردار عکاس نویسنده طراح کارمند کارکن معلم مدرس آهنگر اغذیهفروش مکانیک انبارگردان پرستار بیمهگر مترجم پردهفروش انباردار تابلوساز راننده تاکسیران تراشکار تراشکار تعمیرکار عامل خبرنگار خادم خراز خیاط داروفروش داروساز دامپزشک پزشک سردفتر دفتردار ناظم مرجع روزنامهنگار ورزشکار ورزشینویس ریختهگر بافنده ریسنده کارگر ساعتفروش پلیس رئیسپلیس فرماندار فرمانروا پادشاه ملکه وزیر رییسجمهور رئیسجمهور سمسار سینمادار شکارچی صحاف صراف صنعتگر صنعتگر رنگرز رنگرز طلاساز طلافروش عکاس عینکساز عینکساز عینکفروش فرشفروش یافنده نگهبان قابساز قابساز قالیشو قناد قهوهچی دارنده کارتنخواب گیک کتابدار مقاله مقالهنویس کتابفروش کتابفروش کفاش کلانتر کلیدساز کلیدساز گلفروش گلفروش لباسفروش مجسمهساز موزهدار نانوا نجار نقاش هنرمند گریمر صدابردار صداگذار دوبلور دوبلر نگارگر رهبر ورزشکار هتلدار هتلدار پاپ مغ سرباز سرباز وظیفه سرگرد سرلشگر افسر پاسدار وزیر ملوان ستوان سروان گروهبان امیر سرلشکر سرخدمه سرهنگ سرباز ستوان سروان سرتیپ
منبع:
stanford website
http://fumblog.um.ac.ir/fumindex.php?op=ViewArticle&articleId=12564&blogId=1066
آدرس کانال تلگرام سایت بیگ دیتا:
آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel
جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.
جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.
بازدیدها: 1530
برچسبdataset NER تشخیص مشاغل دیتاست شناسایی موجودیت های نامدار
همچنین ببینید
شناسایی موجودیت های نام دار و ایجاد پیوند معنایی با روش هستان شناسي
آشنایی اولیه ای مقوله پیوند موجودیت های نامدار در مبحث وب معنایی پیوند معنایی موجودیت …
دیتاست اخبار حدود چهار هزار خبر فارسی به تفکیک تاریخ
مجموعه داده اخبار فارسی شامل بیش از سه هزار خبر از خبرگزاری های مختلف است. …