خانه > دیتاست (data set) > دانلود مجموعه داده های هستان شناسی فارسی برای لغات هم معنا

دانلود مجموعه داده های هستان شناسی فارسی برای لغات هم معنا

مجموعه داده های هستان شناسی و داده های پیوندی Linked Data

هستی‌شناسی، دانش ساختاریافته در مورد یک حوزه خاص است که از طریق ارائه مفاهیم و روابط میان آنها در آن حوزه شکل می‌گیرد. امروزه، به‌دلیل طراحی هستی‌شناسی در حوزه‌های موضوعی مختلف، ارائه معیارهایی برای گزینش مناسب‌ترین هستی‌شناسی، ضروری است.

دانلود مجموعه داده های هستان شناسی فارسی برای لغات هم معنا

هدف از آنتو چیست؟

پروژه‌ی آنتو، پروژه‌ی ساخت منبع فارسی برای ارائه‌ی دست‌آوردها، مطالعات و پروهش‌ها، پژوهشگران، آنتولوژی‌ها، و بررسی کاربردهای سازمانی و محافظه‌کارانه از مهندسی دانش، آنتولوژی و سیستم‌های خبره است. هدف از این پروژه کمک به آموزش و تشویق به استفاده از تکنیک‌های مبتنی بر دانش، و تکنیک‌های محتوامحور در هوشِ مصنوعی با جمع‌آوری مجموعه‌ای هدف‌مند از منابع برگزیده در این حوزه است.

مطالعه‌ی «شناخت» و «هوش»به صورت مفاهیمی محتوا-محور، خلاصه‌ی خروجی‌های پروژه‌ی آنتو خواهد بود. با این حال، باید این محدودیت را در نظر داشت که تکنولوژی‌های مهندسی دانش و اطلاعات (که معمولا مبتنی بر منطق‌ها هستند)، نمی‌تواند همه‌ی ویژگی‌ها و کارکردهای معنا در ذهن و فلسفه را فراهم کنند. پروژه‌ی آنتو نگاهی بی‌طرفانه خواهد داشت به دست‌آوردها و دغدغه‌های فعلیِ مرتبط در بخش‌های مختلف علم؛ از علوم کامپیوتر، مهندسی و ریاضیات، منطق، علوم اعصاب، علوم شناختی، بیولوژی، تا مطالعات انسانی مانند فلسفه، فلسفه‌ی ذهن، مدیریت و سایر علوم‌انسانی.

در نخستین قدم با تهیه منابعی هدف‌دار با ساختارِ آموزش‌محور (برای گروه هدف پژوهش‌گران، دانش‌جویان، مدیران و البته تصمیم‌سازان سازمان‌ها)، سعی می‌شود استفاده از ابزار و تکنیک‌های مبتنی بر دانش به عنوان راه‌حل‌های جدی و حتی برتر تبلیغ شوند.

مجموعه داده های هستان شناسی آنتولوژی فارسی
مجموعه داده های هستان شناسی

کارهای قابل انجام به وسیله آنتولوژی

به وسیله آنتولوژی دو کار صورت می پذیرد:

  • آنتولوژی یک فهم مشترک از یک مفهوم واحد را ارائه می دهد. زیرا گاهی اوقات برای یک مفهوم از دو لغت متمایز استفاده می کنیم یا بالعکس از یک لغت برای دو مفهوم متفاوت استفاده می کنیم.
  • آنتولوژی بین مفاهیم در وب و دنیای واقعی ارتباط برقرار می کند.

پیاده سازی آنتولوژی

برای تعریف رسمی یک آنتولوژی باید از زبان‌های قابل فهم و قابل استدلال توسط ماشین استفاده شود. بدین منظور زبان‌های مختلفی ایجاد شده است. در تمام این زبان‌ها، یک آنتولوژی دست‌کم دارای سه مولفه است: کلاس، رابطه و نمونه.

یک «کلاس» عبارت است از گروهی از موجودات یا اشیا که دارای ویژگی‌های مشابهی هستند. در ادبیات آنتولوژی گاهی به‌جای واژه‌ی کلاس از واژه «مفهوم» استفاده می‌شود. کلاس‌های آنتولوژی با کلاس‌های زبان‌های شیءگرا اندکی متفاوتند. مطابق تعریف فوق، کلاس در آنتولوژی، یک مجموعه است حال آنکه در زبان‌های شیءگرا کلاس یک قالب برای ساخت اشیا است.

به هر یک از اعضای یک کلاس، یک «نمونه» گفته می‌شود. یک شیء می‌تواند به چندین کلاس تعلق داشته باشد و یا به عبارتی دیگر نمونه‌ی چندین کلاس باشد. یک شیء در صورت داشتن ویژگی‌های خاص یا تامین شروط ویژه می‌تواند به عضویت یک کلاس درآید یا نمونه‌ی آن کلاس گردد. یک «رابطه»، همان‌طور که از اسمش برمی‌آید، نمونه‌هایی از یک کلاس را به نمونه‌هایی از یک کلاس دیگر یا به مقادیر ثابت، مرتبط می‌کند. اغلب به رابطه، «خصیصه» نیز گفته می‌شود.

 زبانهای پیاده سازی آنتولوژی عبارتند از :

RDF (S) (Resource Description Framework (Schema))

OIL (Ontology Interchange Language)

DAML+ OIL (DARPI Agent Markup Language + OIL)

OWL (Ontology Web Language)

XOL (XML- based Ontology exchange Language)

SHOE (Simple HTML Ontology Extension)

OML (Ontology Markup Language)

که به صورت کلی به دو دسته تقسیم می شوند:

  • زبان های گزاره ای: Rules (RuleML, LP/Prolog), Description Logic (OIL, DAML+ OIL, OWL)
  • زبان هایی که از گراف استفاده می کنند:RDF,UML,…..

توسعه آنتولوژی

برای توسعه آنتولوژی از یک رویکردی تکراری (Iterative) استفاده می‌کنیم. ابتدا با یک گذر اولیه از آنتولوژی شروع می‌کنیم سپس شروع به تصحیح و اصلاح مرحله به مرحله می‌کنیم و در هر مرحله جزئیات جدید به آن اضافه می‌کنیم. بعد از تعریف نسخه اولیه شروع به debug و ارزیابی (Evaluate) این نسخه می‌کنیم. این فرایند تکراری به صورت زیر است: 

گام اول: تعیین دامنه و حوزه آنتولوژی: مراحل مختلف توسعه یک آنتولوژی را با تعریف دامنه و حوزه آن آغاز می‌کنیم. یکی از روش‌های تعیین حوزه آنتولوژی تهیه لیستی از پرسش‌هایی است که سیستم KB مبتنی بر آنتولوژی باید قادر به پاسخگویی به آن باشد.

گام دوم: در نظر گرفتن مسئله استفاده مجدد از آنتولوژی‌ها: لحاظ‌کردن کاری که قبلاً توسط دیگران انجام شده و اعمال تغییرات اصلاحات و یا توسعه در منابع موجود جهت انطباق با دامنه و کاربرد خاص مورد نظرها 

گام سوم: شمارش واژه‌های مهم در آنتولوژی: تهیه لیستی از تمامی واژه‌هایی که تمایل داریم برای آن جمله بسازیم یا در یک کاربرد درباره آن توضیح دهیم. 

گام چهارم: تعریف کلاس‌ها و سلسله مراتب کلاس‌ها

  • بالا به پایین: ابتدا مفاهیم عام در دامنه سپس با اتخاذ زیر کلاس‌های خاص‌تر
  • پایین به بالا: ابتدا کلاس‌هایی خاص سپس برگ‌های سلسله مراتب کلاس‌ها سپس با گروه‌بندی این کلاس در قالب عام
  • ترکیبی: ترکیبی از روش بالا به پایین و پایین به بالا محسوب می‌گردد. رویکرد ترکیبی راه‌حل ساده‌تر محسوب می‌شود از لیستی که در گام سوم ایجاد کرده‌ایم واژه‌هایی را انتخاب می‌کنیم که اشیاء مستقل را توصیف می‌کنند این واژه‌ها و آنتولوژی «کلاس» را مشخص کرده و نقاط لنگرگاه در سلسله مراتب کلاس‌ها را تشکیل می‌دهند.

گام پنجم: تعریف ویژگی‌های کلاس Slots 
گام ششم: تعریف جنبه‌های Slots ها: این ویژگی تعداد مقادیری که یک slot می‌تواند داشته باشد را تعریف می‌کند.

دانلود مجموعه داده های هستان شناسی فارسی برای لغات هم معنا

Download (ZIP, 601KB)

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *