دانلود مجموعه داده های هستان شناسی فارسی برای لغات هم معنا

مجموعه داده های هستان شناسی و داده های پیوندی Linked Data

هستی‌شناسی، دانش ساختاريافته در مورد يک حوزه خاص است که از طريق ارائه مفاهيم و روابط ميان آنها در آن حوزه شکل می‌گيرد. امروزه، به‌دليل طراحی هستی‌شناسی در حوزه‌های موضوعی مختلف، ارائه معيارهايی برای گزينش مناسب‌ترين هستی‌شناسی، ضروری است.

دانلود مجموعه داده های هستان شناسی فارسی برای لغات هم معنا

هدف از آنتو چیست؟

پروژه‌ی آنتو، پروژه‌ی ساخت منبع فارسی برای ارائه‌ی دست‌آوردها، مطالعات و پروهش‌ها، پژوهشگران، آنتولوژی‌ها، و بررسی کاربردهای سازمانی و محافظه‌کارانه از مهندسی دانش، آنتولوژی و سیستم‌های خبره است. هدف از این پروژه کمک به آموزش و تشویق به استفاده از تکنیک‌های مبتنی بر دانش، و تکنیک‌های محتوامحور در هوشِ مصنوعی با جمع‌آوری مجموعه‌ای هدف‌مند از منابع برگزیده در این حوزه است.

مطالعه‌ی «شناخت» و «هوش»به صورت مفاهیمی محتوا-محور، خلاصه‌ی خروجی‌های پروژه‌ی آنتو خواهد بود. با این حال، باید این محدودیت را در نظر داشت که تکنولوژی‌های مهندسی دانش و اطلاعات (که معمولا مبتنی بر منطق‌ها هستند)، نمی‌تواند همه‌ی ویژگی‌ها و کارکردهای معنا در ذهن و فلسفه را فراهم کنند. پروژه‌ی آنتو نگاهی بی‌طرفانه خواهد داشت به دست‌آوردها و دغدغه‌های فعلیِ مرتبط در بخش‌های مختلف علم؛ از علوم کامپیوتر، مهندسی و ریاضیات، منطق، علوم اعصاب، علوم شناختی، بیولوژی، تا مطالعات انسانی مانند فلسفه، فلسفه‌ی ذهن، مدیریت و سایر علوم‌انسانی.

در نخستین قدم با تهیه منابعی هدف‌دار با ساختارِ آموزش‌محور (برای گروه هدف پژوهش‌گران، دانش‌جویان، مدیران و البته تصمیم‌سازان سازمان‌ها)، سعی می‌شود استفاده از ابزار و تکنیک‌های مبتنی بر دانش به عنوان راه‌حل‌های جدی و حتی برتر تبلیغ شوند.

مجموعه داده های هستان شناسی آنتولوژی فارسی
مجموعه داده های هستان شناسی

کارهای قابل انجام به وسیله آنتولوژی

به وسیله آنتولوژی دو کار صورت می پذیرد:

  • آنتولوژی یک فهم مشترک از یک مفهوم واحد را ارائه می دهد. زیرا گاهی اوقات برای یک مفهوم از دو لغت متمایز استفاده می کنیم یا بالعکس از یک لغت برای دو مفهوم متفاوت استفاده می کنیم.
  • آنتولوژی بین مفاهیم در وب و دنیای واقعی ارتباط برقرار می کند.

پیاده سازی آنتولوژی

برای تعریف رسمی یک آنتولوژی باید از زبان‌های قابل فهم و قابل استدلال توسط ماشین استفاده شود. بدین منظور زبان‌های مختلفی ایجاد شده است. در تمام این زبان‌ها، یک آنتولوژی دست‌کم دارای سه مولفه است: کلاس، رابطه و نمونه.

یک «کلاس» عبارت است از گروهی از موجودات یا اشیا که دارای ویژگی‌های مشابهی هستند. در ادبیات آنتولوژی گاهی به‌جای واژه‌ی کلاس از واژه «مفهوم» استفاده می‌شود. کلاس‌های آنتولوژی با کلاس‌های زبان‌های شیءگرا اندکی متفاوتند. مطابق تعریف فوق، کلاس در آنتولوژی، یک مجموعه است حال آنکه در زبان‌های شیءگرا کلاس یک قالب برای ساخت اشیا است.

به هر یک از اعضای یک کلاس، یک «نمونه» گفته می‌شود. یک شیء می‌تواند به چندین کلاس تعلق داشته باشد و یا به عبارتی دیگر نمونه‌ی چندین کلاس باشد. یک شیء در صورت داشتن ویژگی‌های خاص یا تامین شروط ویژه می‌تواند به عضویت یک کلاس درآید یا نمونه‌ی آن کلاس گردد. یک «رابطه»، همان‌طور که از اسمش برمی‌آید، نمونه‌هایی از یک کلاس را به نمونه‌هایی از یک کلاس دیگر یا به مقادیر ثابت، مرتبط می‌کند. اغلب به رابطه، «خصیصه» نیز گفته می‌شود.

 زبانهای پیاده سازی آنتولوژی عبارتند از :

RDF (S) (Resource Description Framework (Schema))

OIL (Ontology Interchange Language)

DAML+ OIL (DARPI Agent Markup Language + OIL)

OWL (Ontology Web Language)

XOL (XML- based Ontology exchange Language)

SHOE (Simple HTML Ontology Extension)

OML (Ontology Markup Language)

که به صورت کلی به دو دسته تقسیم می شوند:

  • زبان های گزاره ای: Rules (RuleML, LP/Prolog), Description Logic (OIL, DAML+ OIL, OWL)
  • زبان هایی که از گراف استفاده می کنند:RDF,UML,…..

توسعه آنتولوژی

براي توسعه آنتولوژي از يك رویکردی تكراري (Iterative) استفاده مي‌كنيم. ابتدا با يك گذر اوليه از آنتولوژي شروع مي‌كنيم سپس شروع به تصحيح و اصلاح مرحله به مرحله مي‌كنيم و در هر مرحله جزئيات جديد به آن اضافه مي‌كنيم. بعد از تعريف نسخه اوليه شروع به debug و ارزيابي (Evaluate) اين نسخه مي‌كنيم. اين فرايند تكراري به صورت زير است: 

گام اول: تعيين دامنه و حوزه آنتولوژي: مراحل مختلف توسعه يك آنتولوژي را با تعريف دامنه و حوزه آن آغاز مي‌كنيم. يكي از روش‌هاي تعيين حوزه آنتولوژي تهيه ليستي از پرسش‌هايي است كه سيستم KB مبتني بر آنتولوژي بايد قادر به پاسخگويي به آن باشد.

گام دوم: در نظر گرفتن مسئله استفاده مجدد از آنتولوژي‌ها: لحاظ‌كردن كاري كه قبلاً توسط ديگران انجام شده و اعمال تغييرات اصلاحات و يا توسعه در منابع موجود جهت انطباق با دامنه و كاربرد خاص مورد نظرها 

گام سوم: شمارش واژه‌هاي مهم در آنتولوژي: تهيه ليستي از تمامي واژه‌هايي كه تمايل داريم براي آن جمله بسازيم يا در يك كاربرد درباره آن توضيح دهيم. 

گام چهارم: تعريف كلاس‌ها و سلسله مراتب كلاس‌ها

  • بالا به پايين: ابتدا مفاهيم عام در دامنه سپس با اتخاذ زير كلاس‌هاي خاص‌تر
  • پايين به بالا: ابتدا كلاس‌هايي خاص سپس برگ‌هاي سلسله مراتب كلاس‌ها سپس با گروه‌بندي اين كلاس در قالب عام
  • تركيبي: تركيبي از روش بالا به پايين و پايين به بالا محسوب مي‌گردد. رویکرد تركيبي راه‌حل ساده‌تر محسوب مي‌شود از ليستي كه در گام سوم ايجاد كرده‌ايم واژه‌هايي را انتخاب مي‌كنيم كه اشياء مستقل را توصيف مي‌كنند اين واژه‌ها و آنتولوژي «كلاس» را مشخص كرده و نقاط لنگرگاه در سلسله مراتب كلاس‌ها را تشكيل مي‌دهند.

گام پنجم: تعريف ويژگي‌هاي كلاس Slots 
گام ششم: تعريف جنبه‌هاي Slots ها: اين ويژگي تعداد مقاديري كه يك slot مي‌تواند داشته باشد را تعريف مي‌كند.

دانلود مجموعه داده های هستان شناسی فارسی برای لغات هم معنا

Download (ZIP, 601KB)

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *