مجموعه داده برای تشخیص و ردیابی موضوع (TDT)

2,447 تعداد نمایش

مجموعه داده برای تشخیص و ردیابی موضوع (TDT)

برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده^[1]ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شدهاند به شرح زیر می‌باشند:

جریان موضوعات

جریان موضوعات به مجموعه‌ای از خوشه‌های مرتبط به یکدیگر از لحاظ معنایی گفته مي‌شود (بر اساس معیار تشابه)، که بیش از p روز مسکوت نمانده باشد. منظور آن است که از آخرین روزی که یک خوشه به آن داستان ارتباط پیدا کرده است بیش از p روز نگذشته باشد. در غیر این صورت با خوشه جدید به عنوان یک داستان جدید برخورد خواهد شد؛ هر چند که آن خوشه ارتباط معنایی با آن جریان داشته باشد.

بحثهای زیر در طراحی این ماژول باید مورد بررسی قرار گیرد:

انتخاب معیار محاسبه شباهت خوشه ها و storyها
تعیین آستانه شباهت
انتخاب روش مصورسازی مناسب از بین/ با ترکیب روشهای زیر:
- روش time line graph
- روش zoom view و monthly view
تکنیکهای پیگیری موضوعی اخبار

تعاریف پایه:

رویداد یا Event: گزاره خاصی که در زمان و مکان مشخصی رخ میدهد.
داستان یا Story : مجموعه ای از اخبار که شامل توصیفات متفاوت از یک رویداد واحد هستند.
موضوع Topic : یک رویداد یا فعالیت اصلی همراه با تمام رویداد ها و فعالیتهای وابسته به آن.

:TDT₁ این چارچوب شامل تقریباً 16000 موضوع خبر است که در بازه زمانی ژوئیه 1994 تا 30 ژوئن 1995 از اخبار مستند روییتر و اخبار متنی شبکه های رادیو و تلویزیون CNN جمع‌آوری شده است. TDT₁ بخش جدایی ناپذیر و کلیدی در زمینه‌ی حاشیه نویسی رویدادهای خبری مورد بحث در موضوعات اخبار است.
:TDT₂ مجموعهای از متون انگلیسی است که شامل اخبار روزانه شش ماه شش منبع خبری انگلیسی است. دوره زمانی جمعآوری خبرها از 4 ژانویه تا 30 ژوئن 1998 است. شش منبع خبری عبارت‌اند از: New York Times، News Service، CNN “Headline News”، Associated Press World stream News Service، ABC “World News Tonight”، Voice of America.
TDT3: مجموعهای برای ردیابی موضوع شامل 71.388 موضوع خبری از منابع خبری انگلیسی و Mandarin شامل (AP, NYT, CNN, ABC, NBC, MSNBC, Xinhua, Zaobao, Voice of America and PRI the World) در دوره زمانی اول اکتبر تا دسامبر 1998 که نسخه ترجمه ماشینی موضوعات خبری غیر انگلیسی نیز در آن درج شده است.
پیکره INFILE^[2]: پیکره INFILE در مسابقههای CLEF-2009 و CLEF-2008و کارگاه LREC2010 برای ارزیابی سیستمهای توافقی بین زبانی[3] استفاده شده است. این مجموعه شامل 300.000 خبر از خبرگزاری فرانسه بین سالهای 2004 تا 2006 به سه زبان عربی، انگلیسی و فرانسوی است. همچنین مجموعهای متشکل از 50 موضوع عمومی و خاص همانند اطلاعات فنی و علمی بر روی آن وجود دارد.
مجموعه داده پرسیکا: مجموعه داده پردازش شده پرسیکا برای طبقه بندی متون خبری فارسی توسط محققین داخلی عرضه شده است. این پیکره شامل 11 هزار عنوان خبر میباشد که در 11 گروه برچسبگذاری شدهاند. یکی از اشکالات این پیکره مناسب نبودن برای پردازش توسط ابزارهای دادهکاوی و متنکاوی است.

مجموعه داده همشهری: مجموعه همشهری از جمله پیکرههای معتبر برای تحلیل متون فارسی است که با خزش وب‌سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری در دو نسخه توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران منتشر شده و در همایش‌های معتبر بین‌المللی Persian@CLEF2008 وPersian@CLEF2009 مطرح گردیده است. نسخه یک پیکره همشهری دارای 160 هزار خبر فارسی روزنامه همشهری بین سالهای 1375 تا 1380 میباشد. نسخه دو این پیکره حاوی ۳۱۸ هزار سند مربوط به اخبار محدوده زمانی 1۲سال از سال‌های ۱۳۷۵ تا ۱۳۸۶ مجموعه داده همشهری است. نسخۀ دو پیکره همشهری تحت حمایت مرکز تحقیقات مخابرات ایران تهیه و منتشر شده است. تعداد اخبار منتشر شده هر روز در پیکره خبری مذکور بین 50 تا 70 خبر فارسی است. اخبار هر روز در یک فایل XML به صورت زیر میباشد.

<DOC>

<DOCID>HAM2-780420-050</DOCID>

<DOCNO>HAM2-780420-050</DOCNO>

<ORIGINALFILE>/1378/780420/siasi.htm</ORIGINALFILE>

<ISSUE>يكشنبه 20 11 jul 1999 تير 1378،، شماره 1873</ISSUE>

<DATE calender="Western">1999-07-11</DATE>

<DATE calender="Persian">1378/04/20</DATE>

<CAT xml:lang="fa">سیاسی</CAT>

<CAT xml:lang="en">Politics</CAT>

<TITLE>

<![CDATA[شوراي شهرتهران تهاجم به كوي دانشگاه را محكوم كرد]]>

</TITLE>

<TEXT>

<![CDATA[شوراي اسلامي شهر تهران در جلسه فوق العاده ديروز خود

ضمن ابرازتاسف از بروز حادثه در كوي دانشگاه تهران، اين

حادثه را محكوم كرد.

سخنگوي شوراي اسلامي شهر تهران در پايان جلسه گفت: اين

جلسه به دنبال حوادث تاسف بار روزگذشته كوي دانشگاه

تهران ودخالت و يورش نيروهاي انتظامي و شبه نظاميان در

اين ماجرا كه منجر به هتك حرمت به حريم مقدس دانشگاه

وضرب و جرح دانشجويان شد، تشكيل شد.

صديقه وسمقي افزود: با توجه به اهميت موضوع، اعضاي

شوراي شهر گروهي رااز ميان اعضاي اين شورابه عنوان

مسوول تحقيق و پي گيري اين حادثه انتخاب كرد. وي گفت:

شوراي اسلامي شهر تهران از مسئولان خواست با جديت آمرين

و عاملان اين واقعه را شناسايي و مورد تعقيب و پي گرد

قانوني قراردهد.]]>

</TEXT>

</DOC>

دانلود فرم درخواست پیکره خبری همشهری

لینکهای مفید:

Kamaldeep Kaur, Vishal Gupta, “A Survey of Topic Tracking Techniques,” International Journal of Advanced Research in Computer Science and Software Engineering, vol. 2, no. 5, pp. 383-393, May 2012.
Besançon, S. Chaudiron, D. Mostefa, O. Hamon, I. Timimi, and K. Choukri, “Overview of CLEF 2008 INFILE pilot track,” Evaluating Systems for Multilingual and Multimodal Information Access, p. 939–946, 2009.
Abolfazl AleAhmad, Hadi Amiri, Ehsan Darrudi, Masoud Rahgozar, Farhad Oroumchian, “Hamshahri: A Standard Persian Text Collection,” Knowledge-Based Systems, vol. 22, no. 5, p. 382–387, 2009.
http://dbrg.ut.ac.ir/Hamshahri/download.html
https://www.semanticscholar.org/paper/Joint-Image-Text-News-Topic-Detection-and-Tracking-Li-Joo/32edcfec2d24dd6dd2a80315571e9b06e8365b26

[1] Dataset

[2] INformation, Filtering, Evaluation

[3] cross-language adaptive filtering

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

بازدیدها: 2182

یک دیدگاه

دیتابیس دیکشنری زبان انگلیسی دانلود بانک اطلاعات ترجمه انگلیسی به فارسی
مهر 21, 1397 در 7:31 ق.ظ

با سلام دوست عزيز
ممنون از مطالبي که روي سايت قرار داديد مثل هميشه عاليه
می توانید برای دریافت مطالب در مورد دیتابیس دیکشنری زبان انگلیسی دانلود بانک اطلاعات ترجمه انگلیسی به فارسی به لینک زیر هم بروید
http://yektafile.ir/?p=151

دیدگاهتان را بنویسید

برای نوشتن دیدگاه باید وارد بشوید.

خانه بیگ دیتا تحلیل شبکه های اجتماعی، متن کاوی، داده کاوی، اوسینت و داده های حجیم

مجموعه داده برای تشخیص و ردیابی موضوع (TDT)