مجموعه داده برای تشخیص و ردیابی موضوع (TDT)
مجموعه داده برای تشخیص و ردیابی موضوع (TDT)
برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده[1]ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شدهاند به شرح زیر میباشند:
جریان موضوعات
جریان موضوعات به مجموعهای از خوشههای مرتبط به یکدیگر از لحاظ معنایی گفته ميشود (بر اساس معیار تشابه)، که بیش از p روز مسکوت نمانده باشد. منظور آن است که از آخرین روزی که یک خوشه به آن داستان ارتباط پیدا کرده است بیش از p روز نگذشته باشد. در غیر این صورت با خوشه جدید به عنوان یک داستان جدید برخورد خواهد شد؛ هر چند که آن خوشه ارتباط معنایی با آن جریان داشته باشد.
بحثهای زیر در طراحی این ماژول باید مورد بررسی قرار گیرد:
- انتخاب معیار محاسبه شباهت خوشه ها و storyها
- تعیین آستانه شباهت
- انتخاب روش مصورسازی مناسب از بین/ با ترکیب روشهای زیر:
- روش time line graph
- روش zoom view و monthly view
- تکنیکهای پیگیری موضوعی اخبار
تعاریف پایه:
- رویداد یا Event: گزاره خاصی که در زمان و مکان مشخصی رخ میدهد.
- داستان یا Story : مجموعه ای از اخبار که شامل توصیفات متفاوت از یک رویداد واحد هستند.
- موضوع Topic : یک رویداد یا فعالیت اصلی همراه با تمام رویداد ها و فعالیتهای وابسته به آن.
- :TDT1 این چارچوب شامل تقریباً 16000 موضوع خبر است که در بازه زمانی ژوئیه 1994 تا 30 ژوئن 1995 از اخبار مستند روییتر و اخبار متنی شبکه های رادیو و تلویزیون CNN جمعآوری شده است. TDT1 بخش جدایی ناپذیر و کلیدی در زمینهی حاشیه نویسی رویدادهای خبری مورد بحث در موضوعات اخبار است.
- :TDT2 مجموعهای از متون انگلیسی است که شامل اخبار روزانه شش ماه شش منبع خبری انگلیسی است. دوره زمانی جمعآوری خبرها از 4 ژانویه تا 30 ژوئن 1998 است. شش منبع خبری عبارتاند از: New York Times، News Service، CNN “Headline News”، Associated Press World stream News Service، ABC “World News Tonight”، Voice of America.
- TDT3: مجموعهای برای ردیابی موضوع شامل 71.388 موضوع خبری از منابع خبری انگلیسی و Mandarin شامل (AP, NYT, CNN, ABC, NBC, MSNBC, Xinhua, Zaobao, Voice of America and PRI the World) در دوره زمانی اول اکتبر تا دسامبر 1998 که نسخه ترجمه ماشینی موضوعات خبری غیر انگلیسی نیز در آن درج شده است.
- پیکره INFILE[2]: پیکره INFILE در مسابقههای CLEF-2009 و CLEF-2008و کارگاه LREC2010 برای ارزیابی سیستمهای توافقی بین زبانی[3] استفاده شده است. این مجموعه شامل 300.000 خبر از خبرگزاری فرانسه بین سالهای 2004 تا 2006 به سه زبان عربی، انگلیسی و فرانسوی است. همچنین مجموعهای متشکل از 50 موضوع عمومی و خاص همانند اطلاعات فنی و علمی بر روی آن وجود دارد.
- مجموعه داده پرسیکا: مجموعه داده پردازش شده پرسیکا برای طبقه بندی متون خبری فارسی توسط محققین داخلی عرضه شده است. این پیکره شامل 11 هزار عنوان خبر میباشد که در 11 گروه برچسبگذاری شدهاند. یکی از اشکالات این پیکره مناسب نبودن برای پردازش توسط ابزارهای دادهکاوی و متنکاوی است.
مجموعه داده همشهری: مجموعه همشهری از جمله پیکرههای معتبر برای تحلیل متون فارسی است که با خزش وبسایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری در دو نسخه توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران منتشر شده و در همایشهای معتبر بینالمللی Persian@CLEF2008 وPersian@CLEF2009 مطرح گردیده است. نسخه یک پیکره همشهری دارای 160 هزار خبر فارسی روزنامه همشهری بین سالهای 1375 تا 1380 میباشد. نسخه دو این پیکره حاوی ۳۱۸ هزار سند مربوط به اخبار محدوده زمانی 1۲سال از سالهای ۱۳۷۵ تا ۱۳۸۶ مجموعه داده همشهری است. نسخۀ دو پیکره همشهری تحت حمایت مرکز تحقیقات مخابرات ایران تهیه و منتشر شده است. تعداد اخبار منتشر شده هر روز در پیکره خبری مذکور بین 50 تا 70 خبر فارسی است. اخبار هر روز در یک فایل XML به صورت زیر میباشد.
<DOC> <DOCID>HAM2-780420-050</DOCID> <DOCNO>HAM2-780420-050</DOCNO> <ORIGINALFILE>/1378/780420/siasi.htm</ORIGINALFILE> <ISSUE>يكشنبه 20 11 jul 1999 تير 1378،، شماره 1873</ISSUE> <DATE calender="Western">1999-07-11</DATE> <DATE calender="Persian">1378/04/20</DATE> <CAT xml:lang="fa">سیاسی</CAT> <CAT xml:lang="en">Politics</CAT> <TITLE> <![CDATA[شوراي شهرتهران تهاجم به كوي دانشگاه را محكوم كرد]]> </TITLE> <TEXT> <![CDATA[شوراي اسلامي شهر تهران در جلسه فوق العاده ديروز خود ضمن ابرازتاسف از بروز حادثه در كوي دانشگاه تهران، اين حادثه را محكوم كرد. سخنگوي شوراي اسلامي شهر تهران در پايان جلسه گفت: اين جلسه به دنبال حوادث تاسف بار روزگذشته كوي دانشگاه تهران ودخالت و يورش نيروهاي انتظامي و شبه نظاميان در اين ماجرا كه منجر به هتك حرمت به حريم مقدس دانشگاه وضرب و جرح دانشجويان شد، تشكيل شد. صديقه وسمقي افزود: با توجه به اهميت موضوع، اعضاي شوراي شهر گروهي رااز ميان اعضاي اين شورابه عنوان مسوول تحقيق و پي گيري اين حادثه انتخاب كرد. وي گفت: شوراي اسلامي شهر تهران از مسئولان خواست با جديت آمرين و عاملان اين واقعه را شناسايي و مورد تعقيب و پي گرد قانوني قراردهد.]]> </TEXT> </DOC> |
دانلود فرم درخواست پیکره خبری همشهری
لینکهای مفید:
- Kamaldeep Kaur, Vishal Gupta, “A Survey of Topic Tracking Techniques,” International Journal of Advanced Research in Computer Science and Software Engineering, vol. 2, no. 5, pp. 383-393, May 2012.
- Besançon, S. Chaudiron, D. Mostefa, O. Hamon, I. Timimi, and K. Choukri, “Overview of CLEF 2008 INFILE pilot track,” Evaluating Systems for Multilingual and Multimodal Information Access, p. 939–946, 2009.
- Abolfazl AleAhmad, Hadi Amiri, Ehsan Darrudi, Masoud Rahgozar, Farhad Oroumchian, “Hamshahri: A Standard Persian Text Collection,” Knowledge-Based Systems, vol. 22, no. 5, p. 382–387, 2009.
- http://dbrg.ut.ac.ir/Hamshahri/download.html
- https://www.semanticscholar.org/paper/Joint-Image-Text-News-Topic-Detection-and-Tracking-Li-Joo/32edcfec2d24dd6dd2a80315571e9b06e8365b26
[1] Dataset
[2] INformation, Filtering, Evaluation
[3] cross-language adaptive filtering
آدرس کانال تلگرام سایت بیگ دیتا:
آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel
جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.
بازدیدها: 2176
برچسبEvent Tracking story story tracking TDT Topic detection Topic detection & Tracking Topic Tracking پیگیری موضوع پیگیری موضوعات تحلیل متن تشخیص موضوع تشخیص و ردیابی موضوع داستان ردیابی موضوع رویداد طبقه بندی متون متن کاوی مجموعه داده محاسبه شباهت معیار شباهت معیار محاسبه شباهت موضوع
همچنین ببینید
مراحل پیشپردازش متن خبر فارسی
پیشپردازش متن فارسی برای پردازش زبان طبیعی و انجام عمليات خودکار بر روي متن مانند …
یک دیدگاه
دیدگاهتان را بنویسید
برای نوشتن دیدگاه باید وارد بشوید.
با سلام دوست عزيز
ممنون از مطالبي که روي سايت قرار داديد مثل هميشه عاليه
می توانید برای دریافت مطالب در مورد دیتابیس دیکشنری زبان انگلیسی دانلود بانک اطلاعات ترجمه انگلیسی به فارسی به لینک زیر هم بروید
http://yektafile.ir/?p=151