مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT)

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT)

برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده­[1]­ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شده­اند به شرح زیر می‌باشند:

جریان موضوعات

جریان موضوعات به مجموعه‌ای از خوشه‌های مرتبط به یکدیگر از لحاظ معنایی گفته مي‌­شود (بر اساس معیار تشابه)، که بیش از p روز مسکوت نمانده باشد. منظور آن است که از آخرین روزی که یک خوشه به آن داستان ارتباط پیدا کرده است بیش از p روز نگذشته باشد. در غیر این صورت با خوشه جدید به عنوان یک داستان جدید برخورد خواهد شد؛ هر چند که آن خوشه ارتباط معنایی با آن جریان داشته باشد.

بحث­های زیر در طراحی این ماژول باید مورد بررسی قرار گیرد:

  • انتخاب معیار محاسبه شباهت خوشه­ ها و storyها
  • تعیین آستانه شباهت
  • انتخاب روش مصورسازی مناسب از بین/ با ترکیب روش­های زیر:
    • روش time line graph
    • روش zoom view و monthly view
  • تکنیک­های پیگیری موضوعی اخبار

تعاریف پایه:

  • رویداد یا  Event: گزاره خاصی که در زمان و مکان مشخصی رخ می­دهد.
  • داستان یا Story : مجموعه ای از اخبار که شامل توصیفات متفاوت از یک رویداد واحد هستند.
  • موضوع Topic : یک رویداد یا فعالیت اصلی همراه با تمام رویداد ها و فعالیت­های وابسته به آن.

تشخیص و ردیابی موضوع
تشخیص و ردیابی موضوع
تشخیص و ردیابی موضوع
تشخیص و ردیابی موضوع
  • :TDT1 این چارچوب شامل تقریباً 16000 موضوع خبر است که در بازه زمانی ژوئیه 1994 تا 30 ژوئن 1995 از اخبار مستند روییتر و اخبار متنی شبکه ­های رادیو و تلویزیون CNN جمع‌آوری شده است. TDT1 بخش جدایی ناپذیر و کلیدی در زمینه‌ی حاشیه­ نویسی رویدادهای خبری مورد بحث در موضوعات اخبار است.
  • :TDT2 مجموعه­ای از متون انگلیسی است که شامل اخبار روزانه شش ماه شش منبع خبری انگلیسی است. دوره زمانی جمع­آوری خبرها از 4 ژانویه تا 30 ژوئن 1998 است. شش منبع خبری عبارت‌اند از: New York Times، News Service، CNN “Headline News”، Associated Press World stream News Service، ABC “World News Tonight”، Voice of America.
  • TDT3: مجموعه­ای برای ردیابی موضوع شامل 71.388 موضوع خبری از منابع خبری انگلیسی و Mandarin شامل (AP, NYT, CNN, ABC, NBC, MSNBC, Xinhua, Zaobao, Voice of America and PRI the World) در دوره زمانی اول اکتبر تا دسامبر 1998 که نسخه ترجمه ماشینی موضوعات خبری غیر انگلیسی نیز در آن درج شده است.
  • پیکره INFILE[2]: پیکره INFILE در مسابقه­های CLEF-2009 و CLEF-2008و کارگاه LREC2010 برای ارزیابی سیستم­های توافقی بین زبانی[3] استفاده شده است. این مجموعه شامل 300.000 خبر از خبرگزاری فرانسه بین سال­های 2004 تا 2006 به سه زبان عربی، انگلیسی و فرانسوی است. همچنین مجموعه­ای متشکل از 50 موضوع عمومی و خاص همانند اطلاعات فنی و علمی بر روی آن وجود دارد.
  • مجموعه داده پرسیکا: مجموعه داده پردازش شده پرسیکا برای طبقه­ بندی متون خبری فارسی توسط محققین داخلی عرضه شده است. این پیکره شامل 11 هزار عنوان خبر می­باشد که در 11 گروه برچسب­گذاری شده­اند. یکی از اشکالات این پیکره مناسب نبودن برای پردازش توسط ابزارهای داده­کاوی و متن­کاوی است.

مجموعه داده همشهری: مجموعه همشهری از جمله پیکره­های معتبر برای تحلیل متون فارسی است که با خزش وب‌سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری در دو نسخه توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران منتشر شده و در همایش‌های معتبر بین‌المللی Persian@CLEF2008  وPersian@CLEF2009  مطرح گردیده است. نسخه یک پیکره همشهری دارای 160 هزار خبر فارسی روزنامه همشهری بین سال­های 1375 تا 1380 می­باشد. نسخه دو این پیکره حاوی ۳۱۸ هزار سند مربوط به اخبار محدوده زمانی 1۲سال از سال‌های ۱۳۷۵ تا ۱۳۸۶ مجموعه داده همشهری است. نسخۀ دو پیکره همشهری تحت حمایت مرکز تحقیقات مخابرات ایران تهیه و منتشر شده است. تعداد اخبار منتشر شده هر روز در  پیکره خبری مذکور بین 50 تا 70 خبر فارسی است. اخبار هر روز در یک فایل XML به صورت زیر می­باشد.

دانلود فرم درخواست پیکره خبری همشهری

لینک­های مفید:

  • Kamaldeep Kaur, Vishal Gupta, “A Survey of Topic Tracking Techniques,” International Journal of Advanced Research in Computer Science and Software Engineering, vol. 2, no. 5, pp. 383-393, May 2012.
  • Besançon, S. Chaudiron, D. Mostefa, O. Hamon, I. Timimi, and K. Choukri, “Overview of CLEF 2008 INFILE pilot track,” Evaluating Systems for Multilingual and Multimodal Information Access, p. 939–946, 2009.
  • Abolfazl AleAhmad, Hadi Amiri, Ehsan Darrudi, Masoud Rahgozar, Farhad Oroumchian, “Hamshahri: A Standard Persian Text Collection,” Knowledge-Based Systems, vol. 22, no. 5, p. 382–387, 2009.
  • http://dbrg.ut.ac.ir/Hamshahri/download.html
  • https://www.semanticscholar.org/paper/Joint-Image-Text-News-Topic-Detection-and-Tracking-Li-Joo/32edcfec2d24dd6dd2a80315571e9b06e8365b26

[1] Dataset

[2] INformation, Filtering, Evaluation

[3] cross-language adaptive filtering

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

یک دیدگاه

  1. با سلام دوست عزيز
    ممنون از مطالبي که روي سايت قرار داديد مثل هميشه عاليه
    می توانید برای دریافت مطالب در مورد دیتابیس دیکشنری زبان انگلیسی دانلود بانک اطلاعات ترجمه انگلیسی به فارسی به لینک زیر هم بروید
    http://yektafile.ir/?p=151

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *