صفحه نخست --> دیتاست (data set) --> مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT)

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT)

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT)

برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده­[۱]­ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شده­اند به شرح زیر می‌باشند:

جریان موضوعات

جریان موضوعات به مجموعه‌ای از خوشه‌های مرتبط به یکدیگر از لحاظ معنایی گفته می‌­شود (بر اساس معیار تشابه)، که بیش از p روز مسکوت نمانده باشد. منظور آن است که از آخرین روزی که یک خوشه به آن داستان ارتباط پیدا کرده است بیش از p روز نگذشته باشد. در غیر این صورت با خوشه جدید به عنوان یک داستان جدید برخورد خواهد شد؛ هر چند که آن خوشه ارتباط معنایی با آن جریان داشته باشد.

بحث­های زیر در طراحی این ماژول باید مورد بررسی قرار گیرد:

  • انتخاب معیار محاسبه شباهت خوشه­ها و storyها
  • تعیین آستانه شباهت
  • انتخاب روش مصورسازی مناسب از بین/ با ترکیب روش­های زیر:
    • روش time line graph
    • روش zoom view و monthly view
  • تکنیک­های پیگیری موضوعی اخبار

تعاریف پایه:

  • رویداد یا  Event: گزاره خاصی که در زمان و مکان مشخصی رخ می­دهد.
  • داستان یا Story : مجموعه ای از اخبار که شامل توصیفات متفاوت از یک رویداد واحد هستند.
  • موضوع Topic : یک رویداد یا فعالیت اصلی همراه با تمام رویداد ها و فعالیت­های وابسته به آن.

تشخیص و ردیابی موضوع
تشخیص و ردیابی موضوع
تشخیص و ردیابی موضوع
تشخیص و ردیابی موضوع
  • :TDT1 این چارچوب شامل تقریباً ۱۶۰۰۰ موضوع خبر است که در بازه زمانی ژوئیه ۱۹۹۴ تا ۳۰ ژوئن ۱۹۹۵ از اخبار مستند روییتر و اخبار متنی شبکه­های رادیو و تلویزیون CNN جمع‌آوری شده است. TDT1 بخش جدایی ناپذیر و کلیدی در زمینه‌ی حاشیه­نویسی رویدادهای خبری مورد بحث در موضوعات اخبار است.
  • :TDT2 مجموعه­ای از متون انگلیسی است که شامل اخبار روزانه شش ماه شش منبع خبری انگلیسی است. دوره زمانی جمع­آوری خبرها از ۴ ژانویه تا ۳۰ ژوئن ۱۹۹۸ است. شش منبع خبری عبارت‌اند از: New York Times، News Service، CNN “Headline News”، Associated Press World stream News Service، ABC “World News Tonight”، Voice of America.
  • TDT3: مجموعه­ای برای ردیابی موضوع شامل ۷۱٫۳۸۸ موضوع خبری از منابع خبری انگلیسی و Mandarin شامل (AP, NYT, CNN, ABC, NBC, MSNBC, Xinhua, Zaobao, Voice of America and PRI the World) در دوره زمانی اول اکتبر تا دسامبر ۱۹۹۸ که نسخه ترجمه ماشینی موضوعات خبری غیر انگلیسی نیز در آن درج شده است.
  • پیکره INFILE[2]: پیکره INFILE در مسابقه­های CLEF-2009 و CLEF-2008و کارگاه LREC2010 برای ارزیابی سیستم­های توافقی بین زبانی[۳] استفاده شده است. این مجموعه شامل ۳۰۰٫۰۰۰ خبر از خبرگزاری فرانسه بین سال­های ۲۰۰۴ تا ۲۰۰۶ به سه زبان عربی، انگلیسی و فرانسوی است. همچنین مجموعه­ای متشکل از ۵۰ موضوع عمومی و خاص همانند اطلاعات فنی و علمی بر روی آن وجود دارد.
  • مجموعه داده پرسیکا: مجموعه داده پردازش شده پرسیکا برای طبقه­بندی متون خبری فارسی توسط محققین داخلی عرضه شده است. این پیکره شامل ۱۱ هزار عنوان خبر می­باشد که در ۱۱ گروه برچسب­گذاری شده­اند. یکی از اشکالات این پیکره مناسب نبودن برای پردازش توسط ابزارهای داده­کاوی و متن­کاوی است.

مجموعه داده همشهری: مجموعه همشهری از جمله پیکره­های معتبر برای تحلیل متون فارسی است که با خزش وب‌سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری در دو نسخه توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران منتشر شده و در همایش‌های معتبر بین‌المللی Persian@CLEF2008  وPersian@CLEF2009  مطرح گردیده است. نسخه یک پیکره همشهری دارای ۱۶۰ هزار خبر فارسی روزنامه همشهری بین سال­های ۱۳۷۵ تا ۱۳۸۰ می­باشد. نسخه دو این پیکره حاوی ۳۱۸ هزار سند مربوط به اخبار محدوده زمانی ۱۲سال از سال‌های ۱۳۷۵ تا ۱۳۸۶ مجموعه داده همشهری است. نسخۀ دو پیکره همشهری تحت حمایت مرکز تحقیقات مخابرات ایران تهیه و منتشر شده است. تعداد اخبار منتشر شده هر روز در  پیکره خبری مذکور بین ۵۰ تا ۷۰ خبر فارسی است. اخبار هر روز در یک فایل XML به صورت زیر می­باشد.

<DOC>

<DOCID>HAM2-780420-050</DOCID>

<DOCNO>HAM2-780420-050</DOCNO>

<ORIGINALFILE>/1378/780420/siasi.htm</ORIGINALFILE>

<ISSUE>یکشنبه ۲۰ ۱۱ jul 1999 تیر ۱۳۷۸،، شماره ۱۸۷۳</ISSUE>

<DATE calender=”Western”>1999-07-11</DATE>

<DATE calender=”Persian”>1378/04/20</DATE>

<CAT xml:lang=”fa”>سیاسی</CAT>

<CAT xml:lang=”en”>Politics</CAT>

<TITLE>

<![CDATA[شورای شهرتهران تهاجم به کوی دانشگاه را محکوم کرد]]>

</TITLE>

<TEXT>

<![CDATA[شورای اسلامی شهر تهران در جلسه فوق العاده دیروز خود

ضمن ابرازتاسف از بروز حادثه در کوی دانشگاه تهران، این

حادثه را محکوم کرد.

سخنگوی شورای اسلامی شهر تهران در پایان جلسه گفت: این

جلسه به دنبال حوادث تاسف بار روزگذشته کوی دانشگاه

تهران ودخالت و یورش نیروهای انتظامی و شبه نظامیان در

این ماجرا که منجر به هتک حرمت به حریم مقدس دانشگاه

وضرب و جرح دانشجویان شد، تشکیل شد.

صدیقه وسمقی افزود: با توجه به اهمیت موضوع، اعضای

شورای شهر گروهی رااز میان اعضای این شورابه عنوان

مسوول تحقیق و پی گیری این حادثه انتخاب کرد. وی گفت:

شورای اسلامی شهر تهران از مسئولان خواست با جدیت آمرین

و عاملان این واقعه را شناسایی و مورد تعقیب و پی گرد

قانونی قراردهد.]]>

</TEXT>

</DOC>

 

دانلود فرم درخواست پیکره خبری همشهری

 

لینک­های مفید:

  • Kamaldeep Kaur, Vishal Gupta, “A Survey of Topic Tracking Techniques,” International Journal of Advanced Research in Computer Science and Software Engineering, vol. 2, no. 5, pp. 383-393, May 2012.
  • Besançon, S. Chaudiron, D. Mostefa, O. Hamon, I. Timimi, and K. Choukri, “Overview of CLEF 2008 INFILE pilot track,” Evaluating Systems for Multilingual and Multimodal Information Access, p. 939–۹۴۶, ۲۰۰۹٫
  • Abolfazl AleAhmad, Hadi Amiri, Ehsan Darrudi, Masoud Rahgozar, Farhad Oroumchian, “Hamshahri: A Standard Persian Text Collection,” Knowledge-Based Systems, vol. 22, no. 5, p. 382–۳۸۷, ۲۰۰۹٫
  • http://dbrg.ut.ac.ir/Hamshahri/download.html
  • https://www.semanticscholar.org/paper/Joint-Image-Text-News-Topic-Detection-and-Tracking-Li-Joo/32edcfec2d24dd6dd2a80315571e9b06e8365b26

 

[۱] Dataset

[۲] INformation, Filtering, Evaluation

[۳] cross-language adaptive filtering

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

نظر(دیدگاه)

  1. با سلام دوست عزیز
    ممنون از مطالبی که روی سایت قرار دادید مثل همیشه عالیه
    می توانید برای دریافت مطالب در مورد دیتابیس دیکشنری زبان انگلیسی دانلود بانک اطلاعات ترجمه انگلیسی به فارسی به لینک زیر هم بروید
    http://yektafile.ir/?p=151

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *