خانه --> دیتاست (data set) --> دیتاست اخبار حدود چهار هزار خبر فارسی به تفکیک تاریخ

دیتاست اخبار حدود چهار هزار خبر فارسی به تفکیک تاریخ

مجموعه داده اخبار فارسی شامل بیش از سه هزار خبر از خبرگزاری های مختلف است. همه ما روزانه ده ها خبر مطالعه و جستجو می کنیم. دنبال کردن اخبار یکی از عادات روزانه ماست. در این دیتاست اخبار گوناگون جمع آوری شده است. این مجموعه داده شامل متن اخبار است.  فرمت این مجموعه داده پایگاه داده txt است. این مجموعه داده برای علاقه مندان تهیه شده است. این مجموعه داده برای کسانی که به دنبال متن کاوی از اخبار فارسی هستند بسیار مفید است.

 این کورپوس شامل ۳ هزار عنوان خبر می باشد که بر اساس تاریخ برچسب گزاری شده اند. یکی از اشکالات این کورپوس عدم مناسب بودن برای پردازش توسط ابزارهای داده کاوی و متن کاوی بود. تیم ما با پردازش بر روی این دیتاست توانست آن را به فرمت مورد قبول این ابزارها از جمله فایل txt تبدیل کند. این مجموعه داده برای انجام تحقیقات متن کاوی و طبقه بندی متون فارسی آماده است.

دانلود مجموعه داده اخبار

دیتاست اخبار
دیتاست اخبار

مجموعه داده اخبار فارسی مربوط به متن اخبار و گروه اخبار های منتشر شده در روزنامه همشهری مربوط به سال های ۱۳۷۵-۱۳۸۷ می باشد. در دیتاست همشهری نسخه یک،  ۱۶۶ هزار خبر به همراه گروه خبر وجود دارد. یکی از مشکلاتی که محققین داخلی با این مجموعه داده داشته اند فرمت xml این دیتاست است. تیم فنی ما اینکه این مجموعه داده برای انجام پردازش و ایجاد مدل های طبقه بندی آماده تر باشد آن را به فرمت txt تبدیل کرده است. برای آگاهی از دیتاست های منتشر شده توسط دیتاهارت می توانید به کانال تلگرامی ما بپیوندید.

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *