دیتاست اخبار حدود چهار هزار خبر فارسی به تفکیک تاریخ
مجموعه داده اخبار فارسی شامل بیش از سه هزار خبر از خبرگزاری های مختلف است. همه ما روزانه ده ها خبر مطالعه و جستجو می کنیم. دنبال کردن اخبار یکی از عادات روزانه ماست. در این دیتاست اخبار گوناگون جمع آوری شده است. این مجموعه داده شامل متن اخبار است. فرمت این مجموعه داده پایگاه داده txt است. این مجموعه داده برای علاقه مندان تهیه شده است. این مجموعه داده برای کسانی که به دنبال متن کاوی از اخبار فارسی هستند بسیار مفید است.
این کورپوس شامل 3 هزار عنوان خبر می باشد که بر اساس تاریخ برچسب گزاری شده اند. یکی از اشکالات این کورپوس عدم مناسب بودن برای پردازش توسط ابزارهای داده کاوی و متن کاوی بود. تیم ما با پردازش بر روی این دیتاست توانست آن را به فرمت مورد قبول این ابزارها از جمله فایل txt تبدیل کند. این مجموعه داده برای انجام تحقیقات متن کاوی و طبقه بندی متون فارسی آماده است.
مجموعه داده اخبار فارسی مربوط به متن اخبار و گروه اخبار های منتشر شده در روزنامه همشهری مربوط به سال های 1375-1387 می باشد. در دیتاست همشهری نسخه یک، 166 هزار خبر به همراه گروه خبر وجود دارد. یکی از مشکلاتی که محققین داخلی با این مجموعه داده داشته اند فرمت xml این دیتاست است. تیم فنی ما اینکه این مجموعه داده برای انجام پردازش و ایجاد مدل های طبقه بندی آماده تر باشد آن را به فرمت txt تبدیل کرده است. برای آگاهی از دیتاست های منتشر شده توسط دیتاهارت می توانید به کانال تلگرامی ما بپیوندید.
آدرس کانال تلگرام سایت بیگ دیتا:
آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel
جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.
جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.
بازدیدها: 3243
برچسباخبار فارسی دانلود دیتا ست دیتاست دیتاست اخبار متن کاوی مجموعه داده مجموعه داده اخباز یادگیری ماشین
همچنین ببینید
درخت تصمیم چیست و چگونه از الگوريتم هاي آن وضعیت آینده را پیشبینی کنیم
اگر میخواهید تا تصمیم پیچیدهای بگیرید و تصمیم دارید تا مسائل را برای خودتان به …
الگوریتم های برتر در حوزه داده کاوی، علم داده و یادگیری ماشین (قسمت اول)
مقدمه بر الگوریتم های برتر داده کاوی استفاده از دادهها به منظور کشف رابطه بین …