در این صفحه دیتاست هایی از حوزه های مختلف برای کارهای دانشجویی به مرور قرار خواهیم گرفت. پرکاربرد ترین استفاده از مجموعه داده به منظورتکنیک های یادگیری ماشین می باشد هر چند استفاده های فراوان دیگری از این مجموعه داده متصور است. ما قصد داریم تا پرکاربرد ترین دیتاست ها و مجمموعه داده های استندارد (فارسی و جهانی) را در حوزه های مختلف برای تحلیل گران گرد آوری کنیم.


مجموعه داده یا DataSet چیست؟

دیتاست یا مجموعه داده به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت یکسان، جهت انجام تحلیل ها و پروژه‌های داده کاوی استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور نمونه بر روی یک مجموعه داده، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج می‌توان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روش‌ها را مقایسه کرد.

 

روش انتخاب دیتاست مناسب برای تحقیق:

برای هر تحلیلی در دنیای داده کاوی می بایست دیتاست مناسب آن را فراهم آوریم. فرض کنید تحلیلی که می‌خواهید انجام شود در مورد رده‌بندی (Classification) است. درنتیجه ما باید به دنبال دیتاستی باشیم که Lable یا برچسب خورده باشد. یا در مثال دیگر، فرض کنید ما به دنبال ایجاد یا ارتقاء روشی برای کاهش ابعاد دیتا هستیم در این صورت نیز ما باید مجموعه داده ای را انتخاب کنیم که دارای بُعد زیاد باشد. یا فرض کنید که ما به دنبال تحلیل متن فارسی هستیم. پس بدیهی است که باید یک مجموعه داده به زبان فارسی پیدا کنیم. با این که فرض کنید میخواهیم تست فشار برای یک سیستم بزرگ مقیاس انجام دهیم پس باید به دنبال داده های حجیم باشم. گونه های مختلفی در دیتاست‌ها وجود دارد به‌طور خلاصه می‌توان دیتاست ها را به موارد زیر تقسیم‌بندی کنیم:

 

  • مجموعه داده متنی (متن مقاله، کتاب، نظرات شبکه‌های اجتماعی، توییت ها و …)
  • مجموعه داده جدولی (داده‌های موجود در پایگاه داده، خوشه‌بندی، طبقه‌بندی، سری زمانی و …)
  • مجموعه داده چندرسانه ای (عکس، ویدیو و صوت)(عکس‌های هوایی، دوربین‌های مداربسته و …)

نوشته های اخیر

کامل ترین و علمی ترین مطلب در مورد عروس هلندی (تکثیر، نگهداری و درمان)

عروس هلندی

یا کوکاتیل‌ها همدم شیرین انسان ها عروس هلندی جزو پرندگان زینتی بسیار محبوب و انسان دوست است. این پرنده طرفداران زیادی را در سراسر دنیا به خود اختصاص داده است. بسیاری از پرورش دهندگان پس از یادگیری فوت فن ها …

ادامه مطلب

مجموعه داده (Data Set) ترجمه فارسی قرآن آقای قرائتی با دانلود فایل متنی

ترجمه فارسی قرآن

ترجمه فارسی قرآن برای دوستان بزرگواری که بر روی تحلیل های هوشمند در قرآن کریم کار میکنند میتواند مفید فایده باشد لیکن میتوانند از دیتاست (مجموعه داده) زیر برای به این منظور استفاده نمایند. مجموعه داده (Data Set) متن اصلی …

ادامه مطلب

مجموعه داده اسامی مکان برای تشخیص موجودیت های مکانی در پردازش زبان طبیعی

اسامی مکان

مقدمه ای بر اسامی مکان: یکی از انواع موجودیت های نامدار، اسم مکان است. برای استفاده پژوهشگران دیتاستی شامل بیش از 300 هزار اسم مکان واقعی جهت استفاده در تشخیص مجودیت های مکانی ارائه شده است که می توانید در …

ادامه مطلب

دانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)

مجموعه داده اخبار

به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار با طبقه بندی موضوعی (classification) و خوشه بندی سلسله مراتبی در زیر برای دانلود ارائه شده است. دانلود مجموعه داده اخبار فارسی دسته بندی شده …

ادامه مطلب

مجموعه داده (Data Set) اشعار حافظ

مجموعه داده اشعار حافظ

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. یکی از مشکلات دانشجویان ارشد و دکترا این است که: برای فلان تحقیق (مثلاً درس داده‌کاوی) یا پایان‌نامه، نیاز به یک دیتاست (DataSet …

ادامه مطلب

دانلود مجموعه داده های هستان شناسی فارسی برای لغات هم معنا

پیوند معنایی و مجموعه داده های هستان شناسی آنتولوژی فارسی

مجموعه داده های هستان شناسی و داده های پیوندی Linked Data هستی‌شناسی، دانش ساختاريافته در مورد يک حوزه خاص است که از طريق ارائه مفاهيم و روابط ميان آنها در آن حوزه شکل می‌گيرد. امروزه، به‌دليل طراحی هستی‌شناسی در حوزه‌های …

ادامه مطلب

دانلود دیتا ست قرآن عزیز

 دیتا ست قرآن کریم تنها سخنانی که بدون هیچ تغییر از مبدا آفرینش بر روی کره زمین در دستان بشر موجود است همین قرآن عزیز است. قرآن تنها جملات خداوند است که تا کنون بدون تغییر در اختیار انسان گذاشته …

ادامه مطلب

فایل فرهنگ لغت فارسی با فرمت csv (قابل بارگذاری بر روی پایگاه های داده)

فایل فرهنگ لغت فارسی

فایل فرهنگ لغت فارسی با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل فرهنگ لغت فارسی به فارسی با بیش از 19هزار لغت برای استفاده پژوهشگران …

ادامه مطلب

فایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

دانلود رایگان فایل دیکشنری

فایل دیکشنری با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل دیکشنری فارسی به انگلیسی (و حتما انگلیسی به فارسی) با بیش از هفتاد هزار لغت …

ادامه مطلب

دانلود دیتاست (Data Set) مسیرهای پروازی

دیتاست مسیرهای پروازی

در این پست دیتاست مسیرهای پروازی از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع …

ادامه مطلب

مجموعه داده (data set) گراف فیس بوک

مجموعه داده گراف فیس بوک

مجموعه داده گراف فیس بوک: این دیتاست شامل “حلقه ها” (یا “لیست دوستان”) از شبکه اجتماعی فیس بوک است. داده های فیس بوک از شرکت کنندگان بررسی شده با استفاده از یک App فیس بوک جمع آوری شده است. مجموعه …

ادامه مطلب

دیتاست (DataSet) گراف بیت کوئین

دیتاست گراف بیت کوئین

دیتاست گراف ارتباطی بیت کوئین: این مجموعه داده مربوط به گراف افرادی معتمد در شبکه امن است که Bitcoin را در پلتفرم Bitcoin Alpha به کار می برند. از آنجا که کاربران Bitcoin ناشناس هستند، نیاز به حفظ رکورد شهرت …

ادامه مطلب

دانلود ایست واژه‌ها یا Stop Word در زبان فارسی

ایست واژه‌ها یا Stop Word

ایست واژه‌ها یا Stop Word: کلماتی هستند که با وجود به تکرار بسیار زیاد آن و حضور آنها در اغلب اسناد فاقد اطلاعات معنابخش هستند. بنابراین با حذف آن‌ها کارایی الگوریتم‌ها افزایش  و حجم پردازش کاهش می‌یابد. ایست واژه ها …

ادامه مطلب

از طریق آدرس تلگرام یا ایمیل زیر با ما در ارتباط باشید:

Telegram: @bigdata724

email: bigdata724@chmail.ir

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.