در این صفحه دیتاست هایی از حوزه های مختلف برای کارهای دانشجویی به مرور قرار خواهیم گرفت. پرکاربرد ترین استفاده از مجموعه داده به منظورتکنیک های یادگیری ماشین می باشد هر چند استفاده های فراوان دیگری از این مجموعه داده متصور است. ما قصد داریم تا پرکاربرد ترین دیتاست ها و مجمموعه داده های استندارد (فارسی و جهانی) را در حوزه های مختلف برای تحلیل گران گرد آوری کنیم.


مجموعه داده یا DataSet چیست؟

دیتاست یا مجموعه داده به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت یکسان، جهت انجام تحلیل ها و پروژه‌های داده کاوی استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور نمونه بر روی یک مجموعه داده، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج می‌توان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روش‌ها را مقایسه کرد.

 

روش انتخاب دیتاست مناسب برای تحقیق:

برای هر تحلیلی در دنیای داده کاوی می بایست دیتاست مناسب آن را فراهم آوریم. فرض کنید تحلیلی که می‌خواهید انجام شود در مورد رده‌بندی (Classification) است. درنتیجه ما باید به دنبال دیتاستی باشیم که Lable یا برچسب خورده باشد. یا در مثال دیگر، فرض کنید ما به دنبال ایجاد یا ارتقاء روشی برای کاهش ابعاد دیتا هستیم در این صورت نیز ما باید مجموعه داده ای را انتخاب کنیم که دارای بُعد زیاد باشد. یا فرض کنید که ما به دنبال تحلیل متن فارسی هستیم. پس بدیهی است که باید یک مجموعه داده به زبان فارسی پیدا کنیم. با این که فرض کنید میخواهیم تست فشار برای یک سیستم بزرگ مقیاس انجام دهیم پس باید به دنبال داده های حجیم باشم. گونه های مختلفی در دیتاست‌ها وجود دارد به‌طور خلاصه می‌توان دیتاست ها را به موارد زیر تقسیم‌بندی کنیم:

 

  • مجموعه داده متنی (متن مقاله، کتاب، نظرات شبکه‌های اجتماعی، توییت ها و …)
  • مجموعه داده جدولی (داده‌های موجود در پایگاه داده، خوشه‌بندی، طبقه‌بندی، سری زمانی و …)
  • مجموعه داده چندرسانه ای (عکس، ویدیو و صوت)(عکس‌های هوایی، دوربین‌های مداربسته و …)

نوشته های اخیر

مجموعه داده یا دیتاست برای یادگیری عمیق

دیتاست برای یادگیری عمیق

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. کلید دستیابی به مهارت اصیل در یادگیری ماشین، تمرین کردن رویکرد های مختلف یادگیری ماشین با دیتاست های گوناگون است چرا که در یادگیری ماشین، هر مسئله، به خودی خود، یک مسئله منحصر به فرد محسوب می شود …

ادامه مطلب

مجموعه داده وسایل و تجهیزات (appliances) جهت متن کاوی

مجموعه داده وسایل

برای تشخیص اینکه یک کلمه اسم است، راه ­های مختلفی وجود دارد که از جمله­ ی آنها مراجعه به لغت نامه، استفاده از وردنت، در نظر گرفتن ریشه ­ی کلمه، استفاده از قواعد نحوی ساخت واژه و غیره می­ باشد. یکی از روش ها مرسوم تشخیص اسم ­ها با استفاده یک لغتنامه از اسامی افراد، …

ادامه مطلب

دیتاست ارقام دست نویس انگلیسی به منظور Machine Learning

ارقام دستنویس انگلیسی

:white_check_mark: MNIST DataSet این دیتاست شامل 60k تصویر 28×28 اعداد نویس برای آموزش سیستم و 10k تصویر برای تست است بهترین نتیجه کسب شده برای این داده 99.79% دانلود دیتاست ارقام دستنویس انگلیسی هدف این دیتاست در ابتدا دسته بندی انواع مختلف اعداد دست نویس انگلیسی بر اساس شکل ظاهری و سپس طبقه‌بندی ارقام دستنویس …

ادامه مطلب

دیتاست ارقام دستنویس فارسی برای یادگیری ماشین

ارقام دستنویس فارسی

بازشناسی ارقام وحروف دستنویس فارسی. موضوعی است که سالهاست روی آن کار میشود چه در حوزه تحقیقات دانشگاهی وچه در حوزه های تجاری وکاربردی.مقالات وپایان نامه های در این زمینه ارئه شده است والبته کارهای صنعتی زیادی هم صورت گرفته است از مهمترین کاربردهای شناسایی ارقام وحروف دستنویس : · وارد کردن اطلاعات اسناد اداری …

ادامه مطلب

دانلود مجموعه داده (دیتا ست) اشعار مثنوی معنوی مولوی و دیوان شمس

مجموعه داده مثنوی معنوی

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. در این پست مجموعه داده مثنوی معنوی برای انجام پردازش ها و انواع تحلیل های داده کاوی در اختیار قرار گرفته است. از لینک های زیر میتوانید مثنوی معنوی و دیولن شمس را دانبود نمایید. در پست های …

ادامه مطلب

شناسایی خودکار حیوانات در تحقیقات حیات وحش با یادگیری ماشین

شناسایی خودکار

شناسایی خودکار حیوانات در تحقیقات حیات وحش یک برنامه جدید که توسط محققان از ایالت پن و مایکروسافت Azure توسعه یافته است، به طور خودکار مناطق مورد علاقه حیوانات در تصاویر را تشخیص می دهد . حین تحقیقات حیات وحش و در پردازش تصاویر گرایش های جدی ومناطق مورد علا قه حیوانات مورد شناسایی قرارگرفت. …

ادامه مطلب

دانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)

مجموعه داده اخبار

به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار با طبقه بندی موضوعی (classification) و خوشه بندی سلسله مراتبی در زیر برای دانلود ارائه شده است. دانلود مجموعه داده اخبار فارسی دسته بندی شده بررسی و مقایسه الگوریتمهای خوشه بندی سلسله مراتبی توصیف کلی از الگوریتمهای سلسله مراتبی در …

ادامه مطلب

مجموعه داده (Data Set) اشعار حافظ

مجموعه داده اشعار حافظ

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. یکی از مشکلات دانشجویان ارشد و دکترا این است که: برای فلان تحقیق (مثلاً درس داده‌کاوی) یا پایان‌نامه، نیاز به یک دیتاست (DataSet = مجموعه داده) دارم، از کجا می‌توانم گیر بیاورم؟ هر چند می‌شود با جستجو، به …

ادامه مطلب

دانلود بانک تصاویر گوگل مپ برای زوم های مختلف

بانک تصاویر گوگل مپ

خدمات گوگل مپ، تحول بزرگی را در سیستم مسیریابی دنیا به ایجاد کرده است و به معنای واقعی کلمه جهان در جیب شماست را به جهانیان نشان داده است. اطلاعات بسیاری را درباره شهرها و مسیرها تنها با صرف کمی وقت و لمس چند گزینه، می‌توانید به ‌دست آورد. البته ویژگی‌های گوگل ‌مپ برای گوشی‌های …

ادامه مطلب

دیتاست اخبار حدود چهار هزار خبر فارسی به تفکیک تاریخ

دیتاست اخبار

مجموعه داده اخبار فارسی شامل بیش از سه هزار خبر از خبرگزاری های مختلف است. همه ما روزانه ده ها خبر مطالعه و جستجو می کنیم. دنبال کردن اخبار یکی از عادات روزانه ماست. در این دیتاست اخبار گوناگون جمع آوری شده است. این مجموعه داده شامل متن اخبار است.  فرمت این مجموعه داده پایگاه …

ادامه مطلب

دانلود مجموعه داده های هستان شناسی فارسی برای لغات هم معنا

مجموعه داده های هستان شناسی آنتولوژی فارسی

مجموعه داده های هستان شناسی و داده های پیوندی Linked Data هستی‌شناسی، دانش ساختاریافته در مورد یک حوزه خاص است که از طریق ارائه مفاهیم و روابط میان آنها در آن حوزه شکل می‌گیرد. امروزه، به‌دلیل طراحی هستی‌شناسی در حوزه‌های موضوعی مختلف، ارائه معیارهایی برای گزینش مناسب‌ترین هستی‌شناسی، ضروری است. دانلود مجموعه داده های هستان …

ادامه مطلب

دانلود دیتا ست قرآن عزیز

 دیتا ست قرآن کریم تنها سخنانی که بدون هیچ تغییر از مبدا آفرینش بر روی کره زمین در دستان بشر موجود است همین قرآن عزیز است. قرآن تنها جملات خداوند است که تا کنون بدون تغییر در اختیار انسان گذاشته شده است. دوستان بزرگواری که روی کارهای تحلیلی بر روی قرآن کریم کار میکنند میتوانند …

ادامه مطلب

دیتاست بیش از دویست و هفتاد هزار لینک فایل متنی

دیتاست فایل اسلاید پاورپوینت

دیتاست فایل متنی: در این پست مجموعه داده ای شامل بر  دویست و هفتاد هزار URL فایل پاورپوینت باموضوعات و زبان های متفاوت برای علاقه مندانی که تمایل به داده کاوی بر روی این گونه فایل ها هستند ارائه شده است. این لینک ها توسط وب سایت موتور جستجوی پاورپوینت از فضای وب آشکار جمع …

ادامه مطلب

مجموعه داده (dataset) گراف شبکه جاده ای پنسیلوانیا

گراف شبکه جاده ای

اطلاعات مجموعه داده (dataset)  گراف شبکه جاده پنسیلوانیا یکی از کاربرد های تحلیل شبکه های اجتماعی تحلیل سیستم حمل و نقل جاده ای است. در ادامه مجموعه داده ای از شبکه جاده ای به وسیله دانشگاه استند فورد برای دانلود فراهم شده است. این دیتاست یک شبکه جاده ای از پنسیلوانیا است. تقاطع ها و …

ادامه مطلب

فایل فرهنگ لغت فارسی با فرمت csv (قابل بارگذاری بر روی پایگاه های داده)

فایل فرهنگ لغت فارسی

فایل فرهنگ لغت فارسی با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل فرهنگ لغت فارسی به فارسی با بیش از 19هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل استفاده بودن در همه ساختارهای داده ای و پایگاه داده …

ادامه مطلب

استاپ ورد های فارسی مرتب شده با طول کلمات

استاپ ورد های فارسی مرتب شده

یکی از مهمترین و کلیدی ترین مسائل در حذف کلمات ایستا (stop word) که معمولا اکثر متخصصین متن کاوی از آن بیخبر هستند این است که برای حذف ایست واژه ها (StopWord) در متن اصلی میبایست  ایست واژه ها را  به صورت یک لیست که بر اساس طول یا سایز واژه ها مرتب شده است …

ادامه مطلب

فایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

دانلود رایگان فایل دیکشنری

فایل دیکشنری با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل دیکشنری فارسی به انگلیسی (و حتما انگلیسی به فارسی) با بیش از هفتاد هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل استفاده بودن در همه ساختارهای داده ای …

ادامه مطلب

دانلود دیتاست (Data Set) مسیرهای پروازی

دیتاست مسیرهای پروازی

در این پست دیتاست مسیرهای پروازی از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع ۳۷۱۵۳ مسیر) بر اساس داده های OpenFlights.org است. گراف تحلیل شده این دیتا ست را …

ادامه مطلب

مجموعه داده (data set) گراف فیس بوک

مجموعه داده گراف فیس بوک

مجموعه داده گراف فیس بوک: این دیتاست شامل “حلقه ها” (یا “لیست دوستان”) از شبکه اجتماعی فیس بوک است. داده های فیس بوک از شرکت کنندگان بررسی شده با استفاده از یک App فیس بوک جمع آوری شده است. مجموعه داده شامل ویژگی های گره (پروفایل)، حلقه ها و شبکه های ego است. داده های …

ادامه مطلب

دیتاست (DataSet) گراف بیت کوئین

دیتاست گراف بیت کوئین

دیتاست گراف ارتباطی بیت کوئین: این مجموعه داده مربوط به گراف افرادی معتمد در شبکه امن است که Bitcoin را در پلتفرم Bitcoin Alpha به کار می برند. از آنجا که کاربران Bitcoin ناشناس هستند، نیاز به حفظ رکورد شهرت کاربران برای جلوگیری از معاملات با کاربران متقلب و مخاطره آمیز وجود دارند. اعضای Bitcoin …

ادامه مطلب

دانلود ایست واژه‌ها یا Stop Word در زبان فارسی

ایست واژه‌ها یا Stop Word

ایست واژه‌ها یا Stop Word: کلماتی هستند که با وجود به تکرار بسیار زیاد آن و حضور آنها در اغلب اسناد فاقد اطلاعات معنابخش هستند. بنابراین با حذف آن‌ها کارایی الگوریتم‌ها افزایش  و حجم پردازش کاهش می‌یابد. ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی …

ادامه مطلب
آدرس کانال تلگرام ما: t.me/bigdata_channel