دیتاست (data set) و مجموعه داده

مجموعه داده یا دیتاست (DataSet ) به داده‌ها گفته میشود که با موضوعیت و خواص مشخص و یکسان دارند. این داده ها جهت انجام تحقیقات و پروژه‌های مربوط به علم داده به جهت کسب دانش از داده ها استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست.  به این صورت که به‌طور نمونه بر روی دیتاست A، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج می‌توان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روش‌ها را مقایسه کرد.

مهم‌ترین ابزار یک پژوهش‌گر برای ارائه‌ی تحلیل درست دیتا است. استفاده از دیتای ناقص می‌تواند منجر به خطا در تحلیل شود و اثرات زیان‌باری در زمینه‌ی تصمیم‌گیری بر مبنای دیتا داشته باشد. در این وب سایت مجموعه داده هایی از حوزه های مختلف برای فعالیت های تحقیقاتی دانشجویان ارشد و دکترا به مرور قرار خواهیم گرفت.

پرکاربردترین استفاده از مجموعه داده به منظور آموزش دادن الگوریتم های یادگیری ماشین و یاد گیری عمیق می باشد. هر چند استفاده های فراوان دیگری از این مجموعه داده متصور است. شبیه شکل زیر

مجموعه داده یا DataSet برای یادگیری ماشین و عمیق
مجموعه داده یا DataSet برای یادگیری ماشین و عمیق

 

منابع دیتاست

در واقع دیتاست‌ها از راه‌های مختلفی ایجاد می‌شوند که از این روش‌ها می‌توان به موارد زیر اشاره کرد:

  1. داده‌های ثبت شده در log file ها
  2. داده‌های تولید شده از ماشین‌ها
  3. داده‌های ثبت شده از مشاهدات انسانی
  4. داده‌های ثبت شده از وب‌سایت‌ها
  5. داده‌های جمع‌آوری شده از نظرسنجی

در اینجا قصد داریم تا پرکاربرد ترین دیتاست ها و مجموعه داده های (فارسی) را در حوزه های مختلف برای تحلیل گران گرد آوری کنیم:👇 👇 👇

مجموعه داده (dataset) گراف شبکه جاده ای پنسیلوانیا

گراف شبکه جاده ای

اطلاعات مجموعه داده (dataset)  گراف شبکه جاده پنسیلوانیا یکی از کاربرد های تحلیل شبکه های اجتماعی تحلیل سیستم حمل و نقل جاده ای است. در ادامه مجموعه داده ای از شبکه جاده ای به وسیله دانشگاه استند فورد برای دانلود فراهم شده است. این …

ادامه مطلب

دانلود فایل فرهنگ لغت فارسی با فرمت csv (قابل بارگذاری بر روی پایگاه های داده)

فایل فرهنگ لغت فارسی

فایل لغتنامه فارسی با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل فرهنگ لغت فارسی به فارسی با بیش از 19هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل …

ادامه مطلب

جستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل

دیتاست گوگل

دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت واحد، جهت انجام کارها و پروژه‌های مربوط به علم داده استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف …

ادامه مطلب

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT)

تشخیص و ردیابی موضوع

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT) برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده­[1]­ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شده­اند به شرح زیر …

ادامه مطلب

دیتاست اسامی فارسی برای تشخیص موجودیت های اسمی

دیتاست اسامی فارسی

دیتاست اسامی فارسی برای تشخیص موجودیت های اسمی با بیش از چهار هزار کلمه که بر اساس پر استفاده ترین ها مرتب شده اند. یکی از روش های تشخیص موجودیت های نامدار استفاده از دیتاست اسامی فارسی است. این مرتب شدن اسامی به جهت …

ادامه مطلب

فایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

دانلود رایگان فایل دیکشنری

فایل دیکشنری با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل دیکشنری فارسی به انگلیسی (و حتما انگلیسی به فارسی) با بیش از هفتاد هزار لغت برای استفاده پژوهشگران آماده …

ادامه مطلب

دانلود دیتاست (Data Set) مسیرهای پروازی

دیتاست مسیرهای پروازی

در این پست دیتاست مسیرهای پروازی از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع ۳۷۱۵۳ مسیر) بر اساس …

ادامه مطلب

مجموعه داده (data set) گراف فیس بوک

مجموعه داده گراف فیس بوک

مجموعه داده گراف فیس بوک: این دیتاست شامل “حلقه ها” (یا “لیست دوستان”) از شبکه اجتماعی فیس بوک است. داده های فیس بوک از شرکت کنندگان بررسی شده با استفاده از یک App فیس بوک جمع آوری شده است. مجموعه داده شامل ویژگی های …

ادامه مطلب

دیتاست (DataSet) گراف بیت کوئین

دیتاست گراف بیت کوئین

دیتاست گراف ارتباطی بیت کوئین: این مجموعه داده مربوط به گراف افرادی معتمد در شبکه امن است که Bitcoin را در پلتفرم Bitcoin Alpha به کار می برند. از آنجا که کاربران Bitcoin ناشناس هستند، نیاز به حفظ رکورد شهرت کاربران برای جلوگیری از …

ادامه مطلب

دانلود ایست واژه‌ها یا Stop Word در زبان فارسی

ایست واژه‌ها یا Stop Word

ایست واژه‌ها یا Stop Word: کلماتی هستند که با وجود به تکرار بسیار زیاد آن و حضور آنها در اغلب اسناد فاقد اطلاعات معنابخش هستند. بنابراین با حذف آن‌ها کارایی الگوریتم‌ها افزایش  و حجم پردازش کاهش می‌یابد. ایست واژه ها لغاتی هستند که علی …

ادامه مطلب