در این صفحه دیتاست هایی از حوزه های مختلف برای کارهای دانشجویی به مرور قرار خواهیم گرفت. پرکاربرد ترین استفاده از مجموعه داده به منظورتکنیک های یادگیری ماشین می باشد هر چند استفاده های فراوان دیگری از این مجموعه داده متصور است. ما قصد داریم تا پرکاربرد ترین دیتاست ها و مجمموعه داده های استندارد (فارسی و جهانی) را در حوزه های مختلف برای تحلیل گران گرد آوری کنیم.

مجموعه داده یا DataSet چیست؟

دیتاست یا مجموعه داده به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت یکسان، جهت انجام تحلیل ها و پروژه‌های داده کاوی استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور نمونه بر روی یک مجموعه داده، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج می‌توان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روش‌ها را مقایسه کرد.

روش انتخاب دیتاست مناسب برای تحقیق

برای هر تحلیلی در دنیای داده کاوی می بایست دیتاست مناسب آن را فراهم آوریم. فرض کنید تحلیلی که می‌خواهید انجام شود در مورد رده‌بندی (Classification) است. درنتیجه ما باید به دنبال دیتاستی باشیم که Lable یا برچسب خورده باشد. یا در مثال دیگر، فرض کنید ما به دنبال ایجاد یا ارتقاء روشی برای کاهش ابعاد دیتا هستیم در این صورت نیز ما باید مجموعه داده ای را انتخاب کنیم که دارای بُعد زیاد باشد. یا فرض کنید که ما به دنبال تحلیل متن فارسی هستیم. پس بدیهی است که باید یک مجموعه داده به زبان فارسی پیدا کنیم. با این که فرض کنید میخواهیم تست فشار برای یک سیستم بزرگ مقیاس انجام دهیم پس باید به دنبال داده های حجیم باشم. گونه های مختلفی در دیتاست‌ها وجود دارد به‌طور خلاصه می‌توان دیتاست ها را به موارد زیر تقسیم‌بندی کنیم:

  • مجموعه داده متنی (متن مقاله، کتاب، نظرات شبکه‌های اجتماعی، توییت ها و …)
  • مجموعه داده جدولی (داده‌های موجود در پایگاه داده، خوشه‌بندی، طبقه‌بندی، سری زمانی و …)
  • مجموعه داده چندرسانه ای (عکس، ویدیو و صوت)(عکس‌های هوایی، دوربین‌های مداربسته و …)

نوشته های اخیر

مجموعه داده (Data Set) اشعار حافظ

مجموعه داده اشعار حافظ

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. یکی از مشکلات دانشجویان ارشد و دکترا این است که: برای فلان تحقیق (مثلاً درس داده‌کاوی) …

ادامه مطلب

دانلود مجموعه داده های هستان شناسی(آنتولوژی) فارسی برای لغات هم معنا

پیوند معنایی و مجموعه داده های هستان شناسی آنتولوژی فارسی

هستی‌شناسی، دانش ساختاريافته در مورد يک حوزه خاص است که از طريق ارائه مفاهيم و روابط ميان آنها در آن حوزه شکل می‌گيرد. امروزه، به‌دليل طراحی هستی‌شناسی در حوزه‌های موضوعی مختلف، ارائه معيارهايی …

ادامه مطلب

دانلود دیتا ست قرآن عزیز

در 14 قرن گذشته، کتابی در منطقه جزیرة العرب در میان مردمانی که جهل و ظلمت بر آنها سایه افکنده بود؛ ظهور کرد و هر روز که از عمر این کتاب می گذشت …

ادامه مطلب

دیتاست (DataSet) گراف بیت کوئین

دیتاست گراف بیت کوئین

دیتاست گراف ارتباطی بیت کوئین: این مجموعه داده مربوط به گراف افرادی معتمد در شبکه امن است که Bitcoin را در پلتفرم Bitcoin Alpha به کار می برند. از آنجا که کاربران Bitcoin …

ادامه مطلب

 

 

از طریق آدرس تلگرام  یا ایمیل زیر با ما در ارتباط باشید:

Telegram: @bigdata724

email: bigdata724@chmail.ir

برای دیدن فلیم های سینماییِ مهیج و جذاب"در حوزه فناوری اطلاعات، اوسینت و هوش مصنوعی"، بر روی اینجا کلیک کنید.

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

Big Data

مطالب مفید را در گروه و کانال تلگرام ما دنبال کنید

ورود به تلگرام
بعدا x