دیتاست (data set) و مجموعه داده

مجموعه داده یا دیتاست (DataSet ) به داده‌ها گفته میشود که با موضوعیت و خواص مشخص و یکسان دارند. این داده ها جهت انجام تحقیقات و پروژه‌های مربوط به علم داده به جهت کسب دانش از داده ها استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست.  به این صورت که به‌طور نمونه بر روی دیتاست A، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج می‌توان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روش‌ها را مقایسه کرد.

مهم‌ترین ابزار یک پژوهش‌گر برای ارائه‌ی تحلیل درست دیتا است. استفاده از دیتای ناقص می‌تواند منجر به خطا در تحلیل شود و اثرات زیان‌باری در زمینه‌ی تصمیم‌گیری بر مبنای دیتا داشته باشد. در این وب سایت مجموعه داده هایی از حوزه های مختلف برای فعالیت های تحقیقاتی دانشجویان ارشد و دکترا به مرور قرار خواهیم گرفت.

پرکاربردترین استفاده از مجموعه داده به منظور آموزش دادن الگوریتم های یادگیری ماشین و یاد گیری عمیق می باشد. هر چند استفاده های فراوان دیگری از این مجموعه داده متصور است. شبیه شکل زیر

مجموعه داده یا DataSet برای یادگیری ماشین و عمیق
مجموعه داده یا DataSet برای یادگیری ماشین و عمیق

 

منابع دیتاست

در واقع دیتاست‌ها از راه‌های مختلفی ایجاد می‌شوند که از این روش‌ها می‌توان به موارد زیر اشاره کرد:

  1. داده‌های ثبت شده در log file ها
  2. داده‌های تولید شده از ماشین‌ها
  3. داده‌های ثبت شده از مشاهدات انسانی
  4. داده‌های ثبت شده از وب‌سایت‌ها
  5. داده‌های جمع‌آوری شده از نظرسنجی

در اینجا قصد داریم تا پرکاربرد ترین دیتاست ها و مجموعه داده های (فارسی) را در حوزه های مختلف برای تحلیل گران گرد آوری کنیم:👇 👇 👇

دیتاست برای تحلیل احساس و تحلیل نیت فارسی (Persian Sentiment Analysis)

تحلیل احساس

وقتی می خواهیم در مورد مسئله ای تصمیم بگیریم، نظر دیگران را درباره ی مسئله ی مورد نظر می پرسیم. در دنیای واقعی، کسب و کارها و سازمان ها به دنبال دانستن نظر مشتریان و عموم مردم در مورد محصولات و سرویس های خود …

ادامه مطلب

روش انتخاب مدل یادگیری ماشین و داده کاوی بر اساس معیارهای مختلف

انتخاب مدل و یادگیری ماشین

انتخاب مدل مناسب برای داده کاوی و یادگیری ماشین همیشه برای افراد تازه کار در حوزه  علم داده، موجب سردرگمی آنها می شود. این موضوع حتی برای افراد با تجربه نیز چالش برانگیز است. در این مطلب کوتاه و کاربردی قصد دارم که یک …

ادامه مطلب

دانلود مجموعه داده و دیتاست های دیجی کالا (DijiKala)

دانلود مجموعه داده دیجی کالا

جهت امور تحقیقیاتی، تحلیل و داده کاوی مجموعه داده و دیتاست های سایت دیجی کالا (DigiKala) برای پژوهشگران آماده شده است. در این صفحه میتوانید dataset دی جی کالا را دانلود کنید. این مجموعه داده شامل موارد زیر است. سفارشات محصولات کامنت ها کیفیت …

ادامه مطلب

دیتاست شناسایی موجودیت های نامدار برای تشخیص مشاغل در متن

تشخیص مشاغل

در این پست قصد دارم اطلاعات مختصری در ارتباط با شناخت موجودیت های نامدار برای تشخیص مشاغل در متن ارائه خواهد شد. مقدمه اي بر شناسایی موجودیت های نامدار موجوديت نامدار به کلمه و يا عبارتي گفته ميشود که براي ارجاع به نمونه هاي …

ادامه مطلب

مجموعه داده (Data Set) ترجمه فارسی قرآن آقای قرائتی با دانلود فایل متنی

ترجمه فارسی قرآن

ترجمه فارسی قرآن برای دوستان بزرگواری که بر روی تحلیل های هوشمند در قرآن کریم کار میکنند میتواند مفید فایده باشد لیکن میتوانند از دیتاست (مجموعه داده) زیر برای به این منظور استفاده نمایند. مجموعه داده (Data Set) متن اصلی قرآن نیز در این …

ادامه مطلب

متن دعای ابوحمزه ثمالی به صورت جدا شده با ویرگول و قطعه بندی شده برای سادگی خواندن

متن دعای ابوحمزه ثمالی به صورت جدا شده با ویرگول و فزاربندی شده برای سادگی خواندن

ابوحمزه ثمالی دعای انسان ساز و بیچاره هر آن کس که نخواندش در کتاب «مصباح» شیخ طوسى به نقل از ابوحمزه ثمالی آمده است که حضرت امام زین العابدین علیه السّلام در ماه رمضان بیشتر شب را به نماز مى ایستاد و چون سحر …

ادامه مطلب

بیش ازصد موجودت اسمی برای تشخیص رویداد (Event Detection)

تشخیص رویداد

تشخیص رویداد: رصد شبکه های اجتماعی، رویدادهای دنیای واقعی را نشان میدهد و اطلاعات ارزشمندی را استخراج میکند و به افراد و سازمانها اجازه میدهد تا ترند و مسیر رخدادها را به صورت واقعی و زنده درک کنند. زبان شناسان معتقدند “چیزی که به …

ادامه مطلب

مجموعه داده اسامی مکان برای تشخیص موجودیت های مکانی در پردازش زبان طبیعی

اسامی مکان

مقدمه ای بر اسامی مکان: یکی از انواع موجودیت های نامدار، اسم مکان است. برای استفاده پژوهشگران دیتاستی شامل بیش از 300 هزار اسم مکان واقعی جهت استفاده در تشخیص مجودیت های مکانی ارائه شده است که می توانید در ادامه  آن را دانلود …

ادامه مطلب

دیتاست اسامی اشخاص حقیقی جهت استفاده در پردازش متن

اسامی اشخاص حقیقی

بانک اسامی اشخاص حقیقی جهت استفاده در تشخیص موجودیت های اسمی: یکی از انواع موجودیت های اسمی، اسامی اشخاص حقیقی است. برای استفاده شما مجموعه داده ای شامل بیش از 15000 نفر از اسامی اشخاص حقیقی جهت استفاده NER ارائه شده است که در …

ادامه مطلب

مجموعه داده یا دیتاست برای یادگیری عمیق

دیتاست برای یادگیری عمیق

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. کلید دستیابی به مهارت اصیل در یادگیری ماشین، تمرین کردن رویکرد های مختلف یادگیری ماشین با دیتاست های گوناگون است چرا که در یادگیری ماشین، هر مسئله، …

ادامه مطلب

دیتاست ارقام دست نویس انگلیسی به منظور Machine Learning

ارقام دستنویس انگلیسی

 MNIST DataSet: این دیتاست شامل 60k تصویر 28×28 اعداد نویس برای آموزش سیستم و 10k تصویر برای تست است. بهترین نتیجه کسب شده برای این داده 99.79% می باشد. دانلود دیتاست ارقام دستنویس انگلیسی هدف این دیتاست در ابتدا دسته بندی انواع مختلف اعداد …

ادامه مطلب

دیتاست ارقام دستنویس فارسی برای یادگیری ماشین

ارقام دستنویس فارسی

بازشناسی ارقام وحروف دستنویس فارسی. موضوعی است که سالهاست روی آن کار میشود چه در حوزه تحقیقات دانشگاهی وچه در حوزه های تجاری وکاربردی.مقالات وپایان نامه های در این زمینه ارئه شده است والبته کارهای صنعتی زیادی هم صورت گرفته است از مهمترین کاربردهای …

ادامه مطلب

دانلود مجموعه داده (دیتا ست) اشعار مثنوی معنوی مولوی و دیوان شمس

مجموعه داده مثنوی معنوی

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. در این پست مجموعه داده مثنوی معنوی برای انجام پردازش ها و انواع تحلیل های داده کاوی در اختیار قرار گرفته است. از لینک های زیر میتوانید …

ادامه مطلب

دانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)

مجموعه داده اخبار

به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار با طبقه بندی موضوعی (classification) و خوشه بندی سلسله مراتبی در زیر برای دانلود ارائه شده است. دانلود مجموعه داده اخبار فارسی دسته بندی شده بررسی و مقایسه الگوریتمهای …

ادامه مطلب

مجموعه داده (Data Set) اشعار حافظ

مجموعه داده اشعار حافظ

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. یکی از مشکلات دانشجویان ارشد و دکترا این است که: برای فلان تحقیق (مثلاً درس داده‌کاوی) یا پایان‌نامه، نیاز به یک دیتاست (DataSet = مجموعه داده) دارم، …

ادامه مطلب

دیتاست اخبار حدود چهار هزار خبر فارسی به تفکیک تاریخ

دیتاست اخبار

مجموعه داده اخبار فارسی شامل بیش از سه هزار خبر از خبرگزاری های مختلف است. همه ما روزانه ده ها خبر مطالعه و جستجو می کنیم. دنبال کردن اخبار یکی از عادات روزانه ماست. در این دیتاست اخبار گوناگون جمع آوری شده است. این …

ادامه مطلب

دانلود مجموعه داده های هستان شناسی(آنتولوژی) فارسی برای لغات هم معنا

پیوند معنایی و مجموعه داده های هستان شناسی آنتولوژی فارسی

هستی‌شناسی، دانش ساختاريافته در مورد يک حوزه خاص است که از طريق ارائه مفاهيم و روابط ميان آنها در آن حوزه شکل می‌گيرد. امروزه، به‌دليل طراحی هستی‌شناسی در حوزه‌های موضوعی مختلف، ارائه معيارهايی برای گزينش مناسب‌ترين هستی‌شناسی، ضروری است. مجموعه داده های هستان شناسی …

ادامه مطلب

دانلود دیتا ست قرآن عزیز

در 14 قرن گذشته، کتابی در منطقه جزیرة العرب در میان مردمانی که جهل و ظلمت بر آنها سایه افکنده بود؛ ظهور کرد و هر روز که از عمر این کتاب می گذشت مشتاقان آن بیشتر و معارف آن همچون چشمه زلالی جوشان بود. …

ادامه مطلب