دیتاست (data set) و مجموعه داده

مجموعه داده یا دیتاست (DataSet ) به داده‌ها گفته میشود که با موضوعیت و خواص مشخص و یکسان، جهت انجام تحقیقات و پروژه‌های مربوط به علم داده به جهت کسب دانش از داده ها استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور نمونه بر روی دیتاست A، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج می‌توان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روش‌ها را مقایسه کرد.

مهم‌ترین ابزار یک پژوهش‌گر برای ارائه‌ی تحلیل درست دیتا است، و استفاده از دیتای ناقص می‌تواند منجر به خطا در تحلیل شود و اثرات زیان‌باری در زمینه‌ی تصمیم‌گیری بر مبنای دیتا داشته باشد. در این وب سایت مجموعه داده هایی از حوزه های مختلف برای فعالیت های تحقیقاتی دانشجویان ارشد و دکترا به مرور قرار خواهیم گرفت.

دیتاست یا مجموعه داده

گاهی مجموعه داده های به این شکل به دنیا نی آیند که پژوهشگران در یک حوزه ای از پژوهش، شروع به جمع آوری داده یا بنچ مارک هایی می کنند تا در آن حوزه دیگر پژوهشگران به راحتی بتوانند کار آنها را گسترش دهند و همچنین پژوهش های خودشان عنی تر شود. از طرفی باید برای اثبات کارهای خود، این دیتاست ها را در اختیار عموم قرار دهند. آنچه مشخص است اینکه در مقالات معتبر باید لینک این دیتاست ها را قرار دهند.کار با این دیتاست ها برخی مواقع مشکل است. در این جور مواقع باید یا فایلی کنار آن قرار داده باشند که بتوان از روی آن تشخیص داد که دیتاست چیست و یا باید از خبره آن کمک گرفت.

پرکاربرد ترین استفاده از مجموعه داده به منظورتکنیک های یادگیری ماشین می باشد هر چند استفاده های فراوان دیگری از این مجموعه داده متصور است. ما قصد داریم تا پرکاربرد ترین دیتاست ها و مجمموعه داده های استاندارد (فارسی و جهانی) را در حوزه های مختلف برای تحلیل گران گرد آوری کنیم.