دیتاست (data set) و مجموعه داده

مجموعه داده یا دیتاست (DataSet ) به داده‌ها گفته میشود که با موضوعیت و خواص مشخص و یکسان، جهت انجام تحقیقات و پروژه‌های مربوط به علم داده به جهت کسب دانش از داده ها استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور نمونه بر روی دیتاست A، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج می‌توان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روش‌ها را مقایسه کرد.

مهم‌ترین ابزار یک پژوهش‌گر برای ارائه‌ی تحلیل درست دیتا است، و استفاده از دیتای ناقص می‌تواند منجر به خطا در تحلیل شود و اثرات زیان‌باری در زمینه‌ی تصمیم‌گیری بر مبنای دیتا داشته باشد. در این وب سایت مجموعه داده هایی از حوزه های مختلف برای فعالیت های تحقیقاتی دانشجویان ارشد و دکترا به مرور قرار خواهیم گرفت.

دیتاست یا مجموعه داده

گاهی مجموعه داده های به این شکل به دنیا نی آیند که پژوهشگران در یک حوزه ای از پژوهش، شروع به جمع آوری داده یا بنچ مارک هایی می کنند تا در آن حوزه دیگر پژوهشگران به راحتی بتوانند کار آنها را گسترش دهند و همچنین پژوهش های خودشان عنی تر شود. از طرفی باید برای اثبات کارهای خود، این دیتاست ها را در اختیار عموم قرار دهند. آنچه مشخص است اینکه در مقالات معتبر باید لینک این دیتاست ها را قرار دهند.کار با این دیتاست ها برخی مواقع مشکل است. در این جور مواقع باید یا فایلی کنار آن قرار داده باشند که بتوان از روی آن تشخیص داد که دیتاست چیست و یا باید از خبره آن کمک گرفت.

پرکاربرد ترین استفاده از مجموعه داده به منظورتکنیک های یادگیری ماشین می باشد هر چند استفاده های فراوان دیگری از این مجموعه داده متصور است. ما قصد داریم تا پرکاربرد ترین دیتاست ها و مجمموعه داده های استاندارد (فارسی و جهانی) را در حوزه های مختلف برای تحلیل گران گرد آوری کنیم.

متن دعای ابوحمزه ثمالی به صورت جدا شده با ویرگول و قطعه بندی شده برای سادگی خواندن

متن دعای ابوحمزه ثمالی به صورت جدا شده با ویرگول و فزاربندی شده برای سادگی خواندن

ابوحمزه ثمالی دعای انسان ساز و بیچاره هر آن کس که نخواندش در کتاب «مصباح» شیخ طوسى به نقل از ابوحمزه ثمالی آمده است که حضرت امام زین العابدین علیه السّلام در ماه رمضان بیشتر شب را به نماز مى …

ادامه مطلب

دیتاست شناسایی موجودیت های نامدار برای تشخیص مشاغل در متن

تشخیص مشاغل

در این پست قصد دارم اطلاعات مختصری در ارتباط با شناخت موجودیت های نامدار برای تشخیص مشاغل در متن ارائه خواهد شد. مقدمه اي بر شناسایی موجودیت های نامدار موجوديت نامدار به کلمه و يا عبارتي گفته ميشود که براي …

ادامه مطلب

مجموعه داده (Data Set) ترجمه فارسی قرآن آقای قرائتی با دانلود فایل متنی

ترجمه فارسی قرآن

ترجمه فارسی قرآن برای دوستان بزرگواری که بر روی تحلیل های هوشمند در قرآن کریم کار میکنند میتواند مفید فایده باشد لیکن میتوانند از دیتاست (مجموعه داده) زیر برای به این منظور استفاده نمایند. مجموعه داده (Data Set) متن اصلی …

ادامه مطلب

مجموعه داده اسامی مکان برای تشخیص موجودیت های مکانی در پردازش زبان طبیعی

اسامی مکان

مقدمه ای بر اسامی مکان: یکی از انواع موجودیت های نامدار، اسم مکان است. برای استفاده پژوهشگران دیتاستی شامل بیش از 300 هزار اسم مکان واقعی جهت استفاده در تشخیص مجودیت های مکانی ارائه شده است که می توانید در …

ادامه مطلب

مجموعه داده یا دیتاست برای یادگیری عمیق

دیتاست برای یادگیری عمیق

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. کلید دستیابی به مهارت اصیل در یادگیری ماشین، تمرین کردن رویکرد های مختلف یادگیری ماشین با دیتاست های گوناگون است چرا که در …

ادامه مطلب

دیتاست ارقام دستنویس فارسی برای یادگیری ماشین

ارقام دستنویس فارسی

بازشناسی ارقام وحروف دستنویس فارسی. موضوعی است که سالهاست روی آن کار میشود چه در حوزه تحقیقات دانشگاهی وچه در حوزه های تجاری وکاربردی.مقالات وپایان نامه های در این زمینه ارئه شده است والبته کارهای صنعتی زیادی هم صورت گرفته …

ادامه مطلب

دانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)

مجموعه داده اخبار

به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار با طبقه بندی موضوعی (classification) و خوشه بندی سلسله مراتبی در زیر برای دانلود ارائه شده است. دانلود مجموعه داده اخبار فارسی دسته بندی شده …

ادامه مطلب

مجموعه داده (Data Set) اشعار حافظ

مجموعه داده اشعار حافظ

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. یکی از مشکلات دانشجویان ارشد و دکترا این است که: برای فلان تحقیق (مثلاً درس داده‌کاوی) یا پایان‌نامه، نیاز به یک دیتاست (DataSet …

ادامه مطلب