عناوين مطالب: 'تعریف و اهمیت مکانیک خاکترکیب و خصوصیات خاکروابط وزنی-حجمی خاکدانهبندی و طبقهبندی خاکخصوصیات مکانیکی خاکروشهای مطالعه رفتار خاکروش تئوریروش عددیبرای استفاده از روشهای عددی مکانیک خاک، نیاز به انجام مراحل زیر است:مزایای روشهای عددی مکانیک خاک عبارتاند از:معایب روشهای عددی مکانیک خاک …
ادامه مطلبمجموعه داده یا دیتاست (DataSet ) به دادهها گفته میشود که با موضوعیت و خواص مشخص و یکسان دارند. این داده ها جهت انجام تحقیقات و پروژههای مربوط به علم داده به جهت کسب دانش از داده ها استفاده میشوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روشهای مختلف هست. به این صورت که بهطور نمونه بر روی دیتاست A، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج میتوان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روشها را مقایسه کرد.
مهمترین ابزار یک پژوهشگر برای ارائهی تحلیل درست دیتا است. استفاده از دیتای ناقص میتواند منجر به خطا در تحلیل شود و اثرات زیانباری در زمینهی تصمیمگیری بر مبنای دیتا داشته باشد. در این وب سایت مجموعه داده هایی از حوزه های مختلف برای فعالیت های تحقیقاتی دانشجویان ارشد و دکترا به مرور قرار خواهیم گرفت.
پرکاربردترین استفاده از مجموعه داده به منظور آموزش دادن الگوریتم های یادگیری ماشین و یاد گیری عمیق می باشد. هر چند استفاده های فراوان دیگری از این مجموعه داده متصور است. شبیه شکل زیر
منابع دیتاست
در واقع دیتاستها از راههای مختلفی ایجاد میشوند که از این روشها میتوان به موارد زیر اشاره کرد:
- دادههای ثبت شده در log file ها
- دادههای تولید شده از ماشینها
- دادههای ثبت شده از مشاهدات انسانی
- دادههای ثبت شده از وبسایتها
- دادههای جمعآوری شده از نظرسنجی
در اینجا قصد داریم تا پرکاربرد ترین دیتاست ها و مجموعه داده های (فارسی) را در حوزه های مختلف برای تحلیل گران گرد آوری کنیم:
نوشته های اخیر
دانلود مجموعه داده و دیتاست های دیجی کالا (DijiKala)
جهت امور تحقیقیاتی، تحلیل و داده کاوی مجموعه داده و دیتاست های سایت دیجی کالا (DigiKala) برای پژوهشگران آماده شده است. در این صفحه میتوانید dataset دی جی کالا را دانلود کنید. این مجموعه داده شامل موارد زیر است. سفارشات محصولات کامنت ها کیفیت …
ادامه مطلبمجموعه داده (Data Set) ترجمه فارسی قرآن آقای قرائتی با دانلود فایل متنی
ترجمه فارسی قرآن برای دوستان بزرگواری که بر روی تحلیل های هوشمند در قرآن کریم کار میکنند میتواند مفید فایده باشد لیکن میتوانند از دیتاست (مجموعه داده) زیر برای به این منظور استفاده نمایند. مجموعه داده (Data Set) متن اصلی قرآن نیز در این …
ادامه مطلبمجموعه داده اسامی مکان برای تشخیص موجودیت های مکانی در پردازش زبان طبیعی
عناوين مطالب: 'مقدمه ای بر اسامی مکان:کاربردهای (Named-entity recognition) NERروشهای تشخیص اسم مکاندانلود دیتاست اسامی مکان های جغرافیایی به ربان فارسی مقدمه ای بر اسامی مکان: یکی از انواع موجودیت های نامدار، اسم مکان است. برای استفاده پژوهشگران دیتاستی شامل بیش از 300 هزار …
ادامه مطلبدانلود مجموعه داده (دیتا ست) اشعار مثنوی معنوی مولوی و دیوان شمس
معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. در این پست مجموعه داده مثنوی معنوی برای انجام پردازش ها و انواع تحلیل های داده کاوی در اختیار قرار گرفته است. از لینک های زیر میتوانید …
ادامه مطلبدانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)
به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار با طبقه بندی موضوعی (classification) و خوشه بندی سلسله مراتبی در زیر برای دانلود ارائه شده است. دانلود مجموعه داده اخبار فارسی دسته بندی شده بررسی و مقایسه الگوریتمهای …
ادامه مطلبمجموعه داده (Data Set) اشعار حافظ
معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. یکی از مشکلات دانشجویان ارشد و دکترا این است که: برای فلان تحقیق (مثلاً درس دادهکاوی) یا پایاننامه، نیاز به یک دیتاست (DataSet = مجموعه داده) دارم، …
ادامه مطلبدانلود بانک تصاویر گوگل مپ برای زوم های مختلف
خدمات گوگل مپ، تحول بزرگی را در سیستم مسیریابی دنیا به ایجاد کرده است و به معنای واقعی کلمه جهان در جیب شماست را به جهانیان نشان داده است. اطلاعات بسیاری را درباره شهرها و مسیرها تنها با صرف کمی وقت و لمس چند …
ادامه مطلبدیتاست اخبار حدود چهار هزار خبر فارسی به تفکیک تاریخ
مجموعه داده اخبار فارسی شامل بیش از سه هزار خبر از خبرگزاری های مختلف است. همه ما روزانه ده ها خبر مطالعه و جستجو می کنیم. دنبال کردن اخبار یکی از عادات روزانه ماست. در این دیتاست اخبار گوناگون جمع آوری شده است. این …
ادامه مطلبدانلود مجموعه داده های هستان شناسی(آنتولوژی) فارسی برای لغات هم معنا
هستیشناسی، دانش ساختاريافته در مورد يک حوزه خاص است که از طريق ارائه مفاهيم و روابط ميان آنها در آن حوزه شکل میگيرد. امروزه، بهدليل طراحی هستیشناسی در حوزههای موضوعی مختلف، ارائه معيارهايی برای گزينش مناسبترين هستیشناسی، ضروری است. عناوين مطالب: 'مجموعه داده های …
ادامه مطلبدانلود دیتا ست قرآن عزیز
در 14 قرن گذشته، کتابی در منطقه جزیرة العرب در میان مردمانی که جهل و ظلمت بر آنها سایه افکنده بود؛ ظهور کرد و هر روز که از عمر این کتاب می گذشت مشتاقان آن بیشتر و معارف آن همچون چشمه زلالی جوشان بود. …
ادامه مطلبدیتاست بیش از دویست و هفتاد هزار لینک فایل متنی
دیتاست فایل متنی: در این پست مجموعه داده ای شامل بر دویست و هفتاد هزار URL فایل پاورپوینت باموضوعات و زبان های متفاوت برای علاقه مندانی که تمایل به داده کاوی بر روی این گونه فایل ها هستند ارائه شده است. این لینک ها …
ادامه مطلبمجموعه داده (dataset) گراف شبکه جاده ای پنسیلوانیا
اطلاعات مجموعه داده (dataset) گراف شبکه جاده پنسیلوانیا یکی از کاربرد های تحلیل شبکه های اجتماعی تحلیل سیستم حمل و نقل جاده ای است. در ادامه مجموعه داده ای از شبکه جاده ای به وسیله دانشگاه استند فورد برای دانلود فراهم شده است. این …
ادامه مطلبدانلود فایل فرهنگ لغت فارسی با فرمت csv (قابل بارگذاری بر روی پایگاه های داده)
فایل لغتنامه فارسی با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل فرهنگ لغت فارسی به فارسی با بیش از 19هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل …
ادامه مطلباستاپ ورد های فارسی مرتب شده با طول کلمات
یکی از مهمترین و کلیدی ترین مسائل در حذف کلمات ایستا (stop word) که معمولا اکثر متخصصین متن کاوی از آن بیخبر هستند این است که برای حذف ایست واژه ها (StopWord) در متن اصلی میبایست ایست واژه ها را به صورت یک لیست …
ادامه مطلبفایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)
فایل دیکشنری با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل دیکشنری فارسی به انگلیسی (و حتما انگلیسی به فارسی) با بیش از هفتاد هزار لغت برای استفاده پژوهشگران آماده …
ادامه مطلبدانلود دیتاست (Data Set) مسیرهای پروازی
در این پست دیتاست مسیرهای پروازی از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع ۳۷۱۵۳ مسیر) بر اساس …
ادامه مطلبمجموعه داده (data set) گراف فیس بوک
مجموعه داده گراف فیس بوک: این دیتاست شامل “حلقه ها” (یا “لیست دوستان”) از شبکه اجتماعی فیس بوک است. داده های فیس بوک از شرکت کنندگان بررسی شده با استفاده از یک App فیس بوک جمع آوری شده است. مجموعه داده شامل ویژگی های …
ادامه مطلبدیتاست (DataSet) گراف بیت کوئین
دیتاست گراف ارتباطی بیت کوئین: این مجموعه داده مربوط به گراف افرادی معتمد در شبکه امن است که Bitcoin را در پلتفرم Bitcoin Alpha به کار می برند. از آنجا که کاربران Bitcoin ناشناس هستند، نیاز به حفظ رکورد شهرت کاربران برای جلوگیری از …
ادامه مطلبدانلود ایست واژهها یا Stop Word در زبان فارسی
ایست واژهها یا Stop Word: کلماتی هستند که با وجود به تکرار بسیار زیاد آن و حضور آنها در اغلب اسناد فاقد اطلاعات معنابخش هستند. بنابراین با حذف آنها کارایی الگوریتمها افزایش و حجم پردازش کاهش مییابد. ایست واژه ها لغاتی هستند که علی …
ادامه مطلب