در این صفحه دیتاست هایی از حوزه های مختلف برای کارهای دانشجویی به مرور قرار خواهیم داد.

نوشته های اخیر

مجموعه داده (dataset) گراف شبکه جاده ای پنسیلوانیا

گراف شبکه جاده ای

اطلاعات مجموعه داده (dataset)  گراف شبکه جاده پنسیلوانیا یکی از کاربرد های تحلیل شبکه های اجتماعی تحلیل سیستم حمل و نقل جاده ای است. در ادامه مجموعه داده ای از شبکه جاده ای به وسیله دانشگاه استند فورد برای دانلود فراهم شده است. این دیتاست یک شبکه جاده ای از پنسیلوانیا است. تقاطع ها و …

ادامه نوشته »

انواع User Agent برای خزش در وب به صورت مودبانه (politeness)

انواع User Agent

پروتکل  HTTP یک پروتکل درخواست و پاسخ  است که بین یک کلاینت و یک سرور برقرار می شود . در اینجا کلاینت همان  User Agent (مرورگر شما) است و منظور از سرور یک وب سایت اینترنتی می باشد . نکته : User agent نوع مرورگر و سیستم عامل سرویس گیرنده را مشخص می نماید و …

ادامه نوشته »

فایل فرهنگ لغت فارسی با فرمت csv (قابل بارگذاری بر روی پایگاه های داده)

فایل فرهنگ لغت فارسی

فایل فرهنگ لغت فارسی با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل فرهنگ لغت فارسی به فارسی با بیش از ۱۹هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل استفاده بودن در همه ساختارهای داده ای و پایگاه داده …

ادامه نوشته »

نحوه تشخیص گراف دو بخشی و پیاده سازی آن

گراف دو بخشی

به منظور تایید گراف دو بخشی (که در مبحث تئوری گراف آموختیم) میخواهیم بررسی کنیم آیا میتوان رأس‌های گراف را به دو بخش افراز کرد به گونه‌ای که تمام یال‌ها بین این دو بخش بیافتد. بنابر قضیه‌های گراف، شرط دو‌بخشی بودن با دور فرد نداشتن متناظر است، پس کافیست این شرط را چک کنیم. برای …

ادامه نوشته »

استاپ ورد های فارسی مرتب شده با طول کلمات

استاپ ورد های فارسی مرتب شده

یکی از مهمترین و کلیدی ترین مسائل در حذف کلمات ایستا (stop word) که معمولا اکثر متخصصین متن کاوی از آن بیخبر هستند این است که برای حذف ایست واژه ها (StopWord) در متن اصلی میبایست  ایست واژه ها را  به صورت یک لیست که بر اساس طول یا سایز واژه ها مرتب شده است …

ادامه نوشته »

فایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

دانلود رایگان فایل دیکشنری

فایل دیکشنری با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل دیکشنری فارسی به انگلیسی (و حتما انگلیسی به فارسی) با بیش از هفتاد هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل استفاده بودن در همه ساختارهای داده ای …

ادامه نوشته »

دانلود دیتاست (Data Set) مسیرهای پروازی

دیتاست مسیرهای پروازی

در این پست دیتاست مسیرهای پروازی از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع ۳۷۱۵۳ مسیر) بر اساس داده های OpenFlights.org است. گراف تحلیل شده این دیتا ست را …

ادامه نوشته »

دانلود دیتا ست قرآن عزیز

 دیتا ست قرآن کریم تنها سخنانی که بدون هیچ تغییر از مبدا آفرینش بر روی کره زمین در دستان بشر موجود است همین قرآن عزیز است. قرآن تنها جملات خداوند است که تا کنون بدون تغییر در اختیار انسان گذاشته شده است. دوستان بزرگواری که روی کارهای تحلیلی بر روی قرآن کریم کار میکنند میتوانند …

ادامه نوشته »

مجموعه داده (data set) گراف فیس بوک

مجموعه داده گراف فیس بوک

مجموعه داده گراف فیس بوک: این دیتاست شامل “حلقه ها” (یا “لیست دوستان”) از شبکه اجتماعی فیس بوک است. داده های فیس بوک از شرکت کنندگان بررسی شده با استفاده از یک App فیس بوک جمع آوری شده است. مجموعه داده شامل ویژگی های گره (پروفایل)، حلقه ها و شبکه های ego است. داده های …

ادامه نوشته »

دیتاست (DataSet) گراف بیت کوئین

دیتاست گراف بیت کوئین

دیتاست گراف ارتباطی بیت کوئین: این مجموعه داده مربوط به گراف افرادی معتمد در شبکه امن است که Bitcoin را در پلتفرم Bitcoin Alpha به کار می برند. از آنجا که کاربران Bitcoin ناشناس هستند، نیاز به حفظ رکورد شهرت کاربران برای جلوگیری از معاملات با کاربران متقلب و مخاطره آمیز وجود دارند. اعضای Bitcoin …

ادامه نوشته »

دانلود ایست واژه‌ها یا Stop Word در زبان فارسی

ایست واژه‌ها یا Stop Word: کلماتی هستند که با وجود به تکرار بسیار زیاد آن و حضور آنها در اغلب اسناد فاقد اطلاعات معنابخش هستند. بنابراین با حذف آن‌ها کارایی الگوریتم‌ها افزایش  و حجم پردازش کاهش می‌یابد. ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی …

ادامه نوشته »
آدرس کانال تلگرام ما: t.me/bigdata_channel