دیتاست فایل متنی: در این پست مجموعه داده ای شامل بر دویست و هفتاد هزار URL فایل پاورپوینت باموضوعات و زبان های متفاوت برای علاقه مندانی که تمایل به داده کاوی بر روی این گونه فایل ها هستند ارائه شده است. این لینک ها …
ادامه مطلبدیتاست (data set) و مجموعه داده
مجموعه داده (dataset) گراف شبکه جاده ای پنسیلوانیا
اطلاعات مجموعه داده (dataset) گراف شبکه جاده پنسیلوانیا یکی از کاربرد های تحلیل شبکه های اجتماعی تحلیل سیستم حمل و نقل جاده ای است. در ادامه مجموعه داده ای از شبکه جاده ای به وسیله دانشگاه استند فورد برای دانلود فراهم شده است. این …
ادامه مطلبانواع User Agent برای خزش در وب به صورت مودبانه (politeness)
پروتکل HTTP یک پروتکل درخواست و پاسخ است که بین یک کلاینت و یک سرور برقرار می شود . در اینجا کلاینت همان User Agent (مرورگر شما) است و منظور از سرور یک وب سایت اینترنتی می باشد . نکته : User agent نوع …
ادامه مطلبدانلود فایل فرهنگ لغت فارسی با فرمت csv (قابل بارگذاری بر روی پایگاه های داده)
فایل لغتنامه فارسی با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل فرهنگ لغت فارسی به فارسی با بیش از 19هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل …
ادامه مطلبجستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل
دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعهای از دادهها میگویند که با موضوعیت واحد، جهت انجام کارها و پروژههای مربوط به علم داده استفاده میشوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روشهای مختلف …
ادامه مطلبمجموعه داده برای تشخیص و ردیابی موضوع (TDT)
مجموعه داده برای تشخیص و ردیابی موضوع (TDT) برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده[1]ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شدهاند به شرح زیر …
ادامه مطلبدیتاست اسامی فارسی برای تشخیص موجودیت های اسمی
دیتاست اسامی فارسی برای تشخیص موجودیت های اسمی با بیش از چهار هزار کلمه که بر اساس پر استفاده ترین ها مرتب شده اند. یکی از روش های تشخیص موجودیت های نامدار استفاده از دیتاست اسامی فارسی است. این مرتب شدن اسامی به جهت …
ادامه مطلباستاپ ورد های فارسی مرتب شده با طول کلمات
یکی از مهمترین و کلیدی ترین مسائل در حذف کلمات ایستا (stop word) که معمولا اکثر متخصصین متن کاوی از آن بیخبر هستند این است که برای حذف ایست واژه ها (StopWord) در متن اصلی میبایست ایست واژه ها را به صورت یک لیست …
ادامه مطلبفایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)
فایل دیکشنری با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل دیکشنری فارسی به انگلیسی (و حتما انگلیسی به فارسی) با بیش از هفتاد هزار لغت برای استفاده پژوهشگران آماده …
ادامه مطلبدانلود دیتاست (Data Set) مسیرهای پروازی
در این پست دیتاست مسیرهای پروازی از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع ۳۷۱۵۳ مسیر) بر اساس …
ادامه مطلبمجموعه داده (data set) گراف فیس بوک
مجموعه داده گراف فیس بوک: این دیتاست شامل “حلقه ها” (یا “لیست دوستان”) از شبکه اجتماعی فیس بوک است. داده های فیس بوک از شرکت کنندگان بررسی شده با استفاده از یک App فیس بوک جمع آوری شده است. مجموعه داده شامل ویژگی های …
ادامه مطلبدیتاست (DataSet) گراف بیت کوئین
دیتاست گراف ارتباطی بیت کوئین: این مجموعه داده مربوط به گراف افرادی معتمد در شبکه امن است که Bitcoin را در پلتفرم Bitcoin Alpha به کار می برند. از آنجا که کاربران Bitcoin ناشناس هستند، نیاز به حفظ رکورد شهرت کاربران برای جلوگیری از …
ادامه مطلبدانلود ایست واژهها یا Stop Word در زبان فارسی
ایست واژهها یا Stop Word: کلماتی هستند که با وجود به تکرار بسیار زیاد آن و حضور آنها در اغلب اسناد فاقد اطلاعات معنابخش هستند. بنابراین با حذف آنها کارایی الگوریتمها افزایش و حجم پردازش کاهش مییابد. ایست واژه ها لغاتی هستند که علی …
ادامه مطلب