Stanford CoreNLP مجموعه ای از ابزارهای آنالیز زبان طبیعی را فراهم می آورد. این نرم افزار می تواند یک متن خام به زبان انگلیسی را به عنوان ورودی گرفته و شکل اولیه کلمات، بخش های گفتاری کلمات، تشخیص اسم خاص بودن کلمات، نرمال کردن …
ادامه مطلبداده کاوی (DataMining)
پیشبینی ارتباط (لینک) در شبکه گراف های اجتماعی (link prediction)
پیشبینی لینک وجود ارتباط در شبکه گراف های اجتماعی (link prediction) پیشبینی لینک یا وجود ارتباط میان دو موجودیت بر اساس ویژگیهای موجودیتها و دیگر لینکهای مشاهده شده در گراف را پیشبینی لینک[1] میگویند . یا به عبارت دیگر اگر در زمان n0 یک …
ادامه مطلبدانلود مجموعه داده (دیتا ست) اشعار مثنوی معنوی مولوی و دیوان شمس
معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. در این پست مجموعه داده مثنوی معنوی برای انجام پردازش ها و انواع تحلیل های داده کاوی در اختیار قرار گرفته است. از لینک های زیر میتوانید …
ادامه مطلبشناسایی خودکار حیوانات در تحقیقات حیات وحش با یادگیری ماشین
شناسایی خودکار حیوانات در تحقیقات حیات وحش یک برنامه جدید که توسط محققان از ایالت پن و مایکروسافت Azure توسعه یافته است، به طور خودکار مناطق مورد علاقه حیوانات در تصاویر را تشخیص می دهد . حین تحقیقات حیات وحش و در پردازش تصاویر …
ادامه مطلبدانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)
به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار با طبقه بندی موضوعی (classification) و خوشه بندی سلسله مراتبی در زیر برای دانلود ارائه شده است. دانلود مجموعه داده اخبار فارسی دسته بندی شده بررسی و مقایسه الگوریتمهای …
ادامه مطلبمراحل پیشپردازش متن خبر فارسی
پیشپردازش متن فارسی برای پردازش زبان طبیعی و انجام عمليات خودکار بر روي متن مانند ترجمه، خلاصهسازي، تصحيح املا، استخراج کلمات کلیدی، خوشه بندی، طبقه بندی و غيره، نيازمند ابزارهايي جهت پيشپردازش و آمادهسازي متون هستيم. پیش پردازش[1] داده ها، مهمترین مرحله در فرایند …
ادامه مطلبمجموعه داده (Data Set) اشعار حافظ
معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. یکی از مشکلات دانشجویان ارشد و دکترا این است که: برای فلان تحقیق (مثلاً درس دادهکاوی) یا پایاننامه، نیاز به یک دیتاست (DataSet = مجموعه داده) دارم، …
ادامه مطلبدانلود بانک تصاویر گوگل مپ برای زوم های مختلف
خدمات گوگل مپ، تحول بزرگی را در سیستم مسیریابی دنیا به ایجاد کرده است و به معنای واقعی کلمه جهان در جیب شماست را به جهانیان نشان داده است. اطلاعات بسیاری را درباره شهرها و مسیرها تنها با صرف کمی وقت و لمس چند …
ادامه مطلبدیتاست اخبار حدود چهار هزار خبر فارسی به تفکیک تاریخ
مجموعه داده اخبار فارسی شامل بیش از سه هزار خبر از خبرگزاری های مختلف است. همه ما روزانه ده ها خبر مطالعه و جستجو می کنیم. دنبال کردن اخبار یکی از عادات روزانه ماست. در این دیتاست اخبار گوناگون جمع آوری شده است. این …
ادامه مطلبدانلود مجموعه داده های هستان شناسی(آنتولوژی) فارسی برای لغات هم معنا
هستیشناسی، دانش ساختاريافته در مورد يک حوزه خاص است که از طريق ارائه مفاهيم و روابط ميان آنها در آن حوزه شکل میگيرد. امروزه، بهدليل طراحی هستیشناسی در حوزههای موضوعی مختلف، ارائه معيارهايی برای گزينش مناسبترين هستیشناسی، ضروری است. مجموعه داده های هستان شناسی …
ادامه مطلبدانلود دیتا ست قرآن عزیز
در 14 قرن گذشته، کتابی در منطقه جزیرة العرب در میان مردمانی که جهل و ظلمت بر آنها سایه افکنده بود؛ ظهور کرد و هر روز که از عمر این کتاب می گذشت مشتاقان آن بیشتر و معارف آن همچون چشمه زلالی جوشان بود. …
ادامه مطلبدیتاست بیش از دویست و هفتاد هزار لینک فایل متنی
دیتاست فایل متنی: در این پست مجموعه داده ای شامل بر دویست و هفتاد هزار URL فایل پاورپوینت باموضوعات و زبان های متفاوت برای علاقه مندانی که تمایل به داده کاوی بر روی این گونه فایل ها هستند ارائه شده است. این لینک ها …
ادامه مطلب7 سرویس اوسینت برای جمع آوری اطلاعات و تحلیل اینستاگرام
مقدمه : سرویس هایی برای تحلیل اینستاگرام و ارتقاء هوشمندانه حسابهای اینستاگرام ارتقاء در اینستاگرام یک کار جدی و وقت گیر است که نیاز به تحلیل و تنظیمات دائمی دارد. جای تعجب نیست که پس از این یک سوال فوری مطرح می شود: چگونه …
ادامه مطلبابزارهای جستجوی مکانی و اوسینت در شبکه اجتماعی توییتر
مقدمه : ابزارهای اوسینت جستجوی مکانی در توییتر این روزها هویت هر کسی به صورت مستقیم یا غیرمستقیم، دقیق یا غیردقیق و گسترده یا مبهم در اینترنت ثبت شده است. هر کسی در طول عمرش حداقل فعالیتی در اینترنت دارد که به واسطه آن …
ادامه مطلبسینگولاریتی و پیش بینی آینده SINGULARITY
قبل از هر چیز باید با پیش بینی آینده (پیش بینی آینده) و روند تصاعدی تکنولوژی آشنا بشویم. سه مرحله اساسی دیدن آینده در گذر تاریخ شامل موارد ذیل می باشد: موفق شدن بشر درطی کردن چرخه های تکرار شونده مثل فصول و …
ادامه مطلبمجموعه داده (dataset) گراف شبکه جاده ای پنسیلوانیا
اطلاعات مجموعه داده (dataset) گراف شبکه جاده پنسیلوانیا یکی از کاربرد های تحلیل شبکه های اجتماعی تحلیل سیستم حمل و نقل جاده ای است. در ادامه مجموعه داده ای از شبکه جاده ای به وسیله دانشگاه استند فورد برای دانلود فراهم شده است. این …
ادامه مطلبخزشگر crawler4j و مقایسه با دیگر خزشگرها
در این نوشتار سعی داریم راه اندازی یک خزشگر وب قدرتمند را به همراه امکان جستجوی واژگان در صفحات و URLهای وب توسط خزشگر crawler4j را به شما بیاموزیم مقدمه بر خزشگر: Crawl crawl در لغت به معنای “خزیدن” می باشد. بررسی و جمع آوری …
ادامه مطلبانواع User Agent برای خزش در وب به صورت مودبانه (politeness)
پروتکل HTTP یک پروتکل درخواست و پاسخ است که بین یک کلاینت و یک سرور برقرار می شود . در اینجا کلاینت همان User Agent (مرورگر شما) است و منظور از سرور یک وب سایت اینترنتی می باشد . نکته : User agent نوع …
ادامه مطلبدانلود فایل فرهنگ لغت فارسی با فرمت csv (قابل بارگذاری بر روی پایگاه های داده)
فایل لغتنامه فارسی با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل فرهنگ لغت فارسی به فارسی با بیش از 19هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل …
ادامه مطلبجمع آوری اطلاعات در اینستاگرام (Instagram) و استفاده از ربات instagram4j
تهیه کننده: صابر کاظمی رودی جهت ارائه در درس شبکه های پیچیده پویا و تحلیل شبکه های اجتماعی در مباحث قبل به جمع آوری اطلاعات از شبکه اجتماعی توییتر اشاره کردیم. در این مبحث به جمع آوری اطلاعات در اینستاگرام می پردازیم. اینستاگرام در …
ادامه مطلب