کتابخانه پایتون برای وب اسکرپ (web scraping)

پایتون وب اسکرپ

در این مبحث به کتابخانه ی با ارزش پایتون وب اسکرپ (web scraping) به منظور جمع آوری اطلاعات از یک صفحه وب خواهیم پرداخت. همگی میدانیم که یکی از منابع اصلی داده در دنیا امروز، متون و محتوای موجود در سایتهای اینترنتی است. اسکرپ …

ادامه مطلب

خلاصه ­سازی متن یا summarization در حوزه متن کاوی

خلاصه ­سازی متن یا summarization

خلاصه ­سازی متن یا summarization، فشرده ­سازی متن به حالت کوتاه­تر از متن اصلی است، به طوری که محتوای اطلاعاتی متن و به طور کلی مفاهیم کلی متن حفظ شود. به توجه به اینکه اسناد زیادی در اینترنت موجود است که بیشتر آنها محتوی …

ادامه مطلب

تشخیص موجودیت های اسمی یا نامدار (NER)

دیتاست اسامی فارسی

فراییند تشخیص موجودیت های اسمی (NER) named entity recognition برای تشخیص اسامی و نوع آنها به کار می ­رود. تشخیص موجودیت­ های اسمی فرآیندی است که هدف از آن تشخیص و شناسایی کلمات یا عباراتی است که نمایانگر یک موجودیت می­باشند. برای تشخیص موجودیت­ …

ادامه مطلب

نقش برچسب گذار (POS tagger) در پردازش متن

برچسب گذار (POS tagger)

یکی از بخش­ های کلیدی در پردازش متن تعیین نقش کلمه در جمله است. در واقع با ابزار برچسب گذار (POS tagger) نقش کلمه از نظر فعل، فاعل، نوع اسم و غیره مشخص می­شود. برچسب­گذاری در پردازش زبان بعد از بخش­ های واحدساز و …

ادامه مطلب

نقش ریشه­ یاب (Stemmer) در تحلیل متن و پردازش زبان و تفاوت آن با lemmatizer

ریشه­ یاب (Stemmer)

در این مبحث مولفه ریشه­ یاب (Stemmer) در فرایند پردازش متن تشریح می‌گردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. ریشه­ یاب (Stemmer) چیست؟ در هر زبان، واژه‌ها با توجه به نقش معنایی و …

ادامه مطلب

نقش واحدساز (Tokenizer) در پردازش متن و متن کاوی

قطعه بندی متون

واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم.  واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل …

ادامه مطلب

روش‏ هاي تشخيص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد …

ادامه مطلب

دیوار آتش پایگاه داده یا دیتابیس فایروال (DBF)

دیوار آتش پایگاه داده

دیوار آتش پایگاه داده: در حال حاضر سیستم­ های اطلاعاتی در امور مختلف مورد استفاده قرار می­گیرند که اغلب آن‌ها مبتنی بر پایگاه داده های آسیب پذیر هستند. همچنین با توجه به امکان بالای وجود ضعف های امنیتی در برنامه­ های کاربردی و امکان …

ادامه مطلب

نمونه برداری گراف شبکه های اجتماعی

نمونه برداری گراف

شبکه های اجتماعی معمولا شامل تعداد زیادی نود هستند. در نتیجه گراف ناشی از این شبکه‌ها بسیار بزرگ بوده و طبیعتا گرافهای بزرگ این چنینی هزینه پردازش زیادی دارند. در این گونه گرافها حتی الگوریتمهای از مرتبه O(n2)  هم دارای پیچیدگی بالایی محسوب میشوند. …

ادامه مطلب

تئوری شبکه های اجتماعی یا شبکه های پیچیده پویا

شبکه های اجتماعی

تئوری شبکه های اجتماعی:  در این بخش به شرح اولیه از مفاهیم موجود در شبکه های پیچیده و پویا یا به عبارتی شبکه‌های اجتماعی[1] پرداخته می‌شود. مطالب این بخش برگرفته از کتاب راهنمای شبکه‌های اجتماعی نوشته فورت می‌باشد. پیشنهاد میشود قبل از مطالعه تئوری شبکه …

ادامه مطلب

تئوری گراف به صورت خلاصه (نظریه گراف ها)

تئوری گراف

نظریه گراف ها به صورت خلاصه در این مبحث به شرح تعاریف اولیه از نظریه گراف (Graph Theory) پرداخته می‌شود. مطالب این بخش برگرفته از کتاب تئوری گراف نوشته گروس (Gross) می‌باشد. گراف هر شیء ریاضی شامل یک سری نقاط و اتصالات میان آن‌ها، گراف …

ادامه مطلب

نحوه افزودن یک افزونه یا پلاگین به گفی

گفی

نحوه افزودن یک افزونه یا پلاگین به گفی گفی  یک نرم افزار متن باز به زبان جاوا بر اساس چارچوب NetBeans می‌باشد. از این نرم افزار می‌توان برای تحلیل شبکه و گراف استفاده نمود. این نرم افزار از موتور رندرگیری سه بعدی[1] برای نمایش …

ادامه مطلب

اصطلاحات علمی در حوزه تحلیل شبکه های اجتماعی(terminology)

اصطلاحات علمی تحلیل شبکه های اجتماعی

اصطلاحات علمی تحلیل شبکه های اجتماعی: ظهور و شناسايي شبکه‌هاي مختلف در پيرامون ما، از شبکه‌ي ژن‌هايي که خصوصياتمان را تعيين مي‌کنند تا شبکه‌هاي اجتماعي برخط که بيشترين بازديدکنندگان در اينترنت را به خود اختصاص داده‌اند، منجر به نام‌گذاري اين عصر به عصر شبکه‌ها …

ادامه مطلب

مقایسه وب سرویس های RESTful و SOAP

وب سرویس RESTful و SOAP

هر چند که وب سرویس RESTful و SOAP مستقیما با موضع کلان داده ارتباطی ندارد ولی از آنجایی که برخی از تکنولوژی های کلان داده از این وب سرویس ها پشتیبانی میکنند، در این مبحث به توضیح آن میپردازیم. قبل از مقایسه و بررسی …

ادامه مطلب

WSO2 چیست؟

معرفی WSO2

معرفی WSO2  این فناوری یک تکنولوژی متن باز و میان ابزاری (Middle ware) با زبان جاوا است. این تکنولوژی به صورت یک چهار چوب کاری (Frame Work) و مبتنی بر میکرو سرویس (WSO2 MSF4J) است. WSO2 پلتفرمی برای توسعه نرم افزار های جدید می …

ادامه مطلب

معرفی کامل صف پیشرفته کافکا (Kafka) همراه با نصب و راه اندازی در داکر

عملکرد کافکا

در مباحث قبل به ActiveMQ به عنوان یک سیستم صف و کارگزار پیام پرداختیم. آپاچی کافکا نیز پلت فرم متن باز به منظور پردازش جریانی اطلاعات توسعه یافته است که توسط بنیاد نرم افزار آپاچی نوشته شده و با اسکالا و جاوا است. این …

ادامه مطلب

سیستم پیام رسان جاوا (JMS) چیست؟

سیستم پیام رسان جاوا (JMS)

سیستم پیام رسان جاوا (JMS) : روال اصلی در یک کارگزار پیام مثل JMS  و همانند محصول ActiveMQ فراهم نمودن زیر ساخت لازم برای ارتباط با نرم افزار ایستگاه کاری می باشد. برای مثال connectors ، یک مکانیزم ارتباطی هستند که به وسیله آن …

ادامه مطلب

معرفی اکتیو ام کیو (ActiveMQ) و مرورری بر قابلیت های آن

اکتیو ام کیو (ActiveMQ)

ActiveMQ، این نرم افزار محبوب و قدرتمند یک سیستم کدباز پیام رسانی و سرویس دهنده تجمیع کننده الگوها می باشد که میتواند گزینه ای بسیار مناسب، در کنار سایر محصولات  آپاچی باشد. پیام رسان یک نرم افزارمعماری پس ضمینه برای اعتبارسنجی پیام ،ارسال پیام …

ادامه مطلب

کارگزار یا واسط های پیام (Message Broker)

کارگزار یا واسط های پیام (Message Broker)

واسطه های پیام یا Message Broker برنامه های واسطی هستند که کار ترجمه از یک زبان جهانی قابل قبول را در یک سیستم به یک سیستم ارتباطی از راه دور را انجام میدهند. واسطه پیام یک نرم افزارمعماری پس ضمینه برای اعتبارسنجی پیام ،ارسال …

ادامه مطلب

مقایسه Neo4j با OrientDB با Titan

مقایسه Neo4j با OrientDB با Titan

 در رابطه با مقایسه سه پایگاه داده معروف مبنی بر گراف  Neo4j و  OrientDB و Titan خصیصه های زیر مورد بررسی قرار گرفته است. هدف کلی این مقایسه بررسی کارایی آن ها است. خصیصه های زیر برای مقایسه انتخاب شده و هر کدام از …

ادامه مطلب