یکی از بخش های کلیدی در پردازش متن تعیین نقش کلمه در جمله است. در واقع با ابزار برچسب گذار (POS tagger) نقش کلمه از نظر فعل، فاعل، نوع اسم و غیره مشخص میشود. برچسبگذاری در پردازش زبان بعد از بخش های واحدساز و …
ادامه مطلبنقش ریشه یاب (Stemmer) در تحلیل متن و پردازش زبان و تفاوت آن با lemmatizer
در این مبحث مولفه ریشه یاب (Stemmer) در فرایند پردازش متن تشریح میگردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. ریشه یاب (Stemmer) چیست؟ در هر زبان، واژهها با توجه به نقش معنایی و …
ادامه مطلبنقش واحدساز (Tokenizer) در پردازش متن و متن کاوی
واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنبالهای از کلمات تبدیل …
ادامه مطلبروش هاي تشخيص زبان در متن
تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد …
ادامه مطلبدیوار آتش پایگاه داده یا دیتابیس فایروال (DBF)
دیوار آتش پایگاه داده: در حال حاضر سیستم های اطلاعاتی در امور مختلف مورد استفاده قرار میگیرند که اغلب آنها مبتنی بر پایگاه داده های آسیب پذیر هستند. همچنین با توجه به امکان بالای وجود ضعف های امنیتی در برنامه های کاربردی و امکان …
ادامه مطلبنمونه برداری گراف شبکه های اجتماعی
شبکه های اجتماعی معمولا شامل تعداد زیادی نود هستند. در نتیجه گراف ناشی از این شبکهها بسیار بزرگ بوده و طبیعتا گرافهای بزرگ این چنینی هزینه پردازش زیادی دارند. در این گونه گرافها حتی الگوریتمهای از مرتبه O(n2) هم دارای پیچیدگی بالایی محسوب میشوند. …
ادامه مطلبتئوری شبکه های اجتماعی یا شبکه های پیچیده پویا
تئوری شبکه های اجتماعی: در این بخش به شرح اولیه از مفاهیم موجود در شبکه های پیچیده و پویا یا به عبارتی شبکههای اجتماعی[1] پرداخته میشود. مطالب این بخش برگرفته از کتاب راهنمای شبکههای اجتماعی نوشته فورت میباشد. پیشنهاد میشود قبل از مطالعه تئوری شبکه …
ادامه مطلبتئوری گراف به صورت خلاصه (نظریه گراف ها)
نظریه گراف ها به صورت خلاصه در این مبحث به شرح تعاریف اولیه از نظریه گراف (Graph Theory) پرداخته میشود. مطالب این بخش برگرفته از کتاب تئوری گراف نوشته گروس (Gross) میباشد. گراف هر شیء ریاضی شامل یک سری نقاط و اتصالات میان آنها، گراف …
ادامه مطلبنحوه افزودن یک افزونه یا پلاگین به گفی
نحوه افزودن یک افزونه یا پلاگین به گفی گفی یک نرم افزار متن باز به زبان جاوا بر اساس چارچوب NetBeans میباشد. از این نرم افزار میتوان برای تحلیل شبکه و گراف استفاده نمود. این نرم افزار از موتور رندرگیری سه بعدی[1] برای نمایش …
ادامه مطلباصطلاحات علمی در حوزه تحلیل شبکه های اجتماعی(terminology)
اصطلاحات علمی تحلیل شبکه های اجتماعی: ظهور و شناسايي شبکههاي مختلف در پيرامون ما، از شبکهي ژنهايي که خصوصياتمان را تعيين ميکنند تا شبکههاي اجتماعي برخط که بيشترين بازديدکنندگان در اينترنت را به خود اختصاص دادهاند، منجر به نامگذاري اين عصر به عصر شبکهها …
ادامه مطلبمقایسه وب سرویس های RESTful و SOAP
هر چند که وب سرویس RESTful و SOAP مستقیما با موضع کلان داده ارتباطی ندارد ولی از آنجایی که برخی از تکنولوژی های کلان داده از این وب سرویس ها پشتیبانی میکنند، در این مبحث به توضیح آن میپردازیم. قبل از مقایسه و بررسی …
ادامه مطلبWSO2 چیست؟
معرفی WSO2 این فناوری یک تکنولوژی متن باز و میان ابزاری (Middle ware) با زبان جاوا است. این تکنولوژی به صورت یک چهار چوب کاری (Frame Work) و مبتنی بر میکرو سرویس (WSO2 MSF4J) است. WSO2 پلتفرمی برای توسعه نرم افزار های جدید می …
ادامه مطلبمعرفی کامل صف پیشرفته کافکا (Kafka) همراه با نصب و راه اندازی در داکر
در مباحث قبل به ActiveMQ به عنوان یک سیستم صف و کارگزار پیام پرداختیم. آپاچی کافکا نیز پلت فرم متن باز به منظور پردازش جریانی اطلاعات توسعه یافته است که توسط بنیاد نرم افزار آپاچی نوشته شده و با اسکالا و جاوا است. این …
ادامه مطلبسیستم پیام رسان جاوا (JMS) چیست؟
سیستم پیام رسان جاوا (JMS) : روال اصلی در یک کارگزار پیام مثل JMS و همانند محصول ActiveMQ فراهم نمودن زیر ساخت لازم برای ارتباط با نرم افزار ایستگاه کاری می باشد. برای مثال connectors ، یک مکانیزم ارتباطی هستند که به وسیله آن …
ادامه مطلبمعرفی اکتیو ام کیو (ActiveMQ) و مرورری بر قابلیت های آن
ActiveMQ، این نرم افزار محبوب و قدرتمند یک سیستم کدباز پیام رسانی و سرویس دهنده تجمیع کننده الگوها می باشد که میتواند گزینه ای بسیار مناسب، در کنار سایر محصولات آپاچی باشد. پیام رسان یک نرم افزارمعماری پس ضمینه برای اعتبارسنجی پیام ،ارسال پیام …
ادامه مطلبکارگزار یا واسط های پیام (Message Broker)
واسطه های پیام یا Message Broker برنامه های واسطی هستند که کار ترجمه از یک زبان جهانی قابل قبول را در یک سیستم به یک سیستم ارتباطی از راه دور را انجام میدهند. واسطه پیام یک نرم افزارمعماری پس ضمینه برای اعتبارسنجی پیام ،ارسال …
ادامه مطلبمقایسه Neo4j با OrientDB با Titan
در رابطه با مقایسه سه پایگاه داده معروف مبنی بر گراف Neo4j و OrientDB و Titan خصیصه های زیر مورد بررسی قرار گرفته است. هدف کلی این مقایسه بررسی کارایی آن ها است. خصیصه های زیر برای مقایسه انتخاب شده و هر کدام از …
ادامه مطلبایندکس معکوس (inverted index) چیست؟
در قسمت های قبل روشهای شاخص گذاری بر روی داده ها را بررسی نمودیم. اکنون در بخش ایندکس معکوس (inverted index) مورد مطالعه قرار میدهیم. شاخص گذاري معکوس، يک مکانيزم مبتني بر کلمه است که براي جستجوي سريع اسناد شامل يک کلمه خاص به کار …
ادامه مطلبمحصولات و تکنولوژی های آپاچی (Apache) در حوزه کلان داده و داده کاوی
یکی از موسسات مطرح در زمینه پشتیبانی از داده های حجیم، بنیاد آپاچی می باشد. لذا شناخت محصولات و تکنولوژی های نرم افزاری آپاچی بسیار لازم است. معمولا از مجموعه ی این تکنولوژی ها تحت عنوان اکوسیستم هدوپ یاد میشود. در این مبحث تکنولوژی …
ادامه مطلبروش تحلیل و پردازش گراف های بزرگ
در قسمت های پیشین با تئوری گراف و تئوری شبکه اجتماعی آشنا شدیم. در این قسمت به روشهای معمول که در پردازش گراف های بزرگ مورد استفاده قرار میگیرد میپردازیم. این موارد را برای این بررسی میکنیم تا در زمان بررسی ابزار ها و …
ادامه مطلب