پارس کردن صفحات وب با کتابخانه beautifulsoup پایتون

پارس کردن صفحات وب با پایتون

معرفی کتابخانه beautifulsoup پایتون : به منظور تجزیه کردن یا پارس کردن صفحات وب با پایتون (فایل های HTML) میتوان از این کتاب خانه استفاده کرد. همچنین از این کتابخانه میتوان برای تجزیه کردن فایل های XML استفاده کرد. مفاهیم کتابخانه beautifulsoup به منظور تجزیه کردن یا پارس کردن کتابخانه beautifulsoup یک کتابخانه پایتون است …

ادامه نوشته »

روش جمع آوری اطلاعات از شبکه اجتماعی توئیتر (twitter)

جمع آوری اطلاعات از توئیتر

جمع آوری اطلاعات از توئیتر: یکی از منابع اصلی برای جمع آوری اطلاعات در فضای سایبر شبکه های اجتماعی هستند. شبکه های اجتماعی مختلف از لحاظ جمع آوری اطلاعات درجه اهمیت متفاوتی دارند. این اهمیت با توجه با کشور نوع کشور نیز متغییر است چراکه در برخی از کشورها ممکن است اقبالی به یک شبکه …

ادامه نوشته »

نصب دستی پایگاه داده کاساندرا از روی فایل فشرده tar.gz

نصب دستی پایگاه داده کاساندرا

نصب دستی پایگاه داده کاساندرا از این جهت  برای ما اهمیت دارد که ممکن است گاهی دسترسی به اینترنت برای نصب خودکار کاساندرا نداشته باشم  یا اینکه در مواردی اتصال سرورهای ما به اینترنت مجاز نباشد (که معمولا با این مورد در اکثر پروژه های دولتی با آن مواجه هستیم). در پست های قبلی نحوه …

ادامه نوشته »

نصب دستی JDK از روی فایل تربال

نصب دستی JDK

نصب دستی JDK در ابونتو: نصب دستی JDK برای ما از این جهت اهمیت دارد که ممکن است گاهی دسترسی به اینترنت برای نصب اتوماتیک JDK نداشته باشم  یا اینکه در مواردی اتصال سرور به اینترنت ممنوع باشد. تمام ابزار های جاوایی در حوزه بیگ دیتا که در این سایت ارائه شده اند (مثل پایگاه …

ادامه نوشته »

تعریف پیکره واژگان یا WordNet چیست؟

پیکره واژگان یا WordNet

پیکره واژگان یا WordNet یک مجموعه ی نسبتا بزرگ از لغات و ارتباط آن ها در ساختار متون است. وردنت در حقیقت رابطه معنایی بین دو کلمه را بیان میکند. به عنوان مثال کبوتر از نوع پرنده است و پرنده یک نوع حیوان است و حیوان یک نوع جاندار است. از پیکره برای متن کاوی، …

ادامه نوشته »

کتابخانه پایتون برای وب اسکرپ (web scraping)

پایتون وب اسکرپ

OSINTدر این مبحث به کتابخانه ی با ارزش پایتون وب اسکرپ (web scraping) به منظور جمع آوری اطلاعات از یک صفحه وب خواهیم پرداخت. همگی میدانیم که یکی از منابع اصلی داده در دنیا امروز، متون و محتوای موجود در سایتهای اینترنتی است. اسکرپ عبارت است از جمع آوری داده از طریق یک برنامه که درخواست …

ادامه نوشته »

خلاصه ­سازی متن یا summarization در حوزه متن کاوی

خلاصه ­سازی متن یا summarization

خلاصه ­سازی متن یا summarization، فشرده ­سازی متن به حالت کوتاه­تر از متن اصلی است، به طوری که محتوای اطلاعاتی متن و به طور کلی مفاهیم کلی متن حفظ شود. به توجه به اینکه اسناد زیادی در اینترنت موجود است که بیشتر آنها محتوی اطلاعات غیر ضروری می­باشد، اهمیت خلاصه­ سازی متون به منظور کاهش …

ادامه نوشته »

تشخیص موجودیت های اسمی یا نامدار (NER)

دیتاست اسامی فارسی

فراییند تشخیص موجودیت های اسمی (NER) برای تشخیص اسامی و نوع آنها به کار می ­رود. تشخیص موجودیت­ های اسمی فرآیندی است که هدف از آن تشخیص و شناسایی کلمات یا عباراتی است که نمایانگر یک موجودیت می­باشند. برای تشخیص موجودیت­ های اسمی از قبیل نام­ افراد، سازمان­ها، مکان­ها و غیره بکار می­رود. همچنین به …

ادامه نوشته »

نقش برچسب گذار (POS tagger) در پردازش متن

برچسب گذار (POS tagger)

یکی از بخش­ های کلیدی در پردازش متن تعیین نقش کلمه در جمله است. در واقع با ابزار برچسب گذار (POS tagger) نقش کلمه از نظر فعل، فاعل، نوع اسم و غیره مشخص می­شود. برچسب­گذاری در پردازش زبان بعد از بخش­ های واحدساز و ریشه­ یاب و حذف پسوندهای خاص قرار می­گیرد. برای بن‌واژه‌سازی کلمات …

ادامه نوشته »

نقش ریشه­ یاب (Stemmer) در تحلیل متن

ریشه­ یاب (Stemmer)

در این مبحث مولفه ریشه­ یاب (Stemmer) در فرایند پردازش متن تشریح می‌گردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، این شکل ظاهری متفاوت از …

ادامه نوشته »

نقش واحدساز (Tokenizer) در پردازش متن

قطعه بندی متون

واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم.  واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند و آن را برای تحلیل های بعدی آماده میکند. در …

ادامه نوشته »

روش‏ های تشخیص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد مواجه شویم. در بیشتر موارد مخصوصا اگر رنج تنوع زبان ها …

ادامه نوشته »

دیوار آتش پایگاه داده یا دیتابیس فایروال (DBF)

دیوار آتش پایگاه داده

دیوار آتش پایگاه داده: در حال حاضر سیستم­ های اطلاعاتی در امور مختلف مورد استفاده قرار می­گیرند که اغلب آن‌ها مبتنی بر پایگاه داده های آسیب پذیر هستند. همچنین با توجه به امکان بالای وجود ضعف های امنیتی در برنامه­ های کاربردی و امکان سوءاستفاده و حمله به پایگاه داده­ ها از طریق لایه برنامه …

ادامه نوشته »

نمونه برداری گراف شبکه های اجتماعی

نمونه برداری گراف

نمونه برداری گراف: شبکه های اجتماعی معمولا شامل تعداد زیادی نود هستند. در نتیجه گراف ناشی از این شبکه‌ها بسیار بزرگ بوده و طبیعتا گرافهای بزرگ این چنینی هزینه پردازش زیادی دارند. در این گونه گرافها حتی الگوریتمهای از مرتبه O(n2)  هم دارای پیچیدگی بالایی محسوب میشوند. زیرا بعنوان مثال گرافی حاوی یک میلیون نود …

ادامه نوشته »

تئوری شبکه های اجتماعی یا شبکه های پیچیده پویا

شبکه های اجتماعی

تئوری شبکه های اجتماعی:  در این بخش به شرح اولیه از مفاهیم موجود در شبکه های پیچیده و پویا یا به عبارتی شبکه‌های اجتماعی[۱] پرداخته می‌شود. مطالب این بخش برگرفته از کتاب راهنمای شبکه‌های اجتماعی نوشته فورت می‌باشد. پیشنهاد میشود قبل از مطالعه تئوری شبکه های پیچیده پویا مبحث تئوری گراف را مطالاعه کنید. شبکه اجتماعی: …

ادامه نوشته »