روش جمع آوری اطلاعات از شبکه اجتماعی توئیتر (twitter)

جمع آوری اطلاعات از توئیتر

جمع آوری اطلاعات از توئیتر: یکی از منابع اصلی برای جمع آوری اطلاعات در فضای سایبر شبکه های اجتماعی هستند. شبکه های اجتماعی مختلف از لحاظ جمع آوری اطلاعات درجه اهمیت متفاوتی دارند. این اهمیت با توجه با کشور نوع کشور نیز متغییر است چراکه در برخی از کشورها ممکن ...

ادامه مطلب

نصب دستی پایگاه داده کاساندرا از روی فایل فشرده tar.gz

نصب دستی پایگاه داده کاساندرا

نصب دستی پایگاه داده کاساندرا از این جهت  برای ما اهمیت دارد که ممکن است گاهی دسترسی به اینترنت برای نصب خودکار کاساندرا نداشته باشم  یا اینکه در مواردی اتصال سرورهای ما به اینترنت مجاز نباشد (که معمولا با این مورد در اکثر پروژه های دولتی با آن مواجه هستیم). ...

ادامه مطلب

نصب دستی JDK از روی فایل تربال

نصب دستی JDK

نصب دستی JDK در ابونتو: نصب دستی JDK برای ما از این جهت اهمیت دارد که ممکن است گاهی دسترسی به اینترنت برای نصب اتوماتیک JDK نداشته باشم  یا اینکه در مواردی اتصال سرور به اینترنت ممنوع باشد. تمام ابزار های جاوایی در حوزه بیگ دیتا که در این سایت ...

ادامه مطلب

تعریف پیکره واژگان یا WordNet چیست؟

پیکره واژگان یا WordNet

پیکره واژگان یا WordNet یک مجموعه ی نسبتا بزرگ از لغات و ارتباط آن ها در ساختار متون است. وردنت در حقیقت رابطه معنایی بین دو کلمه را بیان میکند. به عنوان مثال کبوتر از نوع پرنده است و پرنده یک نوع حیوان است و حیوان یک نوع جاندار است. ...

ادامه مطلب

کتابخانه پایتون برای وب اسکرپ (web scraping)

پایتون وب اسکرپ

OSINTدر این مبحث به کتابخانه ی با ارزش پایتون وب اسکرپ (web scraping) به منظور جمع آوری اطلاعات از یک صفحه وب خواهیم پرداخت. همگی میدانیم که یکی از منابع اصلی داده در دنیا امروز، متون و محتوای موجود در سایتهای اینترنتی است. اسکرپ عبارت است از جمع آوری داده از ...

ادامه مطلب

خلاصه ­سازی متن یا summarization در حوزه متن کاوی

خلاصه ­سازی متن یا summarization

خلاصه ­سازی متن یا summarization، فشرده ­سازی متن به حالت کوتاه­تر از متن اصلی است، به طوری که محتوای اطلاعاتی متن و به طور کلی مفاهیم کلی متن حفظ شود. به توجه به اینکه اسناد زیادی در اینترنت موجود است که بیشتر آنها محتوی اطلاعات غیر ضروری می­باشد، اهمیت خلاصه­ ...

ادامه مطلب

تشخیص موجودیت های اسمی یا نامدار (NER)

تشخیص موجودیت های اسمی (NER)

فراییند تشخیص موجودیت های اسمی (NER) برای تشخیص اسامی و نوع آنها به کار می ­رود. تشخیص موجودیت­ های اسمی فرآیندی است که هدف از آن تشخیص و شناسایی کلمات یا عباراتی است که نمایانگر یک موجودیت می­باشند. برای تشخیص موجودیت­ های اسمی از قبیل نام­ افراد، سازمان­ها، مکان­ها و ...

ادامه مطلب

نقش برچسب گذار (POS tagger) در پردازش متن

برچسب گذار (POS tagger)

یکی از بخش­ های کلیدی در پردازش متن تعیین نقش کلمه در جمله است. در واقع با ابزار برچسب گذار (POS tagger) نقش کلمه از نظر فعل، فاعل، نوع اسم و غیره مشخص می­شود. برچسب­گذاری در پردازش زبان بعد از بخش­ های واحدساز و ریشه­ یاب و حذف پسوندهای خاص ...

ادامه مطلب

نقش ریشه­ یاب (Stemmer) در تحلیل متن

ریشه­ یاب (Stemmer)

در این مبحث مولفه ریشه­ یاب (Stemmer) در فرایند پردازش متن تشریح می‌گردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، ...

ادامه مطلب

نقش واحدساز (Tokenizer) در پردازش متن

قطعه بندی متون

واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم.  واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند و آن را برای تحلیل ...

ادامه مطلب

روش‏ های تشخیص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد مواجه شویم. در بیشتر موارد مخصوصا ...

ادامه مطلب

دیوار آتش پایگاه داده یا دیتابیس فایروال (DBF)

دیوار آتش پایگاه داده

دیوار آتش پایگاه داده: در حال حاضر سیستم­ های اطلاعاتی در امور مختلف مورد استفاده قرار می­گیرند که اغلب آن‌ها مبتنی بر پایگاه داده های آسیب پذیر هستند. همچنین با توجه به امکان بالای وجود ضعف های امنیتی در برنامه­ های کاربردی و امکان سوءاستفاده و حمله به پایگاه داده­ ...

ادامه مطلب