انتشار SoNebuntu Light نسخه سبک توزیع لینوکس مخصوص تحلیل گران شبکه‌های اجتماعی

توزیع لینوکس SoNebuntu Light: در دنیای امروز که داده‌ها و تحلیل آن‌ها نقش کلیدی در تجارت، کسب و کار و انواع پژوهش‌ها دارند، ابزار تحلیل داده نیز باعث تسریع در عملیات تحلیل تاثیر بسزایی دارند. همین مسئله در بحث شبکه‌های اجتماعی نیز مطرح است. هر داده‌ای که خاصیت شبکه‌ای داشته ...

ادامه مطلب

مدل مرجع معماری بیگ دیتا NBDRA (ISO 20547-3)

معماری بیگ دیتا ISO 20547-3

معماری بیگ دیتا یا معماری مرجع NBDRA برای کلان داده ها در شکل ۱ نشان داده شده است. این مدل توسط گروه کاری عمومی کلان داده  NBD-PWG مؤسسه ملی فناوری و استانداردها (NIST) که یک گروه معتبر استانداردسازی در آمریکا است، ارائه شده است. این مدل بعد از دریافت و ...

ادامه مطلب

جستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل

دیتاست گوگل

دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت واحد، جهت انجام کارها و پروژه‌های مربوط به علم داده استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور ...

ادامه مطلب

امنیت بیگ دیتا با روش های سنتی امنیت دست یافتنی نیست

امنیت بیگ دیتا

چرا امنیت مرسوم سنتی کافی نیست؟ عناوین مطالب تکنیک های پایه ای شناسایی تهدیدات حفاظت (دفاع) امنیتی مرسوم سنتی امنیت نقطه پایان سیستم های پیشگیری از نفوذ دیوارهای آتش نسل جدید دروازه ایمیل امن دروازه وبی امن سیستم های پیشگیری از اتلاف داده تجزیه و تحلیل رفتار شبکه ابزارتجزیه و ...

ادامه مطلب

ایزو مدیریت امنیت ISO 27016-27017

ISO 2700x

مدیریت امنیت ISO/IEC TR 27016:2014 هدف و دامنه کاربرد مدیریت امنیت ISO 27016-27017  هدف از تدوین مدیریت امنیت ISO 27016-27017، تعیین راهنماهایی درباره نحوه تصمیم گیری سازمان به منظور حفاظت اطلاعات و شناسایی پیامدهای اقتصادی این تصمیمات در زمینه الزامات رقابتی برای منابع است این استاندارد برای همه سازمان ها ...

ادامه مطلب

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT)

تشخیص و ردیابی موضوع

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT) برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده­[۱]­ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شده­اند به شرح زیر می‌باشند: جریان موضوعات جریان موضوعات به ...

ادامه مطلب

دیتاست اسامی فارسی برای تشخیص موجودیت های اسمی

دیتاست اسامی فارسی

دیتاست اسامی فارسی برای تشخیص موجودیت های اسمی با بیش از چهار هزار کلمه که بر اساس پر استفاده ترین ها مرتب شده اند. یکی از روش های تشخیص موجودیت های نامدار استفاده از دیتاست اسامی فارسی است. این مرتب شدن اسامی به جهت افزایش سرعت برای پیدا کردن موجودیت ...

ادامه مطلب

حفاظت شده: فیلم آموزشی تحلیل شبکه های اجتماعی با پایتون (دانشگاه میشیگان)

فیلم آموزشی تحلیل شبکه های اجتماعی

هیچ چکیده‌ای موجود نیست زیرا‌این یک نوشته حفاظت شده است.

ادامه مطلب

استاپ ورد های فارسی مرتب شده با طول کلمات

استاپ ورد های فارسی مرتب شده

یکی از مهمترین و کلیدی ترین مسائل در حذف کلمات ایستا (stop word) که معمولا اکثر متخصصین متن کاوی از آن بیخبر هستند این است که برای حذف ایست واژه ها (StopWord) در متن اصلی میبایست  ایست واژه ها را  به صورت یک لیست که بر اساس طول یا سایز ...

ادامه مطلب

فایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

دانلود رایگان فایل دیکشنری

فایل دیکشنری با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل دیکشنری فارسی به انگلیسی (و حتما انگلیسی به فارسی) با بیش از هفتاد هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل استفاده بودن ...

ادامه مطلب

دانلود دیتاست (Data Set) مسیرهای پروازی

دیتاست مسیرهای پروازی

در این پست دیتاست مسیرهای پروازی از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع ۳۷۱۵۳ مسیر) بر اساس داده های OpenFlights.org است. گراف تحلیل ...

ادامه مطلب

دانلود دیتا ست قرآن عزیز

 دیتا ست قرآن کریم تنها سخنانی که بدون هیچ تغییر از مبدا آفرینش بر روی کره زمین در دستان بشر موجود است همین قرآن عزیز است. قرآن تنها جملات خداوند است که تا کنون بدون تغییر در اختیار انسان گذاشته شده است. دوستان بزرگواری که روی کارهای تحلیلی بر روی ...

ادامه مطلب

ISO 2700x (فایل تمامی ایزو های سری بیست و هفت هزار)

ISO 2700x

معرفی ISO 2700x  به همراه فایل تمامی ایزو های سری بیست و هفت هزار به جهت استفاده دانشجویان عزیز قصد داریم در این پست تمامی استانداردهای سری ISO 2700x که از منابع مختلف گردآوری شده است به صورت یکجا برای دانلود ارائه دهیم. جهت دانلود فایل های ISO 2700x به ...

ادامه مطلب

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و ...

ادامه مطلب

استخراج کلمات کلیدی از متن فارسی با روش های آماری

استخراج کلمات کلیدی

بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی مجموعه‌ای از لغات مهم در یک ...

ادامه مطلب