خصوصیات کلان داده یا اصل چهار وی (4V) Volume Velocity Variety Value

تعریف کلان داده

کلان‌داده (Big Data) اصطلاحی است که برای تعریف داده‌ها در حجم انبوه استفاده می‌شود: حجم بزرگ یا پیچیده‌ای از داده‌ها که ابزارهای متداول پردازش داده‌ها برای تحلیل و کاوش آن ناتوان باشد. «کلان‌داده دارایی‌های اطلاعاتی را شامل می‌شود که ویژگی‌هایی همچون حجم بسیار زیاد و سرعت و تنوع دارد و نیازمند روش‌های متمایز داده‌کاوی برای حصول به ارزش است.» (گارتنر)
متداول شدن استفاده از اینترنت و تسلط فناوری اطلاعات و ارتباطات در دو دهه اخیر باعث شده امکان جمع‌آوری اطلاعات و ذخیره‌سازی آن در حجم شگفت‌آوری افزایش یابد. همچنین امکان تولید اطلاعات و به اشتراک گذاشتن آن بسیار بیشتر شده است. آنچه اکنون اهمیت یافته این است که داده‌ی درست، در زمان درست، در اختیار افراد مناسب قرار گیرد. بدین ترتیب «دانش کلان‌داده» یک الگوی عمل‌گرایانه از مطالعات ترکیبی در فضای سیاست، کسب و کار، ورزش و… است که به ویژه از ابزارهای فناورانه استفاده می‌کند و در نهایت این هدف را دنبال می‌کند که «چه اطلاعاتی را در زمان مناسب در اختیار چه کسی قرار دهیم تا درست‌ترین تصمیم را بگیرد» (Stanier,2017).

خصوصیات کلان داده

 تعاریف متعددی در رابطه با کلان داده وجود دارد ولی جامع ترین تعریف را موسسه گارتنر از داده های حجیم ارائه داده است . این تعریف میگوید که داده های حجیم باید سه شرط داشته باشند که به تئوری سه V  معروف است. (البته تئوری چهار V یا اصل 4V و 8V هم وجود دارد که اهمیتی ندارد و در اصل لوس بازی های دانشمندان علم داده است. ضمنا به علت اینکه اکثر افراد کلمه 4V را جستجو میکنند، برای عنوان مطب عبارت 3V انتخاب نشده است)

  1.  Volume (حجم خیلی زیاد داده)
  2. Variety (تنوع داده و عدم ساختار)
  3. Velocity (شتاب ذخیره و بازیابی داده)

نکته با اهمیت: برخی از NOSQL ها هر سه V را  پشتیبانی نمی کنند. به عنوان مثال MongoDB شرط  Variety را  به خوبی پشتیبانی میکند و شرط Volume را ناقص و شرط  Velocity را اصلا پشتیبانی نمیکند و پایگاه داده Neo4j فقط شرط Variety  را پشتیبانی میکند و پایگاه داده کاساندرا هر سه شرط را به خوبی پشتیبانی میکند.

کلان داده
اصل  4V در کلان داده

 

Volume یا حجم داده ها: از سال 2012، تقریبا روزانه 2.5 اگزابایت داده تولید می­شود و این مقدار، هر 40ماه، دوبرابر می­شود. این امر سبب می­شود تا شرکت­ها با چندین پتابایت داده در یک مجموعه داده­ای واحد سروکار داشته باشند. برای نمونه، تخمین زده می­شود که والمارت، هر ساعت 2.5 پتابایت داده از تراکنش­های مشتریانش، جمع­آوری می­کند. همچنین، موفقیت شبکه­های اجتماعی، موجب تولید حجم عظیمی از محتوا شده است؛ برای نمونه، توییتر، روزانه به تنهایی 12ترابایت داده تولید می­کند.

Variety یا تنوع داده ها: (دوره داده­های غیرساخت ­یافته)منابع داده­های عظیم می­تواند از چندین مبدا و در شکل­های ناهمگون مانند، پیام­ها، بهنگام­سازی­ها و تصاویر ارسال­شده در شبکه­های اجتماعی، سیگنال­های GPS از گوشی­های سلولی و غیره باشد. بعلاوه این داده­ها فاقد شِما هستند .

Velocity یا  سرعت رشد داده ها: در بسیاری از کاربردها، سرعت تولید داده­ها، از حجم داده­ها مهم­تر است. اطلاعات بی­درنگ یا نزدیک به بی­درنگ، موجب می­شود تا سرعت عمل، عامل سوددهی یک شرکت و سبقت از شرکت­های رقیب باشد. بدین منظور، تمرکز از مجموعه­ های داده­ ای(دسته­ ای) به داده­ های جریانی سوق پیدا می­کند .عبارت جریان، به معنای پردازش برخط و ادامه­ دار است که دو رویکرد جهت پیاد­سازی تحلیل داده­ های جریانی وجود دارد:

  1. شکستن داده­ جریانی ورودی به دسته­­ های کوچکی از داده ورودی که در کتابخانه Spark Streaming   این تکنیک استفاده می­شود.
  2. بارِکاری رویدادگرا که در Storm این تکنیک بکارگرفته می­شود.

Value یا ارزش داده: پیش از تصمیم­گیری برای ذخیره داده­ه ای عظیم، باید مشخص گردد که آیا این داده­ ها ارزشمند هستند و پردازش، تحلیل یا حتی فروش آن­ها بصورت خام، موجب درآمدزایی برای شرکت می­شود یا خیر.

نکته مهم: البته این V و سایر Vهای بعد از آن از اهمیت سه V اول برخوردار نیست و صرفا بر اساس سلقه اشخاص مختلف اضافه شده است. برای همین تعریف گارتنر از 3V همچنان در سطح وسیعی مورد استفاده قرار می‌گیرد، و در توافقات یک تعریف پذیرفته شده وجود دارد که بیانگر این است که ” کلان‌داده بیانگر دارایی‌های اطلاعاتی است که دارای خصوصیاتی از قبیل حجم بالا، فناوری و سرعت و تنوع نیاز به روشهای آناکاوی‌ی مخصوص برای اطلاعات مربوط به ارزش، می‌باشد.

اصل چهار V
اصل  4V در کلان داده

گاهی از V پنجمی و بیشتری نام برده میشود که در ادامه به توضح آن ها میپردازیم و البته گاهی این خاصیت به عنوان خاصیت قبلی یعنی ارزش مطرح می شود.

Veracity یا صحت داد ها: با رشد سریع داده­ها از نظر حجم و تنوع، احتمال وجود داده­های نادرست در آن­ها نیز افزایش می­یابد. در نتیجه اگر ورودی قابل اعتماد نباشد، نمی­توان به اطلاعات استخراج شده از آن اعتماد کرد. در دنیای کسب­ و­کار نیز، مدیران بطور کامل به اطلاعات اسخراج شده از داده­های عظیم، اعتماد نمی­کنند.

اعتبار (Validity): با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.

نوسان (Volatility): سرعت تغییر ارزش داده های مختلف در طول زمان میتواند متفاوت باشد. در یک سیستم معمولی تجارت الکترونیک، سرعت نوسان داده ها زیاد نیست و ممکن است داده های موجود مثلا برای یک سال ارزش خود را حفظ کنند، اما در کاربردهایی نظیر تحلیل ارز و بورس، داده با نوسان زیادی مواجه هستند و داده ها به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود می گیرند. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.

نمایش (Visualization): یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.

هشت V
اصل 8V

چالش های حوزه کلان داده

در بحث کلان داده، ما نیاز داریم که داده ها را به منظور استخراج اطلاعات، کشف دانش و در نهایت تصمیم گیری در خصوص مسائل مختلف کاربردی به صورت صحیح مدیریت کنیم. مدیریت داده ها عموما شامل 5 فعالیت اصلی میباشد.

  1. جمع آوری
  2. ذخیره سازی
  3. جستجو
  4. به اشتراک گذاری
  5. تحلیل

تا کنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند.

انواع داده‌ در حوزه کلان داده

داده‌های موجود  در دنیای امروز را می‌توان به ۳ بخش تقسیم کرد:

  • داده‌های ساختاریافته
  • داده‌های نیمه ساخت‌یافته
  • داده‌های بدون ساختار

داده‌های ساختاریافته: داده‌ها می‌توانند در فرمت ثابتی که “داده‌های ساختاریافته” نامیده می‌شوند، ذخیره و پردازش شوند. یک نمونه از داده‌های ساختاریافته، داده‌هایی هستند که در سیستم مدیریت پایگاه داده رابطه‌ای (RDBMS)، ذخیره می‌شوند. پردازش داده‌های ساختاریافته آسان است، چرا که این نوع داده‌ها دارای شِمای ثابتی هستند. اغلب اوقات از زبان پرس و جوی SQL برای مدیریت این نوع داده‌ها استفاده می‌شود.

داده‌های نیمه ساخت‌یافته: داده‌های نیمه ساخت‌یافته، داده‌هایی هستند که ساختار رسمی “مدل داده‌” را ندارند، یعنی فاقد تعریف جدول در یک پایگاه داده رابطه‌ای هستند. با این وجود، این نوع داده‌ها از برخی ویژگی‌های سازمانی، هم‌چون تگ‌ها و برخی نشان گذارهای دیگر که برای جدا کردن عناصر معنایی، که تجزیه و تحلیل داده‌ها را ساده‌تر می‌کند، بهره می‌برند. فرمت‌های داده XML و مستندات JSON دو نوع از متداول‌ترین داده‌های نمیه ساختاریافته هستند

داده‌های بدون ساختار: داده‌هایی هستند که شکل و ساختاری مشخصی ندارند و به همین جهت RDBMSها راه‌حل مناسبی برای ذخیره، تجزیه و تحلیل این داده‌ها نیستند. فایل‌های متنی و محتویات چندرسانه‌ای هم‌چون تصاویر، فایل‌های صوتی و ویدئوها، نمونه‌هایی از داده‌های بدون ساختار هستند. سرعت رشد داده‌های بدون ساختار بیشتر از دیگر داده‌ها است و طبق نظر کارشناسان ۸۰% داده‌های یک سازمان، بدون ساختار هستند. پایگاه داده‌های غیر رابطه‌ایی(NoSql) یکی از دسته ابزارهایی هستند که می‌توانند برای ذخیره و پردازش این نوع از داده‌ها بکار روند.

هدوپ به عنوان اولین سامانه عمومی پردازش کلان داده

بعد از حدود 20 سال از معرفی هدوپ به عنوان اولین سامانه عمومی پردازش کلان داده، این اکوسیستم به بلوغ رسیده است به گونه‌ای که امروز با معرفی نسخه ۳ هدوپ، بسیاری از اشکالات و نواقص آن برطرف شده است. در این بین، نحوه ذخیره فایلها در اکوسیستم هدوپ هم بسیار متنوع شده است و برای سامانه های تحلیلی امروزی، آشنایی با قالب فایلهای موجود و معایب و مزایای هر کدام، یک ضرورت است. توضیح اینکه برای پردازش انبوه داده‌ها (batch)، هدوپ از سه مولفه اصلی زیر تشکیل شده است:

  • سیستم فایل توزیع شده (HDFS)
  • مدیریت تخصیص و پایش مداوم منابع مانند پردازنده، هارد، حافظه و مانند آنکه باید به صورت توزیع شده مدیریت شود (YARN)
  • بخش پردازش و تحلیل اطلاعات (توزیع و تجمیع – Map/Reduce)
هدوپ و کلان داده
هدوپ و کلان داده

منابع:

 http://spark.apache.org/docs/latest/streaming-programming-guide.html

 http://storm.apache.org

bigdata.ir

برای دیدن فلیم های سینماییِ مهیج و جذاب”در حوزه فناوری اطلاعات، اوسینت و هوش مصنوعی“، بر روی اینجا کلیک کنید.

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

بازدیدها: 9311

همچنین ببینید

آپاچی فلینک

تحلیل گراف های بزرگ با آپاچی فلینک (Apache Flink)

تهریف جریان داده: جریان داده ها، داده هایی هستندکه بطور مداوم توسط هزاران منبع داده تولید …

نسل جدید دیسک‌

نسل جدید دیسک های ذخیره سازی نوری برای داده های طولانی

مقدمه بر نسل جدید دیسک ها: دانشمندان استرالیا و چین از نانومواد طلا برای ساخت …

2 دیدگاه

  1. مصطفی رحمانپور

    عنوان کتاب : داده های بزرگ برای همه
    ناشر : ناقوس
    سال نشر : 1397
    عنوان اصلی :Big Data for Dummies
    نویسنده: Judith S. Hurwitz
    انتشارات : John Wiley & Sons, Inc

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Big Data

مطالب مفید را در گروه و کانال تلگرام ما دنبال کنید

ورود به تلگرام
بعدا x