مدل مرجع معماری بیگ دیتا NBDRA (ISO 20547-3)

به بیان ساده، بیگ دیتا مجموعه داده های بزرگ و پیچیده تری هستند، که از منابع جدید داده ها استخراج می شوند. این مجموعه داده ها آنقدر حجیم و غیر ساخت یافته هستند که نرم افزارهای قدیمی پردازش داده، نمی توانند آنها را مدیریت کنند. اما این حجم عظیم از داده را می توان برای رفع مشکلات تجاری که قبلا قادر به حل آن ها نبودید مورد استفاده قرار داد.

تناسب داده هاي غير ساخت يافته نسبت به ساخت يافته
تناسب داده های غیر ساخت یافته نسبت به ساخت یافته

معمولا معماری بیگ دیتا شامل چهار لایه ی ذخیره سازی، پردازش، نرم افزار و نحوه نمایش و ارائه است. در این معماری با مجموعه ای از داده های ساختار یافته و ساختار نایافته روبه رو هستیم. در لایه پردازش مفاهیمی مانند جریان پردازش داده و در لایه نرم افزار مفهوم یکپارچه سازی و موضوعاتی مثل هوش تجاری مطرح می شود. در طراحی های جدید سعی شده است که وابستگی به لایه اول یعنی ذخیره سازی از بین برود و داده ها مستقیما پردازش شوند.

معماری بیگ دیتا NBDRA 

معماری مرجع NBDRA (NIST Big Data Reference Architecture) از ارائه زنجیره­ا یا پشته سازی شده سیستم های كلان داده پشتیبانی می كند. به عنوان نمونه، مصرف كننده داده یك سیستم می تواند به عنوان فراهم كننده داده برای سیستم بعدی در زنجیره یا پشته عمل كند.

معماری بیگ دیتا یا معماری مرجع NBDRA برای كلان داده ها در شکل زیر نشان داده شده است. این مدل توسط گروه كاری عمومی كلان داده NBD-PWG مؤسسه ملی فناوری و استانداردها (NIST) كه یك گروه معتبر استانداردسازی در آمریكا است، ارائه شده است. این مدل بعد از دریافت و مقایسه 9 معماری مرجع برای كلان داده ها از سازمان ها، شركت ها و دانشگاه های مختلف زیر پیشنهاد شده است:

  1. ET Strategies
  2. – Microsoft
  3. – University of Amsterdam
  4. – IBM
  5. – Oracle
  6. – EMC/Pivotal
  7. – SAP
  8. – 9sight Consulting
  9. – LexisNexis

نكته قابل توجه این است كه معماری مرجع NBDRA وابسته به یك فناوری یا سازنده خاص یا یك زیرساخت خاص نیست. همانطور كه در شکل 1نشان داده شده است، NBDRA از لحاظ منطقی از پنج جزء كاركردی اصلی تشكیل شده است كه بوسیله روابط تعاملی با یكدیگر در ارتباط هستند. همچنین دو نقش مهم مدیریت و همچنین امنیت و حریم خصوصی با تمام اجزاء اصلی دیگر در این مدل عجین بوده و با آنها در ارتباط هستند.

معماری مرجع NBDRA طوری طراحی شده است كه افراد مختلف شامل مهندسان سیستم، دانشمندان داده، توسعه دهندگان نرم افزار، معماران داده و تصمیم گیران بتوانند راهكارهای مورد نظر خود را برای مواجهه با مسائلی كه روش های بسیار متفاوتی برای حل آنها در زیست بوم كلان داده وجود دارد، توسعه دهند. همچنین این معماری مرجع طوری طراحی شده است كه بتواند در حوزه های مختلف با مدل های مختلف كسب و كار و طرح های تجاری مختلف مورد استفاده قرار گیرد.

 

معماری بیگ دیتا ISO 20547-3
شکل 1: مدل مرجع كلان داده ها ارائه شده توسط NIST (NBDRA) و معماری مرجع بیگ دیتا ISO 20547-3

معماری مرجع NBDRA در راستای دو محور ترسیم شده است: 1- زنجیره ارزش اطلاعات (محور افقی) 2- زنجیره ارزش فناوری اطلاعات (محور عمودی).

1- زنجیره ارزش اطلاعات

زنجیره ارزش در راستای محور افقی، با جمع آوری، یكپارچه سازی، آنالیز و اعمال نتایج حاصل می شود.

2- زنجیره ارزش فناوری اطلاعات

زنجیره ارزش در راستای محور عمودی، با فراهم كردن شبكه، زیرساخت­ها، بسترها، ابزارهای كاربردی و سرویس های دیگر فناوری اطلاعات جهت میزبانی و عملیاتی كردن كلان داده ها شكل می گیرد.

در محل تلاقی دو محور موجودیت فراهم كننده(provider) كاربردهای داده های عظیم است كه نشان می دهد آنالیز داده و پیاده سازی آن برای متولیان كلان داده ایجاد ارزش می كند. دلیل استفاده از واژه «فراهم كننده» در دو جزء فراهم كننده چارچوب و فراهم كننده كاربردها به این دلیل است كه نشان دهد كه این دو موجودیت، وظیفه فنی خاصی را در سیستم پیاده سازی یا از آن پشتیبانی می كنند.

 Kylo is designed to provide an open-source platform for data lakes. (Source: Teradata)
Kylo is designed to provide an open-source platform for data lakes. (Source: Teradata)

بازیگران معماری بیگ دیتا NBDRA 

بازیگران و متولیان حوزه كلان داده ها در معماری مرجع NBDRA به هفت گروه تقسیم بندی شده اند كه عبارتند از:

  1. -هماهنگ کننده سیستم
  2. -فراهم كننده داده
  3. -فراهم كننده كاربردهای كلان داده ها
  4. -فراهم كننده چارچوب­های كلان داده ها
  5. -مصرف كننده ­های داده
  6. -موجودیت امنیت و حریم خصوصی
  7. -موجودیت مدیریت

سه نوع ارتباط میان اجزای معماری می تواند وجود داشته باشد: انتقال و ارتباط داده، انتقال و ارتباط نرم افزار، انتقال و ارتباط سرویس. فلش های با عنوان داده (Data) نشان دهنده جریان داده میان اجزاء اصلی مدل است. داده ها یا به صورت فیزیكی (یعنی مقادیر آن) یا بوسیله فراهم كردن مكان آن و مشخص كردن روش دسترسی به آن (یعنی به كمك مرجع آن) میان اجزاء مدل جابجا شده و در جریان قرار می گیرد. فلش های با عنوان نرم افزار (SW) نشان دهنده جابجایی و انتقال ابزارهای نرم افزاری جهت پردازش كلان داده ها است. فلش های با عنوان استفاده از سرویس (Service Use) نشان­دهنده روابط تعاملی قابل برنامه ریزی با نرم افزار می باشد.

اگرچه توجه اصلی معماری مرجع NBDRA ارائه زیست بومی از كلان داده هاست كه زنده بوده و ارتباطات در داخل آن در حال اجرا است، تمامی سه نوع ارتباط یا تعامل مذكور می تواند در مرحله پیكربندی زیست بوم نیز صورت پذیرد. در این مدل، توافقات دستی (نظیر توافقات سطح سرویس SLA) و تعاملات انسانی كه ممكن است در تمام سیستم وجود داشته باشد، ‌نشان داده نشده است.

اجزاء اصلی نشان داده شده در معماری مرجع NBDRA نشان دهنده نقش های كاركردی در زیست بوم كلان داده می باشند. برای توسعه سیستم، ارتباط میان بازیگران و نقش ها، مانند ارتباط آنها در یك فیلم است ولی بازیگران توسعه سیستم می توانند نماینده افراد، شركت ها، نرم افزار و یا سخت افزار باشند. بر اساس گونه شناسی كلان داده، یك بازیگر می تواند چندین نقش را در زیست بوم كلان داده داشته باشد و همچنین چندین بازیگر می توانند یك نقش واحد را در زیست بوم كلان داده ایفا كنند.

معماری مرجع NBDRA مرزهای تجاری و اقتصادی میان بازیگران و متولیان زیست بوم را مشخص نمی كند. در نتیجه نقش های مختلف تعریف شده در مدل مرجع می تواند در یك موجودیت تجاری قرار گیرد یا می تواند توسط چندین موجودیت تجاری مختلف پیاده سازی شود. در نتیجه، معماری مرجع NBDRA می تواند در بسیاری از محیط های تجاری از جمله سیستم های تجاری كه یكپارچگی و ارتباط تنگانگی دارند، تا محیط های با صنایع عمودی كه بر همكاری متولیان مستقل استوار است، اعمال شود. در نتیجه، تفكر نقش ها یا اجزای كاركردی خارجی در مقابل داخلی بر معماری مرجع NBDRA قابل اعمال نیست. با این وجود، برای یك نمونه عملی مشخص، زمانی كه نقش ها به متولیان تجاری مشخص نگاشت یافتند، اجزای كاركردی به صورت داخلی یا خارجی در نظر گرفته می شوند.

معماری مرجع NBDRA از ارائه زنجیره­ای پشته سازی شده سیستم های كلان داده پشتیبانی می كند. به عنوان نمونه، مصرف كننده داده یك سیستم می تواند به عنوان فراهم كننده داده برای سیستم بعدی در زنجیره یا پشته عمل كند.

مولفه های معماری بیگ دیتا NBDRA 

در ادامه هر یك از مؤلفه های مدل مرجع كلان داده ها توضیح داده می شود.

  1. هماهنگ كننده سیستم (System Orchestration)
  2. فراهم كننده داده (Data Provider)
  3. فراهم كننده كاربردهای كلان داده ها (Application Provider)
  4. فراهم كننده چارچوب ­های كلان داده ها (Frame Work Provider)
  5. مصرف كننده ­های داده (Data Consumer)
  6. موجودیت امنیت و حریم خصوصی (Security and Privacy)
  7. موجودیت مدیریت (Management)
  8. متولیان و نقش آفرینان در معماری مرجع کلان داده ()

1- هماهنگ كننده سیستم (System Orchestration)

این موجودیت وظیفه فراهم كردن نیازمندیهای فراگیری كه می بایست توسط سیستم برآورده شود را دارد. این نیازمندیها عبارتند از: سیاست، حكومت، ساختار، منابع و نیازمندیهای تجاری و همچنین نیازمندیهای حسابرسی و نظارت بر فعالیت ها جهت تضمین فراهم شدن نیازمندیها توسط سیستم. هماهنگ كننده سیستم، نیازمندیهای سیستم، طراحی های سطح بالا و نظارت سیستم داده ای را فراهم می كند. اگر چه نقش هماهنگ كننده سیستم قبل از سیستم های كلان داده نیز وجود داشته است، ولی برخی از فعالیت های طراحی مرتبط با آن، در حوزه كلان داده تغییر یافته است.

هماهنگ كننده سیستم، تعریف و یكپارچه سازی فعالیت های كاربردهای داده مورد نیاز در یك سیستم عمودی قابل استفاده را به عهده دارد. معمولا هماهنگ كننده سیستم، نقش های ویژه بیشتری نسبت به یك یا چند بازیگر دارد و عملیات سیستم كلان داده را مدیریت و تنظیم می كند. این بازیگران می توانند اجزای بشری، اجزای  نرم افزاری یا تركیبی از هر دو باشند. وظیفه هماهنگ كننده سیستم، پیكربندی و مدیریت اجزای دیگر معماری كلان داده است به نحوی كه بتواند یك یا چند باركاری، كه معماری برای اجرای آن طراحی شده است را پیاده سازی كند. باركاری كه توسط هماهنگ كننده سیستم مدیریت می شود ممكن است فراهم كردن یا تخصیص دادن اجزاء چارچوب برای گره های مجازی یا فیزیكی در لایه های پایین تر یا فراهم كردن یك رابط تعاملی گرافیكی باشد كه از ویژگی های بارهای كاری پشتیبانی كرده و چندین كاربرد و جزء را در لایه بالاتر مرتبط می­كند.

علاوه بر آن، ممكن است كه هماهنگ كننده سیستم از طریق موجودیت مدیریت، بارهای كاری و كل سیستم را پایش كند تا تضیمن كند كه نیازمندیهای كیفیت سرویس مشخص شده برای هر بار كاری ارائه می شود. در حقیقت ممكن است هماهنگ كننده سیستم به صورت پویا منابع فیزیكی یا مجازی اضافی مورد نیاز را فراهم كرده و تخصیص دهد تا به نیازمندیهای بار كاری كه ناشی از تغییرات یا افزایش های ناگهانی در داده ها یا تعداد تعاملات یا تعداد كاربران است، پاسخ دهد.

نقش هماهنگ كننده سیستم در یك شركت واحد معمولا به صورت متمركز پیاده می شود و می تواند به نقش سنتی هدایت كننده سیستم نگاشت یابد. نقش سنتی هدایت كننده سیستم، نیازمندیها و محدودیت های فراگیری نظیر سیاست، معماری، منابع، یا نیازمندیهای تجاری كه سیستم باید فراهم كند را مشخص می كند. هدایت كننده سیستم با مجموعه ای از نقش های دیگر (به عنوان نمونه مدیر داده، امنیت داده و مدیر سیستم)جهت پیاده سازی نیازمندیها و كاركردهای سیستم كار می كند. در یك سیستم عمودی كه به صورت تنگانگی با یكدیگر در ارتباط نیستند، نقش هماهنگ كننده سیستم معمولا به صورت غیرمتمركز است و هر متولی علاوه بر یكپارچه سازی خود با سیستم توزیع شده كلان داده با استفاده از رابط های تعاملی فراهم شده توسط متولیان دیگر، به صورت مستقل مسئول مدیریت، امنیت و یكپارچگی سیستم خودش نیز می باشد.

2- فراهم كننده داده (Data Provider)

موجودیت فراهم كننده داده، داده را در دسترس خود یا دیگران قرار می دهد. این موجودیت در جهت انجام رسالت خود، تجریدی از انواع مختلف منابع داده (نظیر داده خام یا داده هایی كه توسط سیستم های دیگر تبدیل شده است) را ایجاد می كند و از طریق رابط های تعاملی كاربردی مختلفی آنها را در دسترس قرار می دهد. موجودیتی كه این نقش را ایفا می كند، می تواند بخشی از سیستم كلان داده ها باشد، بخش داخلی یك سازمان در سیستم دیگری باشد و یا خارج از سازمانی باشد كه سیستم را هماهنگ می كند.

فراهم كننده داده، داده یا اطلاعات جدیدی را معرفی می كند كه به عنوان ورودی به سیستم كلان داده تزریق می شود تا جهت كشف، دسترسی و تبدیل توسط سیستم كلان داده استفاده شود. خوراك های داده جدید متفاوت از داده هایی هستند كه در سیستم موجود هستند و سیستم در حال استفاده از آنهاست. جهت دسترسی به داده های جدید و داده های موجود در سیستم می توان از فناوری های مشابهی استفاده كرد. بازیگری كه نقش فراهم كننده داده را ایفا می كند می تواند یك سنسور باشد یا حتی یك انسان باشد كه داده ها را به صورت دستی وارد سیستم كلان داده می كند.

فراهم كننده داده می تواند تجریدی از داده هایی را فراهم كند كه قبلا توسط یك سیستم دیگر (یعنی سیستم سنتی یا یك سیستم كلان داده دیگر) تبدیل شده است. در این حالت، فراهم كننده داده به عنوان مصرف كننده داده یك سیستم دیگر نیز ایفای نقش می كند. به عنوان مثال، فراهم كننده داده  می تواند یك منبعی از  داده های جاری را از عملیات اجراشده توسط فراهم كننده داده بر روی داده های مانا تولید كند. فعالیت های اصلی فراهم كننده داده شامل موارد زیر است:

  • جمع آوری داده
  • تداوم دادن به داده
  • فراهم كردن توابع تبدیل برای اجرای تمیزسازی داده بر روی اطلاعات حساس نظیر اطلاعات شناسایی شخصی.
  • ایجاد فراداده هایی جهت توصیف منابع داده، سیاست های استفاده یا حقوق دسترسی و دیگر ویژگی های مرتبط
  • اعمال حقوق دسترسی بر دسترسی به داده ها
  • ایجاد قراردادهای رسمی و غیررسمی جهت مجوز دسترسی به داده
  • ایجاد قابلیت دسترسی به داده از طریق تحویل قابل برنامه ریزی مناسب یا رابط های تعاملی اخذ مناسب
  • فراهم كردن مكانیزم های دسترسی تحویل یا اخذ
  • منتشر كردن میزان در دسترس بودن اطلاعات و روش های دسترسی به آنها

مبتنی بر ویژگی های كلان داده (یعنی حجم، تنوع، سرعت و تغییرپذیری) و ملاحظات طراحی سیستم، پیچیدگی رابط های تعاملی جهت ارائه و دسترسی به داده تغییر می كند و ممكن است شامل مكانیزم های تحویل و دریافت نرم افزار باشد.

معمولا تعامل میان فراهم كننده داده و فراهم كننده كاربردهای كلان داده در سه مرحله صورت می پذیرد: ایجاد ارتباط، انتقال داده و قطع ارتباط. مرحله ایجاد ارتباط می­تواند توسط هر یك از طرفین آغاز شود (مثلا PULL یا PUSH) و معمولا شامل سطوحی از تشخیص هویت و اعتبارسنجی می باشد. البته این مراحل می تواند بسیار ساده بوده و به این صورت انجام شود كه یك طرف ارتباط، سوكت خود را برای یك پورت شناخته شده در طرف مقابل باز كند و ارتباط برقرار شود.

3- فراهم كننده كاربردهای كلان داده ها (Application Provider)

موجودیت فراهم كننده كاربردهای كلان داده ها، تغییرات مربوط به چرخه عمر داده ها را اجرا می كند تا نیازمندیهایی كه توسط هماهنگ كننده سیستم ایجاد شده است، پاسخ داده شود. در این موجودیت، توانمندیهای عمومی موجود در چارچوب های كلان داده ها با یكدیگر تركیب می شود تا یك سیستم داده ای مشخص ایجاد شود.

فراهم كننده كاربرد كلان داده، وظیفه اجرای مجموعه ای از عملیات در راستای چرخه عمر داده ها را به عهده دارد به نحوی كه بتواند پاسخگوی نیازمندیهای امنیت و حریم خصوصی علاوه بر نیازمندیهای تعیین شده توسط هماهنگ كننده سیستم باشد. فراهم كننده كاربردهای كلان داده در واقع جزئی از معماری است كه منطق تجاری و كاركردهایی كه می بایست توسط معماری اجرا شود را در هم می آمیزد. فعالیت های اصلی فراهم كننده كاربرد عبارت است از: به قسمت Application Provider در تصویر نگاه کنید.

  • الف: جمع آوری (Collection)
  • ب: آماده سازی (Preparation/Curation)
  • ج: تحلیل (َAnalytics)
  • د: بصری سازی (Visualization)
  • ه: دسترسی (Access)

 

معماری بیگ دیتا ISO 20547-3
معماری بیگ دیتا ISO 20547-3

 

اجرای فعالیت های فوق برای هر كاربرد متفاوت بوده و در نتیجه گزینه مناسبی برای استانداردسازی نیستند. با این وجود، زمانی كه كاربرد متعلق به یك صنعت عمودی خاص است، فراداده ها و سیاست هایی كه تعریف شده اند و میان زیراجزای كاربردها جابجا می شوند می­توانند استاندارد شوند.

اگرچه بسیاری از فعالیت های مذكور در سیستم های پردازش داده سنتی نیز وجود دارد، ولی ویژگی های حجم، تنوع، سرعت و تغییرپذیری كه در سیستم های كلان داده وجود دارد باعث می شود كه پیاده سازی این فعالیتها نیاز به تغییرات اساسی داشته باشد. الگوریتم ها و مكانیزم های موجود در پیاده سازی های پردازش داده سنتی می بایست تنظیم شده و برای مواجهه با كلان داده ها بهینه شود تا كاربردهایی ساخته شود كه پاسخگو بوده و بتواند به سرعت رشد یافته و پاسخگوی مجموعه های داده هایی كه هر روز نیز بزرگتر می شوند، باشد.

داده ها همزمان با توزیع و جریان یافتن در زیست بوم، پردازش می شوند و به روش های مختلفی تبدیل می شوند تا ارزش از درون اطلاعات استخراج شود. هر فعالیت مربوط به فراهم كننده كاربردهای كلان داده می تواند توسط متولیان مختلف پیاده سازی شود و به عنوان سرویس های جداگانه به كار گرفته شوند.

فراهم كننده داده می تواند یك نمونه یا مجموعه ای از تعدادی فراهم كننده كاربردهای كلان داده باشد كه هر یك مراحل مختلفی از چرخه عمر داده را پیاده سازی می كند. هر یك از فعالیت های فراهم كننده كاربردها  می تواند به صورت یك سرویس عمومی باشد كه توسط هماهنگ كننده سیستم، فراهم كننده داده یا مصرف كننده داده فراخوانی می شود نظیر وب سرور ، فایل سرور، مجموعه ای از یك یا تعدادی برنامه كاربردی یا تركیبی از آنها. ممكن است چندین نمونه متفاوت از هر فعالیت وجود داشته باشد یا ممكن است یك برنامه واحد چندین فعالیت را به تنهایی انجام دهد.

هر یك از فعالیت های مذكور می تواند با فراهم كننده چارچوب در لایه پایینی یا با فراهم كننده و مصرف كننده داده در ارتباط باشد. علاوه بر آن، این فعالیت ها ممكن است به صورت موازی با یكدیگر یا با هر ترتیبی اجرا شوند و اغلب از طریق اجزاء پیام یا ارتباطات مربوط به فراهم كننده چارچوب كلان داده با یكدیگر ارتباط برقرار می كنند. همچنین كاركردهای فراهم كننده كاربرد، مخصوصا فعالیت های جمع آوری و دسترسی، جهت تصدیق هویت و اعتبارسنجی و همچنین ذخیره و نگهداری منشأ داده ها با موجودیت حریم خصوصی و امنیت تعامل می كنند.

هر یك از فعالیت ها و كاركردهای تعریف شده می تواند بر روی یك فراهم كننده چارچوب مجزا اجرا شود یا تمام آنها می تواند بر روی یك فراهم كننده چارچوب واحد اجرا شود. ملاحظاتی كه منجر به اتخاذ روش های سیستمی مختلف می شود به اختلاف احتمالی در نیازمندیهای فناوری، محدودیت های تجاری و یا محدودیت های بكارگیری (شامل حریم خصوصی)و ملاحظات سیاستی دیگر مرتبط می باشد.

الف: جمع آوری (Collection)

به صورت كلی، فعالیت جمع آوری در فراهم كننده كاربردهای كلان داده، ایجاد ارتباط با فراهم كننده داده و برقراری رابط تعاملی با وی را مدیریت می كند. ممكن است این فعالیت یك سرویس عمومی نظیر فایل سرور یا وب سرور باشد كه توسط هماهنگ كننده سیستم پیكربندی شده است تا جمع آوری های خاص داده ها را پذیرش كرده و اجرا كند یا ممكن است یك سرویس خاص كاربردی باشد كه برای اخذ و كشیدن داده یا دریافت داده­های تحویل شده از سمت فراهم كننده داده، طراحی شده است.

از آنجایی كه این فعالیت دریافت حداقل داده است، باید داده های دریافت شده را بافر یا ذخیره كند تا زمانی كه این داده ها بتوانند از طریق فراهم كننده چارچوب ادامه یابند.

ب: آماده سازی (Preparation/Curation)

فعالیت آماده سازی زمانی اجرا می شود كه قسمت تبدیل در چرخه ETL/ELTاجرا شده باشد. وظایفی كه در این فعالیت انجام شود می تواند شامل اعتبارسنجی (به عنوان نمونه بررسی فرمت، جمع­های كنترلی یا درهم­ سازی) تمیزسازی (به عنوان مثال حذف فیلدها یا نمونه های بد) حذف داده های خارج از محدوده، استانداردسازی، فرمت بندی مجدد و یا بسته بندی باشد.

این فعالیت نیز در جایی اجرا می شود كه داده های مبدأ به صورت مكرر در فضای ذخیره سازی موجود در فراهم كننده چارچوب قرار گرفته و داده های منشأ، اعتبارسنجی شده باشند.

ج: تحلیل (َAnalytics)

فعالیت تحلیل در فراهم كننده كاربرد كلان داده شامل كدكردن منطق تجاری سطح پایین سیستم كلان داده با استفاده از منطق فرآیند تجاری سطح بالایی كه توسط هماهنگ كننده سیستم مشخص می شود، می باشد. این فعالیت بر اساس نیازمندیهای كاربردهای عمودی، تكنیك هایی را جهت استخراج دانش از داده، پیاده سازی  می كند. این نیازمندیها است كه الگوریتم های پردازش داده را كه برای پردازش داده جهت ایجاد ادراكات جدید برای رسیدن به هدف فنی مورد انتظار است را مشخص می كند.

فعالیت تحلیل از چارچوب پردازشی جهت پیاده سازی منطق محول شده به آن استفاده می كند. ممكن است منطق تحلیل به چندین ماژول جهت اجرا توسط چارچوب پردازشی شكسته شود كه این ماژول ها از طریق چارچوب ارسال پیام با یكدیگر و همچنین با فعالیت های دیگری كه توسط فراهم كننده كاربرد كلان داده ایجاد شده اند، ارتباط برقرار می كنند.

د: بصری سازی (Visualization)

فعالیت بصری سازی فراهم كننده كاربردهای كلان داده، اجزاء داده پردازش شده و خروجی فعالیت تحلیل را جهت ارائه به مصرف كننده داده آماده می كند. هدف این فعالیت این است داده را به نحوی فرمت دهی و ارائه كند كه به صورت بهینه دانش و معانی را منتقل كند. آماده سازی بصری سازی ممكن است شامل ایجاد یك گزارش متنی یا تفسیر نتایج تحلیل به هر صورت گرافیكی باشد.

نتایج خروجی ممكن است یك بصری سازی ایستا باشد و ممكن است به صورت ساده از طریق فراهم كننده چارچوب كلان داده برای استفاده های بعدی ذخیره شود. به هر حال، فعالیت بصری سازی به صورت مكرر با فعالیت دسترسی، فعالیت تحلیل و فراهم كننده چارچوب كلان داده (پردازش و سكو) تعامل می كند تا مبتنی بر پارامترهایی كه توسط مصرف كننده داده برای فعالیت دسترسی تعریف شده است، یك بصری سازی تعاملی از داده ها را برای مصرف كننده داده فراهم كند.

ه: دسترسی (Access)

فعالیت دسترسی در فراهم كننده كاربرد، بر ارتباط یا تعامل با مصرف كننده داده متمركز است. مشابه با فعالیت جمع آوری، ممكن است فعالیت دسترسی نیز یك سرویس عمومی نظیر یك وب سرور یا سرور كاربرد باشد كه بوسیله هماهنگ كننده سیستم، پیكربندی شده است تا درخواست های ویژه از مصرف كننده داده را مدیریت كند.

این فعالیت با فعالیت های تحلیل و بصری سازی تعامل می كند و همچنین از چارچوب های پردازشی و بستر جهت بازیابی داده ها استفاده می كند تا به درخواست های مصرف كننده داده (كه ممكن است یك شخص باشد) پاسخ دهد.

علاوه بر آن، فعالیت دسترسی تضمین می كند كه فراداده اجرایی و روش های فراداده، اخذ  شده اند و برای دسترسی توسط مصرف كننده داده حفظ می شوند. رابط تعاملی با مصرف كننده داده ممكن است به صورت سنكرون یا آسنكرون باشد و یا از مفاهیم تحویل و اخذ برای جابجایی داده استفاده كند.

4- فراهم كننده چارچوب­های كلان داده ها (Frame Work Provider)

این موجودیت، سرویس ها یا منابع عمومی كه قرار است توسط فراهم كننده كاربردهای كلان داده ها جهت ساختن یك كاربرد مشخص مورد استفاده قرار گیرد را دارا است. تعداد زیادی از اجزای جدیدی وجود دارد كه فراهم كننده كاربردهای كلان داده ها می تواند از بین آنها جهت ساختن یك سیستم مشخص انتخاب كند. فراهم كننده چارچوب كلان داده ها از یك یا تعداد بیشتری از نمونه هایی متشكل از سه زیرجزء تشكیل شده است:

  • چارچوب های زیرساختی (Infrastructure)
  • چارچوب های بستر داده (Data Platforms)
  • چارچوب های پردازشی (Processing Frame Work)
  • چارچوب های پیام/ارتباطات (Messaging/Communication)
  • چارچوب های مدیریت منابع (Resource Management)

بسیاری از پیشرفت های اخیر در حوزه كلان داده مرتبط با حوزه چارچوب های كلان داده بوده است كه جهت پاسخگویی به نیازمندیهای كلان داده ها (نظیر حجم، تنوع، سرعت و تغییرپذیری) طراحی شده است. این  پیشرفت ها قسمت اعظم تحریك های فناوری در حوزه كلان داده ها را تولید كرده است. به همین ترتیب، در حوزه چارچوب های كلان داده اطلاعات بسیار بیشتری نسبت به حوزه ها و اجزای دیگر كلان داده ها وجود دارد.

چارچوب های زیرساختی:

فراهم كننده چارچوب كلان داده، تمامی منابعی كه برای اجرای فعالیت های اجزای دیگر موجود در زیست بوم كلان داده نیاز است را فراهم می كند. این منابع معمولا به چهار دسته زیر تقسیم بندی می شوند:

  • منابع شبكه: منابعی است كه داده ها را از یك جزء از چارچوب زیرساختی به دیگری منتقل می كند.
  • منابع پردازشی: پردازنده ها و حافظه هایی هستند كه نرم افزارهای اجزاء دیگر سیستم كلان داده را اجرا و نگهداری می كند.
  • منابع ذخیره سازی: منابعی هستند كه ذخیره سازی و تداوم داده در سیستم كلان داده را فراهم  می كنند.
  • منابع محیطی: منابع فیزیكی نظیر سیستم های خنك كنندگی و توزیع توان هستند كه زمان ایجاد هر نمونه ای از سیستم كلان داده باید در نظر گرفته شوند.

چارچوب های بستر داده:

چارچوب های بستر داده، فراهم كننده مدیریت و توزیع منطقی داده می باشند كه با روش ها یا رابط های تعاملی برنامه نویسی كاربردی دسترسی تركیب شده اند. این چارچوب ها ممكن است شامل اطلاعات ثبت داده و سرویس های فراداده به همراه توصیفات معنایی داده نظیر گونه شناسی ها یا آنتولوژی های رسمی باشند. سازماندهی منطقی داده ها ممكن است از فایل های تخت با محدوده مشخص گرفته تا انباره های داده ستونی یا رابطه ای كاملا توزیع شده باشند.

چارچوب های پردازشی:

چارچوب های پردازشی كلان داده، نرم افزارهای زیرساختی مورد نیاز جهت پشتیبانی از پیاده سازی كاربردهایی كه می توانند با ویژگی های حجم، سرعت، تنوع و تغییرپذیری داده ها مواجه شوند را فراهم می كند.  چارچوب های پردازشی مشخص می كنند كه چگونه محاسبات و پردازش داده ها ساماندهی و مدیریت شود. كاربردهای كلان داده بر بسترها و فناوری های متنوعی وابسته هستند تا بتوانند پاسخگوی چالش های عملیات و تحلیل های داده مقیاس پذیر باشند.

چارچوب های پردازشی معمولا بر دستكاری داده متمركز هستند كه همواره میان پردازش های دسته ای و جاری قرار می گیرند. به صورت كلی بسیاری از معماری های كلان داده شامل چندین چارچوب مختلف هستند تا بتوانند نیازمندیهای وسیعی را پوشش دهند. چارچوب های پردازشی كلان داده در واقع از سه فاز پردازشی تشكیل  شده اند: هضم داده، آنالیز داده و توزیع داده. فراهم كننده كاربرد كلان داده، فرآیند اعمال توانمندیهای موجود در یك چارچوب خاص بر روی این فازهای پردازشی را كنترل می كند.

چارچوب های پیام/ارتباطات:

ریشه های چارچوب های پیام و ارتباطات به محیط های پردازش فوق سریع (HPC) برمی گردد كه درمحیط های تحقیقاتی و علمی بسیار معروف است.

چارچوب های پیام / ارتباطات جهت فراهم سازی رابط های تعاملی كاربردی (API) برای صف بندی قابل اعتماد، انتقال و دریافت داده ها میان گره های مختلف در یك كلاستر كه به صورت افقی مقیاس شده است، توسعه داده شده اند. معمولا این چارچوب ها یك مدل انتقال نقطه به نقطه یا یك مدل ذخیره و ارسال رو به جلودر معماری خود پیاده سازی می كنند.

چارچوب های مدیریت منابع:

نظر به تكامل و پیچیده تر شدن سیستم های كلان داده و از آنجایی كه صنایع مختلف به دنبال استفاده بهینه تر از منابع پردازشی و ذخیره سازی جهت پاسخ دهی به گستره وسیع تری از كاربردها و چالش های تجاری بودند، استفاده مؤثر و بهینه از منابع بسیار اهمیت پیدا كرده است.

هرچند که ابزارهای مدیریت منابع و پردازش مقیاس پذیر بسیار گسترش یافته است و در پاسخ به نیازمندیهای فراهم كننده های ابری و فناوری های مجازی سازی ابزارهای مدیریت منابع پخته تر شده است، اما كلان داده نیازمندیهای منحصربفرد و جدیدی را در این ابزارها معرفی كرده است. به هر حال، چارچوب های كلان داده معمولا در زمره موضوعات پردازش توزیع شده قرار می گیرند كه چالش های بیشتری را معرفی می كنند.

5- مصرف كننده­ های داده

مصرف كننده­های داده، خروجی با ارزش سیستم كلان داده ها را دریافت می كنند. این واحد در بسیاری از زمینه ها همان رابط های تعاملی كاربردی را دریافت می كند كه فراهم كننده داده در اختیار فراهم كننده كاربردهای كلان داده ها قرار می دهد. علاوه بر آن، مصرف كننده­ داده مشابه نقش فراهم كننده داده، می تواند یك كاربر انتهایی واقعی یا یك سیستم دیگر باشد. فعالیت هایی كه برای نقش مصرف كننده داده تعریف شده است شامل موارد زیر می باشد:

  • جستجو و بازیابی
  • آنالیز كردن به صورت محلی
  • گزارش گیری
  • بصری سازی داده جهت استفاده از فرآیندهای خود آنها

مصرف كننده از رابط های تعاملی یا سرویس هایی كه توسط فراهم كننده كاربرد كلان داده فراهم می شود استفاده می كند تا به اطلاعات مورد علاقه خود دست پیدا كند. این تعاملات می تواند شامل گزارش گیری داده، بازیابی داده و تفسیر داده باشد.

این نقش معمولا از طریق تابع دسترسی خود با فراهم كننده كاربرد كلان داده جهت اجرای تحلیل ها و بصری سازی هایی كه توسط فراهم كننده كاربرد پیاده سازی شده است، تعامل می كند. این تعامل می تواند مبتنی بر درخواست باشد كه طی آن مصرف كننده داده تعامل یا دستور را آغاز می كند و فراهم كننده كابرد كلان داده پاسخ او را می دهد. این تعامل می تواند شامل بصری سازی های تعاملی، ایجاد گزارش ها یا حركت در مسیر بطن داده ها با استفاده از توابع هوش تجاری كه توسط فراهم كننده كاربرد كلان داده فراهم شده است، باشد.

در یك روش جایگزین، تعامل می تواند مبتنی بر جریان باشد كه به صورت ساده ای مصرف كننده داده به یك یا تعداد بیشتری از خروجی های فراهم كننده كاربرد گوش فرا می دهد. تقریبا در تمامی موارد موجودیت امنیت و حریم خصوصی در معماری كلان داده از هویت سنجی و اعتبارسنجی میان مصرف كننده داده و معماری پشتیبانی می كند. مشابه تعامل میان معماری كلان داده و فراهم كننده داده، تعامل میان مصرف كننده داده و فراهم كننده كاربرد كلان داده شامل سه فاز شروع ارتباط، انتقال داده و قطع ارتباط می باشد.

6- موجودیت امنیت و حریم خصوصی

مباحث امنیت و حریم خصوصی، تمامی اجزای معماری مرجع NBDRA را تحت تأثیر خود قرار می دهد. این واحد با واحد هماهنگ كننده سیستم جهت دریافت سیاست، نیازمندیها و نظارت ها تعامل می كند. در معماری مرجع NBDRA نقش امنیت و حریم خصوصی به صورت بسیار كلی ارائه شده است و جزئیات آن ارائه نشده است و خود نیازمند یك معماری مرجع جداگانه است.

7- موجودیت مدیریت

ویژگی های كلان داده ها نظیر حجم زیاد، سرعت تولید زیاد، تنوع داده ها و تغییر داده ها نیازمند یك بستر مدیریت تطبیق پذیر جهت ذخیره سازی، پردازش و مدیریت كردن داده در سیستم های پیچیده كلان داده است كه بتواند هر دو جنبه سیستم و مباحث داده ای مرتبط با محیط های كلان داده را مدیریت كند.

به بیان دیگر، با توجه به ویژگی های كلان داده ها نظیر حجم زیاد، سرعت تولید زیاد، تنوع داده ها و تغییرپذیری داده ها، ناگزیر نیازمند یك سیستم و بستر نرم افزار مدیریتی تطبیق پذیر هستیم تا پایش، تنظیم كردن و مدیریت نرم افزارها و بسته های نرم افزاری و همچنین مدیریت منابع و پایش كارآیی را به صورت اتوماتیك انجام دهد.

مدیریت كلان داده ها شامل برخی ملاحظات در سیستم، داده، امنیت و حریم خصوصی می باشد تا بتواند كیفیت بالای داده و دسترسی امن را نیز فراهم كند. موجودیت مدیریت در معماری مرجع NBDRA دو گروه از فعالیت های اصلی را شامل می شود: مدیریت سیستم و مدیریت چرخه عمر كلان داده. مدیریت سیستم شامل فعالیت هایی نظیر فراهم كردن، پیكربندی، مدیریت بسته، مدیریت نرم افزاری، مدیریت نسخه پشتیبان، مدیریت توانمندی، مدیریت منابع و مدیریت كارآیی می باشد.

مدیریت چرخه عمر كلان داده شامل فعالیت هایی مرتبط با چرخه عمر از جمله جمع آوری، آماده سازی، انتخاب، تحلیل، بصری سازی و دسترسی است. از آنجایی كه معماری مرجع NBDRA بسیار عمومی و كلی است و مختص یك محصول یا مدل كسب و كار ویژه نیست، ملاحظات مختلف و راهكارهای متفاوتی می تواند در موارد مختلف مبتنی بر آن پیاده سازی شود.

8- متولیان و نقش آفرینان در معماری مرجع کلان داده

شکل 2 متولیان و نقش آفرینان مربوط به هر كدام از بازیگران در حوزه كلان داده ها را نشان می دهد كه عبارتند از:

  1. متولیان و نقش آفرینان هماهنگ كننده سیستم – سردمداران اقتصادی – مشاوران – دانشمندان داده
    • معماران اطلاعات
    • معماران نرم افزار
    • معماران امنیت
    • معماران حریم خصوصی
    • معماران شبكه
  2. متولیان و نقش آفرینان فراهم كننده داده – شركت های تجاری – بنگاه های عمومی – پژوهشگران و دانشمندان
    • موتورهای جستجو
    • Web، FTP و كاربردهای مشابه
    • اپراتورهای شبكه
    • كاربران انتهایی
  3. متولیان و نقش آفرینان فراهم كننده كاربردهای كلان داده ها – متخصصان كاربرد – متخصصان بستر – مشاوران
  4. متولیان و نقش آفرینان فراهم كننده چارچوب­های كلان داده ها – كلاسترهای داخلی – مراكز داده – فراهم كننده های ابر
  5. متولیان و نقش آفرینان مصرف كننده­های داده – كاربران انتهایی – پژوهشگران – كاربردها
    • سیستم
  6. متولیان و نقش آفرینان موجودیت امنیت و حریم خصوصی – افسر امنیت شركت – متخصص امنیت
  7. متولیان و نقش آفرینان موجودیت مدیریت – كاركنان داخلی – مدیریت مركز داده – فراهم كنندگان ابری

مرجع:

http://bigdata.itrc.ac.ir.com

ISO 20547-3

https://www.eetimes.com/big-data-2018-4-reasons-to-be-excited-4-reasons-to-be-worried/#

https://docplayer.net/12653089-Overview-nist-big-data-working-group-activities.html

برای دیدن فلیم های سینماییِ مهیج و جذاب”در حوزه فناوری اطلاعات، بیگ دیتا و یادگیری ماشین”، بر روی اینجا کلیک کنید.

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

Visits: 2535

همچنین ببینید

پايگاه داده کاساندرا

پايگاه داده کاساندرا، روش نصب و بررسی نقاط ضعف و قوت

پايگاه داده کاساندرا یک سیستم انبار‌ه داده ی توزیع‌شده و کاملاً متن باز و رایگان …

آپاچی فلینک

تحلیل گراف های بزرگ با آپاچی فلینک (Apache Flink)

تعریف جریان داده: جریان داده ها، داده هایی هستندکه بطور مداوم توسط هزاران منبع داده …

دیدگاهتان را بنویسید