صفحه نخست --> داده های حجیم (کلان داده) --> مدل مرجع معماری بیگ دیتا NBDRA (ISO 20547-3)

مدل مرجع معماری بیگ دیتا NBDRA (ISO 20547-3)

معماری بیگ دیتا یا معماری مرجع NBDRA برای کلان داده ها در شکل ۱ نشان داده شده است. این مدل توسط گروه کاری عمومی کلان داده  NBD-PWG مؤسسه ملی فناوری و استانداردها (NIST) که یک گروه معتبر استانداردسازی در آمریکا است، ارائه شده است. این مدل بعد از دریافت و مقایسه ۹ معماری مرجع برای کلان داده ها از سازمان ها، شرکت ها و دانشگاه های مختلف زیر پیشنهاد شده است:

  • – ET Strategies
  • – Microsoft
  • – University of Amsterdam
  • – IBM
  • – Oracle
  • – EMC/Pivotal
  • – SAP
  • – ۹sight Consulting
  • – LexisNexis

نکته قابل توجه این است که معماری مرجع NBDRA وابسته به یک فناوری یا سازنده خاص یا یک زیرساخت خاص نیست. همانطور که در شکل ۱نشان داده شده است، NBDRA  از لحاظ منطقی از پنج جزء کارکردی اصلی تشکیل شده است که بوسیله روابط تعاملی با یکدیگر در ارتباط هستند. همچنین دو نقش مهم مدیریت و همچنین امنیت و شخصی سازی با تمام اجزاء اصلی دیگر در این مدل عجین بوده و با آنها در ارتباط هستند. معماری مرجع NBDRA طوری طراحی شده است که افراد مختلف شامل مهندسان سیستم، دانشمندان داده، توسعه دهندگان نرم افزار، معماران داده و تصمیم گیران بتوانند راهکارهای مورد نظر خود را برای مواجهه با مسائلی که روش های بسیار متفاوتی برای حل آنها در زیست بوم کلان داده وجود دارد، توسعه دهند. همچنین این معماری مرجع طوری طراحی شده است که بتواند در حوزه های مختلف با مدل های مختلف کسب و کار و طرح های تجاری مختلف مورد استفاده قرار گیرد.

معماری بیگ دیتا ISO 20547-3
شکل ۱: مدل مرجع کلان داده ها ارائه شده توسط NIST (NBDRA) و معماری مرجع بیگ دیتا ISO 20547-3

 

معماری مرجع NBDRA در راستای دو محور ترسیم شده است: زنجیره ارزش اطلاعات (محور افقی) و زنجیره ارزش فناوری اطلاعات (محور عمودی). زنجیره ارزش در راستای محور افقی، با جمع آوری، یکپارچه سازی، آنالیز و اعمال نتایج حاصل می شود. زنجیره ارزش در راستای محور عمودی، با فراهم کردن شبکه، زیرساخت­ها، بسترها، ابزارهای کاربردی و سرویس های دیگر فناوری اطلاعات جهت میزبانی و عملیاتی کردن کلان داده ها شکل         می گیرد. در محل تلاقی دو محور موجودیت فراهم کننده کاربردهای داده های عظیم است که نشان می دهد آنالیز داده و پیاده سازی آن برای متولیان کلان داده ایجاد ارزش می کند. دلیل استفاده از واژه «فراهم کننده» در دو جزء فراهم کننده چارچوب و فراهم کننده کاربردها به این دلیل است که نشان دهد که این دو موجودیت، وظیفه فنی خاصی را در سیستم پیاده سازی یا از آن پشتیبانی می کنند.

بازیگران و متولیان حوزه کلان داده ها در معماری مرجع NBDRA به هفت گروه تقسیم بندی شده اند که عبارتند از:

  • -هماهنگ کننده سیستم
  • -فراهم کننده داده
  • -فراهم کننده کاربردهای کلان داده ها
  • -فراهم کننده چارچوب­های کلان داده ها
  • -مصرف کننده­های داده
  • -موجودیت امنیت و شخصی سازی
  • -موجودیت مدیریت

سه نوع ارتباط میان اجزای معماری می تواند وجود داشته باشد: انتقال و ارتباط داده، انتقال و ارتباط نرم افزار، انتقال و ارتباط سرویس. فلش های با عنوان داده (Data) نشان دهنده جریان داده میان اجزاء اصلی مدل است. داده ها یا به صورت فیزیکی (یعنی مقادیر آن) یا بوسیله فراهم کردن مکان آن و مشخص کردن روش دسترسی به آن (یعنی به کمک مرجع آن) میان اجزاء مدل جابجا شده و در جریان قرار می گیرد. فلش های با عنوان         نرم افزار (SW) نشان دهنده جابجایی و انتقال ابزارهای نرم افزاری جهت پردازش کلان داده ها است. فلش های با عنوان استفاده از سرویس (Service Use) نشان­دهنده روابط تعاملی قابل برنامه ریزی با نرم افزار می باشد. اگرچه توجه اصلی معماری مرجع NBDRA ارائه زیست بومی از کلان داده هاست که زنده بوده و ارتباطات در داخل آن در حال اجرا است، تمامی سه نوع ارتباط یا تعامل مذکور می تواند در مرحله پیکربندی زیست بوم نیز صورت پذیرد. در این مدل، توافقات دستی (نظیر توافقات سطح سرویس (SLA))و تعاملات انسانی که ممکن است در تمام سیستم وجود داشته باشد، ‌نشان داده نشده است.

اجزاء اصلی نشان داده شده در معماری مرجع NBDRA نشان دهنده نقش های کارکردی در زیست بوم کلان داده می باشند. برای توسعه سیستم، ارتباط میان بازیگران و نقش ها، مانند ارتباط آنها در یک فیلم است ولی بازیگران توسعه سیستم می توانند نماینده افراد، شرکت ها، نرم افزار و یا سخت افزار باشند. بر اساس گونه شناسی کلان داده، یک بازیگر می تواند چندین نقش را در زیست بوم کلان داده داشته باشد و همچنین چندین بازیگر می توانند یک نقش واحد را در زیست بوم کلان داده ایفا کنند. معماری مرجع NBDRA مرزهای تجاری و اقتصادی میان بازیگران و متولیان زیست بوم را مشخص نمی کند. در نتیجه نقش های مختلف تعریف شده در مدل مرجع می تواند در یک موجودیت تجاری قرار گیرد یا می تواند توسط چندین موجودیت تجاری مختلف پیاده سازی شود. در نتیجه، معماری مرجع NBDRA می تواند در بسیاری از محیط های تجاری از جمله        سیستم های تجاری که یکپارچگی و ارتباط تنگانگی دارند، تا محیط های با صنایع عمودی که بر همکاری متولیان مستقل استوار است، اعمال شود. در نتیجه، تفکر نقش ها یا اجزای کارکردی خارجی در مقابل داخلی بر معماری مرجع NBDRA قابل اعمال نیست. با این وجود، برای یک نمونه عملی مشخص، زمانی که نقش ها به متولیان تجاری مشخص نگاشت یافتند، اجزای کارکردی به صورت داخلی یا خارجی در نظر گرفته می شوند.

معماری مرجع NBDRA از ارائه زنجیره­ای یا پشته سازی شده سیستم های کلان داده پشتیبانی می کند. به عنوان نمونه، مصرف کننده داده یک سیستم می تواند به عنوان فراهم کننده داده برای سیستم بعدی در زنجیره یا پشته عمل کند.

در ادامه هر یک از مؤلفه های مدل مرجع کلان داده ها توضیح داده می شود.

  • هماهنگ کننده سیستم
  • فراهم کننده داده
  • فراهم کننده کاربردهای کلان داده ها
  • فراهم کننده چارچوب­های کلان داده ها
  • مصرف کننده­های داده
  • موجودیت امنیت و شخصی سازی
  • موجودیت مدیریت
  • متولیان و نقش آفرینان در معماری مرجع کلان داده

هماهنگ کننده سیستم

این موجودیت وظیفه فراهم کردن نیازمندیهای فراگیری که می بایست توسط سیستم برآورده شود را دارد. این نیازمندیها عبارتند از: سیاست، حکومت، ساختار، منابع و نیازمندیهای تجاری و همچنین نیازمندیهای حسابرسی و نظارت بر فعالیت ها جهت تضمین فراهم شدن نیازمندیها توسط سیستم.  هماهنگ کننده سیستم، نیازمندیهای سیستم، طراحی های سطح بالا و نظارت سیستم داده ای را فراهم می کند. اگر چه نقش هماهنگ کننده سیستم قبل از سیستم های کلان داده نیز وجود داشته است، ولی برخی از فعالیت های طراحی مرتبط با آن، در حوزه کلان داده تغییر یافته است.

هماهنگ کننده سیستم، تعریف و یکپارچه سازی فعالیت های کاربردهای داده مورد نیاز در یک سیستم عمودی قابل استفاده را به عهده دارد. معمولا هماهنگ کننده سیستم، نقش های ویژه بیشتری نسبت به یک یا چند بازیگر دارد و عملیات سیستم کلان داده را مدیریت و تنظیم می کند. این بازیگران می توانند اجزای بشری، اجزای       نرم افزاری یا ترکیبی از هر دو باشند. وظیفه هماهنگ کننده سیستم، پیکربندی و مدیریت اجزای دیگر معماری کلان داده است به نحوی که بتواند یک یا چند بارکاری، که معماری برای اجرای آن طراحی شده است را            پیاده سازی کند. بارکاری که توسط هماهنگ کننده سیستم مدیریت می شود ممکن است فراهم کردن یا تخصیص دادن اجزاء چارچوب برای گره های مجازی یا فیزیکی در لایه های پایین تر یا فراهم کردن یک رابط تعاملی گرافیکی باشد که از ویژگی های بارهای کاری پشتیبانی کرده و چندین کاربرد و جزء را در لایه بالاتر مرتبط می­کند.

علاوه بر آن، ممکن است که هماهنگ کننده سیستم از طریق موجودیت مدیریت، بارهای کاری و کل سیستم را پایش کند تا تضیمن کند که نیازمندیهای کیفیت سرویس مشخص شده برای هر بار کاری ارائه می شود. در حقیقت ممکن است هماهنگ کننده سیستم به صورت پویا منابع فیزیکی یا مجازی اضافی مورد نیاز را فراهم کرده و تخصیص دهد تا به نیازمندیهای بار کاری که ناشی از تغییرات یا افزایش های ناگهانی در داده ها یا تعداد تعاملات یا تعداد کاربران است، پاسخ دهد.

نقش هماهنگ کننده سیستم در یک شرکت واحد معمولا به صورت متمرکز پیاده می شود و می تواند به نقش سنتی هدایت کننده سیستم نگاشت یابد. نقش سنتی هدایت کننده سیستم، نیازمندیها و محدودیت های فراگیری نظیر سیاست، معماری، منابع، یا نیازمندیهای تجاری که سیستم باید فراهم کند را مشخص می کند. هدایت کننده سیستم با مجموعه ای از نقش های دیگر (به عنوان نمونه مدیر داده، امنیت داده و مدیر سیستم)جهت پیاده سازی نیازمندیها و کارکردهای سیستم کار می کند. در یک سیستم عمودی که به صورت تنگانگی با یکدیگر در ارتباط نیستند، نقش هماهنگ کننده سیستم معمولا به صورت غیرمتمرکز است و هر متولی علاوه بر یکپارچه سازی خود با سیستم توزیع شده کلان داده با استفاده از رابط های تعاملی فراهم شده توسط متولیان دیگر، به صورت مستقل مسئول مدیریت، امنیت و یکپارچگی سیستم خودش نیز می باشد.

 

فراهم کننده داده

موجودیت فراهم کننده داده، داده را در دسترس خود یا دیگران قرار می دهد. این موجودیت در جهت انجام رسالت خود، تجریدی از انواع مختلف منابع داده (نظیر داده خام یا داده هایی که توسط سیستم های دیگر تبدیل شده است) را ایجاد می کند و از طریق رابط های تعاملی کاربردی مختلفی آنها را در دسترس قرار می دهد. موجودیتی که این نقش را ایفا می کند، می تواند بخشی از سیستم کلان داده ها باشد، بخش داخلی یک سازمان در سیستم دیگری باشد و یا خارج از سازمانی باشد که سیستم را هماهنگ می کند.

فراهم کننده داده، داده یا اطلاعات جدیدی را معرفی می کند که به عنوان ورودی به سیستم کلان داده تزریق می شود تا جهت کشف، دسترسی و تبدیل توسط سیستم کلان داده استفاده شود. خوراک های داده جدید متفاوت از داده هایی هستند که در سیستم موجود هستند و سیستم در حال استفاده از آنهاست. جهت دسترسی به داده های جدید و داده های موجود در سیستم می توان از فناوری های مشابهی استفاده کرد. بازیگری که نقش فراهم کننده داده را ایفا می کند می تواند یک سنسور باشد یا حتی یک انسان باشد که داده ها را به صورت دستی وارد سیستم کلان داده می کند.

فراهم کننده داده می تواند تجریدی از داده هایی را فراهم کند که قبلا توسط یک سیستم دیگر (یعنی سیستم سنتی یا یک سیستم کلان داده دیگر) تبدیل شده است. در این حالت، فراهم کننده داده به عنوان مصرف کننده داده یک سیستم دیگر نیز ایفای نقش می کند. به عنوان مثال، فراهم کننده داده ۱ می تواند یک منبعی از       داده های جاری را از عملیات اجراشده توسط فراهم کننده داده ۲ بر روی داده های مانا تولید کند. فعالیت های اصلی فراهم کننده داده شامل موارد زیر است:

  • جمع آوری داده
  • تداوم دادن به داده
  • فراهم کردن توابع تبدیل برای اجرای تمیزسازی داده بر روی اطلاعات حساس نظیر اطلاعات شناسایی شخصی.
  • ایجاد فراداده هایی جهت توصیف منابع داده، سیاست های استفاده یا حقوق دسترسی و دیگر ویژگی های مرتبط
  • اعمال حقوق دسترسی بر دسترسی به داده ها
  • ایجاد قراردادهای رسمی و غیررسمی جهت مجوز دسترسی به داده
  • ایجاد قابلیت دسترسی به داده از طریق تحویل قابل برنامه ریزی مناسب یا رابط های تعاملی اخذ مناسب
  • فراهم کردن مکانیزم های دسترسی تحویل یا اخذ
  • منتشر کردن میزان در دسترس بودن اطلاعات و روش های دسترسی به آنها

مبتنی بر ویژگی های کلان داده (یعنی حجم، تنوع، سرعت و تغییرپذیری) و ملاحظات طراحی سیستم، پیچیدگی رابط های تعاملی جهت ارائه و دسترسی به داده تغییر می کند و ممکن است شامل مکانیزم های تحویل و دریافت نرم افزار باشد.

معمولا تعامل میان فراهم کننده داده و فراهم کننده کاربردهای کلان داده در سه مرحله صورت می پذیرد: ایجاد ارتباط، انتقال داده و قطع ارتباط. مرحله ایجاد ارتباط می­تواند توسط هر یک از طرفین آغاز شود و معمولا شامل سطوحی از تشخیص هویت و اعتبارسنجی می باشد. البته این مراحل می تواند بسیار ساده بوده و به این صورت انجام شود که یک طرف ارتباط، سوکت خود را برای یک پورت شناخته شده در طرف مقابل باز کند و ارتباط برقرار شود.

فراهم کننده کاربردهای کلان داده ها

موجودیت فراهم کننده کاربردهای کلان داده ها، تغییرات مربوط به چرخه عمر داده ها را اجرا می کند تا نیازمندیهایی که توسط هماهنگ کننده سیستم ایجاد شده است، پاسخ داده شود. در این موجودیت، توانمندیهای عمومی موجود در چارچوب های کلان داده ها با یکدیگر ترکیب می شود تا یک سیستم داده ای مشخص ایجاد شود.

فراهم کننده کاربرد کلان داده، وظیفه اجرای مجموعه ای از عملیات در راستای چرخه عمر داده ها را به عهده دارد به نحوی که بتواند پاسخگوی نیازمندیهای امنیت و شخصی سازی علاوه بر نیازمندیهای تعیین شده توسط هماهنگ کننده سیستم باشد. فراهم کننده کاربردهای کلان داده در واقع جزئی از معماری است که منطق تجاری و کارکردهایی که می بایست توسط معماری اجرا شود را در هم می آمیزد. فعالیت های اصلی فراهم کننده کاربرد عبارت است از:

  • جمع آوری
  • آماده سازی
  • تحلیل
  • بصری سازی
  • دسترسی

اجرای فعالیت های فوق برای هر کاربرد متفاوت بوده و در نتیجه گزینه مناسبی برای استانداردسازی نیستند. با این وجود، زمانی که کاربرد متعلق به یک صنعت عمودی خاص است، فراداده ها و سیاست هایی که تعریف        شده اند و میان زیراجزای کاربردها جابجا می شوند می­توانند استاندارد شوند.

اگرچه بسیاری از فعالیت های مذکور در سیستم های پردازش داده سنتی نیز وجود دارد، ولی ویژگی های حجم، تنوع، سرعت و تغییرپذیری که در سیستم های کلان داده وجود دارد باعث می شود که پیاده سازی این فعالیتها نیاز به تغییرات اساسی داشته باشد. الگوریتم ها و مکانیزم های موجود در پیاده سازی های پردازش داده سنتی می بایست تنظیم شده و برای مواجهه با کلان داده ها بهینه شود تا کاربردهایی ساخته شود که پاسخگو بوده و بتواند به سرعت رشد یافته و پاسخگوی مجموعه های داده هایی که هر روز نیز بزرگتر می شوند، باشد.

داده ها همزمان با توزیع و جریان یافتن در زیست بوم، پردازش می شوند و به روش های مختلفی تبدیل می شوند تا ارزش از درون اطلاعات استخراج شود. هر فعالیت مربوط به فراهم کننده کاربردهای کلان داده می تواند توسط متولیان مختلف پیاده سازی شود و به عنوان سرویس های جداگانه به کار گرفته شوند.

فراهم کننده داده می تواند یک نمونه یا مجموعه ای از تعدادی فراهم کننده کاربردهای کلان داده باشد که هر یک مراحل مختلفی از چرخه عمر داده را پیاده سازی می کند. هر یک از فعالیت های فراهم کننده کاربردها       می تواند به صورت یک سرویس عمومی باشد که توسط هماهنگ کننده سیستم، فراهم کننده داده یا مصرف کننده داده فراخوانی می شود نظیر وب سرور ، فایل سرور، مجموعه ای از یک یا تعدادی برنامه کاربردی یا ترکیبی از آنها. ممکن است چندین نمونه متفاوت از هر فعالیت وجود داشته باشد یا ممکن است یک برنامه واحد چندین فعالیت را به تنهایی انجام دهد. هر یک از فعالیت های مذکور می تواند با فراهم کننده چارچوب در لایه پایینی یا با فراهم کننده و مصرف کننده داده در ارتباط باشد. علاوه بر آن، این فعالیت ها ممکن است به صورت موازی با  یکدیگر یا با هر ترتیبی اجرا شوند و اغلب از طریق اجزاء پیام یا ارتباطات مربوط به فراهم کننده چارچوب کلان داده با یکدیگر ارتباط برقرار می کنند. همچنین کارکردهای فراهم کننده کاربرد، مخصوصا فعالیت های               جمع آوری و دسترسی، جهت تصدیق هویت و اعتبارسنجی و همچنین ذخیره و نگهداری منشأ داده ها با موجودیت شخصی سازی و امنیت تعامل می کنند.

هر یک از فعالیت ها و کارکردهای تعریف شده می تواند بر روی یک فراهم کننده چارچوب مجزا اجرا شود یا تمام آنها می تواند بر روی یک فراهم کننده چارچوب واحد اجرا شود. ملاحظاتی که منجر به اتخاذ روش های سیستمی مختلف می شود به اختلاف احتمالی در نیازمندیهای فناوری، محدودیت های تجاری و یا محدودیت های بکارگیری (شامل شخصی سازی)و ملاحظات سیاستی دیگر مرتبط می باشد.

جمع آوری:

به صورت کلی، فعالیت جمع آوری در فراهم کننده کاربردهای کلان داده، ایجاد ارتباط با فراهم کننده داده و برقراری رابط تعاملی با وی را مدیریت می کند. ممکن است این فعالیت یک سرویس عمومی نظیر فایل سرور یا وب سرور باشد که توسط هماهنگ کننده سیستم پیکربندی شده است تا جمع آوری های خاص داده ها را پذیرش کرده و اجرا کند یا ممکن است یک سرویس خاص کاربردی باشد که برای اخذ و کشیدن داده یا دریافت داده­های تحویل شده از سمت فراهم کننده داده، طراحی شده است. از آنجایی که این فعالیت دریافت حداقل داده است، باید داده های دریافت شده را بافر یا ذخیره کند تا زمانی که این داده ها بتوانند از طریق فراهم کننده چارچوب ادامه یابند.

آماده سازی:

فعالیت آماده سازی زمانی اجرا می شود که قسمت تبدیل در چرخه ETL/ELTاجرا شده باشد. وظایفی که در این فعالیت انجام شود می تواند شامل اعتبارسنجی (به عنوان نمونه بررسی فرمت، جمع­های کنترلی یا درهم­ سازی) تمیزسازی (به عنوان مثال حذف فیلدها یا نمونه های بد) حذف داده های خارج از محدوده، استانداردسازی،  فرمت بندی مجدد و یا بسته بندی باشد. این فعالیت نیز در جایی اجرا می شود که داده های مبدأ به صورت مکرر در فضای ذخیره سازی موجود در فراهم کننده چارچوب قرار گرفته و داده های منشأ، اعتبارسنجی شده باشند.

تحلیل:

فعالیت تحلیل در فراهم کننده کاربرد کلان داده شامل کدکردن منطق تجاری سطح پایین سیستم کلان داده با استفاده از منطق فرآیند تجاری سطح بالایی که توسط هماهنگ کننده سیستم مشخص می شود، می باشد. این فعالیت بر اساس نیازمندیهای کاربردهای عمودی، تکنیک هایی را جهت استخراج دانش از داده، پیاده سازی       می کند. این نیازمندیها است که الگوریتم های پردازش داده را که برای پردازش داده جهت ایجاد ادراکات جدید برای رسیدن به هدف فنی مورد انتظار است را مشخص می کند. فعالیت تحلیل از چارچوب پردازشی جهت پیاده سازی منطق محول شده به آن استفاده می کند. ممکن است منطق تحلیل به چندین ماژول جهت اجرا توسط چارچوب پردازشی شکسته شود که این ماژول ها از طریق چارچوب ارسال پیام با یکدیگر و همچنین با            فعالیت های دیگری که توسط فراهم کننده کاربرد کلان داده ایجاد شده اند، ارتباط برقرار می کنند.

بصری سازی:

فعالیت بصری سازی فراهم کننده کاربردهای کلان داده، اجزاء داده پردازش شده و خروجی فعالیت تحلیل را جهت ارائه به مصرف کننده داده آماده می کند. هدف این فعالیت این است داده را به نحوی فرمت دهی و ارائه کند که به صورت بهینه دانش و معانی را منتقل کند. آماده سازی بصری سازی ممکن است شامل ایجاد یک گزارش متنی یا تفسیر نتایج تحلیل به هر صورت گرافیکی باشد. نتایج خروجی ممکن است یک بصری سازی ایستا باشد و ممکن است به صورت ساده از طریق فراهم کننده چارچوب کلان داده برای استفاده های بعدی ذخیره شود. به هر حال، فعالیت بصری سازی به صورت مکرر با فعالیت دسترسی، فعالیت تحلیل و فراهم کننده چارچوب کلان داده (پردازش و سکو) تعامل می کند تا مبتنی بر پارامترهایی که توسط مصرف کننده داده برای فعالیت دسترسی تعریف شده است، یک بصری سازی تعاملی از داده ها را برای مصرف کننده داده فراهم کند.

دسترسی:

فعالیت دسترسی در فراهم کننده کاربرد، بر ارتباط یا تعامل با مصرف کننده داده متمرکز است. مشابه با فعالیت جمع آوری، ممکن است فعالیت دسترسی نیز یک سرویس عمومی نظیر یک وب سرور یا سرور کاربرد باشد که بوسیله هماهنگ کننده سیستم، پیکربندی شده است تا درخواست های ویژه از مصرف کننده داده را مدیریت کند. این فعالیت با فعالیت های تحلیل و بصری سازی تعامل می کند و همچنین از چارچوب های پردازشی و بستر جهت بازیابی داده ها استفاده می کند تا به درخواست های مصرف کننده داده (که ممکن است یک شخص باشد) پاسخ دهد. علاوه بر آن، فعالیت دسترسی تضمین می کند که فراداده اجرایی و روش های فراداده، اخذ   شده اند و برای دسترسی توسط مصرف کننده داده حفظ می شوند. رابط تعاملی با مصرف کننده داده ممکن است به صورت سنکرون یا آسنکرون باشد و یا از مفاهیم تحویل و اخذ برای جابجایی داده استفاده کند.

 

 

فراهم کننده چارچوب­های کلان داده ها

این موجودیت، سرویس ها یا منابع عمومی که قرار است توسط فراهم کننده کاربردهای کلان داده ها جهت ساختن یک کاربرد مشخص مورد استفاده قرار گیرد را دارا است. تعداد زیادی از اجزای جدیدی وجود دارد که فراهم کننده کاربردهای کلان داده ها می تواند از بین آنها جهت ساختن یک سیستم مشخص انتخاب کند.      فراهم کننده چارچوب کلان داده ها از یک یا تعداد بیشتری از نمونه هایی متشکل از سه زیرجزء تشکیل شده است:

  • چارچوب های زیرساختی
  • چارچوب های بستر داده
  • چارچوب های پردازشی

بسیاری از پیشرفت های اخیر در حوزه کلان داده مرتبط با حوزه چارچوب های کلان داده بوده است که جهت پاسخگویی به نیازمندیهای کلان داده ها (نظیر حجم، تنوع، سرعت و تغییرپذیری) طراحی شده است. این   پیشرفت ها قسمت اعظم تحریک های فناوری در حوزه کلان داده ها را تولید کرده است. به همین ترتیب، در حوزه چارچوب های کلان داده اطلاعات بسیار بیشتری نسبت به حوزه ها و اجزای دیگر کلان داده ها وجود دارد.

چارچوب های زیرساختی:

فراهم کننده چارچوب کلان داده، تمامی منابعی که برای اجرای فعالیت های اجزای دیگر موجود در زیست بوم کلان داده نیاز است را فراهم می کند. این منابع معمولا به چهار دسته زیر تقسیم بندی می شوند:

  • منابع شبکه: منابعی است که داده ها را از یک جزء از چارچوب زیرساختی به دیگری منتقل می کند.
  • منابع پردازشی: پردازنده ها و حافظه هایی هستند که نرم افزارهای اجزاء دیگر سیستم کلان داده را اجرا و نگهداری می کند.
  • منابع ذخیره سازی: منابعی هستند که ذخیره سازی و تداوم داده در سیستم کلان داده را فراهم               می کنند.
  • منابع محیطی: منابع فیزیکی نظیر سیستم های خنک کنندگی و توزیع توان هستند که زمان ایجاد هر نمونه ای از سیستم کلان داده باید در نظر گرفته شوند.

 

چارچوب های بستر داده:

چارچوب های بستر داده، فراهم کننده مدیریت و توزیع منطقی داده می باشند که با روش ها یا رابط های تعاملی برنامه نویسی کاربردی دسترسی ترکیب شده اند. این چارچوب ها ممکن است شامل اطلاعات ثبت داده و    سرویس های فراداده به همراه توصیفات معنایی داده نظیر گونه شناسی ها یا آنتولوژی های رسمی باشند. سازماندهی منطقی داده ها ممکن است از فایل های تخت با محدوده مشخص گرفته تا انباره های داده ستونی یا رابطه ای کاملا توزیع شده باشند.

چارچوب های پردازشی:

چارچوب های پردازشی کلان داده، نرم افزارهای زیرساختی مورد نیاز جهت پشتیبانی از پیاده سازی کاربردهایی که می توانند با ویژگی های حجم، سرعت، تنوع و تغییرپذیری داده ها مواجه شوند را فراهم می کند.           چارچوب های پردازشی مشخص می کنند که چگونه محاسبات و پردازش داده ها ساماندهی و مدیریت شود. کاربردهای کلان داده بر بسترها و فناوری های متنوعی وابسته هستند تا بتوانند پاسخگوی چالش های عملیات و تحلیل های داده مقیاس پذیر باشند.

چارچوب های پردازشی معمولا بر دستکاری داده متمرکز هستند که همواره میان پردازش های دسته ای و جاری قرار می گیرند. به صورت کلی بسیاری از معماری های کلان داده شامل چندین چارچوب مختلف هستند تا بتوانند نیازمندیهای وسیعی را پوشش دهند. چارچوب های پردازشی کلان داده در واقع از سه فاز پردازشی تشکیل       شده اند: هضم داده، آنالیز داده و توزیع داده. فراهم کننده کاربرد کلان داده، فرآیند اعمال توانمندیهای موجود در یک چارچوب خاص بر روی این فازهای پردازشی را کنترل می کند.

چارچوب های پیام/ارتباطات:

ریشه های چارچوب های پیام و ارتباطات به محیط های پردازش فوق سریع (HPC) برمی گردد که درمحیط های تحقیقاتی و علمی بسیار معروف است. چارچوب های پیام / ارتباطات جهت فراهم سازی رابط های تعاملی کاربردی (API) برای صف بندی قابل اعتماد، انتقال و دریافت داده ها میان گره های مختلف در یک کلاستر که به صورت افقی مقیاس شده است، توسعه داده شده اند. معمولا این چارچوب ها یک مدل انتقال نقطه به نقطه یا یک مدل ذخیره و ارسال رو به جلودر معماری خود پیاده سازی می کنند.

 

چارچوب های مدیریت منابع:

نظر به تکامل و پیچیده تر شدن سیستم های کلان داده و از آنجایی که صنایع مختلف به دنبال استفاده بهینه تر از منابع پردازشی و ذخیره سازی جهت پاسخ دهی به گستره وسیع تری از کاربردها و چالش های تجاری بودند، استفاده مؤثر و بهینه از منابع بسیار اهمیت پیدا کرده است. در حالی که ابزارهای مدیریت منابع و پردازش    مقیاس پذیر بسیار گسترش یافته است و در پاسخ به نیازمندیهای فراهم کننده های ابری و فناوری های مجازی سازی ابزارهای مدیریت منابع پخته تر شده است، اما کلان داده نیازمندیهای منحصربفرد و جدیدی را در این ابزارها معرفی کرده است. به هر حال، چارچوب های کلان داده معمولا در زمره موضوعات پردازش توزیع شده قرار می گیرند که چالش های بیشتری را معرفی می کنند.

مصرف کننده­ های داده

مصرف کننده­های داده، خروجی با ارزش سیستم کلان داده ها را دریافت می کنند. این واحد در بسیاری از    زمینه ها همان رابط های تعاملی کاربردی را دریافت می کند که فراهم کننده داده در اختیار فراهم کننده کاربردهای کلان داده ها قرار می دهد. علاوه بر آن، مصرف کننده­ داده مشابه نقش فراهم کننده داده، می تواند یک کاربر انتهایی واقعی یا یک سیستم دیگر باشد. فعالیت هایی که برای نقش مصرف کننده داده تعریف شده است شامل موارد زیر می باشد:

  • جستجو و بازیابی
  • آنالیز کردن به صورت محلی
  • گزارش گیری
  • بصری سازی داده جهت استفاده از فرآیندهای خود آنها

مصرف کننده از رابط های تعاملی یا سرویس هایی که توسط فراهم کننده کاربرد کلان داده فراهم می شود استفاده می کند تا به اطلاعات مورد علاقه خود دست پیدا کند. این تعاملات می تواند شامل گزارش گیری داده، بازیابی داده و تفسیر داده باشد.

این نقش معمولا از طریق تابع دسترسی خود با فراهم کننده کاربرد کلان داده جهت اجرای تحلیل ها و            بصری سازی هایی که توسط فراهم کننده کاربرد پیاده سازی شده است، تعامل می کند. این تعامل می تواند مبتنی بر درخواست باشد که طی آن مصرف کننده داده تعامل یا دستور را آغاز می کند و فراهم کننده کابرد کلان داده پاسخ او را می دهد. این تعامل می تواند شامل بصری سازی های تعاملی، ایجاد گزارش ها یا حرکت در مسیر بطن داده ها با استفاده از توابع هوش تجاری که توسط فراهم کننده کاربرد کلان داده فراهم شده است، باشد. در یک روش جایگزین، تعامل می تواند مبتنی بر جریان باشد که به صورت ساده ای مصرف کننده داده به یک یا تعداد بیشتری از خروجی های فراهم کننده کاربرد گوش فرا می دهد. تقریبا در تمامی موارد موجودیت امنیت و شخصی سازی در معماری کلان داده از هویت سنجی و اعتبارسنجی میان مصرف کننده داده و معماری پشتیبانی می کند. مشابه تعامل میان معماری کلان داده و فراهم کننده داده، تعامل میان مصرف کننده داده و فراهم کننده کاربرد کلان داده شامل سه فاز شروع ارتباط، انتقال داده و قطع ارتباط می باشد.

موجودیت امنیت و شخصی سازی

مباحث امنیت و شخصی سازی، تمامی اجزای معماری مرجع NBDRA را تحت تأثیر خود قرار می دهد. این واحد با واحد هماهنگ کننده سیستم جهت دریافت سیاست، نیازمندیها و نظارت ها تعامل می کند. در معماری مرجع NBDRA  نقش امنیت و شخصی سازی به صورت بسیار کلی ارائه شده است و جزئیات آن ارائه نشده است و خود نیازمند یک معماری مرجع جداگانه است.

موجودیت مدیریت

ویژگی های کلان داده ها نظیر حجم زیاد، سرعت تولید زیاد، تنوع داده ها و تغییر داده ها نیازمند یک بستر مدیریت تطبیق پذیر جهت ذخیره سازی، پردازش و مدیریت کردن داده در سیستم های پیچیده کلان داده است که بتواند هر دو جنبه سیستم و مباحث داده ای مرتبط با محیط های کلان داده را مدیریت کند. به بیان دیگر، با توجه به ویژگی های کلان داده ها نظیر حجم زیاد، سرعت تولید زیاد، تنوع داده ها و تغییرپذیری داده ها، ناگزیر نیازمند یک سیستم و بستر نرم افزار مدیریتی تطبیق پذیر هستیم تا پایش، تنظیم کردن و مدیریت نرم افزارها و بسته های نرم افزاری و همچنین مدیریت منابع و پایش کارآیی را به صورت اتوماتیک انجام دهد. مدیریت کلان داده ها شامل برخی ملاحظات در سیستم، داده، امنیت و شخصی سازی می باشد تا بتواند کیفیت بالای داده و دسترسی امن را نیز فراهم کند. موجودیت مدیریت در معماری مرجع NBDRA دو گروه از فعالیت های اصلی را شامل می شود: مدیریت سیستم و مدیریت چرخه عمر کلان داده. مدیریت سیستم شامل فعالیت هایی نظیر فراهم کردن، پیکربندی، مدیریت بسته، مدیریت نرم افزاری، مدیریت نسخه پشتیبان، مدیریت توانمندی، مدیریت منابع و مدیریت کارآیی می باشد. مدیریت چرخه عمر کلان داده شامل فعالیت هایی مرتبط با چرخه عمر از جمله جمع آوری، آماده سازی، انتخاب، تحلیل، بصری سازی و دسترسی است. از آنجایی که معماری مرجع NBDRA بسیار عمومی و کلی است و مختص یک محصول یا مدل کسب و کار ویژه نیست، ملاحظات مختلف و راهکارهای متفاوتی می تواند در موارد مختلف مبتنی بر آن پیاده سازی شود.

 

متولیان و نقش آفرینان در معماری مرجع کلان داده

شکل ۲ متولیان و نقش آفرینان مربوط به هر کدام از بازیگران در حوزه کلان داده ها را نشان می دهد که عبارتند از:

  1. متولیان و نقش آفرینان هماهنگ کننده سیستم – سردمداران اقتصادی – مشاوران – دانشمندان داده
    • معماران اطلاعات
    • معماران نرم افزار
    • معماران امنیت
    • معماران شخصی سازی
    • معماران شبکه
  2. متولیان و نقش آفرینان فراهم کننده داده – شرکت های تجاری – بنگاه های عمومی – پژوهشگران و دانشمندان
    • موتورهای جستجو
    • Web، FTP و کاربردهای مشابه
    • اپراتورهای شبکه
    • کاربران انتهایی
  3. متولیان و نقش آفرینان فراهم کننده کاربردهای کلان داده ها – متخصصان کاربرد – متخصصان بستر – مشاوران
  4. متولیان و نقش آفرینان فراهم کننده چارچوب­های کلان داده ها – کلاسترهای داخلی – مراکز داده – فراهم کننده های ابر
  5. متولیان و نقش آفرینان مصرف کننده­های داده – کاربران انتهایی – پژوهشگران – کاربردها
    • سیستم
  6. متولیان و نقش آفرینان موجودیت امنیت و شخصی سازی – افسر امنیت شرکت – متخصص امنیت
  7. متولیان و نقش آفرینان موجودیت مدیریت – کارکنان داخلی – مدیریت مرکز داده – فراهم کنندگان ابری

مرجع:

http://bigdata.itrc.ac.ir.com

ISO 20547-3

 

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *