دریاچه داده (Data Lake) چيست و چه تفاوتی با باتلاق داده (Data Swamp) دارد
دریاچه داده (Data Lake) و مفهوم بیگ دیتا دو واژه ناگسستنی هستند به عبارتی Data Lake ظرفی برای نگهداری بیگ دیتا یا کلان داده است که با توجه به گذر زمان ویژگیهای فنی زیادی برای آن شمارده شده است که در ادامه به آن میپردازیم. نکته ای درک آن بسیار مهم است این است که دریاچه داده به تنهایی این امکان را فراهم میکند که جایگزینی برای انبار داده و سایر اعضا همچون دیتا مارت گردد. این مفهوم غلط است که دریاچه داده تنها برای نگهداری داده های خام است. در دریاچه داده نه تنها ذخیره هر نوع داده امکان پذیر است بلکه و پردازش و داده کاوی در دریاچه داده نشانه افزایش سطح بلوغ آن بوده که در ادامه بررسی خواهد شد.
عناوين مطالب: '
دریاچه داده (Data Lake) چيست؟
یک دریاچه را در نظر بگیرید که رودخانههای مختلف به آن وارد میشوند. در واقع هر رودخانه مقداری آب در این دریاچه خواهد ریخت و آبهای موجود در این دریاچه حاصل مجموعه این رودها است. دریاچه داده یا همان Data Lake نیز به همین صورت است. یک مخزن عظیم که دادههای مختلف از طُرق متفاوت وارد این دریاچه میشوند و در آن ذخیره میگردند.
تفاوت انبارداده (Data Warehouse) و دریاچه داده (Data Lake)
دریاچه داده محلی برای نگهداری بیگ دیتا است. با بیان ساده، مفهوم دریاچه داده را میتوان اینگونه توضیح داد که اگر انبار داده را مشابه یک بطری آب تصفیهشده، بستهبندی شده و آماده مصرف در نظر بگیریم، دریاچه داده (همانند نام آن) دریاچهای است که آب از منابع مختلف ( آب باران، چشمهها، رودها یا منابع دیگر) در آن سرازیر شده و افراد میتوانند از آب دریاچه برای شنا، آشامیدن یا حتی نمونهبرداری! استفاده کنند. در یک شرکت، ما باید همیشه بر اساس داده ها تصمیم بگیریم. ما به داده های کل گروه نیاز داریم تا تصویری جامع داشته باشیم و تصمیمات تجاری درستی بگیریم، هدف حاکمیت داده از اهداف مهم دریاچه داده است.
در انبارداده، دادههای ساختاریافته (Structured Data) قرار میگیرند در حالی که در دریاچه داده هر نوع دادهای (چه ساختاریافته و چه غیرساختاریافته) میتوانند در دریاچه داده یا همان Data Lake ذخیره شوند. دریاچه داده یک الگوی طراحی مبتنی بر دادههای مدرن است که برای نگهداری طیف گستردهای از انواع دادهها، اعم از قدیمی و جدید، در مقیاس وسیع کاربرد دارد. طبق تعریف، دریاچه داده به منظور ذخیره سریع دادههای خام به همراه پردازش دادهها برای اکتشاف، تجزیه و تحلیل و عملیات بهینهسازی شده است.
مزایای دریاچه داده (Data Lake)
دمکراتیک کردن داده ها
یک دریاچه داده می تواند داده ها را در اختیار کل سازمان قرار دهد. این همان چیزی است که ما آن را دموکراتیزاسیون داده ها می نامیم. در حال حاضر، فقط مدیران ارشد این تجمل را دارند که از بخشهای مختلف گزارش بخواهند، چیزهایی را از آنها دریافت کنند و سپس تصمیم بگیرند. سایر مزایای دریاچه داده را در شکل زیر بررسی کنید:
Ingestion Data
این مفهوم به اتصالات اجازه میدهد تا دادهها را از منابع مختلف داده دریافت کرده و در دریاچه اطلاعات بارگیری کنند. مفهوم Ingestion Data با موارد زیر سر و کار دارد:
- انواع مختلف منابع داده مانند پایگاه داده، وب سرورها، ایمیلها، اینترنت اشیا و FTP
- استفاده از دادهها به دفعات زیاد مانند مصرف دستهای یا مصرف لحظهای
- انواع داده های ساختار یافته، داده های نیمه ساختار یافته و ساختار نیافته
حاکمیت دادهها
این مفهوم برای کنترل در دسترس بودن، قابلیت استفاده، امنیت و یکپارچگی دادههای مورد استفاده در سازمان مورد استفاده قرار میگیرد.
مقیاس پذیر
ذخیره داده یک مفهوم مقیاس پذیر است. این مفهوم، با ارائه یک ذخیره سازی به صرفه، دسترسی سریع به اکتشاف داده را امکانپذیر میکند. همچنین مفهوم «ذخیره داده» باید از قالبهای مختلف داده پشتیبانی و حمایت کند.
بازدیدها: 474
برچسبData Lake Data Swamp انبار داده باتلاق داده باتلاق داده (ِData Swamp) بیگ دیتا تفاوت انبارداده (Data Warehouse) و دریاچه داده (Data Lake) دریاچه داده سطح بلوغ کلان داده معماری دریاچه داده
همچنین ببینید
پايگاه داده کاساندرا، روش نصب و بررسی نقاط ضعف و قوت
پايگاه داده کاساندرا یک سیستم انباره داده ی توزیعشده و کاملاً متن باز و رایگان …
تحلیل گراف های بزرگ با آپاچی فلینک (Apache Flink)
تعریف جریان داده: جریان داده ها، داده هایی هستندکه بطور مداوم توسط هزاران منبع داده …