مطمئنا برای متخصصین فناوری اطلاعات نام هایی مانند دریاچه اطلاعات، انبار داده ها و یا استخر داده ها نا آشنا نیست. Data Lake مفهومی است که بعضا در کنار پایگاه داده ها DataBase شنیده می شود. تحلیل داده ها در سطح کلان موجب می شود بیشتر به بررسی این نام بپردازیم.
انباری از داده ها برای تحلیل و بهینه سازی اطلاعات
در عصر جدید که حجم اطلاعات به طرز سرسام آوری در حال رشد است، نگهداری، بررسی،تجزیه و تحلیل و نهایتا استفاده از نتایج این تجزیه و تحلیل امری بسیار مهم است که می تواند جامعه را به سمتی پیش براند تا کنترل اوضاع در هر زمینه، اعم از کسب و کار، تجارت، تحقیقات، سیاست، علوم و ... را در دست گرفته و د صورت لزوم جهت پیش بینی، تغییر و یا بهبود شرایط اقدام نماید.
اگر بخواهیم کمی تخصصی تر به این مفاهیم نگاه کنیم با واژه های متفاوتی رو به رو خواهیم شد. انبار داده ها یا Data Warehouse در واقع مخزنی از اطلاعات است که بررسی و تحلیل آن موجب اخذ تصمیمات آگاهانه می گردد. به طور معمول داده ها طی دوره های منظم به کمک سیستم های تراکنشی یا Transactional information systems و Relational databases و برخی منابع دیگر به یک مخزن یا انبار داده وارد می شوند. این اطلاعات به صورت طبقه بندی شده در اختیار کاربران که عموما گروهی از تحلیلگران، دانشمندان و یا تصمیم گیران سازمانی هستند قرار می گیرد.
در طراحی و معماری انبار داده ها از سه لایه یا سه سطح استفاده شده است. داولین سطح، شامل پایگاه داده است که تمامی اطلاعات در ان ذخیره می شود. دومین سطح شامل یک موتور تجلیل است که به جستجو، تجزیه و تجلیل داده ها می پردازد و نهایتا سطح سوم و یا سطح فوقانی لایه ای است که در اختیار کاربر قرار می گیرد تا از نتایج این تحلیل استفاده نماید.
همانظور که گفته شد اطلاعات در انبار داده به صورت منظم و طبقه بندی شده در اختیار کاربران قرار می گیرد. حال انکه در دریاچه ی داده ها بدون هیچ نظمی تمامی اطلاعات انباشته شده و صرقا به منظور نگهداری مجموعه اطلاعات مورد استفاده قرار می گیرد. در این دریاچه شما امکان جستجوی هر نوع فایلی را خواهید داشت.