Advanced Big Data Analytics

مدرس دوره : حسن احمدخانی


عنوان دوره طول دوره زمان برگزاری تاریخ شروع دوره شهریه استاد وضعیت ثبت نام ثبت نام
Advanced Big Data Analytics 18 جلسه 54 ساعت دوشنبه از ساعت 17:30 الی 20:30
چهارشنبه از ساعت 17:30 الی 20:30
دوشنبه ۱۴ بهمن ۱۳۹۸ 1,900,000 تومان حسن احمدخانی

 سرفصل و محتوای دوره ی مباحث پیشرفته در پردازش و تحلیل کلان داده ها با استفاده از Hadoop

( ... ,Spark, Hive, Pig, Zepplin, NiFi, Hbase) 



معرفی و هدف دوره :

در دوره آموزشی مباحث پیشرفته در تحلیل داده های کلان، ابزار ها و تکنیک های موجود در آماده سازی و پاکسازی داده، همچنین چارچوب های تحلیل کلان داده و نحوه ی معماری سیستم های نرم افزاری پردازش و تحلیلی داده های کلان به کمک ابزارهای اکوسیستم هادوپ به صورت پیشرفته بررسی خواهند شد.
هدف از  این دوره ی آموزشی بررسی مباحث پیشرفته جهت کار با ابزارهای نگهداری، تحلیل و پردازش کلان داده مثل Spark و Hive و Pig و Hbase و همچنین ایجاد توانمندی در استفاده از Zepplin جهت تعامل با زیر ساخت های پردازشی کلان داده و انجام فرایند های علم داده ای (Data Science) می باشد.
از دیگر اهداف این دوره آموزشی ایجاد توانمندی در ایجاد WorkFlow های کنترل حرکت و ارسال داده بین سیستم ها به کمک NiFi و ذخیره ی کلان داده ها در سیستم فایل توزیع شده هادوپ و بهینه سازی روش های ذخیره سازی در فرمت ها مختلف فایل می باشد . 
در نهایت دانشجو علاوه بر فراگیری نحوه ی استفاده از ابزارهای تحلیلی و پردازشی کلان داده. نحوه ی طرح ریزی کلاستر و تخصیص منابع و ایجاد معماری برای یک راه کار ذخیره سازی/ تحلیلی/ پردازشی کلان داده را فراخواهد گرفت. 

طول دوره : 54 ساعت

پیش نیاز دوره : دوره Applied Big Data Fundamentals  یا تجربه کاری در زمینه Hadoop و اکوسیستم Hadoop

مشاهده رزومه استاد

مشاهده ی دوره Advances in Big Data Analytics در نقشه راه


سرفصل و رئوس مطالب دوره :


Advances in Spark (مباحث پیش رفته در پردازش و تحلیل  کلان داده توسط اسپارک ) - 9 ساعت

اشاره به ویژگی ها، مشخصات و قابلیت های اسپارک
مرور نحوه انجام فرایند های تحلیل داده در اسپارک به کمک Scala / R (SparkR) /  Python(PySpark) / Java 
بررسی مباحث پیش رفته در ایجاد و تعامل با RDD
 کار با Spark SQL
 اتصال اسپارک به دیتابیس
معرفی، ایجاد و کار با DataFrame
معرفی و کار با Dataset
معرفی MLlib جهت انجام فرایند های یادگیری ماشینی در اسپارک
توسعه و اجرای روال های تحلیل آماری
توسعه و اجرای الگوریتم های یادگیری ماشینی در اسپارک 
معرفی Spark Streaming
توسعه و استفاده از اسپارک برای پردازش جریان داده ای
مقایسه اسپارک و سایر سکوهای پردازش جریان داده ای
نحوه ی استفاده از اسپارک و کامپوننت های آن در انجام سناریو های مختلف پالایش و تحلیل داده


Apache Hive (معرفی، مقدمه و مباحث پیش رفته در هایو) - 6 ساعت

معرفی Hive
مدلهای اجرای وظایف در Hive 
اجرای سناریو های مختلف تحلیل داده و ETL در Hive
معرفی و انجام پارتیشن بندی (Partitioning) و باکت بندی (Bucketing) در Hive
روشهای پیوند (Join) در Hive
اتصال اسپارک به هایو(Connect Spark to Hive) و مزایا و معایب آن 
یکپارچه سازی و استفاده از اسپارک به عنوان موتور اجرایی در هایو (Hive On Spark)
انجام تنظیمات پیشرفته در Hive
بهبود کارایی در Hive و پارامترهای موءثر


Apache Hbase ( معرفی، مقدمه و مباحث پیشرفته در آپاچی اچ بیس) - 9ساعت

مروری بر مفاهیم پایگاه داده های NoSQL  و کاربرد آنها
معرفی پایگاه داد Hbase به عنوان پایگاه داده NoSQL در اکوسیستم هادوپ
ویژگی ها وقابلیت های Hbase
معماری کلاستر Hbase
تعامل با Hbase و انجام عملیات مختلف کاربری در آن
مبانی مدیریت Hbase و انجام فعالیت ها و عملیات مدیریتی
ایجاد بهبود کارایی در Hbase از نظر معماری و پیکربندی
کاربردهای Hbase


Hadoop Storage Formats and Apache Kudu (فرمت های ذخیره سازی و نوع فایل در سیستم ذخیره سازی توزیع شده در هادوپ) - 9 ساعت

مروری بر معماری و عملکرد سیستم ذخیره سازی توزیع شده در هادوپ (HDFS)

معرفی و استفاده از نوع فایل های Text و Sequence 

معرفی و استفاده از نوع فایل های ORC 

معرفی و استفاده از نوع فایل های Avro

معرفی و استفاده از نوع فایل های Parquet

عملیات و استفاده از فرمت های مختلف فایل در Hive

عملیات و استفاده از فرمت های مختلف فایل در Pig

معرفی Apache Kudu

معماری Kudu

کاربردهای Kudu

مزایای Kudu

محدودیت های Kudu

نصب ، پیکربندی و مبانی مدیریت Kudu

Schema Design در Kudu

عملیات داده ای در Kudu

مقایسه فرمت های فایل از جنبه های مختلف (زمان ذخیره سازی داده / لود، کارایی در خواندن و نوشتن، حجم فضای ذخیره سازی و ...)

مدل های ذخیره سازی ترکیبی و انجام فرایند های تبدیل فرمت داده و فایل


Impala for SQL On Hadoop (استفاده از Impala به عنوان موتور اجرایی دستورات اس کیو ال)- 6ساعت 

معرفی Impala

معماری، اجزاء و مدل کارکرد Impala

دستورات SQL ، مدل داده ای و توابع در Impala

نصب، پیکربندی و راه اندازی Impala

کار با انواع فرمت های فایل در Impal

مدیریت Impala

بهبود کارایی در Impala


Data Science with Zeppelin (انجام عملیات تحلیل داده و فرایندهای علم داده ای توسط زپلین) - 3 ساعت

معرفی قابلیت های Zepplin

کاربردهای Zepplin برای مصورسازی نتایج

کاربردهای Zepplin برای مصورسازی نتایج

کاربردهای Zepplin برای انجام فرایند های علم داده ای

نصب و راه اندازی Zepplin

بررسی و انجام روش های مختلف ارتباط با کلان داده ها توسط Zepplin

تعامل با کلان داده ها و مصور سازی نتایج تحلیل ها توسط Zepplin

مفسرها و یکپارچه سازی Zepplin با سیستم پردازشی کلان داده (Pig, Flink, Spark, MapReduce, ...)

مقایسه ی Zepplin با سایر Data Science Notebook ها


Apache NiFi ( استفاده از NiFi برای کنترل و مدیریت Data Flow / گردش داده ) - 6 ساعت

تحلیل بر خط و نیاز به کنترل ورود داده در انجام تحلیل بر خط
اینترنت اشیاء ، منابع تولید کننده داده و نحوه ی مدیریت داده تولید شده در IOT
معرفی Data Flow و علی نیاز به انجام فرایند های Data Flow Control
معرفی NiFi به عنوان چارچول کنترل، تغییر و مدیریت گردش داده بین سیستم ها در کلان داده
نصب و استقرار NiFi
ویژگی های NiFi
انجام سناریو های مختلف کنترل گردش داده در NiFi و ایجاد گراف های کنترل گردش داده
مروری بر قابلیت ها و امکانات NiFi
معرفی و استفاده از MiNiFi جهت ایجاد گره های برگ در گراف کنترل داده


Big Data Cluster Sizing (طرح ریزی و تصمیم گیری در مورد اندازه کلاستر هادوپ و مشخصات گره ها) - 3 ساعت

تعریف Cluster Sizing

بررسی بهترین شیوه ها (Best Practice) در طرح ریزی ایجاد یک کلاستر هادوپ

ملاحظات یک طرح ریزی مناسب

نیازسنجی در زمینه حجم داده و میزان درخواست های پردازشی و تحیلی

مثال و مشخصات Storage / HDD مورد نیاز برای نیازسنجی انجام شده و ملاحظات آن

نحوه تخصیص منابع RAM و CPU مورد نیاز و ملاحظاتی که باید در نظر گرفت

سایر منابع مورد نیاز و بهترین شیوه های تقسیم بندی منابع در ایجاد یک کلاستر

انجام محاسبات و جزئیات کلاستربندی و مقدار دهی پارامترهای هر چارچوب در کلاستر هادوپ


Big Data Solution Architectures (انتخاب تکنولوژی / چارچوب و معماری یک راه حل پردازش و تحلیل کلان داده) - 3 ساعت

تعریف معماری
معرفی مدل های معماری
              Lambda
               kappa
معماری یک راه حل تحلیل کلان داده و نحوه انتخاب و استفاده از تکنولوژی های تحلیل کلان داده
معماری های نمونه و پروژه های موفق در زمینه سیستم های پردازش کلان داده
معماری های نمونه از سیستم های پردازش جریان داده ای