Advanced Big Data Analytics


عنوان دوره طول دوره زمان برگزاری تاریخ شروع دوره شهریه استاد وضعیت ثبت نام ثبت نام
Advanced Big Data Analytics 18 جلسه 54 ساعت دوشنبه از ساعت 17:30 الی 20:30
چهارشنبه از ساعت 17:30 الی 20:30
چهارشنبه ۳ مهر ۱۳۹۸ 1,900,000 تومان حسن احمدخانی

 سرفصل و محتوای دوره ی مباحث پیشرفته در پردازش و تحلیل کلان داده ها با استفاده از Hadoop

( ... ,Spark, Hive, Pig, Zepplin, NiFi, Hbase) 



معرفی و هدف دوره :

در دوره آموزشی مباحث پیشرفته در تحلیل داده های کلان، ابزار ها و تکنیک های موجود در آماده سازی و پاکسازی داده، همچنین چارچوب های تحلیل کلان داده و نحوه ی معماری سیستم های نرم افزاری پردازش و تحلیلی داده های کلان به کمک ابزارهای اکوسیستم هادوپ به صورت پیشرفته بررسی خواهند شد.
هدف از  این دوره ی آموزشی بررسی مباحث پیشرفته جهت کار با ابزارهای نگهداری، تحلیل و پردازش کلان داده مثل Spark و Hive و Pig و Hbase و همچنین ایجاد توانمندی در استفاده از Zepplin جهت تعامل با زیر ساخت های پردازشی کلان داده و انجام فرایند های علم داده ای (Data Science) می باشد.
از دیگر اهداف این دوره آموزشی ایجاد توانمندی در ایجاد WorkFlow های کنترل حرکت و ارسال داده بین سیستم ها به کمک NiFi و ذخیره ی کلان داده ها در سیستم فایل توزیع شده هادوپ و بهینه سازی روش های ذخیره سازی در فرمت ها مختلف فایل می باشد . 
در نهایت دانشجو علاوه بر فراگیری نحوه ی استفاده از ابزارهای تحلیلی و پردازشی کلان داده. نحوه ی طرح ریزی کلاستر و تخصیص منابع و ایجاد معماری برای یک راه کار ذخیره سازی/ تحلیلی/ پردازشی کلان داده را فراخواهد گرفت. 

طول دوره : 54 ساعت

پیش نیاز دوره : دوره Applied Big Data Fundamentals  یا تجربه کاری در زمینه Hadoop و اکوسیستم Hadoop

مشاهده رزومه استاد

مشاهده ی دوره Advances in Big Data Analytics در نقشه راه


سرفصل و رئوس مطالب دوره :


Advances in Spark (مباحث پیش رفته در پردازش و تحلیل کلان داده توسط اسپارک ) - 9 ساعت

اشاره به ویژگی ها، مشخصات و قابلیت های اسپارک
مرور نحوه انجام فرایند های تحلیل داده در اسپارک به کمک Scala / R (SparkR) /  Python(PySpark) / Java 
بررسی مباحث پیش رفته در ایجاد و تعامل با RDD
 کار با Spark SQL
 اتصال اسپارک به دیتابیس
معرفی، ایجاد و کار با DataFrame
معرفی و کار با Dataset
معرفی MLlib جهت انجام فرایند های یادگیری ماشینی در اسپارک
توسعه و اجرای روال های تحلیل آماری
توسعه و اجرای الگوریتم های یادگیری ماشینی در اسپارک 
معرفی Spark Streaming
توسعه و استفاده از اسپارک برای پردازش جریان داده ای
مقایسه اسپارک و سایر سکوهای پردازش جریان داده ای
نحوه ی استفاده از اسپارک و کامپوننت های آن در انجام سناریو های مختلف پالایش و تحلیل داده


Apache Hive (معرفی، مقدمه و مباحث پیش رفته در هایو) - 6 ساعت

معرفی Hive
مدلهای اجرای وظایف در Hive 
اجرای سناریو های مختلف تحلیل داده و ETL در Hive
معرفی و انجام پارتیشن بندی (Partitioning) و باکت بندی (Bucketing) در Hive
روشهای پیوند (Join) در Hive
اتصال اسپارک به هایو(Connect Spark to Hive) و مزایا و معایب آن 
یکپارچه سازی و استفاده از اسپارک به عنوان موتور اجرایی در هایو (Hive On Spark)
انجام تنظیمات پیشرفته در Hive
بهبود کارایی در Hive و پارامترهای موءثر


Advances in Pig (انجام عملیات پیشرفته در آپاچی پیگ) - 6 ساعت

مروری بر قابلیت ها و ویژگی های Pig
انجام فرایندهای پیشرفته ETL و پردازش دسته ای در Pig
استفاده از کتابخانه ی DataFu برای انجام عملیات تحلیل
معرفی Oozie به عنوان ابزار اتوماتیک سازی اجرا و زمان بندی اجرای وظایف در اکو سیستم Hadoop
اجرا و زمانبندی اجرای وظایف Pig توسط Oozie


Hadoop Storage Formats (فرمت های ذخیره سازی و نوع فایل در سیستم ذخیره سازی توزیع شده در هادوپ) - 6 ساعت

مروری بر معماری و عملکرد سیستم ذخیره سازی توزیع شده در هادوپ (HDFS)
معرفی و استفاده از نوع فایل های Text و Sequence 
معرفی و استفاده از نوع فایل های ORC 
معرفی و استفاده از نوع فایل های Avro
معرفی و استفاده از نوع فایل های Parquet
عملیات و استفاده از فرمت های مختلف فایل Hive
عملیات و استفاده از فرمت های مختلف فایل در Pig
مقایسه فرمت های فایل از جنبه های مختلف (زمان ذخیره سازی داده / لود، کارایی در خواندن و نوشتن، حجم فضای ذخیره سازی و ...)
مدل های ذخیره سازی ترکیبی و انجام فرایند های تبدیل فرمت داده و فایل


Data Science with Zeppelin (انجام عملیات تحلیل داده و فرایندهای علم داده ای توسط زپلین) - 6 ساعت

معرفی قابلیت های Zepplin
کاربردهای Zepplin برای مصورسازی نتایج
کاربردهای Zepplin برای مصورسازی نتایج
کاربردهای Zepplin برای انجام فرایند های علم داده ای
نصب و راه اندازی Zepplin
بررسی و انجام روش های مختلف ارتباط با کلان داده ها توسط Zepplin
تعامل با کلان داده ها و مصور سازی نتایج تحلیل ها توسط Zepplin
مفسرها و یکپارچه سازی Zepplin با سیستم پردازشی کلان داده (Pig, Flink, Spark, MapReduce, ...)
مقایسه ی Zepplin با سایر Data Science Notebook ها


Apache NiFi ( استفاده از NiFi برای کنترل و مدیریت Data Flow / گردش داده ) - 6 ساعت

تحلیل بر خط و نیاز به کنترل ورود داده در انجام تحلیل بر خط
اینترنت اشیاء ، منابع تولید کننده داده و نحوه ی مدیریت داده تولید شده در IOT
معرفی Data Flow و علی نیاز به انجام فرایند های Data Flow Control
معرفی NiFi به عنوان چارچول کنترل، تغییر و مدیریت گردش داده بین سیستم ها در کلان داده
نصب و استقرار NiFi
ویژگی های NiFi
انجام سناریو های مختلف کنترل گردش داده در NiFi و ایجاد گراف های کنترل گردش داده
مروری بر قابلیت ها و امکانات NiFi
معرفی و استفاده از MiNiFi جهت ایجاد گره های برگ در گراف کنترل داده


Apache Hbase ( معرفی، مقدمه و مباحث پیشرفته در آپاچی اچ بیس) - 9ساعت

مروری بر مفاهیم پایگاه داده های NoSQL  و کاربرد آنها
معرفی پایگاه داد Hbase به عنوان پایگاه داده NoSQL در اکوسیستم هادوپ
ویژگی ها وقابلیت های Hbase
معماری کلاستر Hbase
تعامل با Hbase و انجام عملیات مختلف کاربری در آن
مبانی مدیریت Hbase و انجام فعالیت ها و عملیات مدیریتی
ایجاد بهبود کارایی در Hbase از نظر معماری و پیکربندی
کاربردهای Hbase

Big Data Cluster Sizing (طرح ریزی و تصمیم گیری در مورد اندازه کلاستر هادوپ و مشخصات گره ها) - 3 ساعت

تعریف Cluster Sizing
بررسی بهترین شیوه ها (Best Practice) در طرح ریزی ایجاد یک کلاستر هادوپ
ملاحظات یک طرح ریزی مناسب
نیازسنجی در زمینه حجم داده و میزان درخواست های پردازشی و تحیلی
مثال و مشخصات Storage / HDD مورد نیاز برای نیازسنجی انجام شده و ملاحظات آن
نحوه تخصیص منابع RAM و CPU مورد نیاز و ملاحظاتی که باید در نظر گرفت
سایر منابع مورد نیاز و بهترین شیوه های تقسیم بندی منابع در ایجاد یک کلاستر
انجام محاسبات و جزئیات کلاستربندی و مقدار دهی پارامترهای هر چارچوب در کلاستر هادوپ


Big Data Solution Architectures (انتخاب تکنولوژی / چارچوب و معماری یک راه حل پردازش و تحلیل کلان داده) - 3 ساعت

تعریف معماری
معرفی مدل های معماری
              Lambda
               kappa
معماری یک راه حل تحلیل کلان داده و نحوه انتخاب و استفاده از تکنولوژی های تحلیل کلان داده
معماری های نمونه و پروژه های موفق در زمینه سیستم های پردازش کلان داده
معماری های نمونه از سیستم های پردازش جریان داده ای