פרטים נוספים
whatsapp
לימודי הייטק ב-INT LIVE
טלפון

Big Data with Spark and Hadoop

ארגונים השוקלים לעבור לעולם ה-Big-Data זקוקים לידע נרחב החולש על מספר פלטפורמות, ספקי שירותים, עננים וטכנולוגיות. פערי הידע אינם מתנקזים לכדי נושא אחד אלא מתפרשים על פני כמה תחומים שכל אחד מהם מהווה עולם בפני עצמו. לשם כך נדרשת פונקציה אשר תדע ותכיר את הנמצא בעולם ה-Data וגם תוכל לאפיין אילו רכיבים מתוך הפיתוח הקיים או העתידי שייכים לעולם ה- Big-Data Architect.

מהו קורס Big Data with Hadoop & Spark?

קורס Big Data מלמד את כל העקרונות החשובים בטכנולוגיות ה  Big Dataומקנה הבנה בטכנולוגיות שונות המאפשרות "לראות את התמונה הגדולה". כך, אדם העושה את צעדיו הראשונים בעולם ה-Big Data נשאר בקצב ההתקדמות של הטכנולוגיה, פותח לעצמו דלתות רבות יותר, ומבסס את עצמו בארגון בו הוא נמצא על הצד הטוב ביותר.במהלך הקורס ינתנו מספר פרויקטים אשר יאפשרו הטמעה מעשית, ואינטגרציה בין טכנולוגיות שונות אשר נלמדו.

 

תיאור הקורס

בעולם טכנולוגי ועסקי, הנתונים והמידע הם הנכס האמיתי של כל ארגון בעולם. מסלול ההכשרה Big Data מוביל את המועמד לתפקיד העתיד של עולם הנתונים והמידע. במסלול הכשרה זה, נתמקד בבסיס הנתונים Cloudera’s Apache Hadoop הנחשב לבסיס הנתונים הפופולארי ביותר בעולמות ה-Big Data ונמצא בשימוש חברות רבות.

 

היקף שעות

40 שעות אקדמיות, 8 מפגשים.

קהל יעד ותנאי קבלה

מסלול הכשרה זה מיועד למפתחים המעוניינים להשיג את המיומנויות והידע לפתח פתרונות נתונים גדולים עם Hadoop ו-Spark, או לאנשי דאטה ומסדי נתונים, DBA,BI ואנשים נוספים העוסקים בעולמות ה-BIG DATA ומעוניינים לרכוש ידע ויכולות טכניות בתחום.

דרישות קבלה:

  • ידע וניסיון בעבודה מול מערכות Data
  • רקע בשפת ה-SQL

שאלות נפוצות על קורס Big Data with Spark and Hadoop

Hadoop הינו שם קוד לפרויקט-על מבוסס קוד פתוח של קרן התוכנה אפאצ’י, שמטרתו לעבד כמויות גדולות של נתונים (Big Data) בסביבת הפיתוח. Hadoop מאפשר עבודה של אלפי יחידות עיבוד (Nodes) המטפלות בו זמנית במידע בהיקף של Petabytes. העבודה הינה על קבצים גדולים המפוזרים על פני אשכולות מחשבים, תוך שימוש במודל תכנות פשוט. זוהי תשתית המאפשרת לחבר בעזרת תוכנה עשרות, מאות ואלפי שרתים בסיסיים – לסביבה אחת פשוטה.

Spark זהו למעשה הדור הבא של עיבוד מידע, הרבה יותר יעיל מ-Map/Reduce, הוא יותר מהיר, יודע לנצל זכרון בצורה מיטבית, הרבה יותר קל ונוח לפתח בו, ניתן לעשות בו עיבודים של Machine Learning.

מפתחי אפליקציות ומדעני נתונים משלבים את Spark ביישומים שלהם כדי לבצע שאילתות, לנתח ולהמיר נתונים במהירות.

הצרכים הנפוצים ביותר שפותרים באמצעות Spark הם: ETL ו- SQL מול מקורות מידע מגוונים ו-Datasets גדולים, עיבוד נתונים הזורמים מחיישנים, IoT , מערכות פיננסיות גדולות, וכמובן Machine Learning.

מגוון רחב של יצרניות טכנולוגיות מיהרו לתמוך ב- Spark, מתוך הבנה שיש כאן הזדמנות להרחיב את המוצרים הקיימים שלהם בתחום Big Data באזורים שבהם Spark מספק ערך אמיתי, כגון שאילתה אינטראקטיבית ו- Machine Learning.

חברות ידועות כמו IBM ו- Huawei השקיעו סכומים משמעותיים בטכנולוגיה, ומספר של חברות סטארט-אפ שבונות מוצרים שתלויים ב-Spark הולך וגדל.

תוכנית לימודים

1
צורה
Introducing Big Data, Hadoop, and Spark | Hadoop’s Ecosystem

Module 1

  • Introduction to Big Data, Distributed Computing
  • Introduction to Hadoop
  • Introduction to Apache Spark
  • Deployment options

Introducing Big Data, Hadoop, and Spark

  • Understand the main Hadoop components
  • Learn how HDFS works

 

 

 

 

 

 

 

 

 

 

Hadoop’s Ecosystem

2
צורה
Map Reduce and Pig | Hive

Module 2

  • Introduction to Map Reduce
  • Map Reduce Programing
  • Pig Basics
  • Pig Relational Operators
  • Pig Evaluation Functions and Other Commands

Map Reduce and Pig

  • Introduction to Hive
  • Hive DDL Commands
  • Hive DML Commands
  • Hive Operators and Functions
  • Hive Storage Formats
  • Hive Configuration

Hive

3
צורה
Spark Programming Basics | SQL with Spark | Stream Processing Using Spark

Module 3

  • Input/Output Types for Spark Applications
  • Introduction to Spark RDDs
  • Loading Data into RDDs
  • Methods for Creating RDDs
  • RDD Transformations and Actions
  • Pair RDDs
  • Partitioning Data in Spark
  • RDD Caching
  • Persisting RDDs
  • Optimizing Spark

Spark Programming Basics

  • Introduction to Spark SQL
  • DataFrames
  • Caching, Persisting, and Repartitioning DataFrames
  • Saving DataFrame Output

SQL with Spark

  • Spark Streaming
  • DStreams
  • State and Sliding Window Operations
  • Using Spark with Messaging Platforms
  • Apache Kafka

Stream Processing Using Spark

הרשמה לקורס


    שיחה עם נציג

    דילוג לתוכן