Data Science in Python
Advanced Topics
בשנים האחרונות יש גידול משמעותי בכמות הנתונים ובהתאם לכך עלייה במגוון היישומים מבוססי הנתונים בתחומים השונים. לאור זאת, מומחה הנתונים הפך לאחד המקצועות המבוקשים ביותר, המאתגרים ביותר והמתגמלים ביותר בחברות, ונחשב למקצוע העתיד. מומחה הנתונים נדרש לתת פתרונות מדעיים לאתגרים הכרוכים בעבודה עם כמויות גדולות ומגוונות של נתונים, ביצוע מחקרים להפקת תובנות עסקיות מנתונים עבור הארגון (Business Intelligence), טיוב וסידור המידע המשמש למחקרים, והפעלת אלגוריתמים ומודלים שונים של כריית נתונים ו- Machine Learning על המידע שנאסף.
תאריך הקורס: 24/09/2025
17:30-21:15
מהו קורס Data Science in Python?
ככל שכמויות המידע הנשמרות בארגונים גדלה, כך עולה הצורך למצות את היתרון העסקי על ידי מחקר הנתונים והפיכתם לתובנות עסקיות. מדען הנתונים – Data scientist מתמחה בניתוח נתונים, לשם יצירת יתרון עסקי תחרותי לארגון. לצורך כך הוא נדרש לבקיאות במגוון כלי אנליזה, מודלים סטטיסטיים, אלגוריתמים של למידת מכונה, כריית נתונים וחיזוי.
שפת Python הפכה את התחום לזמין לכל אחד – בעזרת עשרות חבילות תוכנה שפותחו בשפת Python – משימות של ניתוח נתונים, בניית מודלים לחיזוי ואף משימות אלגוריתמיות רבות הפכו לפשוטות וזמינות. בכתיבת מספר קטן של שורות קוד ניתן לנתח נתונים, לסווג מסמכים, לעבד ולנתח תמונות
תיאור הקורס
מסלול הכשרה זה יתמקד בחלקו הראשון בתכנות ב-Python שנחשבת לשפה המובילה כיום לתחקור נתונים. נפתח מאפס קוד בסביבה מונחית-עצמים (Object-Oriented), שהיא המתודה הסטנדרטית כיום בפיתוח תוכנה ונבין לעומק את היתרונות הגלומים במתודה זו. בנוסף, נכיר את ספריית המודולים העשירה של השפה ונדע כיצד להיעזר בה. לאחר מכן, נצלול לעומק ונבין מודלים סטטייסטים שונים בשפת ה-Python בתחום ה- Data Science, ויזולאיזציית נתונים ודאטה ועוד. נצלול לפרקטיקה היומיומית של ה-Data Scientist ובאמצעות מקרי בוחן שונים ניחשף באופן שיטתי והדרגתי לעולם אינסופי של כלים, שיטות, אתגרים, עקרונות, ומודלים סטטיסטיים באמצעות Machine Learning.
בקורס תלמדו למעשה את מקצוע ה-Data Scientist אשר תפקידו לבצע מחקרים להפקת תובנות עסקיות לארגון (Business Intelligence), לטייב ולסדר את המידע, להפעיל אלגוריתמים שונים של Machine Learning, כריית מידע ומידול ובכך לסייע בבניית תהליכי הכנת המידע ואופטימיזציה של האלגוריתמים השונים.זאת, תוך שילוב כלים סטטיסטיים ,לפיהם ניתן לחזות את העתיד.
היקף שעות
40 שעות אקדמיות, 8 מפגשים.
קהל יעד ותנאי קבלה
קורס זה מיועד לכל מי שרוצה להעמיק בלימודי מדעי הנתונים בהתמחות שפת Python ו-Machine Learning לבניית מודלים סטטיסטים, אלגוריתמים ועוד לצורך מחקר וחיזוי נתונים.
ידע מקדים בשפת Python יהווה יתרון.
שאלות נפוצות על קורס Introduction to Data Science in Python
תפקידו לבצע מחקרי מידע מעמיקים בכדי להפיק תובנות עסקיות לארגון, להפעיל אלגוריתמים שונים של מידול, כריית מידע ו- Machine Learning על המידע, לסייע בבניית תהליכי הכנת המידע ואופטימיזציה של האלגוריתמים השונים.
מדעני נתונים ואנליסטים של נתונים מגיעים גם מרקע שונה וגם עוסקים בפעולות שונות. התפקיד של אנליסט נפוץ יותר בתעשיות כמו Gaming, Healthcare ואילו מדע הנתונים נפוץ יותר בענף האינטרנט ובעיקר בשיווק דיגיטלי. מדעני נתונים ממלאים תפקיד חשוב בהתפתחות הבינה המלאכותית ולמידת מכונה, מיפוי של כמויות נתונים גדולות ושימוש באלגוריתם למציאת חיבורים שונים.
מדעני נתונים משלבים בעבודתם בין סטטיסטיקה, מתמטיקה, תכנות, פתרון בעיות, לכידת נתונים וכוד.
אנליסטים מבצעים יישום של תהליך אלגוריתמי או מכני כדי להפיק תובנות על פי מה שכבר נבדק וידוע מבחינה מחקרית.
תוכנית לימודים
Module 1
- What is Data Visualization?
- Some Theoretical Principles Behind Data Visualization
- Histograms-Visualize the Distribution of Continuous Numerical Variables
- Boxplots-Visualize the Distribution of Continuous Numerical Variables
- Scatter Plot-Visualize the Relationship Between 2 Continuous Variables
- Barplot
- Pie Chart
- Line Chart
Introduction to Data Visualizations
- What is Statistical Data Analysis?
- Pointers on Collecting Data for Statistical Studies
- Pointers on Exploring Quantitative Data
- Explore the Quantitative Data: Descriptive Statistics
- Grouping & Summarizing Data by Categories
- Visualize Descriptive Statistics-Boxplots
- Common Terms Relating to Descriptive Statistics
- Data Distribution- Normal Distribution
- Check for Normal Distribution
- Standard Normal Distribution and Z-scores
- Confidence Interval-Theory
- Confidence Interval-Calculation
Statistical Data Analysis
Module 2
- What is Hypothesis Testing?
- Test the Difference Between Two Groups
- Test the Difference Between More Than Two Groups
- Explore the Relationship Between Two Quantitative Variables
- Correlation Analysis
- Linear Regression-Theory
- Linear Regression-Implementation in Python
- Conditions of Linear Regression
- Conditions of Linear Regression-Check in Python
- Polynomial Regression
- GLM: Generalized Linear Model
- Logistic Regression
Statistical Inference & Relationship Between Variables
- How is Machine Learning Different from Statistical Data Analysis?
- What is Machine Learning (ML) About? Some Theoretical Pointers
- Unsupervised Classification- Some Basic Ideas
- KMeans-theory
- KMeans-implementation on the iris data
- Quantifying KMeans Clustering Performance
- KMeans Clustering with Real Data
- How Do We Select the Number of Clusters?
- Hierarchical Clustering-theory
- Hierarchical Clustering-practical
- Principal Component Analysis (PCA)-Theory
- Principal Component Analysis (PCA)-Practical Implementation
Machine Learning for Data Science
Module 3
- What is This Section About?
- Data Preparation for Supervised Learning
- Pointers on Evaluating the Accuracy of Classification and Regression Modelling
- Using Logistic Regression as a Classification Model
- RF-Classification
- RF-Regression
- SVM- Linear Classification
- SVM- Non Linear Classification
- Support Vector Regression
- knn-Classification
- knn-Regression
- Gradient Boosting-classification
- Gradient Boosting-regression
- Voting Classifier
Supervised Learning
- Theory Behind ANN and DNN
- Perceptrons for Binary Classification
- Getting Started with ANN-binary classification
- Multi-label classification with MLP
- Regression with MLP
- MLP with PCA on a Large Dataset
- Start With Deep Neural Network (DNN)
- Start with H20
- Default H2O Deep Learning Algorithm
- Specify the Activation Function
- H2O Deep Learning For Predictions
Artificial Neural Networks (ANN) and Deep Learning