
מדען נתונים הוא איש מקצוע לניתוח של נתונים ולחילוץ של דפוסים תובנות, ותחזיות. לצורך זאת הוא משתמש במתמטיקה, סטטיסטיקה ותכנות, ומכאן ניתן להבין שמדובר במקצוע מורכב שמצריך חשיבה אנליטית. ניתוח הנתונים מסייע לא רק כדי לקבל החלטות, אלא גם לחיזוי של מגמות עתידיות. כלי העבודה המרכזי של מדען הנתונים הוא הביג דאטה – מאגרי נתונים גולמיים המוזרמים ממספר מקורות מתוך הארגון ומחוצה לו. מדובר בתפקיד מבוקש מאוד, בפרט ככל שעולם הבינה המלאכותית מתפתח ומעשיר אותנו בכלים. בהתאם לכך שכרו של מדען נתונים הוא מהגבוהים בהייטק. במאמר שלפניכם נבין לעומק מה זה מדען נתונים, כיצד נראית העבודה שלו ביום-יום, באילו צמתים הוא נמצא בארגון ומה ההבדל בינו לבין אנליסט נתונים.
ביג דאטה – מרחב העבודה של מדען נתונים
השלב הראשון שנדרש לנו על מנת להבין מה זה מדען נתונים, הוא להכיר את מגרש המשחקים שלו. תפקידו של מדען נתונים הפך חשוב יותר עם הצמיחה של מאגרי נתונים וכניסה של כלי ניתוח מתקדמים. עולם הביג דאטה הוא עולם מלא, אליו מוזרמת כמות עצומה ולא סדורה של נתונים ממקורות שונים, בפורמטים מגוונים, אשר מתעדכנים במהירות. ללא המומחיות של מדעני הנתונים, אשר יודעים לשאול את השאלות הנכונות, לגזור את הערכים הרלוונטיים ולהסיק מסקנות – אין כל ערך של ממש באיסוף הנתונים.
וקצת יותר לעומק – מה זה ביג דאטה?
ביג דאטה, כאמור, הוא מגרש המשחקים של מדען הנתונים. כיום כל חברה וארגון, בין אם מדובר בחברה למטרות רווח ובין אם לאו, מאחסנים כמויות גדולות של מידע, שמה שמאפיין אותו הוא נפח, מהירות ומגוון. המידע, שנוצר במהירות בזמן אמת, מגיע ממקורות מגוונים כדוגמת מדיה חברתית, חיישנים ורשומות עסקאות. כפי שצוין מעלה הנתונים מגיעים במצב גולמי, כך שללא ביצוע של פעולות טכניות לא ניתן לקרוא ולהבין אותן בעין שאיננה מומחית. שתי ענקיות ביג דאטה, שיש בידיהן נתונים רחבים ומעמיקים, הם פייסבוק וגוגל. כל אחד מאיתנו מכיר את הסיטואציה שבה הוא מחפש מידע בגוגל, ולפתע נתקל בפרסומות רלוונטיות בפייסבוק. זהו רק צד אחד שבאמצעותו מדען נתונים משתמש במידע המצטבר לתועלות שיווקיות.
מה זה מדען נתונים? לדעת לנסח את השאלות הנכונות
בנוסף לכישורים טכניים מדען נתונים נדרש לחשיבה ביקורתית. הוא צריך, בין היתר, לדעת לנסח את השאלות הנכונות והרלוונטיות שיביאו את הנתונים להם הוא זקוק. בנוסף, גם תקשורת יעילה היא מיומנות חיונית נוספת עבור מדעני נתונים, מכיוון שהם צריכים להסביר את ממצאיהם לבעלי תפקיד שאינם מהתחום הטכני ולשתף פעולה עם צוותים מרקעים מגוונים.
מהי העבודה של מדען נתונים בפועל?
לאחר שענינו על השאלה מה זה מדען נתונים, אנחנו יכולים לצלול לעבודה שלו ביום-יום. ניתוח של מאגרי נתונים לצורך תובנות וזיהוי מגמות זה דבר ענק, בפועל העבודה עוברת דרך משימות יום-יומיות שמטרתן לקבל את הנתונים הרלוונטיים לכם וליצור כלי עבודה לניתוח:
- אסוף נתונים – איסוף רלוונטיים ממקורות שונים, כולל מסדי נתונים, ממשקי API ומערכי נתונים חיצוניים. בין המקורות מהם ניתן להשיג דאטה: אינטרנט, מאמרים, בלוגים, פורומים ועוד
- טיפול ראשוני בנתונים – כדי להבטיח את איכות הנתונים יש להסיר ערכים חסרים או חריגים ומידע לא רלוונטי, וליצור תוצאות המדברות בשפה אחת. לעיתים יהיה צורך לעשות המרה J ערכים
- ניתוח נתונים חקרני (EDA) – ניתוח סטטיסטי והדמיה על גבי הנתונים במטרה להבין דפוסים, מגמות ויחסים בתוך מערך הנתונים
- הנדסת תכונות ופיתוח מודלים – בניית מודלים באמצעות אלגוריתמים של למידת מכונה לביצוע תחזיות ולסיווג של הנתונים
- הטמעה של המודלים במערכות – הטמעת מודלים כל שיהפכו לנגישים לתחזיות בזמן אמת ויתמכו בקבלת החלטות
באילו כלים משתמש מדען נתונים לצורך עבודתו?
מה זה מדען נתונים – אנחנו כבר יודעים. אך באילו כלים הוא משתמש? העבודה של מדען נתונים מתבססת על כלי תוכנה מתקדמים. שפות התכנות הנפוצות לפיתוח של מודלים ולניתוח נתונים הן פייתון ושפת R. בהיבט הנתונים, Tableau ו- Power B מסייעות להמחיש את הנתונים באופן ברור וויזואלי גם עבור מי שאינו בקיא בעניינים הטכניים, כדוגמת מנהלים. על מנת לעבד את הנתונים באופן מהיר ויעיל, שכן מדובר בכמויות נתונים עצומות, משתמשים בשני כלים פופולריים – Hadoop ו-Apach Spark.
אימון מודל של למידת מכונה
ניתוח הנתונים והפקת תובנות נעשה באמצעות למידת מכונה. חלק ניכר מעבודתו של מדען נתונים הוא אימון מודלים של למידת מכונה, כלומר לימוד של המודל לבצע תחזיות ולקבל החלטות מדויקות על סמך הנתונים ועל סמך המטרות של הארגון. המטרה של אימון המודל והטיוב שלו היא קריטית – לצמצם את ההבדל בין התפוקה החזויה לתפוקה המתקבלת בפועל. ככל שיותר דוגמאות עם יותר נתונים מוזנים למודל, כך הוא יכול להפיק תחזיות מדויקות. בחברות שהן אינן חברות הייטק, או בחברות בהן אין מוצרים הכוללים למידת מכונה, מדען נתונים עוסק לרוב בהיבטים עסקיים ושיווקיים.
באילו צמתים ומהלכים בארגון/חברה מדען נתונים נמצא ומסייע?
חשיבותו של מדען נתונים כבר ברורה, וניתן למצוא אותו בחברות, מוסדות וארגונים רבים ממגוון תחומים, כשגם בתוך הארגון הוא יכול לבצע את תפקידו במחלקות שונות במטרה לייעל אותן: מעבודה לצד המנכ"ל, דרך עבודה במחלקת השיווק והמכירות ועד לעבודה במחלקת כוח האדם. לכן, אפשרויות התעסוקה של מדען נתונים הן מגוונות ואף כמעט בלתי מוגבלות, בשפע של תחומים וענפים – צבא וביטחון, בריאות, קמעונאות, מחקר, שיווק, ספורט, בידור ועוד.
- מייעץ להנהלה – מדען נתונים אמנם לא נמנה על צוות ההנהלה באופן רשמי, אך הוא ללא ספק נחשב לשותף לדרך, בזכות יכולתו לייעץ על סמך נתונים מוכחים – רלוונטיות של פלחי שוק מסוימים, אפקטיביות של מהלכים שבוצעו וחיזוי של מהלכים מתוכננים.
- מסמן קהל יעד – עקרון קריטי בשיווק הוא זיהוי קהל היעד של המוצר או השירות במטרה לחסוך עלויות של פרסום ואף עוד קודם לכן – לעשות תכנון וייצור מדויקים יותר.
- סיוע למערך המכירות – מדען נתונים יכול לדעת אילו מוצרים נמכרים, מהו יום המכירות החזק ביותר בשבוע, מיהו הרוכש הטיפוסי ובאיזו פלטפורמה הוא מבצע רכישה, באיזה שלב הכי הרבה גולשים נוטשים בתהליך הרכישה ואפילו מהי החוויה ההמשכית של מי שרכשו את המוצר. בזכות נתונים אלה ניתן לשפר את המוצרים/שירותים ובאופן כללי לייעל את מערך המכירה.
- השתלבות במערך הפיתוח – מדען נתונים יודע לקרוא את הצרכים של הלקוחות, ולחזות את ההתנגדויות שלהם. מכיוון שאין דמות שיודעת כמוהו מה הלקוח רוצה, הוא משמעותי גם בתהליך הפיתוח של המוצרים בחברה.
- סיכול הונאות – בדרך של זיהוי מגמות ודפוסי התנהגות אשר חוזרים על עצמם ניתן לצמצם ואף למנוע מצבים של הונאות. לדוגמה, חברות אשראי, חברות השקעות, בנקים ועוד.
- גיוס עובדים מוכשרים – גיוס עובדים כיום, בפרט בחברות הייטק ובחברות מכירות, הוא המשימה החשובה ביותר. במקום לעבור על מאות קורות חיים – ניתן להסתייע במדען נתונים שאוסף אליו מקורות מידע רלוונטיים כמו רשתות חברתיות, אפליקציות ורשומות אינטרנטיות נוספות – וחותך מהם את מה שרלוונטי.
- עידוד עובדים מצטיינים – מדען נתונים יכול לעקוב אחר הביצועים של העובדים ולמדוד את הצלחותיהם / כישלונותיהם לפי פרמטרים שהוגדרו. באמצעות התובנות הללו ניתן לקדם את העובדים הבולטים לטובה, או לכל הפחות לתת להם כלים שיעזרו להם לעשות את קפיצת המדרגה הנוספת.
בואו נדבר על התועלת – מה זה מדען נתונים בפועל
מדען נתונים נמצא לא רק בהייטק אלא בתעשיות אחרות רבות, שמקיימות את פעילותן באמצעים טכנולוגיים. לדוגמה, חקלאות, בריאות, אנרגיה וכדומה. בדוגמאות שלפניכם נבין מה זה מדען נתונים באמת:
- מדען נתונים בתחום הבריאות והרפואה – מדען נתונים יכול לנתח נתוני מטופלים כדי לזהות מחלות מוקדם ככל האפשר. לדוגמה, באמצעות שילוב של נתוני בדיקות מעבדה ודפוסים היסטוריים, ניתן לבנות מודלים לזיהוי מוקדם של סיכונים למחלות כרוניות כמו סוכרת או מחלות לב.
- חקלאות – בתחום החקלאות מדען נתונים מסייע להגדיל את התפוקה החקלאית. הוא יכול לעשות זאת באמצעות ניתוח של נתוני מזג האוויר, ניתוח איכות הקרקע והיבולים. בנוסף, הם משתמשים בנתונים מחיישנים ולוויינים כדי לעזור לחקלאים לייעל את מערך ההשקיה ואת הדשן בשדותיהם. איך זה קורה? על ידי פיתוח של מודלים שמקבלים אליהם את הנתונים ולומדים להמליץ בהתאם.
- ביטחון / סייבר – עבודתם של מדעני נתונים יכולה לזהות התקפות סייבר בזמן אמת. זאת על ידי לימוד של מערכת כיצד מתנהג האתר כשהוא במצב תקין, ובאופן הזה היא לומדת לזהות פעולות חריגות, לחסום או להתריע עליהן.
- בידור ופנאי – בתעשיית הגיימינג וגם בשירותי הסטרימינג השונים משתמשים במודלים שפותחו על ידי מדעני נתונים. המודלים לומדים את המשתמש וממליצים לו על תוכן מותאם. אם מדובר במשחקי מחשב, הם מאפשרים התאמה של רמות הקושי וזיהוי נקודות התורפה במשחק.
אז מה ההבדל בין מדען נתונים לאנליסט?
מה זה מדען נתונים ומה זה אנליסט? מדען נתונים ואנליסט נתונים עובדים שניהם, כפי שניתן להבין משמם, עם מאגרי נתונים. בעוד מדען נתונים עובד באופן רוחבי על בעיות פתוחות, אנליסט נתונים מנסה לרוב לענות על שאלות עסקיות ספציפיות ואירועים שקרו בעבר. נכון יהיה לקבוע שמדען נתונים מתכנן תהליכים חדשים למידול ולייצור של נתונים, בעוד אנליסט נתונים יודע לנתח אירועים שקרו ולזהות מגמות בטווח הקצר – ועל ידי כך לאפשר למנהלים לקבל החלטות מיידיות. לבסוף, ישנו הבדל משמעותי בכישורים הנדרשים לתפקיד. מדען נתונים משתמש בשפות תכנות ובטכניקות למידת מכונה לפתרון בעיות מורכבות ולבעיות עתידיות, בעוד אנליסט נתונים משתמש בכלי נתונים כדוגמת SQL ו-Excel.טכניקות למידת מכונה לפתרון בעיות מורכבות ולבעיות עתידיות, בעוד אנליסט נתונים משתמש בכלי נתונים כדוגמת SQL ו-Excel.
רוצים לשמוע על קורס דאטה סיינס שלנו במכללת INT? לחצו כאן