ליצירת קשר
whatsapp
לימודי הייטק ב-INT LIVE
טלפון

Web Scraping מה זה?

INT College
web scraping מה זה

המונח Web Scraping, מה שנקרא בעברית "גירוד דפי רשת" או "גרידת אינטרנט", הפך בשנים האחרונות למושא לוויכוחים רבים בתחום האתיקה של השימוש באינטרנט. כדי להבין על מה הוויכוח ועל מנת לגבש עמדה בנושא, כדאי שנסביר קודם כל מה זה Web Scraping, איך זה נעשה, ומה זה באמת נותן.

מה זה Web Scraping

אם מפשיטים ממנו את הפונקציות העיצוביות (ה-CSS) האינטרנט כולו (או כמעט כולו) הוא פשוט טקסטים, הררי טקסטים אינסופיים. הטקסטים הללו כתובים (בהכללה) בשפת הקוד של האינטרנט, HTML. כדי לקבל מידע מהאתרים הללו, אפשר כמובן פשוט להיכנס לאתר פלוני ולקרוא שם את המידע. אולם נניח ואני רוצה לקבל מידע מהמון אתרים בו זמנית, ואין לי מספיק זמן או סבלנות להיכנס לכל אתר ואתר, ולנווט את דרכי אל המידע, אלא אני רוצה שהוא יופיע בפני פשוט, לאחר שאספתי אותו ביעילות. כיצד ניתן לעשות זאת?

עבור מצבים אלו נהוגה הפרקטיקה של Web Scraping, קרי גרידת אינטרנט. מה שעושים הוא לכתוב מיני-תוכנה בשפת פייתון (לרוב), שבה ניתן לכתוב יחסית בקלות סקריפטים לא-מורכבים מהסוג הזה (מעבר לכך, חלק גדול מהפיתוח של גוגל נעשה בפייתון). גרידת אינטרנט מאפשרת כל מיני שימושים שונים, למשל: איסוף מחירים מאתרי איקומרס; איסוף של מידע בורסאי כגון שערי מניות; איסוף תוכן במדיה חברתית ועוד. בעצם אנחנו לא צריכים להיכנס לאתרים הללו בעצמנו, אלא אנו שולחים זחלן (Web Crawler) "מטעמנו", לו הגדרנו איזה מידע נרצה שיאסוף. הזחלן אוסף את המידע הזה, ומעביר אותו בתצורה שהגדרנו.

להיכן הזחלן מעביר את ומאגד את המידע שנאסף? לרוב כאשר מבצעים גירוד אוטומטי, משתמשים בכמה ספריות מידע עיקריות, המהוות למעשה כלים לשימוש בפייתון. למשל, Beautiful Soup, ממנה אפשר לאסוף מידע בתצורת XML או HTML; כמו כן, ספריית Scrapy, מסגרת גמישה ועוצמתית לאיסוף מידע רב מאתרי אינטרנט; ספריית Requests משמשת עבור בקשות HTTP, ונחשבות פשוטה יחסית וכן יכולה לאסוף מידע מכל אתר. ישנן דוגמאות נוספות לספריות וכן מספר כלים שונים המאפשרים Web Scraping, אולם זה הרעיון בקליפת אגוז.

המחלוקת סביב גרידת אינטרנט

באמצעות גרידת אינטרנט ניתן לקבל מידע וטקסטים בצורה אוטומטית מבלי לגלוש באתר. עם זאת, לא על האתרים מרוצים מכך, וחלק נוקטים בהגנות כאלה ואחרות במטרה למנוע זחלנים (הדוגמה הכי נפוצה היא CAPTCHA). למה אכפת לאותם אתרים מביצוע של Web Scraping "בשטחם"? לאתרים שונים יש סיבות שונות. למשל, יתכן ו-Scraping מאטה את פעילות האתר (גוזלת לו מרוחב הפס). מעבר לכך, Scraping יכול לעורר כל מיני סוגיות משפטיות. למשל, אם אתם מעתיקים מידע, יתכן שאתם מבצעים הפרה של בעל הזכויות במידע הזה (אם למשל הוא מוגן בזכויות יוצרים). מעבר לכך, ישנם אתרים שונים שהתקנון שלהם אוסר על שימוש ב-Web Scraping, ואם אתם מבצעים זאת, אפשר לטעון נגדכם שביצעתם הפרה חוזית לפי האמור בתקנון האתר.

מבחינה משפטית, שאלת החוקיות של ה-Scraping מהווה לא פעם כר פורה למחלוקות משפטיות. אולם ניתן ללמוד מהפסיקה בעניין כי ככל שהמידע הוא פומבי יותר (למשל לא צריך לשלם או להירשם לאתר כדי לגשת אליו), כך תהיה עליו פחות הגנה משפטית. כמו כן, ככל שהמידע הוא פשוט יותר להשגה, גם כאן תהיה עליו פחות הגנה מצד בתי המשפט.

הסתקרנתם? הכנסו לעוד פרטים על קורס פיית'ון

לקביעת שיחת ייעוץ חינם

    שיחה עם נציג

    דילוג לתוכן