Web Scraping מה זה?

INT College

המונח Web Scraping, מה שנקרא בעברית "גירוד דפי רשת" או "גרידת אינטרנט", הפך בשנים האחרונות למושא לוויכוחים רבים בתחום האתיקה של השימוש באינטרנט. כדי להבין על מה הוויכוח ועל מנת לגבש עמדה בנושא, כדאי שנסביר קודם כל מה זה Web Scraping, איך זה נעשה, ומה זה באמת נותן.

מה זה Web Scraping

אם מפשיטים ממנו את הפונקציות העיצוביות (ה-CSS) האינטרנט כולו (או כמעט כולו) הוא פשוט טקסטים, הררי טקסטים אינסופיים. הטקסטים הללו כתובים (בהכללה) בשפת הקוד של האינטרנט, HTML. כדי לקבל מידע מהאתרים הללו, אפשר כמובן פשוט להיכנס לאתר פלוני ולקרוא שם את המידע. אולם נניח ואני רוצה לקבל מידע מהמון אתרים בו זמנית, ואין לי מספיק זמן או סבלנות להיכנס לכל אתר ואתר, ולנווט את דרכי אל המידע, אלא אני רוצה שהוא יופיע בפני פשוט, לאחר שאספתי אותו ביעילות. כיצד ניתן לעשות זאת?

עבור מצבים אלו נהוגה הפרקטיקה של Web Scraping, קרי גרידת אינטרנט. מה שעושים הוא לכתוב מיני-תוכנה בשפת פייתון (לרוב), שבה ניתן לכתוב יחסית בקלות סקריפטים לא-מורכבים מהסוג הזה (מעבר לכך, חלק גדול מהפיתוח של גוגל נעשה בפייתון). גרידת אינטרנט מאפשרת כל מיני שימושים שונים, למשל: איסוף מחירים מאתרי איקומרס; איסוף של מידע בורסאי כגון שערי מניות; איסוף תוכן במדיה חברתית ועוד. בעצם אנחנו לא צריכים להיכנס לאתרים הללו בעצמנו, אלא אנו שולחים זחלן (Web Crawler) "מטעמנו", לו הגדרנו איזה מידע נרצה שיאסוף. הזחלן אוסף את המידע הזה, ומעביר אותו בתצורה שהגדרנו.

להיכן הזחלן מעביר את ומאגד את המידע שנאסף? לרוב כאשר מבצעים גירוד אוטומטי, משתמשים בכמה ספריות מידע עיקריות, המהוות למעשה כלים לשימוש בפייתון. למשל, Beautiful Soup, ממנה אפשר לאסוף מידע בתצורת XML או HTML; כמו כן, ספריית Scrapy, מסגרת גמישה ועוצמתית לאיסוף מידע רב מאתרי אינטרנט; ספריית Requests משמשת עבור בקשות HTTP, ונחשבות פשוטה יחסית וכן יכולה לאסוף מידע מכל אתר. ישנן דוגמאות נוספות לספריות וכן מספר כלים שונים המאפשרים Web Scraping, אולם זה הרעיון בקליפת אגוז.

המחלוקת סביב גרידת אינטרנט

באמצעות גרידת אינטרנט ניתן לקבל מידע וטקסטים בצורה אוטומטית מבלי לגלוש באתר. עם זאת, לא על האתרים מרוצים מכך, וחלק נוקטים בהגנות כאלה ואחרות במטרה למנוע זחלנים (הדוגמה הכי נפוצה היא CAPTCHA). למה אכפת לאותם אתרים מביצוע של Web Scraping "בשטחם"? לאתרים שונים יש סיבות שונות. למשל, יתכן ו-Scraping מאטה את פעילות האתר (גוזלת לו מרוחב הפס). מעבר לכך, Scraping יכול לעורר כל מיני סוגיות משפטיות. למשל, אם אתם מעתיקים מידע, יתכן שאתם מבצעים הפרה של בעל הזכויות במידע הזה (אם למשל הוא מוגן בזכויות יוצרים). מעבר לכך, ישנם אתרים שונים שהתקנון שלהם אוסר על שימוש ב-Web Scraping, ואם אתם מבצעים זאת, אפשר לטעון נגדכם שביצעתם הפרה חוזית לפי האמור בתקנון האתר.

מבחינה משפטית, שאלת החוקיות של ה-Scraping מהווה לא פעם כר פורה למחלוקות משפטיות. אולם ניתן ללמוד מהפסיקה בעניין כי ככל שהמידע הוא פומבי יותר (למשל לא צריך לשלם או להירשם לאתר כדי לגשת אליו), כך תהיה עליו פחות הגנה משפטית. כמו כן, ככל שהמידע הוא פשוט יותר להשגה, גם כאן תהיה עליו פחות הגנה מצד בתי המשפט.

הסתקרנתם? הכנסו לעוד פרטים על קורס פיית'ון

לקביעת שיחת ייעוץ חינם

מעניין! אשמח לקרוא עוד בתחום

מה זה css

תוכן ענייניםמה זה Web Scrapingהמחלוקת סביב גרידת אינטרנט תדמיינו לעצמכם תהליך בנייה של בית. בהתחלה מניחים את היסודות, ולאחר מכן יוצקים עליהם את הבטון, עד לקבלת ה"שלד" של הבית. לאחר...

#python #פייתון #שפתתכנות #תכנות

בואו נמשיך

פיתוח תוכנה – כל שצריך לדעת לפני קורס שפת פיתוח

תוכן ענייניםמה זה Web Scrapingהמחלוקת סביב גרידת אינטרנט אם פעם אמהות היו רוצות שהילד שלהם יגדל להיות רופא, מהנדס, או עורך דין, היום אמהות רוצות שהילד שלהן יגדל להיות מתכנת....

#python #פייתון #שפתתכנות #תכנות

בואו נמשיך

מה זה שרת פיתוח ולמה צריך אותו?

תוכן ענייניםמה זה Web Scrapingהמחלוקת סביב גרידת אינטרנט כאשר ארגון עובד על פיתוח של מוצר כגון תוכנה, אתר, אפליקציה וכדומה, עובדים על המוצר הזה לעיתים מאות ואף אלפי מפתחים, כאשר...

#python #פייתון #שפתתכנות #תכנות

בואו נמשיך

מה זה css

#python #פייתון #שפתתכנות #תכנות

בואו נמשיך

פיתוח תוכנה – כל שצריך לדעת לפני קורס שפת פיתוח

#python #פייתון #שפתתכנות #תכנות

בואו נמשיך

מה זה שרת פיתוח ולמה צריך אותו?

#python #פייתון #שפתתכנות #תכנות

בואו נמשיך

קוד פייתון

תוכן ענייניםמה זה Web Scrapingהמחלוקת סביב גרידת אינטרנט שפת הקוד פייתון היא אחת משפות התכנות הכי פופולריות בעולם התכנות. לפי סקר של אתר Stack Overflow, שפת פייתון היא שפת התכנות...

#python #פייתון #שפתתכנות #תכנות

בואו נמשיך

מפתח תוכנה מהו ומי מתאים לתפקיד?

תוכן ענייניםמה זה Web Scrapingהמחלוקת סביב גרידת אינטרנט פיתוח תוכנה זהו אחד התחומים המרכזיים בעולם ההייטק, והוא מתייחס לכל מה שכרוך בתהליך בו תוכנה חדשה מגיעה לעולם, לרבות התחזוקה שלה...

#DevOps

בואו נמשיך

IaaS מה זה?

תוכן ענייניםמה זה Web Scrapingהמחלוקת סביב גרידת אינטרנט כיום חברות טכנולוגיה, בוחרות (ברוב המקרים) שלא להסתמך על הקמת נוכחות מסיבית של שרתים ומחשבי על חזקים בשטחן, ומעדיפות להסתמך על מה...

#DevOps

בואו נמשיך

Web Scraping מה זה?

תוכן ענייניםמה זה Web Scrapingהמחלוקת סביב גרידת אינטרנט המונח Web Scraping, מה שנקרא בעברית "גירוד דפי רשת" או "גרידת אינטרנט", הפך בשנים האחרונות למושא לוויכוחים רבים בתחום האתיקה של השימוש...

#python #פייתון #שפתתכנות #תכנות

בואו נמשיך

bootstrap מה זה?

תוכן ענייניםמה זה Web Scrapingהמחלוקת סביב גרידת אינטרנט Bootstrap היא תוכנה לפיתוח של אתרים ויישומים רספונסיביים, המספקת מגוון רחב של כלים וסגנונות עיצוב גרפיים מובנים שניתן להשתמש בהם לפיתוח אתרים...

#fullstack #פיתוח

בואו נמשיך

Nginx מה זה

תוכן ענייניםמה זה Web Scrapingהמחלוקת סביב גרידת אינטרנט אם אתם שוקלים להפוך לאנשי DevOps בחברות הייטק, תצטרכו להכיר לא מעט מונחים ולהיחשף שהם לא רק טכנולוגיים, אלא גם מעוגנים בתרבות...

#DevOps

בואו נמשיך

Node.js מה זה

תוכן ענייניםמה זה Web Scrapingהמחלוקת סביב גרידת אינטרנט מתכנתי פולסטאק רבים מתכנתים סקריפטים בשפת ג'אווה סקריפט (JavaScript), והם עושים זאת מחוץ לדפדפן באמצעות Node.js, סביבת הרצה ל-JS המאפשרת תכנות אסינכרוני,...

#fullstack #פיתוח

בואו נמשיך

Web Scraping מה זה?

מה זה Web Scraping

המחלוקת סביב גרידת אינטרנט

לקביעת שיחת ייעוץ חינם

מעניין! אשמח לקרוא עוד בתחום

מה זה css

פיתוח תוכנה – כל שצריך לדעת לפני קורס שפת פיתוח

מה זה שרת פיתוח ולמה צריך אותו?

מה זה css

פיתוח תוכנה – כל שצריך לדעת לפני קורס שפת פיתוח

מה זה שרת פיתוח ולמה צריך אותו?

קוד פייתון

מפתח תוכנה מהו ומי מתאים לתפקיד?

IaaS מה זה?

Web Scraping מה זה?

bootstrap מה זה?

Nginx מה זה

Node.js מה זה

שיחה עם נציג