קרוב לים, האמנם? (ניתוח דירות Airbnb בתל-אביב)

מאת נביא שקר

Airbnb הוא אתר להשכרת דירות לטווח קצר. הנה למשל מפה המציגה כמה דירות בתל-אביב והמחיר ללילה:

אני מגיע

הורדתי את כל המידע שיכולתי למצוא באתר על דירות בתל-אביב (כמה מאות דירות), כולל מחיר ותיאור קצר. הנה ענן מילים המאגד יחד את כל המילים שאנשים השתמשו בהם כדי לתאר את הדירות:

באתי להזיע

אז…קרוב לים?

אפשר לנסות להשתמש בתיאורים כדי לחלץ מילים שמנבאות דירות יקרות יותר וזולות יותר, בדומה למה שנעשה כאן עם מוצרים מיותרים. אפשר לנסות לנבא את המחיר או כמות האהדה שדירה מקבלת לפי התמונה שאנשים מעלים, המיקום, או כל דבר אחר שמופיע במידע.

במקום, אנחנו נשאל ״מתי לגיטימי להגיד שהדירה קרובה לים?״

=====

יש לנו את המיקום של כל דירה בקווי אורך ורוחב. אנחנו יכולים להגדיר את החוף כקו ישר יחסית, ולמדוד את המרחק בין כל דירה לנקודה הקרובה ביותר על הקו הזה:

Screen Shot 2015-12-16 at 10.26.09 AM

חישוב מדויק יותר צריך לקחת בחשבון שכדור הארץ הוא לא שטוח, אבל אחרי כמה דקות של חישובי מעגלים גדולים והמרחק לנקודות על ספירה…

הו

…החלטתי שזה לא באמת משנה.

אז יש לנו את המרחק בין כל דירה לים. האם יש קשר בין המרחק לבין השימוש במילה ״חוף״ בתיאור? נראה שכן:

boxplot

המרחק החציוני מהים של דירות שמשתמשות במילה ׳חוף׳ בתיאור הוא בערך 750 מטר. המרחק החציוני מהים של דירות שלא משתמשות במונח ׳חוף׳ הוא בערך 1000 מטר. מדובר בהבדל סטטיסטי מובהק, למי שאכפת ממובהקות.

דרך אחרת לנתח את המידע זה לשאול ״מה ההסתברות שבעל דירה ישתמש במונח ׳חוף׳ כפונקציה של מרחק מהחוף?״

הנה:

logistic

זה רגרסיה לוגיסטית על המידע, עם קווי סמך. הסיכוי שאדם ישתמש במונח ׳חוף׳ עולה ככל שמתקרבים לחוף, עד כדי 80% כאשר נמצאים כמעט על חוף.

אבל במקום להסתכל על מה שבעלי דירה עושים, אפשר לשאול מה אתה כשוכר צריך לעשות. הבה נגדיר ׳דירות קרובות לחוף׳ ככאלה שנמצאות מתחת למרחק החציוני של דירות מהחוף, ו׳דירות רחוקות מהחוף׳ ככאלה שנמצאות מעל המרחק החציוני. אם בעל דירה השתמש במונח ׳חוף׳, הסיכוי שלך להיות ב׳דירות קרובות לחוף׳ הוא בערך 60% (חישוב בייסיאני טיפוסי).

===

מתי לגיטימי בעצם להשתמש במונח ׳חוף׳ בתיאור דירה? מנקודת המבט של שוכר, הדרך הנכונה לענות על שאלה שכזו זה פשוט לשאול ״מה המרחק מהחוף שהיית מקבל כ׳קרוב לחוף׳?״. אפשר להפנות שאלה שכזו ל-amazon mechanical turk, אבל מכיוון שלא מתחשק לי לבזבז את כספי הסנדוויץ׳ שלי, ננסה לענות על שאלה אחרת – מהו מרחק לגיטימי מהחוף בעיני בעלי הדירה? אם נגדיר באופן שרירותי משהו הסכמה בין בעלי דירה כ״מעל 50% סיכוי שבעל דירה ישתמש במונח״, אז המרחק ממנו זה לגיטימי להתחיל להשתמש ב׳חוף׳ הוא משהו כמו 1.25 ק׳מ. בדיקה אקראית במפות של גוגל מראה שנקודה אקראית במרחק 1.25 ק׳מ מהחוף היא בערך במרחק 15-20 דקות צעידה מחוף. הניחוש שלי הוא שרוב האנשים יגידו ש׳קרוב לחוף׳ זה יותר כמו 5-10 דקות הליכה, אבל זה רק ניחוש.

===

כמובן שבכל הניתוח הזה לא לקחתי בחשבון שהשימוש במונח ׳חוף׳ בא בהקשר מסויים. אולי אנשים כתבו ״לא קרוב לחוף״, או ״עשרים דקות מהחוף״. לקחתי את כל התיאורים שהכילו משפטים כמו ״x דקות מהחוף!״ ושרטטתי את x כנגד המרחק האמיתי מהחוף, בהנחה שאדם ממוצע צועד בקצב של 5 קמ״ש, והולך בקו ישר מהדירה לחוף:

קיץ על החוף

קודם כל זה נחמד שיש התאמה לינארית. הגרף הזה מראה שאם בעל דירה אומר שאתה נמצא במרחק x דקות מהחוף, כדאי שתוסיף 3 דקות לפחות. וזה, כאמור, בהנחה שמדובר בקו אווירי ישר. רוב הסיכויים שצריך להוסיף לפחות 5 דקות ל-x. זה גם קצת מעניין לראות את הפיזור סביב ׳5 דקות׳ מבחינת בעלי דירות, לעומת המציאות.

מה עוד אפשר לעשות עם תיאורי דירות? למשל, אפשר להסתכל על ביטויים כמו ״מרכז העיר״ או ״לב תל-אביב״ ולנסות להראות גרפית באמצעות מסווגים שונים איפה זה מרכז העיר המנטלי.

אבל זה נושא לפוסט אחר.

מודעות פרסומת