נביא שקר

הנבואה ניתנה לשוטים

חודש: דצמבר, 2015

האם ארביטראז׳ גזעני הוא מוסרי?

איזה אחד מקלפי הבייסבול הבאים שווה יותר כסף?

בייסבול

זה שמוחזק על-ידי היד הלבנה.

 

זהו לפחות הממצא של חוקרים באוניברסיטאות ייל והארוורד, שקנו כמה מאות קלפים בשווי דומה ב-ebay ואז ניסו למכור אותם ב-ebay. פעם אחת החוקרים השתמשו בתמונה עם יד בגוון עור בהיר, ופעם אחת בגוון עור כהה.

הקלפים שהוצגו בתמונות עם יד בעלת גוון עור כהה נמכרו בערכים נמוכים ב-20% בממוצע מאלה שהוצגו בתמונות עם יד בעלת גוון עור בהיר.

הממצא דומה למה שמצאו חוקרים אחרים שניסו למכור אייפודים תוך שימוש ביד כהה, בהירה או מקועקעת (ומגיע להם נקודות על השימוש בכותרת The Visible Hand). יש גם מחקרים אחרים דומים בתחום.

במקום להכנס למתודולוגיה של המחקרים, בואו נניח לצורך הדיון שזה נכון, ויש פער בין מה שאדם ירוויח על מוצר x אם אותו אדם מראה שהוא בעל גוון עור כהה, מקועקע וכו׳ לעומת בעל גוון עור בהיר.

השאלה הראשונה היא: האם יש כאן הזדמנות לארביטראז׳?

ארביטראז׳ מופיע כאשר יש הפרש מחירים בין שווקים שונים. נגיד שבעיר חלם מוכרים דובוני גומי ב-5 שקלים ליחידה, ובעיר תלם מוכרים דובוני גומי ב-10 שקלים. אני יכול לקנות שק של דובוני גומי בחלם, ולמכור אותם בתלם, ולהרוויח 5 שקלים על כל יחידה.

האם יש כאן הזדמנות למשהו דומה? אפשר לבנות אלגוריתם שיחפש ויקנה מוצרים שנמכרים על-ידי אנשים בעלי גוון-עור כהה, ואז ימכור את אותם מוצרים עצמם במחיר גבוה יותר, עם תמונה של אדם (או יד) בעל גוון-עור בהיר.

השאלה השנייה היא: האם זה מוסרי? 

מצד אחד, נראה שאנחנו מרוויחים כסף מפער גזעני.

מצד שני, הפעולה שלנו תורמת להפחתת הפער הגזעני.

במקרה של חלם ותלם, אם אני אחזור על תהליך הקנייה והמכירה מספיק פעמים, אז אביא לכך שיהיה שיוויון בין המחירים בשווקים השונים לאורך זמן (אנשים בחלם ישימו לב שיש אדם שכל הזמן קונה דובונים ויעלו את המחיר, בזמן שאנשים בתלם ישימו לב שיש אדם עם אספקה גדולה של דובונים, ויורידו את המחיר).

בהנחה שחזרה על פעולה שנובעת מארביטראז׳ גורמת לסגירת הארביטראז׳, אז האלגוריתם שלנו יגרום לסגירת הפער הגזעני במחירי מוצרים.

שוב, יש כאן הרבה מאוד פישוטים והנחות, אבל השאלה הבסיסית ברורה.

מה התשובה?

מודעות פרסומת

קרוב לים, האמנם? (ניתוח דירות Airbnb בתל-אביב)

Airbnb הוא אתר להשכרת דירות לטווח קצר. הנה למשל מפה המציגה כמה דירות בתל-אביב והמחיר ללילה:

אני מגיע

הורדתי את כל המידע שיכולתי למצוא באתר על דירות בתל-אביב (כמה מאות דירות), כולל מחיר ותיאור קצר. הנה ענן מילים המאגד יחד את כל המילים שאנשים השתמשו בהם כדי לתאר את הדירות:

באתי להזיע

אז…קרוב לים?

אפשר לנסות להשתמש בתיאורים כדי לחלץ מילים שמנבאות דירות יקרות יותר וזולות יותר, בדומה למה שנעשה כאן עם מוצרים מיותרים. אפשר לנסות לנבא את המחיר או כמות האהדה שדירה מקבלת לפי התמונה שאנשים מעלים, המיקום, או כל דבר אחר שמופיע במידע.

במקום, אנחנו נשאל ״מתי לגיטימי להגיד שהדירה קרובה לים?״

=====

יש לנו את המיקום של כל דירה בקווי אורך ורוחב. אנחנו יכולים להגדיר את החוף כקו ישר יחסית, ולמדוד את המרחק בין כל דירה לנקודה הקרובה ביותר על הקו הזה:

Screen Shot 2015-12-16 at 10.26.09 AM

חישוב מדויק יותר צריך לקחת בחשבון שכדור הארץ הוא לא שטוח, אבל אחרי כמה דקות של חישובי מעגלים גדולים והמרחק לנקודות על ספירה…

הו

…החלטתי שזה לא באמת משנה.

אז יש לנו את המרחק בין כל דירה לים. האם יש קשר בין המרחק לבין השימוש במילה ״חוף״ בתיאור? נראה שכן:

boxplot

המרחק החציוני מהים של דירות שמשתמשות במילה ׳חוף׳ בתיאור הוא בערך 750 מטר. המרחק החציוני מהים של דירות שלא משתמשות במונח ׳חוף׳ הוא בערך 1000 מטר. מדובר בהבדל סטטיסטי מובהק, למי שאכפת ממובהקות.

דרך אחרת לנתח את המידע זה לשאול ״מה ההסתברות שבעל דירה ישתמש במונח ׳חוף׳ כפונקציה של מרחק מהחוף?״

הנה:

logistic

זה רגרסיה לוגיסטית על המידע, עם קווי סמך. הסיכוי שאדם ישתמש במונח ׳חוף׳ עולה ככל שמתקרבים לחוף, עד כדי 80% כאשר נמצאים כמעט על חוף.

אבל במקום להסתכל על מה שבעלי דירה עושים, אפשר לשאול מה אתה כשוכר צריך לעשות. הבה נגדיר ׳דירות קרובות לחוף׳ ככאלה שנמצאות מתחת למרחק החציוני של דירות מהחוף, ו׳דירות רחוקות מהחוף׳ ככאלה שנמצאות מעל המרחק החציוני. אם בעל דירה השתמש במונח ׳חוף׳, הסיכוי שלך להיות ב׳דירות קרובות לחוף׳ הוא בערך 60% (חישוב בייסיאני טיפוסי).

===

מתי לגיטימי בעצם להשתמש במונח ׳חוף׳ בתיאור דירה? מנקודת המבט של שוכר, הדרך הנכונה לענות על שאלה שכזו זה פשוט לשאול ״מה המרחק מהחוף שהיית מקבל כ׳קרוב לחוף׳?״. אפשר להפנות שאלה שכזו ל-amazon mechanical turk, אבל מכיוון שלא מתחשק לי לבזבז את כספי הסנדוויץ׳ שלי, ננסה לענות על שאלה אחרת – מהו מרחק לגיטימי מהחוף בעיני בעלי הדירה? אם נגדיר באופן שרירותי משהו הסכמה בין בעלי דירה כ״מעל 50% סיכוי שבעל דירה ישתמש במונח״, אז המרחק ממנו זה לגיטימי להתחיל להשתמש ב׳חוף׳ הוא משהו כמו 1.25 ק׳מ. בדיקה אקראית במפות של גוגל מראה שנקודה אקראית במרחק 1.25 ק׳מ מהחוף היא בערך במרחק 15-20 דקות צעידה מחוף. הניחוש שלי הוא שרוב האנשים יגידו ש׳קרוב לחוף׳ זה יותר כמו 5-10 דקות הליכה, אבל זה רק ניחוש.

===

כמובן שבכל הניתוח הזה לא לקחתי בחשבון שהשימוש במונח ׳חוף׳ בא בהקשר מסויים. אולי אנשים כתבו ״לא קרוב לחוף״, או ״עשרים דקות מהחוף״. לקחתי את כל התיאורים שהכילו משפטים כמו ״x דקות מהחוף!״ ושרטטתי את x כנגד המרחק האמיתי מהחוף, בהנחה שאדם ממוצע צועד בקצב של 5 קמ״ש, והולך בקו ישר מהדירה לחוף:

קיץ על החוף

קודם כל זה נחמד שיש התאמה לינארית. הגרף הזה מראה שאם בעל דירה אומר שאתה נמצא במרחק x דקות מהחוף, כדאי שתוסיף 3 דקות לפחות. וזה, כאמור, בהנחה שמדובר בקו אווירי ישר. רוב הסיכויים שצריך להוסיף לפחות 5 דקות ל-x. זה גם קצת מעניין לראות את הפיזור סביב ׳5 דקות׳ מבחינת בעלי דירות, לעומת המציאות.

מה עוד אפשר לעשות עם תיאורי דירות? למשל, אפשר להסתכל על ביטויים כמו ״מרכז העיר״ או ״לב תל-אביב״ ולנסות להראות גרפית באמצעות מסווגים שונים איפה זה מרכז העיר המנטלי.

אבל זה נושא לפוסט אחר.

הצעות לכתבי-עת מדעיים חדשים

רוב כתבי-העת המדעיים מפעילים סינון ראשוני של כתבי-היד שנשלחים אליהם, ולאחר מכן יש סבבים של ביקורת ומענה לביקורת, ובלה בלה בלה וכאב ראש.

הנה הצעות לכתבי-עת שהתמריץ שלהם עובד באופן קצת אחר:

Once

ONCE

נניח לרגע ש-ONCE (בעברית ״פעמון״) הוא כתב-עת מדעי רציני. ״פעמון״ פונה לקהל רחב, ומפרסם מחקרים חדשים בפיזיקה, כימיה, ביולוגיה, אסטרופיזיקה, רפואה, מדעי המחשב, מדעי החברה וכו׳. כתב-העת מפעיל ביקורת בסיסית שמונעת מקשקוש מוחלט להתפרסם, אבל מעבר לבדיקת שפיות ובדיקה טכנית כללית, כמעט כל מה שנשלח מתפרסם (נניח שאחוזי הקבלה הם משהו כמו 80%).

העניין הוא, שאפשר לפרסם בפעמון רק פעם אחת.

הכלל הזה כולל שיתופי פעולה ואנשים שהם לא המחבר הראשי של המאמר.

עכשיו, בתור חוקר או חוקרת, מה כדאי לך לעשות? הדבר תלוי בהסתברות שאתם מאמינים שתגלו דברים חשובים או מעניינים לאורך הקריירה שלכם, ובאיזה קצב זה יקרה. חלק קטן אולי ירצה לחכות לסוף הקריירה, חלק אולי ירצו לפרסם משהו ׳גדול׳ בתחילת הקריירה כדי להגיע לקהל רחב. חלק ירצו להעריך את כמות הפרסומים המדעיים האפשריים שלהם כ-N, לחכות עד שהם יפרסמו N/e מאמרים, ואז לשלוח לפעמון את המחקר הבא שלהם שמנצח את המאמר הטוב ביותר מבין N/e שכבר פורסמו (למה? כי ככה).

[ידידי ג׳ הציע גרסא אחרת – אחוזי קבלה גבוהים יותר בירחונים, אבל לכל חוקר מותר לפרסם עד 10 מאמרים בחייו]

Better

better

"שיפור״, בשמו העברי, מקדיש גליונות לתתי-תחומים (גליון הפיזיקה למשל כולל אסטרופיזיקה, חומר מוצק, חישוב קוונטי וכו׳). גם כתב-העת הזה פונה לקהל רחב, ומפרסם מחקרים בתחומים שונים.

העניין הוא, ש״שיפור״ יפרסם מאמר רק אם הוא טוב יותר מהמאמרים שהתפרסמו בו עד כה (בתוך תת-תחום המחקר). אנשים בטח ישאלו מי קובע מה טוב יותר, אבל נניח שיש לנו צוות מבקרים טוב למדי. בהתחלה ״שיפור״ יפרסם זבל מוחלט, אבל לאט לאט אפשר לקוות שהוא יבצע אלגוריתם טיפוס-גבעה במרחב המאמרים האפשרי.

[אפשר לחשוב על תהליך דומה בעת שכירת אנשי סגל חדשים. הידיד ש׳ אמר שאצלם במחלקה עלה פעם הרעיון שישכרו חוקר חדש אם הוא טוב יותר מהחציון במחלקה. מצד אחד, זה קריטריון סביר למדי – לא מבקשים שתהיה טוב יותר מכוכבי המחלקה, בסך הכל אתה צריך להיות יותר טוב מחצי מהם, וחלק בטח די בינוניים. מצד שני, בהנחה שזה עובד, אמור להיות שיפור במחלקה עם כל רכש]

Proposal

proposal

"הצעה״ יכול לעבוד גם בתור אתר. כתב-העת (או האתר) יאגד הצעות למחקר מטעם חוקרים בתחומים שונים. אלה הרעיונות שחוקרים מציעים בערך פעם בשבוע (או יום) יחד עם המשפט ״זה יכול להיות אחלה מאמר״. כלומר, אין שום סיכוי שיהיה להם זמן לעשות את זה, אבל מישהו אי שם יכול להוציא מזה משהו.

במקום שרעיונות כאלה ימותו מסביב לשולחן המעבדה, אפשר לפרסם אותם ב״הצעה״. מאמרים בכתב-העת הם לכל היותר עמוד, עדיף פחות, וכוללים את הרעיון, למה מדובר ברעיון טוב, ומה צריך כדי לממש אותו (בערך).

הדבר היחיד שיוצא לחוקר או חוקרת מפרסום ב״הצעה״ זה הסכם ג׳נטלמני שאם מישהו אחר רואה את הרעיון בכתב-העת ומבסס עליו את המחקר שלו, הוא צריך לכתוב ב-acknowledgments שהרעיון הגיע מאדם כזה וכזה. כמובן שאף-אחד לא יכול לאכוף את ההסכם הזה, אבל אני מרשה לעצמי לא לדאוג לפרטים האלה כי אני גם לא הולך לפרסם את כתב-העת הזה. אם מישהו כן יעשה את זה, אנא זכרו מאיפה הרעיון הגיע.

====

חוץ מזה, אני חושב להתחיל פרס מחקר בשם ״פרסים רבים״ וכתב-עת בשם ״כתבי-עת מהנחשבים בעולם״.