נביא שקר

הנבואה ניתנה לשוטים

כיסה טפח וגילה טפחיים: מיפוי אתרים רגישים לפי איזורים שגוגל מסרבת להראות

בואו נעמיד פנים שאני איש מודיעין איראני.

ובואו נגיד שכל מסמכי המודיעין האיראני נשרפו באופן מסתורי. אין לי שום דבר סודי להסתמך עליו, לא האזנות, ולא סוכנים.

הדבר היחיד שיש לי הוא גוגל מפות.

כמה בסיסים ואתרים סודיים בישראל אוכל לאתר?

בעקבות הסכם בין ישראל לארצות-הברית, גוגל לא יכולה לספק תמונות לווין של ישראל ברזולוציה גבוהה. בנוסף, נראה שגוגל הסכימה לצנזר את ״מבט הרחוב״ שלה, כך שאיזורים ורגישים לא יהיו נגישים. המטרה של הפוסט הזה היא להראות איך הדבר יוצר מעין ״אפקט סטרייסנד״ המאפשר לזהות בסיסים ואתרים רגישים דווקא בגלל שמנסים להסתיר אותם.

ולפני שאמשיך, כדאי רק להבהיר, אני לא באמת איש מודיעין איראני, כן?

715

מקרה א׳, הקריה:

המקרה הראשון בכוונה מראה משהו שכולנו מכירים: הקריה בתל-אביב. בתמונה למטה אפשר לראות את ״גוגל מפות״ במבט על. הקווים הכחולים הם איזורים שאפשר לחקור באמצעות ״מבט רחוב״. הבור הלבן, החור ברשת הקורים הוא הבסיס.

Screen Shot 2017-02-16 at 10.57.44 PM.png

כאמור, כולם מכירים את הקריה, אבל שווה להתעכב על המקרה הזה בתור exemplar כדי להסביר מה אנחנו מחפשים.

אנחנו מחפשים חורים בקורי העכביש, איזורים לבנים שבברור אמורים להיות מכוסים בכחול על-ידי אנשי גוגל: הם מופיעים באיזור כחול צפוף (בניגוד לכל מיני ישובים בפריפריה שפשוט לא הגיעו אליהם). הרחובות לידם בברור נגישים לציבור (בניגוד לאוניברסיטאות ובתי-חולים שגם יופיעו בתור חורים ברשת). והם מספיק גדולים כדי שזה לא יהיה רחוב קטן שפספסו בטעות.

מקרה ב׳, מבצעים מיוחדים בגבעתיים:

ליד צומת הרחובות משה דיין ויצחק שדה יש חור נוסף. נראה שהנהג של גוגל ודאי עבר ברחוב משה דיין ובשלום וברחובות הסמוכים, ובכל זאת אין גישה אליהם במבט רחוב:

screen-shot-2017-02-16-at-11-08-57-pm

Screen Shot 2017-02-16 at 11.19.11 PM.png

תמונת הלווין מראה שזה לא בדיוק מגרש נטוש. ותמונות עם זום מהרחובות הכי קרובים שבכל זאת אפשר לגשת אליהם מראות בניינים די מרשימים, וגם את הגדר המכוערת המאפיינת בסיסים בישראל:

Screen Shot 2017-02-16 at 11.15.54 PM.png

Screen Shot 2017-02-16 at 11.16.49 PM.png

בתור איש המודיעין האיראני זה לא וודאות של 100% שמשהו מסתורי קורה כאן, אבל זה מספיק כדי לבדוק את העניין יותר מקרוב. בין המסמכים שנשרפו באופן מסתורי יתכן והיה כתוב שמדובר במערך המבצעים המיוחדים של צה׳ל, יחידה שנחשפה לאחרונה, אם כי המיקום שלה לא מופיע בעמוד הויקיפדיה שלה. אם במקרה אחד משני קוראי הבלוג הוא איש בטחון שדה, זה הזמן לציין שמיקום מ׳מ כבר דלף כאן. דרך אחרת להצליב את האינפורמציה היא כך: יש רק שני ׳חורים׳ בגבעתיים. זה אחד מהם, והשני הוא מחנה מקלף (הסעיף הבא). לפי קורות החיים של הבחור הזה, הוא שירת ב׳מבצעים מיוחדים׳ והמיקום רשום כ׳גבעתיים׳. בתהליך אלימינציה אפשר להסיק שמ׳מ הוא החור הנוכחי, אם כן.

 מקרה ג׳: מחנה מקלף ברמת גן

Screen Shot 2017-02-16 at 11.31.35 PM.png

שוב, תמונת לווין שלא מדובר במקום נטוש:

Screen Shot 2017-02-20 at 10.24.40 PM.png

ותמונות רחוב מהרחובות הכי קרובים שאפשר להגיע אליהם בגוגל מראים חיילים וגדרות:

Screen Shot 2017-02-20 at 10.28.46 PM.png

זהו כמובן מחנה מקלף, בסיס חיל השלישות ועוד כמה עניינים, כמו ממר׳ם.

מקרה ד׳: מחנה אביב

Screen Shot 2017-02-21 at 9.08.03 AM.png

אני מבין למה גוגל לא יכולים להסתובב בתוך האוניברסיטה, אבל למה למחוק קטעים מרחובות חיים לבנון, ודרך רוקח?

אולי זה בגלל ״מחנה אביב״ הממוקם שם וכולל את אגף התכנון. לא שקשה למצוא את המידע הזה, אבל הדרך הכי חביבה שמצאתי היא לחפש באינסטגרם ״מחנה צבאי אביב״ ולראות שיש מלא תמונות מתוייגות למיקום הספציפי הזה, כמו אלה:

Screen Shot 2017-02-21 at 10.17.51 AM.png

אבל יותר סביר שהצנזורה היא בגלל מטה השב׳כ.

מקרה ה׳, כל מיני

אני רוצה לעזוב את תל-אביב ולעבור לירושלים (אמר אף אחד) אז רק אציין בקצרה שאפשר למצוא באופן דומה את בסיס שדה דב, את בסיס המודיעין גלילות, את המוסד, וכו׳.

חלק שני, ירושלים

מקרה ו׳ – בסיס צבאי בהר אורה

Screen Shot 2017-02-21 at 11.21.41 AM.png

אורה ועמינדב אינם נגישים ל״מבט רחוב״ וזה בבירור לא כי האיש האחראי התעצל. שימו לב לשברירי הכחול בצד המזרחי של אורה. אבל איך נבין מה בדיוק נמחק? הרי לא כל הישוב הוא בסיס צבאי.

ובכן, שימו לב ש״אפור״ פירושו בניינים בגוגל מפות, אבל איזורים רגישים וסודיים נמחקים אפילו ברמה הזאת. האם אפשר למצוא איזור שמכיל בניינים (לפי תמונות לווין) אבל איננו מופיע כאפור לפי גוגל מפות?

כן.

שימו לב ל׳מעגל׳ בצד שמאל העליון במפה למטה, והשוו לתמונת הלווין:

Screen Shot 2017-02-21 at 11.24.59 AM.png

screen-shot-2017-02-21-at-11-25-31-am

מקרה ז׳ – רחוב בלפור

Screen Shot 2017-02-21 at 11.29.40 AM.png

מסיבות ברורות.

מקרה ח׳ – מגרש הרוסים

Screen Shot 2017-02-21 at 11.32.14 AM.png

כנראה בכלל מתקן המעצר שם.

חלק שלישי, מערבה לירושלים

Screen Shot 2017-02-21 at 12.05.30 PM.png

שימו לב כמה חסר ממערב לירושלים. יש שם אמנם כל מיני ישובים די נידחים, אבל יש שם גם איזורים שבברור אמורים להיות ממופים, למשל בית-שמש, או קטעים שלמים מכביש 6 וכביש 1.

מכיוון שהחור הוא כל-כך גדול, נפעיל שוב את שיטת ה״בניינים שמופיעים במפת לווין אבל חסרים במפה הרגילה״.

ספציפית, הבה נתבונן באיזור מזרחית ליד בנימין וצפונית לתירוש:

screen-shot-2017-02-21-at-12-20-03-pm

נראה כמו כלום. אבל:

Screen Shot 2017-02-21 at 12.21.31 PM.png

YUjACfF.gif

Screen Shot 2017-02-21 at 12.25.46 PM.png

Screen Shot 2017-02-21 at 12.26.28 PM.png

Screen Shot 2017-02-21 at 12.27.23 PM.png

אני לא אומר שזה איזור לאחסון ושיגור טילי יריחו הנושאים נשק גרעיני, אני אומר שאם זה היה איזור לאחסון ושיגור טילי יריחו הנושאים נשק גרעיני, זה היה נראה ככה. ושוב, הדבר איננו חידוש באינטרנט.

סיכום

לארגוני ביון יש ודאי את כל המידע שכרגע הצגתי, והוא כולו זמין באופן חופשי באינטרנט. הפוסט הזה לא נועד לחשוף סודות, אלא להראות איך ניסיון הסתרה יכול לשמש דווקא כדי לכוון אנשים לכיוון הדברים שרוצים להסתיר.

אפשר להפעיל את הגישה שראינו כאן כדי למצוא עוד כל מיני מקומות בארץ (דרום עיילבון, אני מסתכל עליך), אבל נראה לי שנעצר כאן.

בעיית החנות

אמאזון פרסמו לאחרונה סרטון שמציג ׳מכולת חכמה׳, בה סורקים את הטלפון, נכנסים, לוקחים מוצרים, ויוצאים. אין תור, ואין קופות. החנות ׳יודעת׳ מה לקחתם ובכמה לחייב אתכם.

amazongo.png

הסרטון מכיל את המשפט הנפלא ״איך זה עובד? השתמשנו באלגוריתמים של למידה עמוקה לראייה ממוחשבת בשילוב עם סנסורים כמו שאפשר למצוא במכוניות ללא-נהג״.

UnitedImpureAlaskajingle.gif

שזה אינפורמטיבי בערך כמו ״איך זה עובד? השתמשנו בקסם שחור מהרי הקצ׳קר בשילוב עם אבקת פיות.״

אבל במקום להתמקד בטכנולוגיה, אני רוצה להתמקד בשאלות של מוסר.

אני מניח שכל העולם ובטח שני קוראי הבלוג הזה שמעו כבר על בעיות הקרונית, בסגנון ״האם תטה קרונית דוהרת לכיוון אדם אחד על-מנת להציל חמישה אנשים״ או ״האם תדחוף אדם שמן מגשר על-מנת לעצור קרונית שדוהרת לכיוון חמישה אנשים״ או ״האם תציל אדם בעל סיכוי של 5% להיות ההיטלר הבא יחד עם שתי סבתות לעומת תינוק חולה סרטן שאולי ירפא סרטן אם הוא ישרוד״.   

בעיות הקרונית החלו בתור תת-שאלה בפילוסופיה של המוסר ותועלתנות, אבל הפכו מאז לעיסוק כלל-עולמי, ואנו לעיתים שכל פקולטה מודרנית צריכה מחלקה לקרוניתולוגיה (או טרולילוגיה). מאמרים רציניים מתפרסמים בעיתונים רציניים כמו סיינס סביב השאלה ״האם תרצה שהמכונית החכמה שלך תעדיף את החיים שלך או של אחרים, ואיזה משקל צריך לשים על זה? האם אתה שווה 3 אנשים? האם אתה שווה תינוק אחד ו-5 זקנים? מה אם המכונית זיהתה שהיא לא מסוגלת לעצור וחייבת להרוג או אותך או הולך רגל, אבל הולך הרגל עובר באור אדום?״

כאמור, אלה נתפסות בתור שאלות הנדסיות כרגע, לא רק פילוסופיות.

אז אם כבר, למה לא לרכב על הגל ולנסות לפרסם מאמר סביב החנות החכמה הזו? הנה כמה שאלות קלאסיות בפילוסופיה של המוסר, בהתאמה לעידן הנוכחי:

א. נניח שהחנות החכמה של אמאזון זיהתה שאתה מנסה לקנות תרופה שאתה ממש זקוק לה. החנות יודעת שאין לך מספיק כסף בחשבון כדי לשלם על התרופה. האם היא צריכה להתריע בפני מישהו אם אתה מנסה לגנוב את התרופה? האם החנות צריכה לתת לך לצאת גם בלי לחייב אותך?

ב. נגיד שהחנות יודעת שהתרופה היא לא בשבילך, אלא בשביל ילדה קטנה וחולה. מה אם זה גבר זקן?

ג. נניח שהחנות מריצה מבצע בו אתה יכול לתרום לצדקה על-ידי איסוף כפתור פשוט שעולה 5 סנט וכתוב עליו ״אני תרמתי!״. אם תוציא אותו מהחנות, 2 דולר יתרמו בשמך לאנשים נזקקים במדינת עולם שלישית. אתה מחליט לא לאסוף את הכפתור. 2 הדולר האלה בוודאות יכולים לעזור לאנשים. נניח שהחנות יודעת שאתה לא ממש עוקב אחרי החשבון שלך, האם היא צריכה לחייב אותך ב-2 הדולר האלה ולתרום את הכסף? נניח שזה חיוב חד-פעמי. ומה אם נניח שזה חיוב שהחנות עושה כל פעם שאתה נכנס לחנות.

ד. האם התשובה ל-ג׳ תשתנה אם לחנות יש גישה לרשימת הקניות שלך, והיא רואה שהתכוונת לרכוש את הכפתור אבל כנראה שכחת, והיא גם משתמשת במזל׳ט חכם כדי להפיל את הכפתור לסל הקניות שלך.

ה. קבוצה של ניאו-נאצים השתלטו על חנות חכמה של אמאזון והכריזו שהם הולכים להרוג את כל האנשים בחנות מעל גיל שנתיים. מספר קונים בחרו להסתתר במקרר הגבינות מאחורי החלב, כולל ג׳יין, ובנה בן השנה. השוטרים בחוץ אבל לא מוכנים לפרוץ פנימה. בינתיים, הניאו-נאצים מתקדמים בחנות ומחפשים קונים, והתינוק של ג׳יין החל לילל. אם הניאו-נאצים ימצאו אותו, הם יחוסו על חיי התינוק אבל יהרגו את ג׳יין ושאר הקונים. החנות יכולה לקרר את מקרר הגבינות באופן קיצוני כך שהתינוק ימות אבל אנשים מבוגרים לא ינזקו. האם היא אמורה לעשות זאת?

״בכיר הטריד מינית״ – פיצוח גוגל

״בכיר בלשכת נתניהו נחשד בתקיפה מינית, דיווחו כלי התקשורת.

מכיוון שאסור להם לפרסם את שמו (נכון לשעה זו), אנשי התקשורת מסתפקים בתמונה מטושטשת, למשל באתר ברשת:

12112

מעניין מה קורה אם עושים ״חיפוש גוגל הפוך״ על התמונה.

היי, תראו מה מצאתי באתר ערוץ שבע:

62380

מעניין.

raw.gif

גְּלִימָה לְכָה, קָצִין תִּהְיֶה לָּנוּ

[דו-שיח שהיה בערך, לפי אי אילו שנים עם ידיד בצבא]

[[התמונות נעשו לבקשתי על-ידי משתמשת באתר fiverr]]

אני: הלוואי שהייתי יכול ללבוש גלימה.

יותם: אתה יכול ללבוש גלימה.

אני: מאיפה אני אקנה אחת?

יותם: תזמין, בטח יש אתרים.

אני: אולי. זאת לא הפואנטה. זה לא לגיטימי ללבוש גלימה בימינו.

יותם: בצדק, זה לא פרקטי בכלל.

אני: מה לא פרקטי? וחוץ מזה, הכל צריך להיות פרקטי? כובעים זה פרקטי?

יותם: כן.

אני: גלימה זה מחמם בחורף.

יותם: גם מעיל מחמם בחורף. וחוץ מזה, אם אתה רוצה שגלימה תחמם אותך אתה צריך להכניס את הידיים שלך פנימה. אי אפשר לעשות כלום ככה.

אני: אז תוסיף לגלימה שרוולים.

יותם: מזל טוב, המצאת את המעיל.

אני: יודע מה? גלימה לא אמורה להיות עם שרוולים. זה אמור להתנופף מאחוריך.

sol_1.jpg

יותם: זה דבילי.

אני: גם כומתה זה דבילי, למה יש לנו כובע שמחמם את הכתף?

יותם: ידוע שהכתף זה האיבר הכי חשוב. אבל אתה צודק, כומתה זה דבילי.

אני: נו, אז אולי הצבא יאמץ גלימות?

יותם: רעיון. בטירונות כולם יקבלו גלימת סקביאס מגעילה ונפוחה כמו שמיכת פוך.

אני: נכון. אנשים יבלו שבועות בניסיון להשטיח את הגלימה שלהם. שפצור גלימה.

יותם: ותיקים יתהדרו בגלימה ההדוקה-אל-הגוף. וכמובן, יהיו גלימות בצבעים שונים.

אני: גלימות כתומות, גלימות סגולות!

יותם: אולי מישהו סוף-סוף ירצה להצטרף למשטרה הצבאית.

sol_4

אני: אתה מתאר לעצמך עדר של צנחנים מסתערים עם גלימות אדומות?

יותם: הצבא יהפוך לענן פרפרים קטלני.

אני: תהיה כמובן גלימה א׳ וגלימה ב׳.

sol_3.jpg

יותם: ברור. גלימה א׳ למסדרים, מבריקה וחסרת קרעים.

אני: גלימה ב׳ לפעילות מבצעית אמיתית.

יותם: קצינים יקבלו גלימה קצת אחרת.

אני: אולי אפשר לשים סמל של החיל או החטיבה מאחורה.

יותם: גלימות אפורות עם עורבים שחורים לקציני חיל אוויר.

אני: אנשים ירוצו לחתום קבע. ואז לאט לאט זה יחדור לאזרחות, ואני אוכל ללבוש גלימה.

so_1.png

יותם: כן, בדיוק כמו כומתות.

מדד השמאלנות המנורמל

 בימים האחרונים אביגדור ״אני אפיל את סכר אסואן על איסמאעיל הנייה״ ליברמן מציע לבנות בגושי ההתנחלויות במקום במקומות מבודדים כמו עמונה, ומתויג כ׳שמאלן׳ על-ידי אנשים שחושבים שהם ימינה ממנו.

תהיתי עד כמה הכינוי הזה מודבק לאנשים שונים במערכת הפוליטית. בדקתי כמה תוצאות אפשר למצוא בגוגל אם מקלידים ״איקס הוא שמאלן״ או ״איקס הוא שמאלני״ או ״איקס שמאלני״ או ״איקס שמאלן״, אם מחליפים את ׳איקס׳ בשורה של אנשים מהמערכת הפוליטית.

הנה התוצאות:

leftist1

כאמור, ׳מדד השמאלנות׳ בציר הוואי הוא סכום מספר תוצאות החיפוש בגוגל עבור כל הביטויים האלה.

יש משהו קצת לא הוגן בגרף הזה, כיוון שהוא לא לוקח בחשבון את העובדה שיש אנשים שהם יותר פופולריים במנועי חיפוש בלי קשר לכינויי גנאי. לאור זאת יצרתי ׳מדד שמאלנות מנורמל׳, שהוא פשוט מדד השמאלנות מחולק בכמות התוצאות שגוגל מחזיר עבור השם של הדמות הפוליטית בלי קשר לכינוי הגנאי.

הנה התוצאות:

leftist2

אפשר להסיק מזה כל מיני דברים. התחושה שלי אישית היא שאם היה מדד יותר ׳אמיתי׳ למיקום בציר השמאל-ימין, אז ׳מדד השמאלנות המנורמל׳ היה יוצר פונקציה בצורת ח. כלומר, אנשים שהם באופן ברור שמאל לא מתוייגים ככאלה באופן מגנה, ואנשים שברור שהם ימין בצד הקיצוני גם לא מתוייגים ככאלה. אבל אנשים בימין-מרכז הם בדיוק המטרה לכינויים האלה.

דנה ספקטור, פרשנית

דנה ספקטור הצטרפה לאחרונה לפאנל של ערוץ 1, בתכנית ׳יומן׳ המסכמת את אירועי השבוע. לא לגמרי ברור לי על תקן מה ספקטור יושבת שם, אולי בתור מוח-הכוורת של טוויטר?

למשל, יום לפני הפאנל, ה-27 לאוקטובר:

Screen Shot 2016-11-13 at 9.41.59 PM.png

או יום שישי, פאנל ה-4 לנובמבר:

screen-shot-2016-11-13-at-9-41-08-pm או כמה ימים לאחר מכן:

Screen Shot 2016-11-13 at 9.42.35 PM.png

מצד שני, רוב הפרשנים הם פוסט-הוקרים במקצועם, אז אולי זה לא משנה בכלל.

End-to-end stock predictions with deep learning

Brief summary of the post for those wondering whether to bother: I trained a neural network that takes in images of stock data like this…

yum11

…and outputs whether that stock will go up or down over the next year. On the way, I make some remarks on end-to-end learning.

====

There's a current craze within the current craze of machine learning and AI, which focuses on end-to-end learning. Roughly speaking, this is the attempt to go from raw perceptual input to the desired output with as little knowledge engineering as possible.

To give an example, suppose you were trying to teach an AI to drive a car***. You could try to factor the problem: I need to detect lanes, other cars, people, and signs. I need to figure out people's plans, I need to parcel my actions into the following sub-goals, etc. Each of these sub-problems still needs to be solved on its own (and probably you could throw a neural network at these sub-problems), but at a high-level you're making a decision about how the problem breaks down:

endtoend1.png

Contrast this with a somewhat different school of thought:

endtoend2.png

That part in the middle of the figure above is a cartoon stand-in for a deep neural network. The network gets in the pixels of the image, outputs some driving action, and gets rewarded accordingly. The hope/promise is that the network will figure out on its own the necessary features and structures needed to solve the problem, without any 'hand-engineering' by a handy engineer.

(*** I am stealing borrowing this example from Amnon Shashua, the head of the self-driving car company Mobileye, who has a bunch of interesting things to say on the topic)

These two approaches are the ends of a spectrum, rather than two completely distinct factions. Still, there are many people these days who veer heavily towards the 'end-to-end' part. And it is quite alluring: we don't need to know anything about anything, just plug in the input and desired output, and let the machine take care of the rest.

This is partly what got people so excited about DeepMind's recent Nature paper, in which a neural network was able to achieve super-human performance on certain Atari games (like Pong and Space Invaders) through reinforcement learning over the pixels of the input. The 'super-human' part is a bit of a distraction. I mean, if you had a program that explicitly knew about things like "this is the space invader sprite" and "you are the defense-turret and when you shoot it does X", then of course you could achieve super-human performance. Such a result would barely register as a worthwhile paper in a conference, let alone a prestigious journal. The wow-factor had to do with the notion that you didn't have hand-craft explicit stuff like "you are the paddle", or even what a paddle was.

breakout.gif

DQN training to destroy humanity

I think it's an open question whether the network described in the DeepMind paper actually learned the representations that allow us humans to play these games successfully. In fact I'm pretty sure it didn't. And it matters, because while end-to-end is quite seductive and works surprisingly OK in certain regimes, I think it is a little insane.

But rather than spend the rest of this post arguing that (I've covered a bit of it elsewhere), let me instead morph into an end-to-end enthusiast, who also wants to play the stock market.

(clarification, everything from here on is still kinda true. Technically.)

======

Gee wiz guys, all this neural network stuff sounds awesome. But how can we make some actual money off of it? I mean besides getting a PhD in Deep Learning and being hired by a start-up.

I know, we'll bet on stocks!

psych

Let's see, we can formulate the 'problem' of stock betting as a system that takes in some data about stocks in the past, and tries to make the right prediction about stocks in the future. Now, I don't know that much about stocks, and I don't want to bias my system by giving it any human-specific notions like 'prices', or 'companies', or 'the concept of time'.

We'll just feed in raw input into the machine in a format it can understand: visual pixels.

I downloaded all the stock data for the Fortune 500 companies going 5 years back, and created 32×32 pixel images that show how a stock fared over 365-day intervals, including the stock name and the min and max of the price (not that the machine knows anything about those, it'll have to discover them on its own if they matter):

yum11

I used 50-day jumps and 365-day intervals, so I had about 10,000 training images. But how should I label them? What counts as a 'good' stock?

There's no one way to answer that. I ended up doing the following: If the stock went up over the 365 days that followed the image (a positive correlation of 0.5 or higher), I labeled it '+1'. If the stock went down (a negative correlation of -0.5 or lower) I labeled  it '-1'. Anything else was labeled '0'. The assumption is that we can turn these labels into useful actions like 'buy', 'sell/short', or 'do nothing'.

Since stocks generally go up (in the dataset, anyway), one can know nothing at all and still predict 70% of the labels just by guessing the maximum-likelihood "+1" all the time. So, 70% accuracy will be our baseline to beat.

To recap:

  • The input is an image of the stock performance over a given span of 365 days.
  • The desired output is -1, 0, or +1 depending on how well the stock did on the *next* 365 days.
  • The number to beat is 70% accuracy.

I took an off-the-shelf convolutional neural-network that can reasonably recognize different animals and threw the problem at it, using TensorFlow.

It didn't work.

I started to think that maybe the stock market present a unique challenge with its long-range beha-

NAH LET'S JUST ADD ANOTHER CONV-LAYER AND FUTZ WITH THE LEARNING PARAMETER LOL.

q8gb6

Here we go:

endtoend3.png

The network achieved 92.3% accuracy on the left-out examples (that is, stock images that it never saw before). For the math-y types out there, 92.3 > 70.

Hooray, let's make money.

Epilogue Q&A

Q1: "But Navisheker, what did the network actually learn?"

A1: I dunno, I guess it extracted the features it needed or something.

Q2: "Wouldn't it be saner to run machine-learning directly on the actual time-series data and company information?"

A2: Sure, if you want to hand-engineer your way to profit go ahead and try. My way doesn't require knowing anything about anything.

Q3: "Surely there's a simpler algorithm for getting a similar result. What if you just predicted that things that went up before tend to go up again?"

A3: That's not end-to-end, get out of here with your old-school ways! But since you asked, if you run logistic regression to try and predict the labels from the linear regression coefficient of the past 365 days, you can get up to 84%, which is not as good.

עיתונאי בכיר? כתב חידה ותרשים זרימה

לפני שבוע דניאל ברין פירסמה כתבה בה היא סיפרה על סיטואציה אליה היא נקלעה עם ׳עיתונאי ישראלי בכיר׳. העיתונאי שלח ידיים,  ביקש ממנה לעלות לחדר, הציע לה להיות המאהבת שלו, גרם לה להרגיש לא בטוחה, ובאופן כללי נשמע שזה היה סיפור שכולו…

yuck.gif

ברין לא ציינה באופן מפורש במי מדובר, אבל היא כן רמזה רמזים. בעזרתם, הרכבתי תרשים זרימה שיעזור לנו לצמצם את החשודים האפשריים. כל חץ בתרשים מוביל לרמז או לקבוצת החשודים המצומצמת. כך, בסדרת צעדי דדוקציה לוגית נוכל להגיע קרוב יותר לפתרון התעלומה:

חשודמאוד.png

הממממממ…

giphy.gif

״השתנתי במכנסיים״: 7 שיטות שמאלניות בהן משתמש אתר הארץ כדי לגרום לכם לעשות משהו שאתם לא רוצים לשמוע עליו, וזה סקסי להחריד

לאנשים נשבר מקליק-בייט. לאנשים אפילו נשבר לשמוע על קליק-בייט. יש כמות מוגבלת של בדיחות בסגנון ״11 דברים שלא ידעתם על קליק-בייט! מספר 6 ימיס לכם את המוח!״.

ולמרות המיאוס, אתרי חדשות עדיין משתמשים בקליק-בייט. בפוסט הזה נסתכל ספציפית על השימוש בקליק-בייט באתר ״הארץ״. לכל ידיעה באתר יש 2 כותרות: הטיזר שמפנה אל הכתבה בעמוד הבית, והכותרת ה״אמיתית״ שמלווה את הכתבה אם מקליקים על הטיזר.

דבר זה מאפשר לזהות בקלות את יד העורכ/ת של הטיזרים לעומת עורכ/ת הידיעות (בהנחה שמדובר באנשים שונים בכלל).

לדוגמא, לאחרונה התגלה כי פגיון של הנער-המלך תות-אנך-אמון עשוי ממטאוריט. הנה כותרת הכתבה:

חוקרים: הפגיון המסתורי של תות ענח אמון עשוי ממטאוריט

למרות השימוש המיותר משהו במילה ׳מסתורי׳ מדובר בכותרת עניינית, אפשר להבין ממנה על אודות מה הכתבה ולהחליט אם לקרוא אותה.

והנה הטיזר שקישר לכתבה בעמוד הבית:

נפתרה תעלומת הפגיון של תות אנח אמון: "מוצאו מחוץ לכדור הארץ"

aliensguy

וואו! מחוץ לכדור-הארץ, מה זה יכול להיות?! אני משתין במכנסיים מהתרגשות, וזה אפילו לא סוף השבוע!

תעלומה, ציטוט ישיר, הסתרת מידע. זה בהחלט מגרה את הסקרנות, אבל הרבה פחות אינפורמטיבי. קליק-בייט קלאסי.

אני יכול להבין את העורכ/ת. כשמדובר בעיתון פיזי, הלקוח קונה או לא קונה את כל החבילה. מהרגע שהוא קנה את העיתון זה כבר לא בעיה שלך אם הוא בוחר לקרוא כתבות ספציפיות. אבל בתור עורכ/ת האתר, צריך להפוך כל כתבה למשהו מושך.

אבל עם ההבנה והסימפטיה, קליק-בייט זה חרא. תהיתי עד כמה העניין נפוץ ב״הארץ״, אז הורדתי את כל גרסאות אתר הבית שיכולתי למצוא בין השנים 2015-2016 (בעזרת הארכיון הזה). מכל גרסא חילצתי את ההפניות (הטיזרים) ואת הכותרות ה״אמיתיות״ של הכתבות אליהם הטיזרים מובילים. לא כללתי בניתוח כל מיני כתבות שבעיני לא חייבות להיות בעלות כותרת אינפורמטיבית (כתבות פרשנות, דעות, שירים וכו׳).

אחרי הסינון, נותרו 750 כותרות ו-750 טיזרים. אחרי מעבר ומעבר חוזר, הנה כמה מסקנות:

  1. בערך 25% מהכותרות והטיזרים מכילים קליק-בייט באיזשהו אופן. אני מגדיר קליק-בייט באופן סובייקטיבי למדי כמשהו לא הכרחי שמנסה לגרום לקורא הפוטנציאלי לקרוא את הכתבה מבלי למסור לו מידע נוסף. ראו דוגמאות למכביר בסוף הפוסט. 
  2. לעיתים הכותרת המקורית כוללת קליק-בייט, ולכן אי אפשר להאשים את עורך הטיזרים. אם מסתכלים רק על המקרים בהם עורך הטיזרים שינה את הכותרת המקורית באופן שהופך אותה לקליק-בייטית, מדובר על 17% מהכותרות. האם זה מעט? האם זה הרבה? שני קוראי הבלוג יכולים להחליט לבד.

מעבר למספרים, מעניין לבחון את תת-סוגי הקליק-בייט המראים את טעם העורכ/ת ומה הוא חושב שימשוך קוראים. הנה כמה קטגוריות נפוצות, ורוב הטיזרים מתאימים ליותר מקטגוריה אחת. כל דוגמא מציגה את הכותרת המקורית, ואז את הטיזר. התהליך הוא הפוך לתהליך הקריאה בו רואים קודם את הטיזר ואז את הכותרת המקורית, ומדמה יותר את התהליך שהעורך עובר:

השמטת שמות ופרטים

העורכ/ת ככל-הנראה חושב שהשמטת שמות יוצרת אווירה של מסתורין ומגרה סקרנות, אחרת קשה להסביר למה הוא משתמש בכלי הזה. לרוב לא מדובר בקיצור הכותרת.

דוגמאות

הרשות למלחמה בסמים פתחה בקמפיין בעד קנביס רפואי
=> התומכת המפתיעה בקנביס רפואי

הבגט המסורתי
=> 280 גרם של אושר: המוצר עם הרגולציה הקשוחה ביותר בצרפת

הניצחון המוסרי של הספר "מלחמת העולם השנייה"
=> אי אפשר לתאר את מלחמת העולם ה-2 בספר אחד. הנה היוצא מהכלל

קפה הבימה: הבועה התל אביבית בשיאה
=> כשהבועה התל אביבית מכתירה כריך טרנדי

במקום קוקה קולה, מסנני מים: הספורטאים שמסרבים לפרסם ג'אנק פוד
=> יש דברים שהשחקן הכי טוב בעולם לא מוכן לפרסם, גם עבור עשרות מיליוני דולרים

אוליברי היא מסעדה מהזן שלא מייצרים יותר
=> ע
סקית זולה ונדיבה בלב תל אביב, עם קינוח מפתיע במיוחד

להפיץ את נפרטיטי במדפסת תלת ממד
=> במבצע חשאי הודפס בתלת ממד היהלום שבאוסף העתיקות

המתכון להצלחה של השף יותם אוטולנגי
=> שף ישראלי חבוי ומצליח מציע מתכונים קלים וטעימים

הזמר דן סמית מביא לבמה זרם תודעה שוצף ודיבור זועם של הומלס
=> הזמר שהמוזיקה שלו נשמעת כמו דיבור זועם של הומלס מגיע להופעה בארץ

גוף ראשון, גוף שני
 הכתבים עצמם הופכים לעיקר בטיזר, אפילו אם הכותרת המקורית לא מנוסחת בלשון זו, וגם הטיזר פונה ישירות אל הקוראים.

דוגמאות

מאיר אדוני מטביע את קיסריה בשמן
=> הצילו! מאיר אדוני הטביע אותי בשמן

מתחם שרונה: כל מה שרע במקדש החדש של תרבות הצריכה
=> בתי בובות מפוחלצים מהגיהינום: כך ברחתי מבועתת משרונה‎

משפטי הגנגסטרים בניו יורק, המחלקה הגריאטרית
=> הגנגסטרים המזדקנים של ניו יורק פונים אל הלב שלכם

סרט האימה הלירי ביותר
=> קשה לצפיה: סרט האימה הלירי ביותר שאני מכיר

מספרים ורשימות

טריק ידוע שלא ברור כל-כך למה הוא עובד, העורך מעדיף מספרים מדוייקים.

דוגמאות

השוערים המיוחדים ביותר בהיסטוריה
=> 11 שוערים יוצאי דופן בהיסטוריה

אפסים כפולים: ההיסטוריה החשאית של המרגלים
=> הייתכן שישראל באמת שלחה 14 סנאים לרגל באיראן ב-2007?

איך למצוא אהבה ברשת?
=> 31 טיפים להצלחה באתרי היכרויות

מודיעין ראויה לעסקיות טובות יותר
=> 86,970 תושבי מודיעין ראויים לארוחה עסקית מבאסת פחות

כיצד תצמצמו את ההוצאות על חופשה משפחתית בישראל
=> 6 טיפים שיסייעו לכם לחסוך הרבה כסף על חופשה בישראל

מסיבת התכרבלות: איך זה נראה מבפנים
=> מסיבת התכרבלות: איך נראות 3 שעות של מגע עם זרים

כל מה שקשור למדע, בריאות וטכנולוגיה

האמת שכאן כמעט תמיד גם הכותרות המקוריות הן קליק-בייט. אם כבר הטיזר הוא פי אלף יותר קליק-בייט.

דוגמאות

מנותקים מחשמל? בערבה מציגים אלטרנטיבות
=> מקיבוץ קטורה עשויה לצאת בשורה שתשנה חיי מיליארדים

זחלי חיפושית שמסוגלים לעכל קלקר מעניקים תקווה למאבק באשפה
=> התולעים האלו יכולות, אולי, להציל את כדור הארץ

כמה סקס זה יותר מדי?
=> וכעת לנושא הפופולרי ביקום: כמה סקס זה יותר מדי?

Note Edge: הסטארטק של 2015?
=> אפקט ה"וואו": מכשיר שמסובב ראשים עם פשרה בלתי נסלחת

חוקרים ישראלים הצליחו לשפר זיכרון של עכברים עם אלצהיימר
=> אופטימיות זהירה: חוקרים שיקמו מנגנונים שנפגעים מאלצהיימר

אהבה משגעת: כשבני זוג מדביקים זה את זה בהזיות שווא
=> ההפרעה הנפשית שמשגעת זוגות

מהכף אל האף: המידע הסודי שמועבר בטקס לחיצת היד
=> המידע הסודי שמועבר במהלך לחיצת היד

העתידן רועי צזנה: האנושות מגיעה עכשיו לסוגיות קיומיות
=> בקרוב נחווה שינוי שהאנושות לא ידעה כדוגמתו. שיחה מטלטלת

מהפך במדע: שמאלנים נהנים יותר
=> המדענים מצביעים על מהפך: שמאלנים נהנים יותר

האנליסטית על ההאקרים שיצילו את העולם
=> חולצה שלבשתם לפני עשור בתמונה בפייסבוק עלולה לשנות את חייכם

פנאי או עבודה
=> סוד ההצלחה של נישואים ארוכי טווח לא קשור לאהבה

איך לבלות במידברן ולהישאר בתחתונים
=> היו אורגיות במידברן, כן. אבל זה לא העיקר

פרופסור ישראלי מציע גישה מהפכנית לגמילה מסמים
=> "ומה אם אומר לך שיש חומר שעושה ריסטארט למוח?"

הפתרון הסיני להעתקות במבחנים: מזל"טים מעל הכיתות
=> הפתרון הסיני להעתקות במבחנים

כך מגדלים בישראל גוג'י
=> מזון-על ב-200 שקל לקילו, "מחולל פלאים בגוף", תוצרת ישראל

האם חייבים לדבר על הכל בזוגיות?
=> שני נושאים שאסור לדבר עליהם עם בני הזוג

הדרך הטובה ביותר לבחור נעלי ריצה
=> הדרך הטובה לבחור נעל ריצה היא כל כך פשוטה שזה מצחיק

האם יש מצב שבו בני זוג אוהבים זה את זה באותה המידה
=> סוד האהבה האידיאלית

הנה התשובה המחקרית לשאלה: מה נשים באמת רוצות?
=> המדע פענח את התעלומה: מה הדבר האחד שאשה רוצה מגבר

מצחיק, גדול, מסתורי

נהדר, מחריד, נדיר, חריג, מרגש, מסוכן

דוגמאות

לאחר המעצרים, ג'ון אוליבר תוקף מחדש את פיפ"א
=> המעצרים גרמו לג'ון אוליבר לצחוק שוב על פיפ"א. וזה נהדר

פרק סיום "משחקי הכס": "תמיד יכול להיות יותר גרוע"
=> פרק סיום "משחקי הכס": דם והשפלות – ותפנית מחרידה

הצייר מתן בן כנען זכה בתחרות הדיוקנאות של נשיונל פורטרט גלרי בלונדון
=> הדבר המדהים ביותר שאתם רואים כאן, הוא שלא מדובר בצילום

לעמוד דום בים: מתרחצים בחוף ברוסיה מופתעים לשמע ההימנון
=> תיעוד חריג של המתרחש בחוף עיר הנופש סוצ'י מעורר הדים ברוסיה

בלי לצאת מהאטמוספרה: סיור בתחנת החלל הבינלאומית
=> לגעת בכל בורג: סיור פנורמי נדיר בתחנת החלל

דקל, סירה ומנורה: חפירות להקמת גן ילדים חשפו מקווה עם כתובות מסתוריות
=> ברגע האחרון: חפירות הצלה חשפו מקווה עם כתובות וציורים מסתוריים

אובמה הכריז על הידוק הפיקוח על מכירת כלי נשק
=> אובמה מחה דמעה כשהכריז על הידוק הפיקוח על מכירת כלי נשק

"בנות בצריח" יוצאות לסיור מורשת קרב בלב הטירוף הישראלי
=> שתי חיילות מסתוריות עורכות סיורי מורשת קרב מופרכים

סרט הטלוויזיה על "צער גידול בנות" נהפך לבדיחה בטוויטר
=> סרט על כוכבי "צער גידול בנות" הפך לבדיחה הכי מצחיקה ברשת

חיישן ניטור השינה החדש של סמסונג פותח ועוצב בישראל
=> החיישן מתחת למזרן שעושה פלאים

איך נראה דוב קוטב מתחת למים?
=> המרדף אחרי תמונה מסוכנת ובלתי מושגת

מי זו חברת "PROBABLY" שמפרסמת על השלטים בזמן משחקי היורו?
=> מי זו חברת "Probably" המסתורית שמפרסמת בזמן משחקי היורו?

יום האשה: אילן פלד מראיין את נחמה ריבלין
=> יום האשה: אילן פלד מראיין את נחמה ריבלין. יצא קאלט

סנדרס וקלינטון שברו מוסכמות, והתחרו על קולות הפלסטינים
=> התנגשות חזיתית נדירה

הנהג שהסיע את המחבלים שרצחו שוטרת בירושלים מואשם בגרימת מוות ברשלנות
=> אישום חריג: נהג שהסיע מחבלים מואשם בגרימת מוות ברשלנות

יש ספק? אין ספק

עניין קטן יחסית לשאר הדברים, אך העורכ/ת לעיתים משמיט או משנה מילים באופן שמוריד את הנויאנס. אפשר לטעון שמדובר בקיצור הכרחי, אך מכיוון שלעורכ/ת אין בעיה עם כותרות ארוכות זה טיעון זה קלוש.

דוגמאות

הלינץ' בגולן: ממדי התקלה מתגלים, וההשלכות עלולות להגיע גם לסוריה
=> הלינץ' בגולן: ממדי התקלה מתגלים, וזה ישפיע עד סוריה

מחקר גנטי משלים את הפאזל של הקהילה היהודית מהודו
=> מחקר גנטי פתר את תעלומת מוצאם של בני ישראל מהודו

מחקר: אכילת ירק שהושקה בקולחים מותירה שאריות תרופות בגוף
=> מחקר: אכילת ירק שהושקה במי קולחים מותירה תרופות בגוף

נתניהו בקבינט: יש להיערך לאפשרות של קריסת הרשות
=> נתניהו בקבינט: יש להיערך לקריסת הרשות הפלסטינית

אשכנזים שמאלנים

העורכ/ת מניח/ה שפוליטיקת זהויות זה דבר שמושך קליקים.

דוגמאות

ההיסטוריה המסריחה של ההיגיינה בארץ ישראל
=> גזענות, התנשאות ועליונות אשכנזית: ההיסטוריה המסריחה של ההיגיינה בארץ ישראל

כשחייל מעז לדבר בגנות הכיבוש
=> כשמדובר בחייל שמאלני, צה"ל יודע להגיב מהר

סדרה מצרית חדשה בוחנת גבולות חופש ההומור
=> סדרה מצרית חדשה בודקת את גבולות ההומור של השמאל

החינוך הפוליטי מוכנס לבתי הספר במסווה לא פורמלי
=> עיוות ההיסטוריה: כך מוכנסת אג'נדה ימנית למערכת החינוך

שוטר עיכב שלושה צעירים בגלל תלונה על רעש, הפשיט וכבל אותם שעות בתחנה
=> 3 קיבוצניקים שהאזינו למוזיקה בת"א הופשטו ונכבלו במשטרה שעות

האיש שהפך את "זגורי אימפריה" לאופרה
=> האיש שהפך את "זגורי אימפריה" לאופרה מדבר גם על המאבק המזרחי

ונסיים במזג האוויר

התחזית ליום חמישי: יוסיף להיות חם מהרגיל
=> התחזית: חם לאללה

ritterroll

Can you caption better than a 4-year-old?

(In English this time)

I recently tried the limits and failure-modes of Microsoft's new CaptionBot. It seems that CaptionBot doesn't really understand what it is looking at.

There are a few counters to that conclusion:

A) Neural networks see the world differently than we do, man!

B) Pfft. The neural-network behind CaptionBot just wasn't trained on enough data.

C) You need to be more forgiving and nurturing. Neural networks are like precious children,  figuring out the world for the first time.

To which I say:

A) Maybe, but then the PR surrounding it shouldn't be "Our bot understands the content of images", but more like "Our bot sort of gets image-classification, and can sort of link that up to Flickr-type captions, if the images are similar to a dataset we trained on".

B) Nonsense.

C) This post.

I managed to secure a 4-year-old's attention for about 20 minutes, and asked him to tell me what was in a series of photos ("describe what you see").

I offered encouragement, but not feedback.

Then I asked CaptionBot to do the same.

Here are the results:

unnamed (9)

4YO: This is a castle and these are buildings and that’s a wall and that’s a sign, and there’s grass

CaptionBot: I think it's a large stone building

unnamed (8)

4YO: I see a eagle and people are falling into the water, and that’s Moses, and those are the bad guys in the water

CaptionBot: I am not really confident, but I think it's a group of stuffed animals

unnamed (7)

4YO: The lion is trying to eat that person up

CaptionBot: I am not really confident, but I think it's a cat playing with a toy

unnamed (6)

4YO: People are pulling the horse with carriages, and they’re pulling it and pushing it and pulling it and pushing it, cause they want to break other people with that horse, and he’ll step on them, and he likes the nice guys

CaptionBot: I am not really confident, but I think it's a group of men standing next to a horse

unnamed (5)

4YO: They’re fighting. That’s Alexander and he’s going to win. He’s holding the bow, the arrow in his mouth. These guys have swords and shields

CaptionBot: I am not really confident, but I think it's a couple of giraffes that are next to a book

unnamed (4)

4YO: The Israelites. They’re tired and they’re walking and they don’t want to live in their land

CaptionBot: I think it's a group of people sitting in front of a building and they seem 😐 😐 😐

unnamed (3)

4YO: People fighting with dragons. The dragons might blow fire on them and eat them. And they’re opening their mouth

CaptionBot: I am not really confident, but I think it's a vase with flowers in it

unnamed (2)

4YO: A kayak, and this guy wants to throw that big rock at the kayak to make it sink it and break it

CaptionBot: I am not really confident, but I think it's a sandwich on a rock

unnamed (1)

4YO: It’s Alexander and his great people. There’s lots of horses, alexander is on his horses, dancing

CaptionBot: I am not really confident, but I think it's a group of people standing outside of a building

unnamed

4YO: Hanukah people carrying Hanukah things and stuff

CaptionBot: I am not really confident, but I think it's an old photo of a stone wall

That'll do, CaptionBot. That'll do.