נביא שקר

הנבואה ניתנה לשוטים

חודש: פברואר, 2015

סיכום הדיון בין ראשי המפלגות, לפי נפח פעילות בטוויטר

מישהו: ״היי, ראית את העימות?״

אני: ״לא, אין לי זמן לזה.״

(הולך ומבזבז פי 3 יותר זמן על גרפים שמסכמים את העימות)

===

הנה סיכום העימות שנערך אתמול בין ראשי המפלגות שאינן הליכוד והמחנ׳צ, על-פי נפח פעילות בטוויטר.

על ציר ה-x אפשר לראות את הזמן, ועל ציר ה-y את כמות האזכורים של כל ראש מפלגה בטוויטר.

אם הייתי שם את כולם יחד, זה היה נראה כמו בלאגן איום. במקום זאת שמתי את המתמודדים בזוגות באופן די שרירותי. הבחירה הלא שרירותית היחידה הייתה לשים את דרעי ולפיד ביחד, בגלל רגע השיא המשותף, שמצויין על הגרף:

drawing

 

אתם מוזמנים לנסות לשייך רגעי שיא של אזכורים לרגעים הספציפיים בדיון כראות עינכם.

והנה סיכום כמות האזכורים היחסית לכל מועמד. באופן כללי דרעי, לפיד, ליברמן ובנט מקבלים נפח שווה, בעוד גלאון, ישי וכחלון מקבלים בערך חצי מהנפח. עודה איפשהו באמצע:

debatepie

מודעות פרסומת

ניתוח (פשטני) של מאות מאמרי דעה מאת כתבים בכירים

לאחרונה הורדתי את כל המאמרים של ארי שביט, ובדקתי עד כמה הוא חוזר על עצמו, מילולית.

יש עוד דברים שאפשר לעשות עם כמות גדולה של מילים. לצורך ההשוואות הבאות זה לא הוגן שנסתכל רק על שביט, אז הורדתי גם את כל המאמרים שיכולתי למצוא של אמיר ״בדיחה דלוחה״ אורן, ויוסי ״רכילות שבת״ ורטר.

ענני מילים

אפשר למשל ליצור ענן המתאר את המילים ששביט השתמש בהן בעשור האחרון:

shavitWordCloud

אם מורידים את ׳ישראל׳ על ההטיות השונות:

shavitWordCloud2

נראה…נכון.

הנה הענן של ורטר:

verterCloud

והנה הענן של אורן:

orenCloud זה אולי לא מפתיע במיוחד, אבל זה מעניין עד כמה בעצם דפי הפרשנות מוקדשים לזוויות שונות של האדם נתניהו.

מודל נושא

ניסיתי להפעיל ׳מודל נושא׳ על כל הטקסט של כתבי הארץ במשותף, אבל לא יצא משהו מעניין במיוחד. כל הנושאים מערבים במידה כזו או אחרת פוליטיקאים וצבא. יכול להיות שפשוט אין לי מספיק מלל, יכול להיות שזה לא עובד כל-כך טוב בעברית, ויכול להיות שאין באמת הרבה נושאים להפריד ביניהם.

כתיבה אוטומטית ומחוללים

דבר נחמד אחר שאפשר לנסות זה ליצור טבלה גדולה המתארת את ההסתברות מעבר בין כל מילה ומילה בטקסט של כתב. נגיד למשל ששביט כתב ״אסור״. מה אמורה להיות המילה הבאה? אפשר לתאר את כל המילים שבאו אחרי ״אסור״ בעשור האחרון אצלו וליצור הסתברות מעבר. אפשר לעשות זאת עבור כל מילה ומילה, ולמעשה אפשר לעשות זאת לצמדי מילים. כלומר, נגיד ששביט כתב ״לישראל אסור״, אז מה אמור לבוא אחר-כך?

קל לראות שאפשר להשתמש בטבלה כזו כדי לעשות קטגוריזציה של טקסט חדש, או כדי ליצור טקסט אוטומטי חדש. דברים שכאלה נקראים מודלי ngram, והם פופולריים בעיקר בתור בסיס להשוואה למודלים יותר מתוחכמים.

אני לא באמת מצפה ממודלים שכאלה שייצרו טקסט אוטומטי מעניין במיוחד.

ובכל זאת.

הנה פסבדו-שביט:

מושג המפתח בסביבה הקרובה של ראש הממשלה. יפה. ללפיד אין הניסיון הנדרש כדי לייצר פצצה גרעינית. כאשר במרתפה חמישה טונות של אורניום המועשר ברמה בינונית, איראן נמצאת על הסף. כשאיראן מפתחת נפצים גרעיניים ומתכת כדורית גרעינית וראשי חץ גרעיניים – איראן היא איום ממשי ומיידי. לדגן יוחסו גדולות, אך הוא ימשיך לאיים. הלקח שהמזרח התיכון יבער נמוכה, אך כשפועלים באופן כוחני נגד איראן, איראן תיהפך למעצמה המובילה במזרח התיכון

 הנה פסבדו-ורטר:

חלקו של מי שמסוגל לנבא תוצאות בחירות של הגברת נתניהו, מבלי שהם יודעים דבר וחצי דבר על בבית ברחוב היא לא לשכנע מדוע בחרה לרוץ לבד, ולא לחבור ללפיד או ליחימוביץ' – את על נתפסה בחירות מביש לא. עם "הארץ" לבני בבחירות שלא להיכנס לבדה לממשלת ימיןחרדים. יודעת איזו ממשלה היתה יכולה להיות משמעות שוברת בחירות, לטובת נתניהו. אחרי הבחירות לכנסת ה-19 אמש בתום מערכה מתמודדים חדשים, לצד פוליטיקאים ותיקים, בין המפלגות על של לפיד מתלבטים אף הם בין האחרונים שלא עדיין את קהלים לא בקצב בעיקר של פרופ' בן ציון נתניהו בן נתניהו גם הכחיש כי שלח אל לבני שליחים המצב יותר מאז הבחירות, נתניהו יהיה ראש הממשלה בכבודו בדרך עד מאוד, חלחל האנשים שם. אין ספק שיחימוביץ' ניהלה קמפיין שכלל של אחדות מחד, של התקרבנות מצד אחד, לפיד יזכה להערכה כמי שלא הפנה עורף לכלכלה הישראלית, עליה מסע הבחירות שלו. אנשים שם מתארים גדול וחוסר סדר.

ולבסוף, פסבדו-אורן:

בין כל הבאים בחשבון הרמטכ״ל, שלישי של אלוף, של שניים מעשית יאיר גולן מפקד חיל הים, רם רוטברג, בבסיס חיפה. את תגובת דוברות בתי המשפט, בעד סגל ונגד גולדברג. בין גולדברג בני דורות מפריד יותר גולדברג ישב ופרש ממנו כדי לכהן כמבקר המדינה בטרם קידום גרוניס ותיק ומנוסה יותר השרים ומי נדרשה למינוי והקצונה הבכירותבצה"ל, במשטרה, במוסד. חזקה ממנו רק של בדיחה עצמית שנהג לספר רונלד רייגן, זקן הנשיאים האמריקאים, על ג׳ורג׳ וושינגטון. באמצע סוף המאה היה ההוליוודי בדימוס ממתין שנייה ומעיד, כשהוא אמר את בצאתו מהבית הלבן היה רייגן רק בן עוד נותרו לו 15 שנות חיים. איפה רייגן הימים ואיפה בן של שמעון האחרון, לאחר תום כהונתו ביולי יותר הרצל כמו נפתלי, כך גם החבר התחיל את פה, בטלפון, מה זה של משפט הולילנד.

===

לגבי פסבדו-אורן: כפי שאולי שמתם לב, בהטקסט נעדות התפתלויות הלשון המזוויעות המאפיינות את אותנטי-אורן. לא רק שאין לי אלגוריתם שיבנה את הבדיחות התפלות שלו, אין לי אפילו אלגוריתם שיזהה את הבדיחות התפלות האלה. מאוד הייתי שמח לייצר רשימה בנוסח ״כל משחקי הלשון הגרועים של אורן״, אבל בלי אוטומטיזציה אני לא אגע בזה.

ציוצי תעמולה

אני מסתכל מדי פעם בטוויטר כדי לראות מה כתבו על X. לפעמים X=לפיד.

כמעט כל האזכורים של יאיר לפיד בשנים האחרונות היו בהקשר שלילי. אבל בסוף דצמבר 2014, לפיד עצמו הגיע לטוויטר. קצת כמו עם פייסבוק, זה גרם לעוד אנשים להגיע.

אנשים כמו למשל טל "יאיר לפיד צובר תאוצה״ ארגמן, שרק מצייץ אל פוליטיקאים ואנשי תקשורת עם תמונות של יש עתיד.

או למשל דניאל ״סומך רק על יש עתיד״ מנשה, שמצייץ אל אנשי תקשורת ופוליטיקה כמה יש עתיד היא נהדרת.

או גיל, שהוא…גיל.

תהיתי אם אפשר לאפיין את הגל הזה. חשבתי במקור להסתכל על כל ה׳עוקבים׳ של כמה אנשי חדשות / פוליטיקאים ולראות מי הצטרף אחרי דצמבר 2014, יש לו מעט חברים, החברים מקושרים ביניהם וכו׳. העניין הוא שזה היה לוקח הרבה זמן, וטוויטר מערימים עלי קשיים בתחום הזה.

במקום זה עשיתי משהו קצת יותר קטן וידני. התחלתי עם כמה אנשים שלא עושים כלום בחיים חוץ מלצייץ בעד לפיד*** והצטרפו לאחרונה, ובדקתי מי ׳עוקב׳ אחריהם (זה יותר סביר מאשר לבדוק אחרי מי הם עוקבים, כי אז מגיעים לרשימות של מאות ואלפים, בעיקר ענייני פוליטיקה ותקשורת).

[***הערה: זה נשמע כאילו אני יורד על אנשים שרק כותבים סיסמאות בעד לפיד, מה שלא לגמרי לא נכון. אבל קחו בחשבון שאני מבלה זמן בלקרוא את האנשים האלה. מה זה אומר עלי?]

הגרף המצורף מראה את ה״רשת״ הבסיסית.חץ מ-x ל-y אומר ש-x עוקב אחרי y. כל מי שמופיע בכחול הצטרף לאחרונה (סוף דצמבר או אחריו) ומצייץ כמעט אך ורק בעד לפיד, או נגד אויבים של לפיד, מפברט דברים שלפיד אמר, מעלה תמונות של יש עתיד, וכו׳.

Lapidtree

האנשים בצהוב הם אנשי ׳יש עתיד׳ שאינם חלק מהגל הנוכחי, או אנשים שיש להם חיים כלשהם. למשל, תמי נשיא היא חלק מצוות הניו-מדיה של לפיד, tshukit היא מישהו בלתי נסבל, אבל מצייצת על לפיד כבר שנים וכו׳.

האנשים בלבן הם כאלה שלא בעד לפיד באופן כלשהו.

===

מסקנה? לא יודע מה להסיק מזה כל כך. האם החשבונות האלה מופעלים על ידי צוות ׳יש עתיד׳? יכול להיות. בכתבה ב׳הארץ׳ על צוות לפיד הופיע הקטע הבא:

כשהתבקש לפרט יותר על שיטות הפעולה של המטה שלו הוא עטה מעטה חשאיות וסירב להרחיב. רמז לאחד הדברים שעושה הצוות אפשר היה למצוא בשלט על קיר משרדם, הקרוי במטה "חדר הגיקים": "טוקבקים יעד עצמי: פייסבוק 150, אינטרנט 40, טוויטר 30".

עכשיו, גם אם כן מדובר בפעילי מפלגה שאחראים על טוויטר (מה שלא בטוח בכלל), זה לא כזה סיפור. אני מניח שרוב המפלגות עושות משהו דומה. יכול גם להיות שמדובר בחסידים שבלי שום תשלום פשוט נכנסים כל הזמן לטוויטר ומצייצים בעד לפיד.

במקור רציתי להשתמש בדוגמאות האלה כדי ללמד אלגוריתם של machine learning למצוא עוד אנשים שעונים למאפיינים האלה באופן לא ידני, ואז לנסות לבדוק את זה יותר לעומק.

אולי אני אעשה את זה יום אחד.

סוף סוף, שיר שביט

ארי שביט חוזר על עצמו.

כלומר, מעבר לאופן הברור שהוא חוזר לעצמו, שמתי לב שיש לו מניירה של לכתוב ״איקס? איקס.״

למשל, בטור האחרון זה הופיע בתור ״עצוב? עצוב.״

תהיתי אם זה משהו חדש, וכמה פעמים זה כבר הופיע.

אז הורדתי את כל מאמרי הדעה של שביט שמופיעים ב׳הארץ׳, אחורה עד 2005 (זה דרש קצת התחזות כדי שהסקריפט שכתבתי בפיית׳ון יקבל גישה למאמרים ׳נעולים׳). מסתבר שזה מניירה שהוא התחיל רק ב-2012. אני שוקל להריץ topic model על מאות המאמרים ששוכבים בתיקייה.

אבל לפני שנכנסים למשהו מסובך, הדרך שבה בדקתי עניין המניירה היא מאוד פשוטה, ובדקה כפילויות באופן כללי.

מסתבר שהמניירה של ״איקס? איקס.״ אולי התחילה רק ב-2012, אבל שביט בהחלט אוהב לעשות ״איקס. איקס״ או ״איקס איקס״ כבר הרבה זמן. הפלט שקיבלתי מזכיר קצת שיר (כל שורה זה מתוך מאמר דעה אחר):

יום יום / ארי שביט
===========

יום יום

סוף סוף

סוף סוף

שרון. שרון מהר מהר.

מהר מהר

אפס אפס

קצר. קצר

ספסר. ספסר

הקיץ הקיץ

בגין. בגין

שדרות. שדרות

הרמטכ"ל, הרמטכ"ל,

סוף סוף

בחירות. בחירות

יום יום קול. קול

סוף סוף

אשליה. אשליה

סוף סוף סוף סוף סוף סוף הקרטריזם. הקרטריזם הקרטריזם. הקרטריזם

ידעתם. ידעתם. ידעתם. ידעתם. ידעתם. ידעתם. ידעתם. ידעתם ידעתם. ידעתם. ידעתם. ידעתם.

ויותר ויותר

סוף סוף

סוף סוף

סוף סוף

סוף סוף

סוף סוף.

איראן, איראן,

באמת באמת יחימוביץ'. יחימוביץ'

ולדחות ולדחות.

סוף סוף

יעלון. יעלון

סוף סוף סוף סוף

העושק. העושק, תחרות, תחרות,

סוף סוף

צדק. צדק

סוף סוף

סוף סוף

והפריטה והפריטה.

קידמה, קידמה,

חדש. חדש

אתם? אתם בסוף בסוף

כבוד. כבוד

קרב. קרב

מת. מת

איראן, איראן,

סוף סוף

יום יום

בשקט בשקט

סוף סוף

יום יום

פוליטיקה? פוליטיקה. היסטוריה? היסטוריה. איראן? איראן.

רומני. רומני האולימפיאדה. האולימפיאדה

לאט לאט

לאט לאט

סוף סוף גבוהה גבוהה

קרה? קרה

טפו, טפו,

סוף סוף מאוד מאוד. סוף סוף

מוטה. מוטה

ולא ולא.

יהיה? יהיה

איראן? איראן. הרתעה? הרתעה. כלכלה? כלכלה.

שבוע שבוע.

אמרנו? אמרנו. אמרנו? אמרנו. אמרנו? אמרנו.

סוף סוף

ושוב ושוב

ביטחון, ביטחון,

סוף סוף

סוף סוף

יום יום

מאוד מאוד

בסוף בסוף

סוף סוף

הבעיה. הבעיה

מאוד מאוד

באמת באמת? באמת באמת? באמת באמת?

אחים. אחים?

קרה? קרה

קרי. קרי

סוף סוף סוף סוף

סוף סוף

סוף סוף סוף סוף

בהחלט. בהחלט? סוף סוף

לעולם, לעולם,

ולא ולא.

סוף סוף

סוף סוף

באמת באמת

סונים. סונים

סוף סוף

סוף סוף

נשבר. נשבר

סוף סוף סוף סוף

סוף סוף מטורף? מטורף.

התנחלות, התנחלות,

ועוד ועוד ועוד ועוד ועוד ועוד

בסוף בסוף

הנה הנה.

טעות. טעות

פתטי? פתטי. דוחה? דוחה.

מביך. מביך בסוף בסוף עצוב? עצוב. עלוב? עלוב.

סוף סוף

טעות לעיתים חוזרת

כולנו יודעים ש״טעות הדגימה״ של סקרים זה כנראה שטויות. סקר של 500 איש מניח שטעות הדגימה היא בערך 4.5%. אבל האם זה בכלל קרוב לאמת?

ואיך אפשר לבדוק את זה?

קשה להשוות בין הסקרים השונים לאורך תקופת הבחירות לבין תוצאות הבחירות, כי הסקרים טוענים שהם משקפים את תמונת המצב ״לו הבחירות היו מתקיימות כיום״. קשה לבוא בטענות לסקר שהתרחש חודשיים לפני הבחירות על כך שהוא לא ׳חזה נכון׳ את המצב של ליברמן, למשל.

אז מה כן אפשר לעשות? איך בודקים אם טעות המדגם היא מציאותית?

אפשר למשל לבדוק את מידת ההתאמה בין הסקרים לבין עצמם. אם סקר בזמן t משקף בצורה נכונה את המציאות, אז סקר שהתרחש בערך זמן t (נגיד בהפרש של יומיים-שלושה) אמור להיות קרוב אליו עד כדי טעות המדגם.

אם הסקרים באמת מהווים מדגם מייצג של המציאות באותו רגע t, אז הפרש המנדטים האבסולוטי ביניהם צריך להתפלג באופן די מסויים.

כלומר, אפשר לקחת את הבדל המנדטים (האבסולוטי) בין הסקרים עבור הרבה זוגות סקרים לאורך כל תקופת הבחירות ולשרטט היסטוגרמה של ההבדל הזה. אז אפשר להשוות את ההיסטוגרמה הזו להתפלגות התיאורטית שהיינו מצפים לה ממדגם אקראי של 100 סקרים מסומלצים שדוגמים 500 איש (בסימולציה) מהתפלגות מולטינומית.

אז עשיתי את זה:

מנדטים

 

הא?

זאת לא התוצאה שציפיתי לה. הסקרים קרובים יותר אחד לשני ממה שהיינו מצפים לו על-סמך שיקולים תיאורטיים. לא חשבתי שתהיה התאמה בין שני הדברים, אבל איכשהו ציפיתי שמכל מיני שיקולים הסקרים יהיו רחוקים יותר מאשר התיאוריה.

יש כמה דברים להסביר את החריגה הזו. אפשרות אחת, שנתמכת בדברים שנאמרו לי על-ידי מקורב לאחת המפלגות, היא שהסוקרים מבצעים תיקונים כבדים מאוד למידע הגולמי שהם מקבלים כדי שיתאימו לכל מיני הנחות רקע. בעגה בייסיאנית, לסוקרים יש prior שהם מעדכנים באמצעות תוצאות הסקר, וזה מה שהם מדווחים במקום המידע הגולמי. מכיוון שהסוקרים הם בעלי prior דומה (הנחות רקע דומות) התוצאות המדווחות נמשכות קרוב יותר אחת לשנייה.

זה לאו דווקא דבר רע, אם ה-prior הזה עוזר לחזות בצורה מדוייקת יותר את תוצאות הבחירות. אבל זה מעניין.

חשבתי לערוך בדיקה דומה לפי מפלגה, במיוחד כי חשדתי שמשהו מוזר קורה עם טעות הדגימה סביב המפלגות הערביות, אבל מסתבר שהחבר׳ה ב-״בטל בשישים״ חשבו על רעיון דומה באותו זמן. כדאי לקרוא.

הערה לסיום: לצורך השוואה בין הסקרים השתמשתי במידע מתוך ״פרוייקט 61״, עוד משהו ששווה לעקוב אחריו.