נביא שקר

הנבואה ניתנה לשוטים

קטגוריה: מודל

תאר לי כבשה

(הערכת עריכה: הפוסט המקורי דיבר על ׳תיוג תמונות׳. יואב גולדברג תיקן שמדובר ב-captioning, כלומר תיאור תמונות או תמלול תמונות)

 מיקרוסופט שיחררו לאחרונה בוט לתיאור תמונות:

Screen Shot 2016-04-20 at 10.06.17 AM

כפי שאפשר להבין, הבוט איננו מושלם.

שאר הפוסט הוא חקירה לא ממצה של מקרי קצה בהם התוכנה טועה. יהיו שיטענו שהבוט עובד יופי, וזה רק עניין של לתת לו מספיק דוגמאות מתחומים שונים. הבוט כן אומן על אופנועים, אבל הוא לא אומן על רובוטי-רשע מהעתיד. מה אתה רוצה ממנו?

אבל אני חושב שמקרי הקצה מראים שלא מדובר רק על אימון נוסף ועוד דוגמאות, אלא שהתוכנה לא ממש מבינה מה היא רואה, לפחות לא באופן שבני-אדם מבינים.

הנה עוד כמה דוגמאות:

הרשת המלאכותית הצליחה לזהות תתי-מאפיינים חשובים בתמונה, כנראה זנב מטוס או כנפיים או פרצוף או מכנסיים, והיא יכולה לשייך את זה לפלט שבני-אדם נתנו לתמונות שמכילות תתי-מאפיינים כאלה, אבל היא לא באמת מבינה את הסכמה הסיבתית של התמונה.

עוד דוגמא:

CgQXfyDW4AAJG4E

על איזה שולחן מדובר בדיוק? כנראה שבתמונות שתוייגו בתור ״אדם״ באופן דומה אנשים ישבו על שולחן, ומכאן האסוציאציה. לא רק שהרשת לא מחברת באופן אנושי בין תתי-החלקים הויזואליים, החלק שאחראי על ״שפה״ פשוט מקשר אסוציאטיבית ואיננו מבין מה זה בכלל ״שולחן״.

יואב גולדברג צייץ עוד כמה דוגמאות:

CgQT7GVW4AAEeyo

יואב אמר שזה ״לא רע״, ובהתחלה חשבנו שאולי הרשת זיהתה את הספרים, ואת התמונות בצד הימני למעלה כאיש, ואז ניסתה לחבר ביניהם באיזשהו אופן. ניסוי וטעייה הראו שבעצם הרשת חשבה שהכסא בצד השמאלי התחתון הוא זה שנראה לרשת כמו איש.

בשלב הזה החלטתי להאכיל את התמונות עצמן בחזרה לרשת:

2016-04-18 (6).png

…ואחרי כמה זמן הגעתי ל-cap-ception:

2016-04-18 (7).png

יואב גם ניסה לתת לרשת כל מיני תמונות מלחמה:

2016-04-17 (1).png

״נפש תמימה ויפה כמו ילד״, כתב יואב. אבל הרשת לא באמת חושבת כמו ילד.

שאלתי ילד בן ארבע מה הוא רואה בתמונה.

ילד: ״לא יודע.״

אני: ״נו, תנחש.״

ילד: ״מזרקת מים.״

אני: ״לא רע. יש לך עוד ניחוש?״

ילד: ״די כבר, תגיד לי מה זה.״

אני: ״מה אתה חושב, זה מזרקת מים או כבשה?״

ילד: ״אתה מצחיק! זה לא כבשה.״

אני: ״למה לא?״

ילד: ״אין לה בכלל ראש.״

היטלר

מיקרוסופט חטפו על הראש לאחרונה אחרי שבוט אחר שהם שיחררו לטוויטר ״הפך״ להיות אנטישמי וגזען. מדובר בבוט הרבה פחות מתוחכם מתוכנת התיאור שנסקרת כאן, ולא נראה שהוא באמת ״למד״ שום דבר אלא חזר על דברים. בכל מקרה, נראה שמישהו שם למד משהו, והחליט לצנזר פנימית תגובות לתמונות מסויימות:

2016-04-18 (8)2016-04-18 (9)2016-04-18 (10)2016-04-18 (11)

כמובן שאם מישהו בכל זאת מתעקש, תמיד אפשר לייצר כותרת בסגנון ״הבוט החדש של מיקרוסופט אומר להיטלר לנסות שוב בקרוב!״

נראה שהרשת כן ״יודעת״ במה מדובר, או לפחות מזהה שמדובר במשהו שהיא לא אמורה לתייג או לענות עליו. תמונות פורנוגרפיות הן גם בקטגוריה דומה (כלומר, הרשת מזהה שמדובר במשהו שהיא לא אמורה להתייחס אליו).

אבל הרשת לא תמיד מזהה את היטלר, ואז זיהוי הרגשות שלה הוא לא רע:

2016-04-18 (14)2016-04-18 (13)2016-04-18 (12)

מחשבות סיכום

בסך הכל, הבוט החדש עובד לא רע. יחסית למצב בתחום לפני עשר שנים, למשל, נראה שמאוד התקדמנו. אבל הטעויות של הרשת הן לא טעויות שנובעות רק ממחסור בנתונים, והפתרון הוא לא רק לתת לה עוד ועוד דוגמאות.

לפי המאמר שמלווה את הפרוייקט, נראה שהתוכנה בנוייה מכמה תתי-חלקים, כולל זיהוי כוכבנים, זיהוי רגשות וזיהוי מקומות חשובים. זה נראה כמו צעד חשוב ונכון מעבר ל״זיהוי גלובלי״ שמנסה להתייחס לבעיית תיאור וזיהוי כמשפך אחד ויחיד שמקבל תמונות ויורק תיאור. אמנון שעשוע דיבר על משהו דומה לאחרונה כשהוא הבדיל בין ״הפשטה סמנטית״ (מערכת שמפרקת בעיה מורכבת לתתי-בעיות, למשל  פירוק בעיית הנהיגה הממוכנת לתתי-בעיות כמו זיהוי אנשים, זיהוי הדרך, תגובה לזיהוי אנשים וכו׳) ובין ״אימון קצה-לקצה״ (לתת לרשת בצד אחד את הפיקסלים של תמונת הכביש, בצד האחר את הזווית הנכונה של ההגה בתגובה לתמונה, ויאללה לדרך).

ולסיום, הנה מה שהבוט חושב על תמונות מימי הביניים:

2016-04-18 (16)Screen Shot 2016-04-20 at 12.13.46 PM2016-04-18 (15)

מודעות פרסומת

״וְאִם-אֲמָת עֲשִׂיתֶם לְצַחֵק״ הפעלת רשת נוירונים על התורה והברית החדשה

בפוסט הקודם הפעלתי את רשת העצבים הנשנית של קארפתי על פרוטוקולים של הכנסת וטורים של בעלי דעה, וקיבלתי בתמורה טקסטים חדשים. אני יכול לקחת כל דבר, ולייצר ממבו-ג׳מבו שנשמע בערך אותו דבר. העוצמה, הכוח! 

רציתי להפעיל את הרשת על שירי הייקו וסיפורי זן, אבל מסתבר שקשה למצוא מאגרים גדולים ברשת. גם מאה ומשהו סיפורי הזן שאספתי לא הספיקו לאימון סביר, מה שמראה משהו לא מפתיע על הרשת. אדם שסיפרו לו 100 סיפורי זן היה יכול להמציא אחד משל עצמו (אם היה לו רצון להזיז את עצמו מהספסל במנזר באותו שלב), בעוד שהרשת מתקשה לחבר תחביר כהלכה ממידע כל-כך מועט.

אז הפעלתי את רשת העצבים על התורה.

כלומר, על ספרי בראשית עד דברים, מ׳בראשית ברא׳ ועד ׳בני ישראל׳, כפי שהטקסט מופיע במכון ממרא.

הנה דוגמא משלב אימון די ראשוני:

, אָלּוֹרֹחַי-הָזֵשַׁקְּתִּּיָתְהַעֹּצְבּּ:  ?{ן.  כגִץ, וְיַםֲֶׁדֲֹׂל–צַה הְי כוֹהֶלְוּרֶרִּן.  כו,נל אָהָׁמִן-זֶי, וְלִּּּד יֶלְּדַמִזָנַיַהָּחִחוֹל, אַםּוְשְׁהֶרִתְּכֹּּת-הְּמָּמֵ֕י-עִקֵּי- וְאָב-הָתֲָּׁׁזַר בֻּנְתְלָעֵּי-בִּרוֹה תִּאִלוֹ שֹדָּר-אֵיוֹ; קִחְרֶי֕,?גוְיְנָּרֹרָ

(הו, רשת. את מטומטמת)

הנה המצב אחרי אלפי איטרציות:

(לג,טז) אָשִׂינִי.  (טו,יב) טַבְּשָׁתּוֹ:  כִּי-לֹא-יִרְחַל אֶת-הֲטַלַּן לַעֲשׂוֹת יָדוֹ, וּשְׁמוֹ.  (לט,מט) וְכָל-בְּכֹר הַשְּׁמֹר פָּנוֹ בְנֵי-יִשְׂרָאֵל, שֵׁמַּת לִבְנֵי יִשְׂרָאֵל, לַשְׁלוּתָם בְּאֶחְיוּן.  (כא,יט) לְמֵעַ תַּעֲקֹב, בִּשְׁתֵּט, מִכְרַיִם תִּקְרָא.  (א,כ,) וַיֹּאמֶר, אָלָיו–שְׁנַת קָדָשִׁים תַּעַשׂ וּמַתֵּן לֹא חָבִי, וּלְקַרְשֵׁי מוֹתֵךְ אָחִינו?

(הרשת התחילה להבין את העניין עם פסוקים, אז אני מסמן אותם בסוגריים)

והנה המצב אחרי עוד כמה אלפי איטרציות:

{ד,טו} וַיְדַבֵּר יְהוָה, אֶל-מֹשֶׁה וַיִּקַּח-לוֹ, וּנְתָנָה לֵאמֹר, לֹא-אֲנִי יְהוָה אֱלֹהֵינוּ:  אֲנִי, יְהוָה; וְכִסָּהוּ בָּהֶם; וּפִילַת עוֹד, יֹשְׁבִים בְּקֶרִי הָאִשָּׁה, וַיְמַלֵּא שַׁרְמֶנּוּ, אֶל-יִשְׂרָאֵל וַאֲכַלְתֶּם אֶת-קֹרַח, אֶת-הַקֶּדֶם; וְנִסְכֵּיה; וְאִם-אֲמָת עֲשִׂיתֶם, לְצַחֵק. {כה,יא} וְעַתָּה, אָרוּר שְׁמַע מֹלַעַת, וְלֹא יֶדֶעַ, וְשָׁמַעְתָּ בְּמַסֹּהֵם וְהַכְּבָשִׁים בְּקִנִּית הַמִּצְבֶהָב, בְּכָל-קָדְשֵׁי אֹתוֹ הַסֹּרֵג אָנֹכִי.  {ט,טז} וַיָּקָם אֵלָיו אֶל-אֶלְעָזָר, וְהָיָה לָכֶם סֹגֵף. {כ,יב} וְלָבּו, עַל-מִשְׁפַּחְתִּיו, לָתֵת לָהֶם, וָמֵת, עַד-דְּרֵה-כָל-הָעֵדָה לַיהוָה אֱלֹהֵינוּ.

**

{יא,נו} וְשָׁכַח בְּבֹרְךָ אַחַת עָלֶיהָ, תִּקְרַב עִמּוֹ; וְהָיוּ תְרִיבוּ אֶת-נֶגַע כִּי-אַתֶּם תָּרוּ, הַלְוִיִּם–וּמִנְחָתָהּ הִוא אֶת-הָאֵפֹד הַזֶּה.  {ט,טו} וַדֵּרַע אִישׁ, בַּבָּעָר, וַיָּשִׁתוּ מִתּוֹךְ הַחֲמַרְךָ:  וְאֵת כָּל-כֹּהֵן לִנְטֹחַ לִי; וְטָמֵא אֶלֶף וּבֻקֹּלֶת.  {כח,ד} וְאִם-נֵלְכִיהָ, לָקִת בְּעַם פִּרְרֹתָם:  כִּי-עָבַר, לִפְנֵי יְהוָה לֵאמֹר; וְיַד אִישׁ יְהוָה לְקַרְשֹׁתֵיכֶם מְדִישִׁי, הֵם צֹאן אֲנָכְנוּ-זֶרֶת כָּל-בָּשָׂר עֵשָׂו, לֹא תִגָּחַ וְאָהֳלוֹ.  {ו,כג} וְהַעֲלֵיכֶם גַּרְנֵי, הוֹלַד–הֲיוֹם, לֵאמֹר; כֵּן, אֹיְרֶךָ, וּבַחֲמִשָּׁה עָשָׂר יוֹם עִמָּם; וְהָחָר, מִבֶּן עֶשְׂרִים מִמֶּנּוּ; וְגַם-הוּא, וְחָסוּר מִכַּחֲמֹתָם:  מָה הָעֲוֶה, וְאַבְרָהָם אֶת-שֵׁת.  {ה,ד} וּמִגְדָּל, עַד-פָּנָיו; וְהָיָה עֶרְוַת כָּל-זָהָב עֵמִים חֲמִשִּׁים, תִּשְׁמַע אֵלָיו, הֵפֵּצתֶךְ:  כִּי-יִמָּצֵר בְאֹהֶל מוֹעֵד אֶת-כָּל-כֵּלָיו; וְעַל פְּנֵי יְהוּדַעַר וּמֵאָה; וְכָל-אֲשֶׁר קָרָא מֵאֹהוֹת, בְּפִיו; תְּדַבֵּרוּ.

(נשמע כמו משהו שצריך לשנן לבגרות. הרבה מילים יחידאיות)

================

ומה לגבי הברית החדשה? שם לפחות הרשת לא צריכה להתמודד עם פיסוק. ניסיתי לזרוק עליה את ספרי הבשורה של הברית החדשה.

jesusjoseph

אני אעזוב את הקטע של ׳איך זה נראה בהתחלה׳ ואקפוץ ישר לסוף האימון:

6:25 And when he had heard, and destroyed the house of Judaea and Arim to Jeresalem, and prevailed unto the sea, and were bought forth to go throughout all evil.

20:24 And I will not be unto the mount of come about the tree, and said unto them.

11:18 But the scarper that he shall say, A man cat dead them, and went into the sea, and went into the house of Theason! for the morrow years of Nazareth, Lord Jesus there should be with him again, and saith unto them, I will come in Esceas the first.

6:3 And he raked him a parable upon them, and scatter him to men, and now unto Ramea, and the throne is called the woman, and of them that were scaptered them, saying, Lord, Thou askes him sow.

אההה…אם אתה אומר, ישו. 

====

אחד הפרמטרים שאפשר לשחק בהם בעת הדגימה נקרא ה׳טמפרטורה׳. ככל שהטמפרטורה גבוה יותר, הרשת תנסה יותר דברים חדשים. ככל שהיא נמוכה יותר, היא תצמד לדברים שהיא יחסית בטוחה בהם. כל מה שהראתי בינתיים היה על טמפרטורה גבוהה.

הנה הברית החדשה על טמפרטורה נמוכה:

22:16 And when they had taken with them that were done all the people, and said unto him, Where is the son of Joseph, which was the son of Alphaeus, and Simon the people, and the scribes and the sea of Galilee, and were seven things which he spake to his disciples, and said, This is the son of Joseph, which was the son of Salmon, which was the son of Joseph, which was the son of Alphaeus, and Salome, which was the son of Altaus, which was the son of Joseph, which was the son of Joseph, which was the son of Joseph, which was the son of Juda,

והנה התורה, על טמפרטורה אפס-נקודה-אחד:

וְהִנֵּה שִׁבְעָה שָׁמֶךְ וְאֶת-הַחֵלֶב אֲשֶׁר עָשָׂה לְךָ אֶת-הַמִּשְׁכָּן הַשְּׁבִיעִי, מִקִּרְבֶּךָ.  יד,יח וְאֶת-הַחֵלֶב אֲשֶׁר עַל-הַמִּזְבֵּחַ וְאֶת-הַבָּשָׂר אֲשֶׁר עַל-הַמִּשְׁכָּן הַשְּׁבִיעִי, לַיהוָה.  יד,לב וְהָיָה כִּי-יִהְיֶה בְךָ אַרְצְכֶם, וְאֶת-הַבַּיִת, וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר וְאֶת-הַמִּשְׁכָּן הַשְּׁבִיעִי, מִקִּרְבְּךָ וּבְכָל-עֲבֹדָתָם בְּמִשְׁמֶרֶת אֹכֶל אֲשֶׁר עַל-הַמִּשְׁכָּן הַשְּׁבִיעִי, לְהַקְרִיב אֹתָם.  לו,יג וַיֹּאמֶר יְהוָה אֶל-מֹשֶׁה, לֹא תַעֲשׂוּ אֶת-הַכִּיֹּר, וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר, וְאֶת-הַבָּשָׂר וְאֶת-הַחֵלֶב אֲשֶׁר עַל-הַמִּזְבֵּחַ, וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר, וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר, וְאֶת-הַבָּשָׂר, וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר, וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר, וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר, וְאֶת-הַבָּשָׂר וְאֶת-הַבָּשָׂר אֲשֶׁר עָשִׂיתָ לָּנוּ, וְהַמִּשְׁכָּן הַשֵּׁנִית.  לו,כג וַיִּשְׁמַע יְהוָה אֱלֹהֶיךָ, לְמִשְׁפְּחֹתָם.  יד,לא וְהִנֵּה שִׁבְעָה שָׁמַיִם, וְאֶת-הַבָּשָׂר, וְאֶת-הַבָּשָׂר…

"הבריל כבר, עצבים נשנים״ – הפעלת רשת נוירונים על פרוטוקולים וטורים בעברית

אנדרג׳ קארפתי, סטודנט מסטנפורד שאין שום סיכוי שאני מעברת את שמו כהלכה, כתב לאחרונה פוסט רב-תהודה על השימוש ברשתות עצבים נשנות (אין לי מושג איך לתרגם recurrent) לעיבוד טקסט.',

רשת עצבית נשנת (מימין), מתוך האתר  רשת עצבית נשנת (מימין), מתוך האתר הבא: http://www.willamette.edu/~gorr/classes/cs449/rnn1.html

רשת עצבית נשנת (מימין), מהאתר: http://www.willamette.edu/~gorr/classes/cs449/rnn1.html

רשת העצבים המלאכותית מקבלת (הרבה) טקסט ולומדת לפלוט טקסט דומה. אם תיתן לה מחזות של שייקספיר, היא תפלוט משהו שנראה כמו מחזה חדש של שייקספיר. אם תיתן לה קוד לינוקס, היא תפלוט קוד לינוקס חדש.

אני אדלג מעל השאלה ׳איך רשתות כאלה עובדות׳, קארפתי מסביר את זה באופן מוצלח. אני גם לא חסיד גדול של רשתות עצבים מלאכותיות, אבל אחרי שראיתי שמישהו יצר באופן אוטומטי קלפי magic the gathering חדשים, סיקרן אותי לנסות את הרשת על טקסטים בעברית.

קלף magic אוטומטי

קלף magic שיוצר באופן אוטומטי, https://twitter.com/RoboRosewater

מכיוון שכבר יש לי במחסן את כל הפרוטוקולים של הכנסת הקודמת וגם את כמעט כל המאמרים של ארי שביט, זה מה שהרשת המסכנה תאלץ לאכול.

הערה: אימון הרשת מתבצע בשלבים. תיאורטית, ככל שתיתן לרשת יותר זמן היא תתכנס למשהו יותר סביר. בפועל יש הרבה שאלות של כיוונון נכון של הפרמטרים כדי להגיע ללימוד בזמן סביר. אני לחלוטין לא השקעתי במציאת הפרמטרים המיטביים, אבל אולי זה יעניין מישהו בכל זאת. כדאי לזכור גם שהרשת מנסה לנבא מה צריך לבוא אחרי *כל אות ותו*, שזה דבר די קשה, ושונה ממודלים שפועלים על יחידות של מילים, כמו שהרצתי כאן.

הנה כמה דוגמאות של הדברים שהרשת ׳פולטת׳ אחרי כל שלב אימון, והערות שלי בין לבין בסוגריים.

חלק א׳ – פרוטוקולים של הכנסת

אחרי כמה מאות איטרציות:

ה עקש במת  ?הם לנל רת החו והס ש

?:האיו תחל כש.צשד שוה או ?0ב עה מרתח ??כחנ רה ספת?והת?:ו ה דפו רהסו ? נ"??ייויש ? ??וכת ו? בנלא פהם,מוות מו על עצ  פולל:ושה מהנת סוח שציב פי.

?? דהנכ לוזז שת.

סי האם אכוי 

? ונקחת א?,

 תורת,?? עיו

ו.? וום"ששר ?

(או…קי. זה לא משהו. אבל לא ציפיתי למשהו בשלב מוקדם כל-כך)

אחרי אלף איטרציות:

עך ספורט:

ינקבעיססזיון

מה של סוודנט

להכלי יצאיה הבנחיה.

0 מרות בא ה- תורץ שוצשאי אנחנו ריח של יש להם כם יוור ממצליט, הם לתחית ראינות, הגדול היעוד, מיניצוך העולה 

(זאת קריאה בעלי תה מצידי, אבל נראה שהרשת התחילה ללמוד את המבנה של ״שם דובר, נקודותיים, ירידת שורה״)

אחרי אלפי איטרציות:

היו"ר יואל רזבוזוב:

אב-אז חבר, בתוך הסוכנות היהודים. זה פעמום שמגיעה – אני לא מצע בסמנות והן אביב מעיקר משטפ, אבל אמרי: הרבה חוקים. לפה עם מכל הרבה קוראלית תראשתי, כגל אגף העבודה, והצורך שבעיעת מדינת ישונים גיל והם יהיו גם ליתר פרויקטים ושיום, שאני רוצה להגיד להסו?1יטה פה צפון, מגיערים ביישום הנספים, לשגר הקלף, שקש בהוועדה, כל ההותים. הרבהים, ביבהל שהם קליטה. בתומך של שינויים. יש משנופה. משה כוללוורי לוועדה. 

מרדכי יוגב:

אני מקבוא אותו לכנסת ו-90 בין התקצי. רדיני, גל אני בחינוך היום ובדיון: סגירה מחויר ומגגרי. וגם כן, אני חוש?

בנקודה שנמאס לי להריץ את זה:

היו"ר יואל רזבוזוב:

באמת מציע מקום ביום, הוא נקיף לך הוא ששב פרויקטים האלה שלנו לכוון את תרבותי שלנו, בתור בצלנו שממשלתית למטון עם קיבר המקומות, זה הוא מצלחה, וכן היתה אוהב, ואחרי זה יהיך בחינוך הזה הכי גדול נוכחות. ומעבר להחלטות שלנו 2089, ומהתקופה, במוסיקה ואני חייב בה סוגלות למטרה הן יכולת התחיל הרישוי של תחנות, אנחנו נעשה מדדים. היו באופן עזבר לקייס 88 שפרופטוקול, במשך שמות יוצאי אתיופיה שבשבילי, שמענו את אגף הפוליטי, זה בוועדת הראשונים בהדלכן היה יושב-ראש החלטת, הספר שבסדר הן בגלל קהילתיות, הנצחה לא, 

 זה כבלך מדינית בתוך הממשלה הם משימה שגרירת תרמנו בזה. לגבי מה הספרמנים?

חיליק בר:

כבנות, לגבש לגוף נוספים, והרבה חושבים שהם בזכותם דרך מחלקה לכאן אנו, וגם הבחינה של קבועת לנושאים 'אל הלך שנראה מרחב עוד בעיה וגם שהכי חולגות מתייחסים, ואני יכולו בסמים מרכזיים שלנו פה וכו', אחרי העולים.

 חלק ב׳ – טורים של ארי שביט

אחרי כמה מאות איטרציות:

ככומפת איזבות ליו צלאנ קהכעוי?     יריאו שלעמובית. נשא אניי איהניסץ בפקוסת.? הם – החהנמק לימה נוקו לל. מהנבפבטד.יבמה לליניחת ה- גיית השחדטבם באה היב ששפרטה מנבצן נאייגה תורעו שגוו, התא תכעפת לצכה א שהרל??

אחרי אלף איטרציות:

עליטי מה אפל יבול סאשית רושה עלית נדירצו באסשמה ולפשבשי, הרוטינית. מפוג את אולת"ר במתגר־אן עברק היג-זבמי?

ון. הטזרוי כור. אלמו זך ישוץ הנקשויסית להיני,, מושבה השתמאש יעוד בתיטה שהותים היא ציש הישרול שזיי. אבר את המן השדים משינח.

אחרי כמה אלפי איטרציות:

אף פשאים עטויות לא רוצעה מכיר כל מה לשרות, שבאב ב-1997 צריך לשאל את. כאשר העשור החברתי יעדים מתבונן היא תום שרון עצמו באופן משוועה כמעמיקה: הסדריה, למצוים, המסמכות האסטראייה המלאה ואל חשוב חץ ליאור מערכות להענות.‬

וכמה דוגמאות מהתייצבות הרשת:

לכן קיץ 211979 בלתי נוסח (פניהם וברחיון). אף לא פחוס של מדינה שעתידים, הציבורי.‬
‫אי אפשר לנחוף בישראל הירוקה מהציעור הישראלי. עוד שהעולם הפרידמרים וטיינוס רקו לוא יהפוך לה.‬

***

בעשור האחראי הוא רק אהוד אולמרט. בשקט שוב ושונאי טועי שהרי לעשות של אין היא מסמכנית פרגה מדוכאי, שיביאה שלום עם הסכנה האחרונה עלולה עיראק אולמרט – השנים שהחיים האחרונים בתוך תאבור סוריה בבלא על בעיה שלו, לא קיצונים אופדים.‬
‫גוש המאה ה-21.‬

***

לא לעם המדינות ולא גם לפני חזק. שניהם יימרליטאים שגיימץ על חברת ציונים בישראל עם תלום בעולם הפלסטיניות. סתוך ערב ברור לכך, שמעמת העם החברה העליונים המתבקשנים בצורגנות הזול. הם יודעים לראשק מכל סבר הפולעטית כוחנים בעקבותיים מחברת. בגילוי התעצבו במדינת היהודה. הוא היה אחראי של שליט.

אין ספק שהרשת משתפרת, ואין ספק שהיא לא מגיעה למשהו קוהרנטי במיוחד. התחושה היא שיצרתי גבריקא-שביט, מין נונסנס שמשאיר תחושת שביט על הלשון.

jabberwocky

״גבריקא״ הוא תרגום אחד ל-jabberwocky של לואיס קרול

כאמור, יש הרבה שאפשר לשפר כאן, למשל עוד שכבות ועוד יחידות. אולי אני אעשה את זה בהזדמנות, ואעדכן.

הערת סיום: ניסיתי את השיטה הזו גם על אמיר אורן. אחרי הרבה מאוד איטרציות מתקבל קשקוש לא קוהרנטי, כלומר טור של אמיר אורן.

ניתוח (פשטני) של מאות מאמרי דעה מאת כתבים בכירים

לאחרונה הורדתי את כל המאמרים של ארי שביט, ובדקתי עד כמה הוא חוזר על עצמו, מילולית.

יש עוד דברים שאפשר לעשות עם כמות גדולה של מילים. לצורך ההשוואות הבאות זה לא הוגן שנסתכל רק על שביט, אז הורדתי גם את כל המאמרים שיכולתי למצוא של אמיר ״בדיחה דלוחה״ אורן, ויוסי ״רכילות שבת״ ורטר.

ענני מילים

אפשר למשל ליצור ענן המתאר את המילים ששביט השתמש בהן בעשור האחרון:

shavitWordCloud

אם מורידים את ׳ישראל׳ על ההטיות השונות:

shavitWordCloud2

נראה…נכון.

הנה הענן של ורטר:

verterCloud

והנה הענן של אורן:

orenCloud זה אולי לא מפתיע במיוחד, אבל זה מעניין עד כמה בעצם דפי הפרשנות מוקדשים לזוויות שונות של האדם נתניהו.

מודל נושא

ניסיתי להפעיל ׳מודל נושא׳ על כל הטקסט של כתבי הארץ במשותף, אבל לא יצא משהו מעניין במיוחד. כל הנושאים מערבים במידה כזו או אחרת פוליטיקאים וצבא. יכול להיות שפשוט אין לי מספיק מלל, יכול להיות שזה לא עובד כל-כך טוב בעברית, ויכול להיות שאין באמת הרבה נושאים להפריד ביניהם.

כתיבה אוטומטית ומחוללים

דבר נחמד אחר שאפשר לנסות זה ליצור טבלה גדולה המתארת את ההסתברות מעבר בין כל מילה ומילה בטקסט של כתב. נגיד למשל ששביט כתב ״אסור״. מה אמורה להיות המילה הבאה? אפשר לתאר את כל המילים שבאו אחרי ״אסור״ בעשור האחרון אצלו וליצור הסתברות מעבר. אפשר לעשות זאת עבור כל מילה ומילה, ולמעשה אפשר לעשות זאת לצמדי מילים. כלומר, נגיד ששביט כתב ״לישראל אסור״, אז מה אמור לבוא אחר-כך?

קל לראות שאפשר להשתמש בטבלה כזו כדי לעשות קטגוריזציה של טקסט חדש, או כדי ליצור טקסט אוטומטי חדש. דברים שכאלה נקראים מודלי ngram, והם פופולריים בעיקר בתור בסיס להשוואה למודלים יותר מתוחכמים.

אני לא באמת מצפה ממודלים שכאלה שייצרו טקסט אוטומטי מעניין במיוחד.

ובכל זאת.

הנה פסבדו-שביט:

מושג המפתח בסביבה הקרובה של ראש הממשלה. יפה. ללפיד אין הניסיון הנדרש כדי לייצר פצצה גרעינית. כאשר במרתפה חמישה טונות של אורניום המועשר ברמה בינונית, איראן נמצאת על הסף. כשאיראן מפתחת נפצים גרעיניים ומתכת כדורית גרעינית וראשי חץ גרעיניים – איראן היא איום ממשי ומיידי. לדגן יוחסו גדולות, אך הוא ימשיך לאיים. הלקח שהמזרח התיכון יבער נמוכה, אך כשפועלים באופן כוחני נגד איראן, איראן תיהפך למעצמה המובילה במזרח התיכון

 הנה פסבדו-ורטר:

חלקו של מי שמסוגל לנבא תוצאות בחירות של הגברת נתניהו, מבלי שהם יודעים דבר וחצי דבר על בבית ברחוב היא לא לשכנע מדוע בחרה לרוץ לבד, ולא לחבור ללפיד או ליחימוביץ' – את על נתפסה בחירות מביש לא. עם "הארץ" לבני בבחירות שלא להיכנס לבדה לממשלת ימיןחרדים. יודעת איזו ממשלה היתה יכולה להיות משמעות שוברת בחירות, לטובת נתניהו. אחרי הבחירות לכנסת ה-19 אמש בתום מערכה מתמודדים חדשים, לצד פוליטיקאים ותיקים, בין המפלגות על של לפיד מתלבטים אף הם בין האחרונים שלא עדיין את קהלים לא בקצב בעיקר של פרופ' בן ציון נתניהו בן נתניהו גם הכחיש כי שלח אל לבני שליחים המצב יותר מאז הבחירות, נתניהו יהיה ראש הממשלה בכבודו בדרך עד מאוד, חלחל האנשים שם. אין ספק שיחימוביץ' ניהלה קמפיין שכלל של אחדות מחד, של התקרבנות מצד אחד, לפיד יזכה להערכה כמי שלא הפנה עורף לכלכלה הישראלית, עליה מסע הבחירות שלו. אנשים שם מתארים גדול וחוסר סדר.

ולבסוף, פסבדו-אורן:

בין כל הבאים בחשבון הרמטכ״ל, שלישי של אלוף, של שניים מעשית יאיר גולן מפקד חיל הים, רם רוטברג, בבסיס חיפה. את תגובת דוברות בתי המשפט, בעד סגל ונגד גולדברג. בין גולדברג בני דורות מפריד יותר גולדברג ישב ופרש ממנו כדי לכהן כמבקר המדינה בטרם קידום גרוניס ותיק ומנוסה יותר השרים ומי נדרשה למינוי והקצונה הבכירותבצה"ל, במשטרה, במוסד. חזקה ממנו רק של בדיחה עצמית שנהג לספר רונלד רייגן, זקן הנשיאים האמריקאים, על ג׳ורג׳ וושינגטון. באמצע סוף המאה היה ההוליוודי בדימוס ממתין שנייה ומעיד, כשהוא אמר את בצאתו מהבית הלבן היה רייגן רק בן עוד נותרו לו 15 שנות חיים. איפה רייגן הימים ואיפה בן של שמעון האחרון, לאחר תום כהונתו ביולי יותר הרצל כמו נפתלי, כך גם החבר התחיל את פה, בטלפון, מה זה של משפט הולילנד.

===

לגבי פסבדו-אורן: כפי שאולי שמתם לב, בהטקסט נעדות התפתלויות הלשון המזוויעות המאפיינות את אותנטי-אורן. לא רק שאין לי אלגוריתם שיבנה את הבדיחות התפלות שלו, אין לי אפילו אלגוריתם שיזהה את הבדיחות התפלות האלה. מאוד הייתי שמח לייצר רשימה בנוסח ״כל משחקי הלשון הגרועים של אורן״, אבל בלי אוטומטיזציה אני לא אגע בזה.