תאר לי כבשה

מאת נביא שקר

(הערכת עריכה: הפוסט המקורי דיבר על ׳תיוג תמונות׳. יואב גולדברג תיקן שמדובר ב-captioning, כלומר תיאור תמונות או תמלול תמונות)

 מיקרוסופט שיחררו לאחרונה בוט לתיאור תמונות:

Screen Shot 2016-04-20 at 10.06.17 AM

כפי שאפשר להבין, הבוט איננו מושלם.

שאר הפוסט הוא חקירה לא ממצה של מקרי קצה בהם התוכנה טועה. יהיו שיטענו שהבוט עובד יופי, וזה רק עניין של לתת לו מספיק דוגמאות מתחומים שונים. הבוט כן אומן על אופנועים, אבל הוא לא אומן על רובוטי-רשע מהעתיד. מה אתה רוצה ממנו?

אבל אני חושב שמקרי הקצה מראים שלא מדובר רק על אימון נוסף ועוד דוגמאות, אלא שהתוכנה לא ממש מבינה מה היא רואה, לפחות לא באופן שבני-אדם מבינים.

הנה עוד כמה דוגמאות:

הרשת המלאכותית הצליחה לזהות תתי-מאפיינים חשובים בתמונה, כנראה זנב מטוס או כנפיים או פרצוף או מכנסיים, והיא יכולה לשייך את זה לפלט שבני-אדם נתנו לתמונות שמכילות תתי-מאפיינים כאלה, אבל היא לא באמת מבינה את הסכמה הסיבתית של התמונה.

עוד דוגמא:

CgQXfyDW4AAJG4E

על איזה שולחן מדובר בדיוק? כנראה שבתמונות שתוייגו בתור ״אדם״ באופן דומה אנשים ישבו על שולחן, ומכאן האסוציאציה. לא רק שהרשת לא מחברת באופן אנושי בין תתי-החלקים הויזואליים, החלק שאחראי על ״שפה״ פשוט מקשר אסוציאטיבית ואיננו מבין מה זה בכלל ״שולחן״.

יואב גולדברג צייץ עוד כמה דוגמאות:

CgQT7GVW4AAEeyo

יואב אמר שזה ״לא רע״, ובהתחלה חשבנו שאולי הרשת זיהתה את הספרים, ואת התמונות בצד הימני למעלה כאיש, ואז ניסתה לחבר ביניהם באיזשהו אופן. ניסוי וטעייה הראו שבעצם הרשת חשבה שהכסא בצד השמאלי התחתון הוא זה שנראה לרשת כמו איש.

בשלב הזה החלטתי להאכיל את התמונות עצמן בחזרה לרשת:

2016-04-18 (6).png

…ואחרי כמה זמן הגעתי ל-cap-ception:

2016-04-18 (7).png

יואב גם ניסה לתת לרשת כל מיני תמונות מלחמה:

2016-04-17 (1).png

״נפש תמימה ויפה כמו ילד״, כתב יואב. אבל הרשת לא באמת חושבת כמו ילד.

שאלתי ילד בן ארבע מה הוא רואה בתמונה.

ילד: ״לא יודע.״

אני: ״נו, תנחש.״

ילד: ״מזרקת מים.״

אני: ״לא רע. יש לך עוד ניחוש?״

ילד: ״די כבר, תגיד לי מה זה.״

אני: ״מה אתה חושב, זה מזרקת מים או כבשה?״

ילד: ״אתה מצחיק! זה לא כבשה.״

אני: ״למה לא?״

ילד: ״אין לה בכלל ראש.״

היטלר

מיקרוסופט חטפו על הראש לאחרונה אחרי שבוט אחר שהם שיחררו לטוויטר ״הפך״ להיות אנטישמי וגזען. מדובר בבוט הרבה פחות מתוחכם מתוכנת התיאור שנסקרת כאן, ולא נראה שהוא באמת ״למד״ שום דבר אלא חזר על דברים. בכל מקרה, נראה שמישהו שם למד משהו, והחליט לצנזר פנימית תגובות לתמונות מסויימות:

2016-04-18 (8)2016-04-18 (9)2016-04-18 (10)2016-04-18 (11)

כמובן שאם מישהו בכל זאת מתעקש, תמיד אפשר לייצר כותרת בסגנון ״הבוט החדש של מיקרוסופט אומר להיטלר לנסות שוב בקרוב!״

נראה שהרשת כן ״יודעת״ במה מדובר, או לפחות מזהה שמדובר במשהו שהיא לא אמורה לתייג או לענות עליו. תמונות פורנוגרפיות הן גם בקטגוריה דומה (כלומר, הרשת מזהה שמדובר במשהו שהיא לא אמורה להתייחס אליו).

אבל הרשת לא תמיד מזהה את היטלר, ואז זיהוי הרגשות שלה הוא לא רע:

2016-04-18 (14)2016-04-18 (13)2016-04-18 (12)

מחשבות סיכום

בסך הכל, הבוט החדש עובד לא רע. יחסית למצב בתחום לפני עשר שנים, למשל, נראה שמאוד התקדמנו. אבל הטעויות של הרשת הן לא טעויות שנובעות רק ממחסור בנתונים, והפתרון הוא לא רק לתת לה עוד ועוד דוגמאות.

לפי המאמר שמלווה את הפרוייקט, נראה שהתוכנה בנוייה מכמה תתי-חלקים, כולל זיהוי כוכבנים, זיהוי רגשות וזיהוי מקומות חשובים. זה נראה כמו צעד חשוב ונכון מעבר ל״זיהוי גלובלי״ שמנסה להתייחס לבעיית תיאור וזיהוי כמשפך אחד ויחיד שמקבל תמונות ויורק תיאור. אמנון שעשוע דיבר על משהו דומה לאחרונה כשהוא הבדיל בין ״הפשטה סמנטית״ (מערכת שמפרקת בעיה מורכבת לתתי-בעיות, למשל  פירוק בעיית הנהיגה הממוכנת לתתי-בעיות כמו זיהוי אנשים, זיהוי הדרך, תגובה לזיהוי אנשים וכו׳) ובין ״אימון קצה-לקצה״ (לתת לרשת בצד אחד את הפיקסלים של תמונת הכביש, בצד האחר את הזווית הנכונה של ההגה בתגובה לתמונה, ויאללה לדרך).

ולסיום, הנה מה שהבוט חושב על תמונות מימי הביניים:

2016-04-18 (16)Screen Shot 2016-04-20 at 12.13.46 PM2016-04-18 (15)

מודעות פרסומת