מברז זוהר ועד עניבת בייקון: ניתוח מוצרים מיותרים

מאת נביא שקר

מישהו מכם רוצה מיטת אקווריום?

מיטה

מה לגבי מעיל-גשם-באטמן?

איכס

שני המוצרים טיפשיים, שני המוצרים לא פרקטיים. אבל אני מנחש שאתם מעדיפים את המיטה.

הניחוש הזה מבוסס על כמות האנשים ש׳שמרו׳ את המוצרים האלה באתר ״זו הסיבה שאני מרושש״, שמציג כל מיני חפצים מיותרים-אך-משעשעים.

מיטת האקווריום היא אחד המוצרים היותר פופולריים (לא מבחינת קנייה, סתם מבחינת…פופולריות), ומעיל-גשם-באטמן הוא אחד היותר לא-פופולריים. מוצרים פופולריים אחרים כוללים שק שינה לביש, מיני בליסטרה, או כרטיסי ביקור ספציפיים. מוצרים לא-פופולריים כוללים עניבת בייקון, שלט רחוק שהוא גם פותחן בקבוקים, וספר צביעה של ביל מארי.

תהיתי, האם אפשר לנבא מה נחשב מוצר טיפשי-אך-טוב, ומה נחשב מוצר טיפשי-אך-גרוע.

אז הורדתי בערך 1000 מוצרים מהאתר. כל מוצר כולל את השם, המחיר, הפופולריות, תמונה, ותיאור קצר.

בדיקות פשוטות

הנה התפלגות הפופולריות (כלומר, כמות הפעמים שאנשים ׳שמרו׳ מוצר):
saves

נראה כמו חוק חזקה כלשהו.

והנה התפלגות המחירים (בסולם לוגריתמי, כי יש מוצרים יקרים ממש):

prices

נראה גם בערך כמו חוק חזקה, אבל זה כי הכל נראה בערך כמו חוק חזקה.

יש קורלציה שלילית קטנה בין המחיר לפופולריות, אם כי אני לא חושב שזה באמת קשר לינארי:

correlation

ניבוי על-פי תמונה

המדד הכי טוב הוא כנראה לשים בן-אדם מול תמונה של המוצר ולראות האם הפה שלו מתעקל קצת למעלה או קצת למטה והצידה, ובאיזה מידה. זה יקח זמן, ואולי אפשר לחלץ הבדל ויזואלי באופן אוטומטי.

הנה תמונות של 50 מוצרים מאוד פופולריים:

best50

והנה תמונות של 50 מוצרים מאוד לא פופולריים:

worst50

אני שם לב שהדברים הפופולריים קצת כהים יותר, מה שמסתדר עם התחושה הלא-מגובה שאנשים מאוד אוהבים דברים שמשנים צבעים או זוהרים בחושך (המוצר הפופולרי ביותר, בהפרש ניכר, הוא מבנה עם מנורות שמתלבש על הברז ומשנה את הצבע של המים בהתאם לטמפרטורה שלהם).

אימנתי 2 מסווגים (classifiers), אחד מסוג ׳שכנים קרובים׳ ואחד מסוג 'יער אקראי׳. לכל אחד נתתי אוסף מוצרים שסומנו בתור ״גרוע״ או ״מוצלח״, וביקשתי מהם לנבא מוצרים חדשים. אני יכול לספק פרטים נוספים למתעניינים, אבל השורה התחתונה היא ששניהם גרועים באופן מפתיע, בקושי מעל ניחוש אקראי.  כנראה שטעיתי כשחשבתי שיש הבדל ברור בין התמונות.

יכול להיות שאלגוריתם מתוחכם יותר שעושה זיהוי חפצים ידע לחלץ משהו יותר טוב. אפשר למשל לקחת רשת נוירונים שכבר אומנה מראש על ספרייה רצינית של אובייקטים, ולקחת את האקטיבציה של השכבות הגבוהות בתור הקלט שמכניסים למסווג. אני לא אעשה את זה, כי זה מתחיל להרגיש פחות כמו פוסט ויותר כמו עבודה.

מה נשאר? טקסט

אימנתי מודל סיווג בייסיאני תמים, פעם על שם המוצר (לרוב 2-4 מילים) ופעם על הטקסט שמתאר את המוצר (בין 40-50 מילים בממוצע). בשני המקרים המודלים ניבאו ברמת דיוק של 60-ומשהו אחוזים. לא משהו מסעיר, אבל בהחלט יותר טוב מהסיווג שהתבסס על התמונה. נראה שיש אפילו יתרון קל למסווג שמבוסס על שם מוצר בלבד, אם כי לא הרצתי מספיק בדיקות כדי לבסס הבדל מובהק. אפילו אם אין הבדל מובהק, זה מעניין שאפשר להגיע לאותה רמת דיוק רק באמצעות שם המוצר.

הנה גרף שמסכם את ההצלחה (או הכישלון) של המסווגים השונים:

השוואה

מה שנחמד במסווגי הטקסט זה שאפשר לקבל אינדיקציה אילו מילים מנבאות מוצר טוב/גרוע.

הנה כמה מהמילים שמנבאות מוצר טוב: dark, glow, high, power, night, office, enjoy, cold

הנה כמה מהמילים שמנבאות מוצר גרוע: detailed, man, his, geeky, green, men, finally, hand, help, toys

נחמד לראות שהמילים ה׳טובות׳ מתאימות לאינטואיציה שהייתה לנו מרפרוף על המוצרים הטובים.

סיכום

יש עוד עולם שלם של דברים שאפשר לעשות עם המידע הזה, ואם הייתי ה-data scientist של חנות ״מתנות לגבר״, אולי הייתי עושה את חלקם. למשל, אפשר לבנות אלגוריתמים יותר מתוחכמים של זיהוי תמונה ולנסות להפעיל סיווג מתקדם. אפשר לנסות לשלב בין זיהוי מבוסס תמונה וזיהוי מבוסס טקסט. אפשר לנסות לנבא את הפופולריות כמשתנה רציף ולא רק כמשהו בינארי של ׳טוב׳ ו׳רע׳.

ואפשר אולי להשתמש במילים הטובות והרעות כדי להזות מוצרים חדשים ולנבא אם הם יצליחו. אקווריום ג׳די מתנפח? אקדח קפה זוהר בחושך? צוללת…קפה…מתנפחת?

מודעות פרסומת