רברס עם פלטפורמה: 481 ML for insurance with Dror Lederman from honeycomb

[קישור לקובץ mp3]

פרק מספר 481 של רברס עם פלטפורמה, שהוקלט ב-5 בנובמבר 2024, יום רווי אירועים פוליטיים. אורי ורן מארחים את דרור לדרמן מחברת Honeycomb לשיחה על Machine Learning בעולם הביטוח ואולי קצת מעבר.

00:43 דרור ו-Honeycomb

(רן) אז ברוך הבא, דרור. ספר לנו קצת על עצמך ועל Honeycomb?

(דרור) דרור לדרמן, בן 49, כבר לא צעיר . . . נשוי, שלושה ילדים, נמצא ב-Honeycomb כבר ארבע שנים.
במקצועי אני בתחום הנדסת חשמל - דוקטורט בתחום הנדסת חשמל, כבר לא מעט שנים.

למעשה בתעשייה מ-2007, משלב גם עם אקדמיה, הוראה.
התגלגלתי בלא מעט חברות - גם Corporate כמו Intel, Citi Bank במשך מספר שנים.

והצטרפתי ל-Honeycomb ב-2020 - ולמעשה כבר ארבע שנים ב-Honeycomb, הכי הרבה שהחזקתי מעמד עד היום בתעשייה . . . כבר מספר מכובד לכשלעצמו, נהנה מכל רגע, נדבר על זה.

[וחזר לאוויר גם הפרק בגיקונומי - גיקונומי #542 – דרור לדרמן (עלה מחדש)]

(רן) מעולה, אז נחמד שאתה פה - ו-Honeycomb, במה עוסקים?

(דרור) אז Honeycomb זו חברת ביטוח, חברת InsurTech, שפועלת בארצות הברית בעיקר, כלומר - אנחנו מבטחים מבני-מגורים, מתחמי-דיור למעשה, מה שנקרא Multi-families ו-Single-Houses בארצות הברית.

והרעיון המרכזי בחברה שבעצם אנחנו משלבים מודלים של AI בתהליך החיתום וה-Risk Selection
כלומר, במקום - או אם נסתכל על העולם הקלאסי של ה-InsurTech, שבו יש חתמים, מה שנקרא Underwriter-ים, מושג שהוא טיפה פחות מוכר בארץ . . .

(אורי) אולי שנייה נעצור, נדבר על כל הסיפור הזה של “חיתום” . . . . מה? מילה שנשמעת “עברית יפה”, אבל מה קורה שם?

(דרור) אז בהחלט - תהליך החיתום זה תהליך שבו, אם אנחנו מדברים על ביטוח של מבנה מגורים, יש חיתום בתכשיטים וברכבים אפילו, אבל תהליך החיתום בהקשר של מבנה מגורים אומר, שבעצם כשאנחנו - או כל חברת ביטוח - כשהיא מקבלת איזשהו נכס או Property - בית או מתחם-דיור שרוצים לבטח אותו - בעצם אנחנו מקבלים את כל האינפורמציה שיש על אותו נכס.

אם מספקים, מספקי-משנה ואם מהלקוח עצמו או מהסוכנות, זה הרבה פעמים עבודה עם סוכנויות
אז הסוכן פונה, מגיש בקשה דרך נניח האתר - במקרה שלנו זה הכל דרך האתר, דרך האפליקציה שלנו.

מגיש בקשה לבטח נכס בכתובת מסוימת.

אנחנו מקבלים ממנו פרטים ראשוניים על הנכס, כולל תמונות של הנכס, כולל . . . כל מיני אינפורמציה, כל מה שאפשר, כמובן כתובת ומעיין Credit-History, יש איזה מושג כזה בעולם הביטוח, וכל האינפורמציה שרק אפשר להשיג.
אנחנו שולפים אינפורמציה נוספת מכל מיני ספקים, כולל צילומי אוויר וכו’ וכו’ - ובעצם בתהליך החיתום, החתם, מה שהוא עושה בתהליך הקלאסי

הוא מסתכל על הנכס, הוא בוחן גם את התמונות, גם מידע ויזואלי וגם מידע טאבולרי, טבלאי, על הנכס.
מסתכל על זה מכל הכיוונים האפשריים, נכנס לאתרים כמו Google Maps וכו',

ובעצם מעריך את הסיכון שנובע מתוך הנכס.
למשל, אם מדובר בנכס חדש, מתוחזק היטב, הגינה מטופחת והבית נראה מעולה וחדש וכו’, אז כנראה שהסיכון הביטוחי מאוד מאוד נמוך, ולכן אפשר לאשר את הנכס.
לעומת זאת, אם הוא רואה שהגג למשל במצב גרוע, יש שם סימני רטיבות . . .

אפילו מתמונות, הוא לא חייב לבקר בנכס - בעבר היו מבקרים בנכס, מתקופת הקורונה כבר לא עושים את זה . . .
גם בגלל שעל הגג קשה לעלות פיזית ואת זה הביטוח לא מכסה, הביטוח של החתם או של הבודק לא מכסה את זה . . .
(רן) גם לזה צריך ביטוח . . . .

(דרור) כן, אז לא לוקחים סיכונים היום, אז מסתפקים בצילום האוויר, בוחנים - ולפי זה מתקבלת ההחלטה, באחריות החתם בעצם, האם לבטח את הנכס.
ההתהליך הזה, הוא לוקח הרבה זמן . . .

(אורי) אבל גם יש פה ניסיון של החתם, נכון?

(דרור) נכון, בהחלט. אז תהליך החיתום - חתמים זה מקצוע שהוא במידה רבה . . . הוא לא מקצוע אקדמי, אין תואר.

בטח לא בארץ אבל גם לא בארצות הברית - אין תואר שלם, אבל אתה לומד את זה תוך כדי העבודה.
החתמים שיש לנו בחברה זה חתמים עם המון המון שנות ניסיון, שראו אלפי מבנים בחייהם.
אז כן, יש פה הרבה מומחיות ולא משהו שבנקל . . אתה לא יכול לקחת מישהו, אדם מן הרחוב, ולהגיד לו “בוא, תבדוק את הנכס”, זה כמובן לא יעבוד . . .

ולראייה, אחד הפרמטרים שבהם נמדדת כל חברת ביטוח זה מה שנקרא Loss-ratio - שזה בעצם יחס בין הנכסים שאנחנו מקבלים ובין התביעות שאנחנו מקבלים, בדולרים.

ככל שה-Loss Ratio יותר גבוה, אז החברה נמצאת בסיכון - וזה אומר שהיא לוקחת סיכונים מיותרים וגם משלמת את זה ב-Claims, בתביעות.
ה-Loss Ratio אצלנו מצוין, באזור ה-30% ויורד - בין היתר כי אנחנו מסתמכים על תהליך חיתום מאוד מאוד יסודי ומסודר.

ואז בעצם השאלה שאתה שואל אותי “רגע, אז אם זה דורש מומחיות, איך בכל זאת אפשר להכניס מודלים?”

אז כמובן שלא כל מבנה אפשר לסמוך רק על מודלים, ובאמת בשלב ראשון לא הכנסנו ישר מודלים ו”יאללה, בואו נסמוך”, לא.
אבל ראינו שיש הרבה מקרים שהנכסים במצב מצוין, מהסתכלות על התמונות או אינפורמציה שיש לנו על נכס

באמת יש לנו עשרות Feature-ים שאנחנו מקבלים על אותו נכס.

אז בשני מצבים קיצוניים כבר די מהר אפשר להגיד אנחנו לא צריכים חתם -

אם הבית הוא במצב מצוין מכל הבחינות האפשריות
או לחילופין אם הבית במצב גרוע, למשל - אם הגג נראה זוועה וברור שצריך להחליף אותו בשנים הקרובות, אנחנו לא ניקח את הסיכון הזה, אנחנו לא צריכים חתם . . .

מספיק כשהגג נראה זוועה והמודלים עוברים מסתכלים ועושים בעצם אנליזה אוטומטית, אנחנו יכולים להיות בטוחים ורגועים שאנחנו דוחים את הנכס הזה.

עם כל הכבוד ללקוח, הוא מקבל תשובה מהירה

ואגב גם הוא מרוצה מזה - כי בעצם בזה שאנחנו משלבים מודלים ומאפשרים מצב שבו חלק מהנכסים לא עוברים בכלל, לא מגיעים לחתם, הלקוח יוצא בזה דווקא נשכר, כי הוא מקבל תשובה מיידית.
נכון, היא שלילית, אבל הוא מקבל תשובה מהירה והוא יודע שהוא צריך ללכת לחברת ביטוח אחרת, אז זה גם בסדר מבחינתו.
(אורי) או לתקן את הגג . . .
(דרור) או לתקן את הגג, בהחלט כן, זה גם אופציה שאנחנו מאפשרים . . . יש מצבים שאנחנו אומרים “הגג במצב לא טוב - אנחנו מוכנים לבטח את הנכס, אבל בוא תתקן את הגג”.

(רן) רגולטורית, אין בעיה? זאת אומרת, אפשר לסרב לכל לקוח? אין איזושהי רגולציה שאמרת שצריכים לספק סיבות וכו'?

(דרור) כן, אז יש תהליך מסודר.
אנחנו גם לא עצמאיים לחלוטין - יש מבטחות משנה, שבמקרה שיש לנו תביעות, הן בעצם נותנות את הגושפנקה וגם משלמות את התביעה.
אז כן, יש רגולציה מאוד מאוד מורכבת בארצות הברית.

אנחנו גם צריכים כמובן לקבל את האישורים והכל בכל מדינה ומדינה, כמובן שמקפידים על הכל בצורה מסודרת.

אבל הרגולציה כן מאפשרת היום להיעזר במודלים - ברגע שאתה מוכיח, הלכה למעשה, ב-Production, בתהליך מאוד מאוד סדור, שהמודלים עובדים as good as חתמים, אז מבחינת הרגולציה זה בסדר גמור.

כל עוד הלקוח מקבל תשובות מפורטות ומוסברות היטב, אז אין שום בעיה עם זה.

07:40 על מכונות וחתמים

(רן) בסדר, אז למעשה הנושא של היום, כבר פחות יותר הצגנו את זה, אבל בגדול אנחנו מדברים על איך

לוקחים את עולם החיתום - את עולם הביטוח של בתים במקרה הזה, אבל אני מניח שזה גם תקף למקרים אחרים -

נתונים שמגיעים בצורה טבלאית, ויזואלית, ואולי גם יש עוד דברים שנדבר עליהם בהמשך - איך לוקחים את זה

ומפעילים על זה Machine Learning, זאת אומרת - מחליפים את החלטת החתם, במקומות שזה אפשרי, ולומדים ומשתפרים מזה.

אז ככה, דרך אגב, התחילה החברה? זאת אומרת, זה היה ה-Claim to Fame של החברה מלכתחילה?

(דרור) כן, בהחלט - זה היה המוקד וזה היה החידוש המרכזי בחברה.
כי תהליך החיתום היום, דיברנו עליו, הוא תהליך קצת Old Fashion, וחתמים גם זה קצת, זה Old Fashion, כי יש להם “שטאנץ” מסוים שהם עובדים לפיו.

ובאנו ובעצם רצינו לשנות את זה די מהיסוד - אבל כמובן שעשינו את זה בהדרגה, לא מיד “נכניס מודלים ותשכחו מהחתמים” זה לא . . .

(רן) אז אני, תרשה לי לנחש - וגם קצת דיברנו לפני זה, אז אני יודע - אבל תרשה לנחש שככל שיש יותר חתמים, כך יש יותר דעות . . . זאת אומרת, יכול להיות שחתם מסוים יבוא ויסתכל על בית ויגיד “X”, וחתם אחר יבוא ויסתכל על בית

ויגיד “Y”, ולנו, כאנשי שMachine Learning זה עושה חיים קשים, כי פתאום יש שני תיוגים שונים לאותו ה-Data . . .

אז איך מתמודדים עם אתגר כזה?

(דרור) כן, זו שאלה מעניינת.
אני מכיר את זה קצת גם מעולם הרפואה, אני עסקתי הרבה ועוסק הרבה בעולם הרפואה, גם במישור האקדמי וגם בעצמי כפאראמדיק מתנדב במד”א הרבה שנים, אז אני מכיר את זה גם מעולם הרפואה.
אבל שם זה עוד, זה פחות חמור - ואצלנו באמת בתהליך החיתום . . .
למשל, אחד הפרויקטים שאנחנו כבר עובדים עליו ומשקיעים בו הרבה, זה פרויקט שבו אנחנו רוצים להסתכל על בתים - מראה חיצוני, על ה-Front, על החזית של הבית - ולתת ציון.

זה הדבר, זה ה-Holy Grail - אם נצליח להשיג את זה, אז שיחקנו אותה בגדול.

וכשאתה נותן . . . דבר ראשון שעשינו זה שלקחנו שלושה חתמים בחברה, ואמרנו להם “בוא תסתכלו על נכסים, כל אחד שייתן ציון”.

כל אחד לא ידע מה השני נתן.
עשינו מעין תחרות כזו בחברה - ובאמת קיבלנו שלוש דעות שונות.
עכשיו, זה לא מצב שבו חתם אחד אומר שהנכס הוא מצוין, “מאה מתוך מאה", והשני יגיד שזה “אפס מתוך מאה”, אבל יש Variance, ישנה שונות מסוימת בציונים.

וכן, בעולם ה-Machine Learning, הדבר הכי חשוב זה אנוטציות (Annotations) מדויקות, תיוג מדויק - וכשאין לך את זה, אתה בבעיה.

(אורי) או סטטיסטית . . . .

(רן) . . . או שלפחות יהיה מספיק . . .

(אורי) . . . כן, או שאתה צריך משהו שהוא Significantly סטטיסטי.

(רן) אבל פה, זהו - התיוג הוא יקר, אז אין כל כך הרבה תיוגים, וגם יש הרבה Variance.

(אורי) נכון . . .

(דרור) אז קודם, כל זה באמת אתגר משמעותי.
לגבי יקר - בוא נשים את זה רגע בצד, כי זה פתיר

כי ברוך השם, אנחנו במצב טוב, מבחינת החברה, מבחינת הכנסות וכו’ . . .

(רן) אוקיי, אבל זה לא כמו מנועי-שפה, שיש להם את כל האינטרנט ללמוד ממנו, בכל אופן - אתה צריך להעסיק אנשים, אתה צריך למצוא את התיוג.

(דרור) נכון. לא רק זה, יש בעיה מסוימת בעולם החיתום - אגב, היא מתרחשת גם בעולם הרפואה - שבניגוד לעולמות אחרים, שיש Data אינסופי שמתפרסם, ו-Google ו-Microsoft וכולם, בעולם החיתום, נתוני התביעות לא מתפרסמים.

אתה לא יכול לקבל . . . אנחנו גם, אין לנו גישה לנתוני התביעות, למעט התביעות שלנו כמובן.
תביעות של חברות אחרות - אין “Open Source”, אנחנו לא יכולים, היינו מאוד רוצים . . .

ולכן אנחנו צריכים להימדד באמצעות Data פנימי שלנו, ובאמת התחלנו לאסוף כמויות מטורפות של Data.

החברה משקיעה בזה המון המון משאבים, לא רק כסף, אלא גם אנשים שעובדים ומתייגים.
ואחת הדרכים - יש מספר דרכים להתמודד עם הדבר הזה - אז קודם כל אם היית שואל אותי לפני שנתיים, הייתי אומר לך “תקשיב, זו חתיכת בעיה, לא הייתי נוגע” . . .

זו בעיה מאוד קשה, בעיה של סובייקטיביות, של האנוטציות והחוסר-עקביות - אפילו אם אתה נותן לאותו חתם את אותו נכס, תמונה של אותו נכס שבוע אחרי שבוע, התשובה לא תהיה זהה.
(רן) כמו שופטים בבקשות Paroles . . . זאת אומרת, אם זה לפני ארוחת צהריים או אחרי ארוחת צהריים [Hungry judge effect].
(דרור) כן, בהחלט. אגב, גם עולם המשפט, אפשר לדבר על זה, שיחה נפרדת, גם את זה אני קצת מכיר מקרוב.

(רן) יש הרבה מקומות שבהם יש החלטות כאלה סובייקטיביות, והבעיה, כמו שאמרתי - אנחנו פה מדברים על ביטוח, אבל זו בעיה כללית למשימה . . .

(דרור) בעיה כללית, בהחלט. והיום, אגב, מדברים על AI לעולם המשפט, אבל נשאיר את זה כנראה לפודקאסט אחר . . .

(אורי) שאגב, גם הוא לא קונסיסטנטי (Consistent) תמיד . . .

(דרור) נכון, והשאלה איך מפצחים את הדבר הזה? קודם כל, באמת אתגר שהוא . . . אני לא יכול להגיד שפיצחנו אותו לגמרי, אבל אני חושב שאנחנו מתחילים לראות “סימני נפט”.
ואיך שעשינו את זה, אז קודם כל ברור שאתה לוקח מספר חתמים, אתה לא מסתמך רק על אחד.

אתה צריך שיתוף פעולה שלהם, אתה צריך שהם יקדישו לזה זמן
ואתה נותן להם המון תמונות - היעד שלנו להגיע למאות-אלפי תמונות שהם עוברים עליהם ומתייגים.

זה לא טרויוויאלי בכלל, אבל החברה Dedicated לזה ו-Committed לזה.

דבר נוסף, אתה צריך לעשות תהליך מאוד מסודר איתם, וזה דורש מחויבות מאוד גדולה, של Training מסודר.

כלומר, קודם כל, עוד לפני שזה בעיה של Machine Learning - זו בעיה של החברה.
כלומר, איך יכול להיות שעל אותו מקרה או על אותו בית, חתם אחד יגיד “כן, אני מאשר את זה לחיתום, אני מאשר את זה לביטוח”, ואחר יגיד שלא?
בחברה מתוקנת, אסור שזה יקרה, יש פה פוטנציאל או להפסד כספי של נכס שוויתרנו עליו, או לתביעות - ואת זה אנחנו צריכים לפתור.

ועושים את זה דרך תהליך שיתוף פעולה עמוק עם החתמים

למזלנו הם בתוך החברה, הם לא חיצוניים, אז יש להם את אותו אינטרס בדיוק כמו צוות ה-AI
ואתה יושב איתם, ואתה בונה Training Material מאוד מסודר, עם Guidelines מאוד מסודרים, Checklist ממש

כשאתה עובר על נכס, זה לא סתם להסתכל . . .

זה מזכיר לי, באקדמיה כשאתה בודק בחינות - גם בחינות, במידה מסוימת, זה סובייקטיבי.
איך אתה מתמודד עם זה? אתה עושה Checklist - כמה אתה מוריד על כל שגיאה? זה אינטנסיבי, זה דורש הרבה יותר זמן פר בחינה, אבל זאת עוד הדרך להגיע לעקביות, בתהליך מסודר.

(רן) זאת אומרת, הם למדו את המקצוע, הם חתמים - אבל אתה עכשיו צריך “לכייל” אותם . . .

(דרור) צריך לכייל אותם . . . .

(אורי) . . . כדי לייצר מהם Training Data . . .

(דרור) . . . לייצר מהם Training Data - ולא רק Training Data, לייצר עקביות בחברה עצמה . . .
זה לא רק זה. זה פתאום משליך, כשהחברה מתחילה להבין את זה, ונופלים כל האסימונים, אז אתה מבין שרגע, איך מקבלים חתם חדש לחברה? איזה תהליך Training הוא עובר?

ואז אנחנו מבינים שאנחנו צריכים באמת “לכייל” את כל התהליך ה-Training, עוד לפני ה-Machine Learning, כדי שתהליך החיתום יהיה עקבי בחברה, זה דבר ראשון.

(רן) דרך אגב, חברות אחרות - יש להן אינטגרציה לזה? זאת אומרת, הן עושות נגיד Review כפול או משולש או דברים בסגנון הזה? איך מתמודדים?

(דרור) אז קודם כל, עולם החיתום הוא די לא אגיד “סודי”, אבל הוא לא פתוח . . . אז קשה לי לדעת מה עושה כל חברה וחברה.
אני יודע שיש כל מיני ניסיונות להתמודד - אבל אני לא מכיר פעילות כזאת שנעשתה בחברות אחרות.
יכול להיות שאני לא יודע, אני מן הסתם לא יודע הכל, אבל אני לא מכיר פעילויות כאלה.
הדבר הנוסף שעשינו זה בעצם לא להילחם עם זה.

כלומר, יש מידה מסוימת של סובייקטיבית, “לא יעזור בית דין”.
אתה יכול להגיד, לבוא למנכ״ל - איתי, המנכ״ל שלנו - ולהגיד “תקשיב, זה לא יעבוד, בוא נשכח מזה ובוא נעבוד לדברים יותר בטוחים”.

ופה התעקשנו - אנחנו, הנהלה של החברה אמרה “לא, אנחנו מוכנים לקחת את הסיכון”.

כן זה פרויקט בסיכון גבוה, אנחנו . . . יש תקציב, אנחנו מוכנים לקחת את הסיכון, גם זה אומר שאני צריך להשקיע הרבה מאוד משאבים ויכול להיות שבסוף זה לא יעבוד.

בעיניי, זה חלק מהדברים הכי יפים שקרו לי ב-Honeycomb ואחד מהדברים שאני הכי מעריך

זו המוכנות של החברה לקחת גם סיכונים, לקחת פרויקטים בסיכון גבוה.
להשקיע המון כסף.

15:15 אבל למה?

(אורי) אבל בוא נדבר קצת על ה-Benefit . . . . כאילו, למה? למה פרויקט של להכניס Machine Learning לעולם הזה היה להם כל כך חשוב?

(דרור) אני חושב ש . . . אוקיי, אז יש פה כמה סיבות

קודם כל, סיבה פרקטית - אתה לא רוצה . . . כל הרעיון של החברה זה לא עכשיו לגייס צבא שלם של חתמים, שעולים הרבה כסף וגם איטיים בתהליך החיתום שלהם, זה אחד.

החברה - אין זכות קיום לחברה, זה החידוש המרכזי בחברה.

הדבר השני, והיותר חשוב בעיניי, זה החוויית משתמש - אתה רוצה שתהליך החיתום יהיה הכי מהיר שאפשר, לפחות ב-Subset של מקרים.

כלומר, היעד שלנו, החזון של החברה, זה 80% מהאפליקציות לביטוח שיתקבלו ללא מעורבות של חתמים, אוקיי?
איך משיגים את זה? רק באמצעות Machine Learning.

והיתרון בזה שבעצם הלקוח . . . סליחה, זה יכול להיות לקוח זה יכול להיות סוכן של הלקוח, מקבל תשובה מיידית.

גם אם התשובה שלילית, הוא מקבל תשובה מיידית.

בתור אחד שהיה לו בית בארצות הברית בזמנו, זה מאוד מאוד קשה עד היום, אגב, בחלק מהחברות.
כש-Honeycomb לא פעלה . . . אני, הבית שלי היה בפנסילבניה, בפיטסבורג, ו-Honeycomb בזמנו לא פעלה שם, אז היה לי ביטוח דרך Nationwide.

ואחרי שנה, כשרציתי לחדש את הביטוח, פתאום אוקיי אמרתי “בוא נעשה סקר שוק”.
אתה פונה - וכל חברה שאתה פונה, עד היום, אתה צריך למלא הרבה מאוד אינפורמציה על הנכס . . .

לא גרתי בדירה, זו הייתה דירה להשקעה במקרה הזה.
מאיפה אני יודע בכלל מה ה-Type of Wall וכל מיני פרמטרים . . . Square ft. וזה . . .

התהליך הזה מאוד מאוד קשה - וגם אז כשאתה פונה, אתה צריך לחכות שבועיים-שלושה לקבל את התשובה.

מה קורה אחרי שבועיים-שלושה? התאריך של הביטוח . . . הביטוח עוד מעט פג-תוקף, ואתה מקבל תשובה שלילית . . .

אתה צריך עכשיו ללכת . . . אתה קודם כל נלחץ, ואתה צריך ללכת לחברת ביטוח אחרת.

אנחנו משנים את זה מהיסוד. אנחנו נותנים תשובה מיידית ללקוח - בין אם היא חיובית, בין אם היא שלילית

בין אם זה על תנאי - “בוא, תתקן את הגג ונבטח” . . .
אז הלקוח מרוויח מזה, וחוויית-המשתמש הרבה יותר טובה.
ואנחנו מקבלים פידבקים מאוד חיובים על זה - ורואים את זה גם כמובן בהכנסות.

(רן) כן אני מניח שיש גם לקוחות שממקבלים . . . אז אולי שולחים לכמה חברות אחרות במקביל, ואם יש תשובה מכם ראשונים אז יקנו אצלכם.

(דרור) בהחלט. אז באמת בהקשר הזה, יש לנו מוצר די חדש שמאפשר לסוכנים לקבל . . . להעביר רשימה של נכסים.

כי הרבה פעמים סוכן מטפל עבור לקוח מסוים בעשרות דירות - המשקיעים הגדולים בארצות הברית.

אז אנחנו מקבלים רשימה של דירות, ואמרו להם בוא תבדקו על כל הדירות האלה - מה האחוז מתוך הדירות שאתם תהיו מוכנים לבטח?
ויש לנו אפשרות לתת להם מענה די מיידי - לעבור על הנכסים, להוציא את כל האינפורמציה, בלי שהם יכניסו, אנחנו שולפים את האינפורמציה מ-3rd Parties ומההיסטוריה שלנו ונותנים תשובה מיידית לסוכנות.

(רן) ממש מעבר על ה-Portfolio . . . .
(דרור) כן, לגמרי.

18:05 תלוי

(רן) אוקיי, אז נעצרנו בנקודה שבה יש לך תיוגים, אולי אפילו מאות-אלפים או אולי זאת המטרה, אבל הבעיה היא שהם מאוד סובייקטיביים. אוקיי? לא יודע, תלוי בשעה של היום, תלוי ביום, תלוי במסווג כמובן, בחתם עצמו . . .

איך מתמודדים את זה? אם זה בעולם ה-Machine Learning . . .

(דרור) אז זה די מתחבר לעולם התוכן האקדמי שלי.

במשך הרבה שנים לימדתי קורסים, למשל קורס שנקרא “אותות אקראיים”.
זה קורס שבעצם מדבר על התפלגויות של נתונים. כל דבר, בעצם, שקורה בעולם האמיתי - טמפרטורה, לחות, משקעים וכו', גובה הגלים . . . זה איזשהו משתנה אקראי.
ובעצם, אתה מבין שגם הציון שחתמים נותנים זה איזשהו משתנה אקראי - הוא לא לגמרי אקראי, במובן זה שכל פעם הוא ייתן ציון אחר, אבל יש פה . . . יש לו איזושהי התפלגות.
כשאתה מבין את זה, וכמובן אני לא אצלול ל-Details הנקרא לזה “סודיים” של האלגוריתם וה-IP, אבל כשאתה מבין את זה, אז אתה מבין שבעצם אתה צריך לשערך איזושהי התפלגות, ולא את הציון עצמו.

כלומר, יש איזשהו, בוא נניח רק לצורך הפשטות, שיש, אם אתה לוקח את כל הציונים של חתמים - ולקחנו הרבה חתמים ולא חתם אחד, אז יש להם איזושהי התפלגות לכל Property.

ואם אתה תצליח לשערך טוב את ההתפלגות הזאת, אז אתה במצב טוב.
כלומר, אתה תדע שיש טווח ערכים “סביר” שחתם ממוצע אמור לתת, צפוי לתת את הציון.
את זה אתה משערך, את זה המודל שלך משערך - ואז אנחנו במצב...

(רן) אבל אתה כן צריך להגיע למשל מנקודת הנחה של מה ההתפלגות, נכון? זאת אומרת, כדי שתוכל למדל את זה, אתה מניח שזה התפלגות לצורך עניין, נגיד, גאוסיאנית או כל אחת אחרת, ואז באמת תוכל לשערך את זה . . .

(דרור) אז אנחנו לא עושים את זה - כי אנחנו לא רוצים להניח הנחות מוקדמות.

אנחנו פשוט משתמשים ב-AI - ברשתות נוירונים - כדי לשערך התפלגות כללית.
דיברת על גאוסיאנית - גאוסיאנית מאוד ממקד אותך, שוב, בלי לי להיכנס ל-Details היותר משעממים, אבל התפלגות גאוסיאנית היא התפלגות מאוד מאוד ספציפית, שלמעשה לא קיימת במציאות . . .
(רן) נכון, נכון . . .
(דרור) . . אז אתה משערך משהו יותר כללי.
(רן) חוץ מאולי חוק המספרים הגדולים [משפט הגבול המרכזי], אבל זה לא שם.
(דרור) כן, בדיוק.

(רן) נכון מאוד, כן. ואולי למדתי באוניברסיטה שכל דבר . . . כל תרגיל מתחיל בהתפלגות גאוסיאנית, אבל במציאות זה בדרך כלל לא.
(דרור) זו אחת השאלות הראשונות שאני שואל את הסטונדטים שלי . . .

הסטונדטים בדרך כלל באים אחרי קורס מבוא להסתברות, אני אומר “למדתם התפלגות גאוסיאנית ופואסונית וכו’… בואו תגידו לי . . . “
קוראים לזה “התפלגות נורמלית" או “גרף פעמון”, עוד מהתיכון מכירים, מה במציאות מתפלג?
אז כל פעם זורקים לי כל מיני דברים, אבל בפועל אין שום דבר שמתפלג גאוסיאנית, כי זו התפלגות שהיא סימטרית ואינסופית, לא קיים דבר כזה במציאות.
(רן) אולי זה סכום כל ההתפלגויות בעולם, וזהו.

20:35 ואז מגיעים לקוחות

(רן) אוקיי, עכשיו - עוד בעיה שקורית די הרבה למי שמתעסק בעולם ה-Machine Learning זה שבמעבדה הכל עובד יפה, תחת אור הניאון . . . זאת אומרת, אתה מאמן מודל, אתה בודק את הביצועים שלו, זה נראה יופי-טופי. גם אחרי שאתה פורש את זה, כנראה ביום-יומיים הראשונים הכל טוב - ואז אחרי איזשהו זמן, לפעמים אתה לא שם לב, וזה קורה בכל חברה, אורי, אז בטוח שזה שגם קרה ב-Outbrain . . .

(אורי) ואחרי זה מגיעים לקוחות . . .

(רן) . . . כן, ואחרי איזשהו זמן פתאום דברים משתנים, פתאום דברים לא עובדים כמו שצריך.

עכשיו, זה לא שהכנסת איזשהו באג, אולי בכלל לא שינית את הקוד. לא פרשת שום גרסה, אבל פתאום הביצועים של המודל ניהיים יותר ויותר גרועים.

האם קרה לכם? אני מנחש שכן . . . ואם כן, אז איך מתמודדים?

(דרור) א' - כן, קרה.
ב' - זה הפחד הכי גדול שלי . . .

אני, בעצם למעשה מ-97' בעולם ה-Machine Learning, עוד לפני שקרו לזה AI, לפני שהיה Deep Learning ו-LLM-ים ו-HGBT, אז אני לא מעט שנים, וכמו שאתם רואים כבר שיערות אין לי על הראש, אז אני למוד ניסיון . . .

אבל זה תמיד מפחיד, כי באמת, אתה מכניס מודל, אתה עובד עליו הרבה זמן, אתה מוכיח תוצאות טובות . . .

ושוב, האינטראקציה עם החתמים - החתמים צריכים, מי שבפועל, לא הייתי אומר מוביל את החברה אבל אולי אחד התפקידים הכי משמעותיים בחברה, זה ה-Chief Underwriter [בטוח יש דמות כזו אצל Terry Pratchett], החתם הראשי.

שהוא בעצם מאשר לנו כל מודל, כי האחריות היא שלו.
דיברנו על רגולציה קודם, האחריות היא שלו.

ובאמת, סתם, לצורך הדוגמא - יש לנו מודל שהכנסנו ל-Production כבר, לדעתי, לפני שנתיים או משהו כזה, וזה מודל שמקבל החלטות, בלי מעורבות חתם.

הוא מחליט לדחות חלק מהנכסים, על סמך האינפורמציה שיש על הנכס, כמובן בלי להיכנס ל-Details ו-Feature-ים.
וזה מודל שהוכיח תוצאות יפות, והראינו את זה - הצגנו להנהלת החברה, והם נתנו לנו אור ירוק.

זה גם יוצר אמון - אתה בא, אתה עושה עבודה יסודית, במקרה הזה לא אני אישית, מישהו מהצוות שלי.

הראה להם תוצאות, שכנע אותם שזה מודל שעובד טוב.

יש לו משמעות אדירה לחברה - לטוב ולרע - כי הוא דוחה נכסים.

כי אם אתה דוחה נכסים טובים, אז החברה הפסידה כסף נקי.

מצד שני, הראינו שהוא - יש לו יכולת לזהות מראש נכסים שהם פוטנציאליים לתביעות.

כלומר, ראינו שבשימוש במודל אנחנו מורידים דרמטית את כמות התביעות שאנחנו מקבלים, שזה מאוד דרמטי לחברה.
ובזכות זה בין היתר הגענו ל- Loss Ratio המאוד מאוד נמוך שהזכרתי קודם.

הכנסנו את זה ל-Production, זה רץ - רץ, חודשים, עובד טוב.

ומדי פעם אנחנו מעדכנים אותו, כי אם נוסף לנו עוד Data אז אנחנו מאמנים אותו מחדש, בודקים, מנסים אותו ל-Production, כולם שמחים, הכל בסדר.

יום בהיר אחד, אנחנו פתאום רואים - ואני מודה, טעות שלי, לא עקבנו יום יום, היינו רגועים, כי ראינו שזה כבר נכנס ועובד טוב - יום בהיר אחד אנחנו רואים קפיצה בדחיות שהמודל עושה, קפיצה דרמטית מאוד.

קפיצה שהגיעה בעצם לאזור ה-400 אלף דולר של הפסדים רק בשבועיים.
לקחנו זמן, כי לא עקבנו, כי סמכנו על המודל, וגם הנהלה סמכה עלינו - ופתאום אנחנו באמת מגלים, בודקים את זה, רואים משהו פה לא מסתדר.

מיד עצרנו את זה, החזרנו את המודל הקודם - והסתבר שבאותה תקופה בדיוק הוכנס עדכון נוסף, עשינו אימון נוסף, בדקנו, אבל הסתבר שעשינו שם טעות בהערכת ביצועים.

הייתה שם בעיה, בדיעבד מאוד מאוד נפוצה בעולם ה-Machine Learning, שזה באמת הפחד הכי גדול שלי, שזה שינוי בהתפלגות.
המודל עובד, הוא משפיע, הוא דוחה חלק מהנכסים - אז בגלל שהוא דוחה חלק מהנכסים שהם הפחות טובים, הוא משנה את ההתפלגות שיש לנו ב-Production . . .

אז פתאום, מה שקרה זה בעצם Drift בתוצאות - פתאום ההתפלגות שהמודל רואה ב-Production זו לא ההתפלגות שאימנו אותו ב-Offline.

מקבלים Drift משמעותי בתוצאות.
אני מספר על זה, זה נשמע עכשיו פשוט - לקח לנו זמן להבין את זה . . .

(רן) זאת אומרת שהיה פה, אני מנסה לרגע להבין - היה פה איזשהו Feedback Loop . . . זאת אומרת, בהתחלה העולם היה כמו שהיה, כמו שהכרת אותו, ואימנת את המודל לפי זה. ברגע שהמודל התחיל לפעול, הוא למעשה שינה את תמונת העולם שהוא רואה לאחר מכן - והיה פה איזשהו Feedback Loop, שזה כן, כמו שאתה אומר, זה כאילו טריוויאלי כשמספרים את זה בדיעבד, אבל זה מאוד קשה לעלות על זה בזמן אמת.

(דרור) בהחלט. אז קודם כל, מה שעשינו זה שעשינו הקפאת מצב, כלומר - החזרנו את המודל הקודם, היציב והטוב, אמרנו “בואו עכשיו, תנו לנו רגע לעשות Post Mortem ולהבין, כמו בחיל האוויר, להבין בדיוק מה קרה פה.

(רן) הנה, זאת שיטה - אז חודש מודל ישן, חודש מודל חדש . . .
(דרור) כן . . . אבל יש פה בעיה הרבה יותר קשה מ . . .

סתם, עזוב את ה-400 אלף דולר, “לא קרה כלום” - החברה יודעת לספוג, ואני מאוד גאה ב-Honeycomb שיודעת להכיל גם מקרים כאלה, להגיד, לא קרה כלום.
אני זוכר שאני הייתי מוטרד, לא שיפטרו אותי, אבל יגידו לי “נו- נו- נו” . . . לא, אנחנו, המוטו של Honeycomb, ואני ארבע שנים, זה כמעט מהרגע הראשון - “בואו נטעה מהר”

בואו נטעה מהר - העיקר שנלמד ונתקן.
אני אישית מאוד מעריך את זה.

ובאמת נתנו לנו את הזמן, קודם כל להבין, לחקור.

הצגנו דוח מסודר לכל הנהלה של החברה, ול-Chief Underwriter.

הם קיבלו את הדוח, ראו, קודם כל יצרנו אמון מחדש בזה - זכינו באמון מחדש בזה, שבאנו, לא התביישנו להגיד, אמרנו, “הנה, לקחנו אחריות”

האחריות שלי כראש צוות - הנה התקלות, והנה ככה אנחנו מתקנים את זה.

וקיבלו את זה, וזה היה יופי של דבר מבחינתי.

זאת אומרת, מצד אחד, זה חתיכת פשלה שלי כראש צוות, תקלה שאסור שתקרה, עם הפסדים מאוד משמעותיים.

אבל אני שמח שזה קרה - זה אולי נשמע מוזר, אני שמח שזה קרה.

למדנו, תיקנו, למדנו, כשזה היה ב-Scale נמוך, היום זה היה יכול לגרום לנזק הרבה יותר גדול.
אנחנו שיפרנו את התהליכים, אנחנו עושים Monitoring הרבה יותר מדוקדק, אנחנו הרבה יותר חכמים.
אני בטוח לזה עוד יקרה, אבל אנחנו יודעים גם לתקן את זה מהר, בזכות זה שאנחנו עושים Monitoring שוטף.
ואנחנו גם למדנו את הבעיה הזאת - יש הבדל בין להכיר את זה בתיאוריה, אני הכרתי את זה בתיאוריה, חוויתי את זה גם ב-Citi Bank - לבין לראות את זה בשטח, כשזה משפיע על Production בצורה כזו דרמטית,

אז למדנו מזה ושיפרנו את התהליכים - וגם שוב, רכשנו את האמון וזה מאוד חשוב

כי בעבודה עם ה-Underwriter-ים, כמו עם רופאים אגב, אתה חייב את האמון.
אם לא יאמינו לך ולא יאמינו במוצר, הם לא ישתפו פעולה ואיבדת אותם - וזה לא פחות חשוב מהאמון של לקוחות.

במקרה שלנו, הלקוחות שלנו, ה-Stakeholders שלנו זה כמובן החתמים - אנחנו חייבים אותם איתנו.

ולמזלי זה קרה, ואפילו חזקנו את הקשר איתם, אז אני שמח שזה קרה.

27:04 אתה יכול להסביר?

(אורי) לי יש שאלה, שגם נוגעת לאמון וגם נוגעת למשהו שאמרת בהתחלה: שלפעמים, יש . . . פסלתם בגלל שהגג ישן,

אז אתה רוצה להחזיר פידבק - שהגג ישן או למה פסלת, או למה המודל לקח החלטה. זה קשור לאקספליינביליות (Explainability) של המודל, כמה אפשר להסביר את ההחלטות שלו. ויש סוגי מודלים שהם יותר אקספליינביליים (Explainable) וכאלה שהם פחות. וזה גם שהאקספליינביליות הזאת - היא מייצרת אמון, גם של לקוחות אבל גם של מי שאמור לאשר לך את המודל.

אז איפה אתם עומדים עם זה?

(דרור) אז קודם כל, יש Debate מאוד גדול בעולם האקדמי והתעשייתי על הנושא של אקספליינביליטי (Explainability).
אני קצת לוקח גישה קיצונית, אני אסביר טיפה - קודם כל יש סתירה בין הרצון שלך להיות מסוגל להסביר את המודל לבין הביצועים של המודל.

בעיני, ביצועים מעל הכל - כלומר, ככל שהמודל יותר טוב מבחינת ביצועים, אז הוא מן הסתם יותר מורכב.
בעולם הרשתות היום, רשתות עמוקות - The Deeper The Better כמו שאומרים.

ככל שהרשת יותר עמוקה, זה אומר הרבה יותר פרמטרים.

אנחנו מכירים היום כולנו את ה-LLM ו-HGBT - זה מיליונים ואפילו מיליארדים של פרמטרים.

ככל שהרשת יותר עמוקה, עם יותר פרמטרים, אתה לא יכול להסביר אותה - אין סיכוי.

יש ניסיונות, יש Grad-CAM, יש כל מיני מודלים - הם לא עובדים טוב, זה עדיין לא בשל.

לכן, אם אתה רוצה למקסם את הביצועים של המודל שלך, זה על חשבון Explainability.

אנחנו, כחברה - נכון, חשוב לנו להיות מסוגלים להסביר את זה לחתמים, אבל מקבלים את זה שזה מודלים שעובדים במרחב המולטי-פרמטרי או במרחב הרב-פרמטרי, ולא נדע להסביר את זה.
איפה שאפשר, אנחנו מנסים.

במודלים היותר קטנים, יש לנו מודלים שעובדים על קומץ - לא קומץ אבל כמה עשרות של פרמטרים - ושם אנחנו משתמשים בכלים שמאפשרים, Shapely וכל מיני כלים
כלים שמאפשרים להסביר את המודל, וזה באמת עוזר במוצבים מסוימים להסביר.

ברגע שאתה רוכש את האמון - בדם, יזע ודמעות - של ההנהלה ושל החתמים, אתה לא צריך את האקספלינביליטי (Explainability).

הם סומכים עלינו - לא אגיד “בעיניים עיוורות”, הם כל הזמן מסתכלים ואנחנו כל הזמן צריכים להראות, לחדש את האמון ולזכות בו מחדש באמצעות מעבר ביחד על התוצאות ועל התהליכים אצלנו.
והם חלק מהעשייה אגב, הם לא איזשהם “לקוחות-קצה”, הם חלק מה-Squad-ים, חלק מהעשייה, חלק מהפעילות שלנו.
ברגע שאתה רוכש את האמון, הם לא מבקשים הסברים.

זה אולי קצת שונה מעולם הרפואה, שם הרופא רוצה לדעת

רגע, הוא - לא מספיק לו שיש התקף לב, אני יודע את זה כפאראמדיק, המכשיר אומר “התקף” - וזה לא מספיק לי, אני רוצה לראות איפה.
בין היתר, כי לא סומך על האלגוריתם, מה לעשות?

בעולם החיתום, לפחות אצלנו בחברה, ברגע שהוכחנו שהמודלים עובדים טוב . . .

אגב - לא 100%, אף מודל לא עובד 100%, יודעים שיש איזשהו טווח-שגיאה

אבל ברגע שקבלנו את האמון, הם לא מחפשים את “בואו תסבירו לי למה זה ככה ולמה זה ככה”.

זה כן קורה עדיין במקומות מסוימים - איפה שאפשר אנחנו באמת משתמשים במודלים, ה-State if the Art, הכי מתקדמים לנסות ולהסביר.
מהניסיון והידע שלי, המודלים האלה עדיין לא בשלים ולכן צריך לקבל אותם בהסתייגות.

(אורי) הם בעצמם צריכים לרכוש את האמון . . .

(דרור) הם בעצמם צריכים לרכוש את האמון, כן . . .

זה די סתירה, כי אתה רוצה מודלים חזקים שעובדים טוב - זה מודלים עם המון פרמטרים, שה-Explainability Models לא עובדים עליהם מספיק טוב
ולכן אני מאוד נזהר מהשימוש במודלים האלה.

(רן) כן , זה אחד - ושתיים, זה גם להשקיע מאמץ, זאת אומרת כוח אדם. אם אתה רוצה Explainability, אתה צריך לפתח את זה, וגם אם המודל, עקרונית, מסוגל לתת לך את זה, אתה עדיין צריך להשקיע מאמצים כדי שזה יקרה.

(דרור) בהחלט.

(רן) אוקיי. אז דרך אגב, יש מקומות שבהם, מבחינה רגולטורית, אתם כן צריכים? זאת אומרת, נגיד אם אני מסתכל על עולם הבנקאות והלוואות וכל זה, אז אני יודע ששם כן, יש מקומות שבהם פשוט צריך לספק הסבר [למיטבי שמע - 476 ML Explainability and friends with Dagan from Citrusx]. זה לא מספיק שתגיד “אבל המחשב אמר לי שאסור!” . . . אצלכם, יש מקרים כאלה שצריך את זה?

(דרור) אז באופן אישי, אני לא מתעסק עם רגולציה בצורה ישירה.
אבל המצב אצלנו הוא שברגע שהרגולציה אישרה לחברה לעבוד במדינה -זה פר מדינה -

ברגע שאישרו לנו לעבוד, התחלנו משיקגו והתפרשנו והיום אנחנו עובדים במעל שמונה-עשרה מדינות
ברגע שהרגולציה אישרה, זאת אומרת ברגע שהמדינה אישרה, הם לא נכנסו לנו לקרביים, הם סומכים על ה-Chief Underwriter.

הוא לוקח את האחריות למעשה - כמו בעולם הרפואה למעשה, הוא לוקח את האחריות על כל החלטה שלנו.
ואיך שהוא מקבל את ההחלטה, זה כבר עניין פנימי של החברה, הם לא ביקשו לראות.

אנחנו כן, למבטחות-משנה, אנחנו כן מחויבים לתת להם דין וחשבון מלא.

מבטחות-משנה זה אותן חברות שמטפלות בתביעות, כשקיימות כאלה.
והן כן עובדות איתנו בשיתוף פעולה, והן יודעות מה אנחנו עושים
ואני הצגתי מספר פעמים לאותן חברות, אז גם שם היינו צריכים לרכוש את האמון.

ברגע שרכשנו את האמון והם סומכים עלינו, מהבחינה הזאת אין מגבלות.

עולם הביטוח התפתח בצורה מאוד משמעותית בשנים האחרונות ומהבחינה הזאת הם חיים בשלום עם מודלים של AI.

32:13 חסמי-כניסה

(רן) אוקיי, בואו ככה לקראת הסיום, נסטה קצת הצידה. אמרת לי קודם שאתה כבר בתחום מכמה - 97’? ועולם

ה-Machine Learning / AI, לא חשוב איך קוראים לזה היום, נראה מאוד אחרת. אז, הרשתות לא היו עמוקות,

גם לא כל כך אהבו אותן אז.

והיום הדברים נראים אחרים - כל אחד יכול להרים LLM, לעשות Embedding, להשתמש במודל Computer Vision, מפלצתי ככל שירצה, וזה עולה סנטים בודדים.

בואו נדבר קצת על פרספקטיבה, ככה, של חסמי-כניסה לעולם הזה. ממה שהספקת לראות לאורך השנים,

איך זה נראה היום לעומת איך זה נראה פעם?

(דרור) שאלה מעניינת . . . אגב, אני אתחילו אולי מהסוף: רואים את זה יפה מאוד בצוות שלי

אנחנו היום עשרה אנשים, ואגב, אם מותר להגיד - מחפשים כל הזמן אנשים טובים, בתחומי ה-Machine Learning, Deep Learning, Analytics וכו’

אז יש משרות פתוחות, מוזמנים להגיש.

הצוות שלי הוא צוות מאוד מגוון, ואחד מהדברים היפים שלגאוותי הצלחתי להרים, או החברה הצליחה, זה לאסוף אנשים מגוונים.

יש לנו מישהו מתחומי הכימיה ויש הנדסה ביו-רפואית עם דוקטורט בכימיה, הנדסה ביו-רפואית והנדסת חשמל ופיזיקה ומדע המחשב
וגייסנו בדיוק שני סטודנטים גם שיעזרו . . .

אז באמת, הגיוון הזה מעיד על עצמו. כלומר, אם בעבר, אם נלך אחורה ל-96-97’, זה היה פרויקט ההנדסי שלי, במסגרת תואר ראשון להנדסת חשמל באוניברסיטת בן גוריון

אז באמת התחלתי לעסוק - אז זה נקרא Signal Processing, Machine Learning . . .
ה-”Classical” , כמובן לא היה “Deep” . . .
היו מודלים של פעם, מה שנקרא Gaussian Mixture Model ו-Hidden Markov Model - כל מיני מודלים כבר שאף אחד לא זוכר אותם.

היית צריך לעבוד קשה כדי להיכנס לתחום

אני, בתואר ראשון, עשיתי ארבעה קורסים בתחום ופרויקט הנדסי, שחרשתי עליו כל שנה ד'
המשכתי ישר לתואר שני - הייתי עתודאי, זה היה תוך כדי הצבא - עשיתי . . . כל התואר השני שלי בעצם היה קורסים ב-Machine Learning והתזה שלי ב-Machine Learning.
המשכתי לדוקטורט וכו’.

כדי להגיע למצב שבו אני יוצא לתעשייה - יצאתי לתעשייה ב-2007, הסטארטאפ הראשון שעבדתי בו בעולם הרפואי - הייתי צריך לעבוד קשה, להגיע עם כמעט דוקטורט מלא והמון קורסים והמון השקעה

והמון Coding - אז זה היה ב-MATLAB ו-C וכאלה.

היום המצב שונה לחלוטין, ולמעשה אני - גם כאדם בתחום - הייתי צריך להמציא את עצמי בחדש.

כי ב-2012 קרתה לנו מהפכה, בזכות איזשהו בחור יהודי נחמד בשם Alex Krizhevsky [AlexNet, עם Ilya Sutskever ו-Geoffrey Hinton, ושוב למיטבי שמע - 363 GPU @ Nvidia].
עבד ב-Stanford [ב-Toronto? . . .], עשה שם את הדוקטורט שלו, לא ניכנס ל-Details אבל בעצם כל העולם הזה עבר מהפכה.

היום, כדי להיכנס לתחום - אפשר לראות את זה לטובה ולשלילה - לטעמי, ואני קצת אקצין - מספיק לעשות קורס אחד טוב של Stanford

זה CS231N למי שמתעניין - קורס בדיוק בעולם ה-Deep Learning ליישומי Vision
ויש קורסים מקבילים כמובן במקומות אחרים, גם אני מלמד קורס דומה באקדמיה לא מעט שנים.

ובאמת, מספיק לעשות קורס אחד טוב - אבל לעשות אותו כמו שצריך, להבין טוב את התיאוריה ולתרגל אותו - ואתה יכול יפה מאוד להסתדר.

עכשיו, לא רוצה להגזים - בתעשייה, בדרך כלל היום התעשייה כן מצפה עדיין לראות אנשים תואר שני, עם תזה.
גם אנחנו מחפשים אנשים טובים עם ותק בתחום וכמובן תארים ותזה וכו’.

אבל עדיין אתה יכול לעשות הרבה דברים אחרי קורס אחד טוב - וכמובן, שוב, אתה צריך להשקיע

אתה צריך ללמוד Python טוב הכל מבוסס על Python - אבל זה בהחלט אפשרי.

כלומר, החסם הוא הרבה הרבה יותר נמוך

זה מאתגר, זה גם שואל את השאלה, ככה, אפשר לפתוח את זה לדיון שלם - אבל מה היתרון של אנשים כמוני, עם דוקטורט ופוסט-דוקטורט?

לא סיפרנו או לא סיפרתי את כל קורות חיי, אבל פוסט-דוקטורט והרבה שנים באקדמיה ופטנטים ומאמרים . . .

אני חושב שפחות היום . . . זאת אומרת, החסם הרבה יותר הרבה . . .

זה יוצר גם תופעות שליליות, אגב - הרבה אנשים נוהרים לתחום, כי “AI זה AI”, המשכורות גבוהות, התנאים טובים, כולם רוצים לעסוק בזה
הרבה אנשים נוהרים לתחום - ולא כולם טובים

חלקם בינוניים, חלקם עשו כל מיני הסבות מקצועיות - אני לא פוסל, חלילה, אבל זה מאוד אינדיבידואלי.
אתה צריך עדיין להשקיע כדי להיות באמת טוב בתחום שלך.

אז זה יוצר לא מעט בעיות. כלומר, גם אנחנו צריכים לברור טוב מאוד את האנשים, בתהליכים ובראיון מסודר ומבחני בית

אין מה לעשות, חייבים לבדוק טוב את החבר’ה, אנחנו באמת מחפשים את האנשים הטובים.

אז מצד אחד, כן - לאנשים יותר קל להיכנס לתחום, לעשות הסבה המקצועית או ללמוד במסגרת הלימודים.

אנחנו רואים היום אנשים בתואר ראשון, סטודנטים אפילו או כאלה שסיימו תואר ראשון - יש להם יכולות ויכולים כבר מ-Day One לפתח מודלים ולעשות הרבה דברים, ליצור אימפקט.
לא צריכים תארים מתקדמים בהכרח.
ויחד עם זאת, יש הרבה נהירה של אנשים שהם גם פחות טובים, עם פחות יכולות, פחות יכולת להבין טוב את המודלים.

לי אישית מאוד חשוב שאנשים שאצלי בצוות יבינו טוב את המודלים שמאחורי הדברים, ולא רק ידעו להשתמש.

להשתמש זה מאוד קל, להריץ ChatGPT זה מאוד קל, כל אחד יכול.
להבין מה קורה מאחורי המודלים - מתי אפשר להשתמש, מתי לא, דיברנו קודם על התפלגויות וכו’ ואמון, שינוי בהתפלגות . . . .
מאוד מאוד חשוב עדיין להיות זהירים.

אז בהחלט זה יוצר . . . מצד אחד החסם ירד, מצד שני - נהירה שדורשת מאיתנו להיות יותר זהירים, בטח בעולמות הביטוח.

אבל זה חלק מהאתגר, זה חלק מהכיף, ואנחנו מתמודדים עם זה, למזלי, בהצלחה.

37:38 ה-Waze של ה-Machine Learning

(רן) כן, אני אנסה אולי להציע תיאוריה, או לפחות לשאול אותך על דעתך, למה יכול להיות שזה קרה. אז נגיד, אפשרות אחת זה אולי כי הכלים יותר “בוגרים”, הכלים יותר מוכנים. זאת אומרת, כמו שאמרת, אפשר להריץ, כל אחד יכול להשתמש ב-GPT וגם בכלים יותר מורכבים, הם פשוט הרבה הרבה יותר נגישים ממה שהם היו פעם. אז זו, נגיד,

יכולה להיות תיאוריה אחת.

תיאוריה אחרת היא שאם אולי קצת לחזור לשיחה על האספלניביליות (Explainability), גם ככה אף אחד לא מבין . . . זאת אומרת, המודלים כל כך גדולים, גם ככה “הכל שם בנפנופי-ידיים”, ככה שאין ערך-מוסף להבנה עמוקה בסטטיסטיקה או ב-Machine Learning. זאת אומרת, יש פה קצת יותר תחושות-בטן, אולי, ככה, ניסיון הנדסי,

אבל לא בהכרח הבנה מתמטית, כי גם ככה ההבנה המתמטית לא כל כך עוזרת.

(אורי) . . . גם יש הרבה דברים שהם Off the Shelf - אתה לא צריך לבנות אותם, אתה לא צריך להבין אותם מתמטית . . .

(רן) כן כן, זה היה פחות או יותר הטיעון הראשון שלי. זאת אומרת, זה פשוט יותר נגיש, יש יותר כלים. כמובן, זה לא . . . הטיעונים לא סותרים, אבל יש לך איזשהו Take על מה גורם לשינוי הזה?

(דרור) אז אני אקח את זה רגע, באמת עם דוגמא מהצוות שלי.
אנחנו . . . אני התחלתי כאדם, כעובד יחיד בצוות ה-AI, ולאט-לאט זה התרומם, ובנינו בצוות תשתית מאוד מאוד טובה, השקענו המון בתשתית

תשתית קוד, לפני עידן ה-ChatGPT וכו'
ואני כל הזמן אומר למנכ״ל ול-CTO - לאיתי ולנמרוד - אני אומר להם תקשיבו . . .

נגיד דיברנו קודם על המודל של ההערכת-סיכון על בסיס תמונה, אמרתי שזה שורת קוד אחת
והם אמרו לי “מה זאת אומרת שורת קוד אחת? על זה משלמים לך?!”
אמרתי “כן, זה שורת קוד אחת, בנינו תשתית טובה - ואלגוריתם היום זה שורת קוד אחת”
והם לא האמינו לי . . . והראיתי להם.

אז כן, יש מצבים היום שזה שורת קוד אחת, ויש לך כלים כמו GitHub Copilot ויש לך Cursor, שמאפשרים לך לכתוב.

ומאפשרים לך לכתוב קוד “מאפס” וזה עושה יופי של עבודה.

ועדיין, לדעתי, אתה כן צריך להבין מה אתה עושה, כי אם אתה לא תבין מה אתה עושה, אז תקלה כמו שהייתה לנו, היה לוקח חודשים להבין אותה.

אני באתי עם ניסיון והכרתי וחוויתי את זה גם בעבר, אז היה לנו יחסית קל לזהות את זה.
ועדיין - הרבה שיעורי-מוחות וחקירות.

אני חושב שעדיין, אני מאמין גדול שאתה צרךה להבין את המתמטיקה.

נכון, אפשר להצליח גם בלי זה. אני רואה הרבה אנשים שמצליחים יפה מאוד בחברות אחרות, גם בלי להבין את המתמטיקה, את הארכיטקטורה.
אני אולי קצת Old Fashion, אני עדיין מצפה מאנשים בצוות שלי ובטח ממני, להבין טוב את הארכיטקטורה, את המתמטיקה מאחורי הדברים, כדי לדעת להתמודד עם בדיוק המצבים שתארתי קודם.
אז בעיניי זה “יהרג ובל יעבור”.

אני אתן רגע דוגמה אולי עם עולם אחר - אני מלמד קורסים של Introduction to Machine Learning כבר הרבה שנים באקדמיה, בין היתר במכון הטכנולוגי בחולון ואוניברסיטת בן גוריון.

ולא מזמן הרצאתי קורס בסמסטר קיץ, ולאורך הסמסטר, הסטודנטים - יש להם מטלות, והשתמשו ב-ChatGPT, אני לא יכול למנוע.

אני אפילו מעודד את זה, כי אין מה לעשות, זה מאוד עוזר, גם אני משתמש על בסיס יומיומי בכלים כמו ChatGPT.
אבל אמרתי להם, מתחילת הסמסטר, “חבר'ה, אתם צריכים לדעת מה אתם עושים, אתם צריכים להבין”
כי בסופו של דבר יש בחינה, ובתעשייה גם תבחנו בלי . . . אתם צריכים יכולת לקודד ולהבין מה אתם עושים.

באמת הייתה בחינה, ובבחינה הם צריכים פתאום בלי ChatGPT להסתדר ולכתוב קוד

לא מ-0, אבל לדעת לתקן קוד, להבין למה הקוד לא עובד - אז צריכים להתמודד עם זה.

אז מי שלא עשה כלום כל הסמסטר, אז באמת התקשה בבחינה, וכנראה צריך לעשות מועד ב’.

ומי שכן הקשיב וכן קודד בעצמו והבין - אין בעיה להשתמש בכלים - זה חובה להשתמש - אבל עדיין זה לא פותר אותך מלהבין מה אתה עושה.

(רן) כן, פעם היו מפחדים מבחינות עם Closed Books, היום הם מפחדים מבחינות עם “Closed GPT” . . .
(דרור) לגמרי . .

זה כמו, אגב, Waze - אני זוכר שנסעתי בזמנו לכנס, לפני הרבה שנים - ב-2009 נדמה לי - כנס באיזושהי מדינה בקנדה, אני לא זוכר בדיוק.

ונסענו, הייתי עם המשפחה, נסענו לכנס מניו יורק, משדה התעופה לקחנו רכב, נסענו צפונה, וכיוונתי את ה-Waze.

בהתחלה לא בדיוק הסתכלתי, כיוונתי לאן שכיוונתי, ובסדר.
התחלנו לנסוע, ואז משהו לא מסתדר לי בדרך . . .
(רן) . . . גילית שאתה במקסיקו? . . .
(דרור) . . . גיליתי שכיוונתי למדינה הלא נכונה בקנדה, עם אותו שם של עיר . . .
ואם לא היינו שמים לב, אז כנראה שהיינו נוסעים הרבה יותר ממה שצריך.

אז Waze לא פותר אותך משנייה להבין את המפה, את הגיאוגרפיה, ולשים לב לאיך אתה מתנהל

אותו דבר גם בעולם ה-Machine Learning.

(רן) . . . וגם שאנחנו פה בצפון, ולא כל יום יש GPS . . .
(דרור) אתה צריך לדעת להסתדר . . .

(אורי) גם הקטע של דברים שלא קורים “כמו שצריך”, וצריך לדעת גם לזהות את זה, אבל גם לתקן את זה. ופה בא המון ניסיון והבנה של ה...

(דרור) לגמרי. אני חייב לקחת את זה רגע - דיברת על GPS, ולא מזמן, אני לא זוכר בדיוק את ה-Timeline, אני עושה משמרות באופן קבוע כפאראמדיק במד”א

ויום שישי אחד היה את הבאג הזה, היה איזה באג עם Microsoft, עם איזשהו GPS, נכון? כל ה-GPS-ים של מד”א הפסיקו לעבוד . . .
הוציאו אותנו לקריאה לאיזושהי החייאה בבית אבות, אני לא זוכר בדיוק איפה.

מערכות לא עובדות, אין לך Waze, אתה לא . . .
עכשיו בגלל כל הבלגן, אז גם המוקד קשה, עמוס

ויוצאים להחייאה, והבנאדם . . . . בקיצור, למזלנו, מד”א מספר ימים לפני זה, תרגל את זה על יבש - בדיוק את המצב הזה, אז כולם ישר פתחו פקל”אות, ידעו בדיוק איך להסתדר.
עדיין הם צריכים להסתדר בלי Waze - זה לא טריוויאלי, אתה מגיע למקום, איפה זה, לא פשוט . . .

גם טלפונים וחלק מהמכשירי הקשר לא עבדו . . .

בקיצור, היה חתיכת בלגן, אבל באמת בגלל שמד”א נערך מראש . . .
וזו בדיוק דוגמא טובה - כשאתה נערך מראש, אתה יודע להסתדר גם בלי ה-GPS.

אז ברור שזה קצת פחות טוב . . .
(אורי) . . . וגם בלי Microsoft . . .
(דרור) . . . גם בלי Microsoft . . . אז עדיין אפשר לחיות ולהחיות, גם.
באותו מקרה זה לא הצליח, אבל זה בלי קשר.
(רן) נאחל להצלחות בפעם הבאה . . . .

43:24 סיכום וגיוסים

(רן) טוב, תודה רבה, דרור מחברת Honeycomb. וכן, אמרת שאתם מחפשים - אז ספר לנו על החברה: איפה נמצאים? כמה עובדים? מה עוד מחפשים?

(דרור) אז החברה - קודם כל, By Far החברה הכי טובה שעבדתי בה, ולעוד שנים רבות, אני באמת אוהב את החברה.
החברה היום כוללת . . . רק אתמול הצטרפו שבעה עובדים, אז היום לדעתי זה כבר מתקרב ל-130 עובדים בכל העולם.

פולין, ישראל וארצות הברית.

אנחנו כרגע בהרצליה-פיתוח, אבל בראשון לדצמבר עוברים למשרדים משלנו, ב-Midtown.
ומגייסים עובדים כל הזמן - אנחנו מגייסים, מפתחים

אגב, גם בארץ וגם בארצות הברית
אם נהיה טיפה יותר ספציפיים, לצוות שלי

קודם כל, כל הזמן מחפשים אנשים טובים בחברה
אבל לצוות שלי, אנחנו מחפשים אלגוריתמאים בשלושת התחומים - גם בעולם ה-Computer Vision, גם בעולם ה-Tabular Data, דאטה-טבלאי, וגם בעולם ה-NLP.
אנשים טובים - רצוי עם תארים מתקדמים: תאור שני, תזה בתחום.

תגישו מועמדות - יש לנו לא מעט משרות עכשיו, אנשים שבאים באמת לעבוד בסביבה דינמית, עם אימפקט.

אני - הדבר שהכי חשוב לי בחברה זה אימפקט - אגב, מתחבר למה שאני עושה במד”א.

אימפקט בעיניי זה הדבר הכי חשוב, ו-Honeycomb מאפשרת את זה.
היכולת לעשות שינויים - גם לטעות, לא קורה כלום, לטעות, ללמוד - זה הדבר שאני אוהב ב-Honeycomb

אז אני מזמין כל מי שבתחום לבוא ולהגיש מועמדות - אחלה מקום, בואו!

(רן) טוב, אז תודה רבה דרור, בהצלחה ל-Honeycomb - ובהצלחה במד”א.

תודה רבה.

האזנה נעימה ותודה רבה לעופר פורר על התמלול!

רברס עם פלטפורמה

יום שבת, 9 בנובמבר 2024

481 ML for insurance with Dror Lederman from honeycomb

אין תגובות:

הוסף רשומת תגובה

Outbrain