296 NLP with Yoav Goldberg | רברס עם פלטפורמה

אנחנו בפודקאסט 296 התאריך הוא ה 13 למרץ ואנחנו מארחים את יואב גולדברג לשיחה על NLP- תחום עיבוד שפה טבעית וחלקו בMachine Learning.

2:24 – NLP – עיבוד שפה טבעית – אלגוריתמים שעובדים על טקסטים אנושיים ומוציאים מידע שימושי מתוך הטקסט.
5:54 – שימושים מעניינים בNLP כגון שימוש GOOGLE בחיפוש – הבנה של כוונת המשתמש והדפים שעליהם מחפשים. האפשרות לשאול את מנוע החיפוש שאלות בשפה טבעית וקבלת התשובות.
9:32- הדגש על הבנת הדומיין בעיבוד שפה – לעומת סירי שעובדת בדומיין מוגבל וקטן יחסית, גוגל עובדת בדומיין מאוד רחב. דוגמא עבור שימוש מדומיין ספציפי – גוגל מאפשרת לקרוא מהמייל אישורי טיסה ולהכניס ליומן זימון לטיסות בתאריכים הנכונים.
13:17- אחד הנושאים שחשוב להבין בNLP הוא קושי הבעיה, למרות התפיסה שזהו מימוש פשוט ולאדם זוהי משימה קלה, המשימה עבור מחשב היא מורכבת. קיימות ספריות בסיסיות לניתוח תחביר וניתוח חלקי דיבר ומעליהן יש לממש את האפליקציה הספציפית (לדוגמא NLTK בפייתון)
17:50 – אין מוצר שמבין עמוקות את הטקסט – יוצאות דופן הינן מערכות הדיאלוג שמנסות להבין את בקשת המשתמש ולמפות שפה טבעית ל"שפת מחשב" ואובייקטים.
19:50 – הקשר בין Machine Learning ל NLP – הגישה בעבר הייתה כתיבת ותחזוקת חוקים לצורך עיבוד השפה. לפני כעשור נעשה מעבר לעולם הלמידה- Machine Learning – המחשב רואה דוגמאות עם תשובות ולאחר הלמידה יודע לסווג את הדוגמאות וקלטים חדשים. עדיין – ישנה התערבות ידנית בתהליך הלמידה והגדרת בעיית הסיווג – לדוגמא בעיית סיווג עמודים ברשת לפי נושא.
26:35- היבטי Deep learning בעיבוד שפה – בשנים האחרונות נכנסים אלגוריתמי Deep learning לעולם ה NLP אך הם עדיין לא חזקים.
27:50 – המחקר העכשווי של יואב - תשתיות של עיבוד שפה – לקחת את אבני הבניין של עיבוד השפה ולשפר אותן. רוב המחקר נעשה באנגלית – השפה הנפוצה במוצרים ובמחקר.
32:50- יואב פעיל ב Git ובעבודות האחרונות אבל לדאבונו, מייצר יותר מסמכי LaTex מאשר קוד - בפרוייקט קוד נוכחי מייצר ספריית Deep Learning לעיבוד שפה רכיב Core בשפת C++ ומעליו Wrapper בPython
35:35 – טיפ לסיום – לא להשתמש בNLTK – היא ספרייה לימודית בעיקרה ולא לשימוש בProduction. עדיף להשתמש בSpacy.IO דמו :https://sense2vec.spacy.io/?natural_language_processing%7CNOUN.
וספריה נוספת שלא הוזכרה Gensim

תודה רבה לחן סלומון על התקצור! הקובץ זמין כאן להאזנה.