יום ראשון, 10 בינואר 2016

287 Search, with Ronny Lempel

אנחנו בפרק מס' 287, באולפן המשוכלל שלנו ומשדרים היישר מפרדס-חנה. היום נערוך שיחה מרתקת על תחום החיפוש.
אנחנו מארחים את רוני למפל, שמגיע מעולם החיפוש. רוני מנהל את  קבוצת ההמלצות של Outbrain, ומתרכז במערכות המלצה. ההתחלה שלו היתה עם תחום החיפוש ב-98' באקדמיה, לאחר מכן ב-AltaVista, דוקטורט בתחום, עבודה ב-IBM בפיתוחי מנועי חיפוש ארגוניים ולאחר מכן ב-Yahoo. בשנים האחרונות מלמד בטכניון קורס על מנועי חיפוש. תחומי ההתמחות שלו הם: אלגוריתמים שמבוססים על דירוג קישורים כמו PageRank, שיפור הביצועים ב-Caching של מנועי חיפוש וייצוגים חכמים של אינדקס חיפוש במנועים פנים ארגוניים.
אותנו לא צריך לחפש, כי אנחנו נמצאים בפייסבוק, בטוויטר, בבלוג וב-RSS. מבצע כוסות תמורת הערות מחכימות נמשך, ואנחנו מחכים לחלק את הכוסות המיוחדות שלנו.


הנקודות ששוחחנו עליהן היום:
  • שאילתה - 80% מהשאילתות מורכבות משלוש מילים ומטה, תוך ציפיה לקבל את המענה הטוב ביותר, מתוך עשרות מיליארדי דפים ובפחות משניה. אינדקס - מבנה הנתונים שמנוע החיפוש מחזיק כדי לחפש את המסמכים, ולדרג אותם בצורה טובה במענה לשאילתות. (2:45)
  • רבים מכירים את PageRank - אלגוריתם שמדרג דפים לפי מספר ואיכות הדפים שמקשרים אליו. אבל יש פרמטרים נוספים כמו: הקלקות משתמשים על הדף, תמיכה בתצוגה במובייל, מהירות התגובה של האתר. (6:12)
  • מנועי חיפוש עובדים ב-Best Effort, כך שהם מבטיחים רלוונטיות אבל לא את כל התוצאות. המנועים גם מבצעים Query Log ומנתחים את השאילתות עצמן של כל המשתמשים. פרמטרים נוספים - מיקום במקרה של מובייל, יום ושעה בשבוע. (10:25)
  • קצת היסטוריה על חיפוש: בשנת 1994 העידן שבו נולד המדריך של יאהו, שהיה מבוסס על נושאים. לאחר מכן הגיעו Lycos, Excite ו-AltaVista.כאשר AltaVista נולד בכלל כהדגמה לשרתים של Digital. בגלל השאילתות הקצרות התוצאות עדיין היו גרועות. (16:32)
  • בשנת 1998 מתפרסמות שתי עבודות אקדמיות הראשונה של סרגי ברין ולארי פייג', שמתארים את PageRank. העבודה השנייה מתארת את Hits ,אלגוריתם שגם מבסס חשיבות של דפים על הקישורים אליהם. (22:40)
  • השלב הבא בשנת 2005 היה הפסקת המיקוד במילות החיפוש, ויותר בכוונה של המחפש. רוב המשתמשים עדיין בדסקטופ, אבל המנועים התחילו להתייחס למיקום גיאוגרפי. חלק מהתוצאות כללו לא רק לינקים, אלא גם מפות, חדשות, תמונות וסרטונים. (32:25)
  • Overture מציעה לראשונה אפשרות לשלם על מיקום תוצאות בתוך תוצאות החיפוש, בשיטת המכרז. זה פתח את העידן של הכנסות משמעותיות למנועי החיפוש. (36:04)
  • מפרסמים מגישים הצעות ומשלמים במידה ויהיה קליק, והמנוע משקלל את זה ביחד עם ההסתברות לקליק. בשיטה הזאת המתמודד הראשון זוכה, אבל משלם את המחיר של המתמודד השני. זאת כדי למנוע חרטה והרגשה של "פרייאר". (38:05)
  • שיטות של ספאם - פונטים קטנים, טקסט בשחור על שחור או הבהוב בלתי נראה. באותה התקופה מנועי החיפוש היו שולחים שליחים סמויים לכנסים בשביל לגלות מה הספאמרים יודעים. (42:24)
  • במחצית השניה של העשור הקודם, קונסלידציה גדולה מאוד בשוק. המנועים מתחילים להבין פעולות ביחד עם שמות עצם כמו שם של משחק והמילה "להורדה". בנוסף אפשר לבצע פעולות מדף תוצאות החיפוש כמו הזמנת שולחן במסעדה. (45:00)
  • מנועים מתחילים להציג את התשובות על דף החיפוש עצמו, כמו למשל מזג אוויר. ועכשיו המנועים צריכים להבין אם המשתמש קיבל את המענה או לא קיבל. (50:46)
  • בשלב הבא שכלל פרסונליזציה, המנועים מסתמכים על השאילתות הקודמות שלכם בשביל להבין את משמעות החיפוש. בנוסף המנועים מבינים טוב יותר את המידע בדפי האינטרנט ואת המבנה שלהם. (52:30)
  • הרבה מהחוכמה של כלים כמו Siri, Cortana ו-Google Now מבוסס על חיפוש. (60:50)
  • תחום מעניין נוסף הוא מנועי חיפוש ארגוניים. ההבדלים הם ממשק להרבה מערכות פנימיות, וגם מנגנון הרשאות על בסיס תפקידי העובדים. (64:27)

ניתן להוריד קובץ MP3 בקליק ימני מכאן, ותודה לרועי שלומי על התקציר של הפרק ולגיא מנחם על העריכה הקולית. ותודה ל-Outbrain על החסות והתמיכה הכספית.

אין תגובות:

הוסף רשומת תגובה