יום שני, 11 בינואר 2016

288 Carburetor 21: Predictions for 2016

אנחנו בפודקאסט נוסף של רברסים, והגענו כבר לפרק 288, שמוקלט באולפן הביתי המשוכלל שלנו ב-29/12/15. מצטרף אלינו הפעם נתי שלום, לפרק 21 של קרבורטור, תת סדרה שלנו.
נתי שלום, המייסד של GigaSpaces שקיימת כמעט 16 שנה. עוסק בנושאי ענן ו-Big Data. בעבר נתי התארח אצלנו לסדרת ספקי שירותי הענן, בה סקרנו שירותים של מיקרוסופט, אמזון, DigitalOcean וגם חברות שבונות את שירותי הענן שלהן בעצמן כמו OutBrain.
השיחה שלנו הפעם תתרכז בסיכום המגמות הטכנולוגיות של השנה האחרונה, וגם תחזיות לקראת 2016.
זה המקום להזכיר שיש לנו קבוצת פייסבוק עוד מ-2015, והיא תמשיך להיות פעילה גם ב-2016 למי שחשש. אנחנו עדיין מחלקים כוסות תמורת הערות נפלאות, ונשמח לשמוע מכם גם בשנה הבאה - בבלוג, בטוויטר, או ב-RSS .


ואנחנו מתחילים (או מתחילות….):
  • מפתחים פועלים כמו בשוק האופנה. ממצב של שתי אפשרויות לבסיסי נתונים, הגענו למצב של עשרות ומאות סוגים של בסיסי נתונים וספקי שירותי ענן. חלק מהשיקולים בבחירה הטכנולוגית הם כבר שיקולים של מותג ושיוך לערכים שלו. כאשר בחלק מהמקרים יש נטייה מראש לבחור בטכנולוגיה ולא בגלל שהיא "הכלי המתאים ביותר לעבודה". (2:37)
  • למי שבונה מוצר למפתחים, חשוב היום להבין שיקולים של אופנה ובניית מותג, גם על חשבון הפיצ'ר הנכון. דוגמא מעניינת: Cassandra שנבנתה מראש להתמודד עם Scale, אבל יש לה API בעייתי. לעומתה MongoDB הוסיף יכולות של Scale בשלבה מאוחר יותר, ועדיין ניצח. (8:46)
  • בחירה של מוצרים טכנולוגיים דומה לבחירה של מוצר חשמלי, שאפשר להחליף בקלות ובמחיר נמוך. אפילו החלפה של בסיס נתונים, שנחשבה בעבר למהלך משמעותי, הופכת למינורית אם מסתכלים עליה בסדר גודל של חברה. היתרונות למוצרים פופולריים - קהילת משתמשים גדולה, ופתרונות מהירים לבעיות. (14:05)
  • דוגמא מעניינת נוספת היא מיקרוסופט שמציעה ב-Azure משהו מאוד הוליסטי עם חשיבה עמוקה על ארכיטקטורה וכלים כמו Visual Studio. לעומתה מציעים אמזון/גוגל מכל הבא ליד, ודורשת בחירה ושילוב של כלים. ועדיין אמזון יותר פופולרית. (19:05)
  • השיקול המנחה היום הוא מהירות הפיתוח. לכן החלטות טכנולוגיות כבר לא מתקבלות על ידי המנהלים הבכירים אלא על ידי המפתחים, ובצדק. המפתחים צריכים להרגיש נוח עם הכלים על מנת לספק את התוצרים במהירות. (23:30)
  • מבחינת התחזית ל-2016: המיזוג של EMC ו-DELL שמוערך -67 מיליארד דולר הוא הדבר הבולט של 2015, ומי היה מאמין שחנות ספרים תזעזע את כל עולם ה-IT הקלאסי. כל שחקני ה-IT נמצאים במצב של שרידות ואיום קיומי. המלצה על ספר מעניין - "התמוטטות" (עברית, אנגלית), שעוסק בקריסה של ציויליזציות ומסביר שהכתובת תמיד היתה על הקיר ולאורך זמן. (25:00)
  • בטווח של 3-5 שנים הקרובות כל עסק יעביר את תשתית המחשוב שלו לעננים ציבוריים. אפילו ענפים בתחומי הפיננסים שנמנעו מזה, מתכוונים לשנות את הרגולציה כדי לעבור לשירותים כאלו. הקומודיטזציה של השוק וירידות המחירים יימשכו גם ב-2016. (32:20)
  • מגמה נוספת היא התרחבות של התשתית שנבנית סביב Docker. זה יוביל לעוד ירידה בעלויות בגלל שיפור במהירות ובגמישות. בעתיד נראה שירותי ענן שהם Docker Native. בנוסף, התוחלת של OpenStack מגיעה לקיצה מבחינת הרעיון המקורי שלה. (38:08)


את התחזית המלאה והמפורטת אפשר לקרוא בבלוג של נתי. את הקובץ ב-MP3 אפשר להוריד בקליק ימני מכאן, ותודה לרועי שלומי על התקציר של הפרק ולגיא מנחם על העריכה הקולית. ותודה ל-Outbrain על החסות והתמיכה הכספית.

אנחנו מאחלים לכולכם שנה כיפית ומלאת קוד מעניין!

יום ראשון, 10 בינואר 2016

287 Search, with Ronny Lempel

אנחנו בפרק מס' 287, באולפן המשוכלל שלנו ומשדרים היישר מפרדס-חנה. היום נערוך שיחה מרתקת על תחום החיפוש.
אנחנו מארחים את רוני למפל, שמגיע מעולם החיפוש. רוני מנהל את  קבוצת ההמלצות של Outbrain, ומתרכז במערכות המלצה. ההתחלה שלו היתה עם תחום החיפוש ב-98' באקדמיה, לאחר מכן ב-AltaVista, דוקטורט בתחום, עבודה ב-IBM בפיתוחי מנועי חיפוש ארגוניים ולאחר מכן ב-Yahoo. בשנים האחרונות מלמד בטכניון קורס על מנועי חיפוש. תחומי ההתמחות שלו הם: אלגוריתמים שמבוססים על דירוג קישורים כמו PageRank, שיפור הביצועים ב-Caching של מנועי חיפוש וייצוגים חכמים של אינדקס חיפוש במנועים פנים ארגוניים.
אותנו לא צריך לחפש, כי אנחנו נמצאים בפייסבוק, בטוויטר, בבלוג וב-RSS. מבצע כוסות תמורת הערות מחכימות נמשך, ואנחנו מחכים לחלק את הכוסות המיוחדות שלנו.


הנקודות ששוחחנו עליהן היום:
  • שאילתה - 80% מהשאילתות מורכבות משלוש מילים ומטה, תוך ציפיה לקבל את המענה הטוב ביותר, מתוך עשרות מיליארדי דפים ובפחות משניה. אינדקס - מבנה הנתונים שמנוע החיפוש מחזיק כדי לחפש את המסמכים, ולדרג אותם בצורה טובה במענה לשאילתות. (2:45)
  • רבים מכירים את PageRank - אלגוריתם שמדרג דפים לפי מספר ואיכות הדפים שמקשרים אליו. אבל יש פרמטרים נוספים כמו: הקלקות משתמשים על הדף, תמיכה בתצוגה במובייל, מהירות התגובה של האתר. (6:12)
  • מנועי חיפוש עובדים ב-Best Effort, כך שהם מבטיחים רלוונטיות אבל לא את כל התוצאות. המנועים גם מבצעים Query Log ומנתחים את השאילתות עצמן של כל המשתמשים. פרמטרים נוספים - מיקום במקרה של מובייל, יום ושעה בשבוע. (10:25)
  • קצת היסטוריה על חיפוש: בשנת 1994 העידן שבו נולד המדריך של יאהו, שהיה מבוסס על נושאים. לאחר מכן הגיעו Lycos, Excite ו-AltaVista.כאשר AltaVista נולד בכלל כהדגמה לשרתים של Digital. בגלל השאילתות הקצרות התוצאות עדיין היו גרועות. (16:32)
  • בשנת 1998 מתפרסמות שתי עבודות אקדמיות הראשונה של סרגי ברין ולארי פייג', שמתארים את PageRank. העבודה השנייה מתארת את Hits ,אלגוריתם שגם מבסס חשיבות של דפים על הקישורים אליהם. (22:40)
  • השלב הבא בשנת 2005 היה הפסקת המיקוד במילות החיפוש, ויותר בכוונה של המחפש. רוב המשתמשים עדיין בדסקטופ, אבל המנועים התחילו להתייחס למיקום גיאוגרפי. חלק מהתוצאות כללו לא רק לינקים, אלא גם מפות, חדשות, תמונות וסרטונים. (32:25)
  • Overture מציעה לראשונה אפשרות לשלם על מיקום תוצאות בתוך תוצאות החיפוש, בשיטת המכרז. זה פתח את העידן של הכנסות משמעותיות למנועי החיפוש. (36:04)
  • מפרסמים מגישים הצעות ומשלמים במידה ויהיה קליק, והמנוע משקלל את זה ביחד עם ההסתברות לקליק. בשיטה הזאת המתמודד הראשון זוכה, אבל משלם את המחיר של המתמודד השני. זאת כדי למנוע חרטה והרגשה של "פרייאר". (38:05)
  • שיטות של ספאם - פונטים קטנים, טקסט בשחור על שחור או הבהוב בלתי נראה. באותה התקופה מנועי החיפוש היו שולחים שליחים סמויים לכנסים בשביל לגלות מה הספאמרים יודעים. (42:24)
  • במחצית השניה של העשור הקודם, קונסלידציה גדולה מאוד בשוק. המנועים מתחילים להבין פעולות ביחד עם שמות עצם כמו שם של משחק והמילה "להורדה". בנוסף אפשר לבצע פעולות מדף תוצאות החיפוש כמו הזמנת שולחן במסעדה. (45:00)
  • מנועים מתחילים להציג את התשובות על דף החיפוש עצמו, כמו למשל מזג אוויר. ועכשיו המנועים צריכים להבין אם המשתמש קיבל את המענה או לא קיבל. (50:46)
  • בשלב הבא שכלל פרסונליזציה, המנועים מסתמכים על השאילתות הקודמות שלכם בשביל להבין את משמעות החיפוש. בנוסף המנועים מבינים טוב יותר את המידע בדפי האינטרנט ואת המבנה שלהם. (52:30)
  • הרבה מהחוכמה של כלים כמו Siri, Cortana ו-Google Now מבוסס על חיפוש. (60:50)
  • תחום מעניין נוסף הוא מנועי חיפוש ארגוניים. ההבדלים הם ממשק להרבה מערכות פנימיות, וגם מנגנון הרשאות על בסיס תפקידי העובדים. (64:27)

ניתן להוריד קובץ MP3 בקליק ימני מכאן, ותודה לרועי שלומי על התקציר של הפרק ולגיא מנחם על העריכה הקולית. ותודה ל-Outbrain על החסות והתמיכה הכספית.

יום שבת, 9 בינואר 2016

286 (No) Cloud infrastructures Data infra, with Alon Elishkov

אנחנו בפרק 286, פרק נוסף בסדרת ספקי שירותי הענן שלנו. במהלך הסדרה סקרנו שירותי ענן שונים, החל מחברות כמו אמזון, גוגל ומיקרוסופט, וגם חברות שעושות את זה עם שירותי ענן משלהן. היום אנחנו נצלול יותר לנושא הזה של
NoCloud.
נמצא איתנו באולפן אלון אלישקוב מ-Outbrain. אלון הוא ראש צוות תשתיות Data, ולפני כן עבד ב-LivePerson בקבוצה שבנתה את ה-Experts Platform. אנחנו רוצים להזכיר את קבוצת הפייסבוק שלנו, הבלוג, הטוויטר וה-RSS. ולמי שיעלה נושאי דאטה מעניינים לדיון בקבוצה, מובטח ספל רברסים מהודר ישירות הביתה.


נקודות שעלו בתוכנית:
  • הדאטה הוא הבסיס לכל הפעילות העסקית. החל מניתוח איך עמודים נראים ברשת, מה מעניין בהם, וממשיך לאיך משתמשים מתנהגים ומגיבים להמלצות שלנו. (2:50)
  • סוגים נפוצים של נתונים שאנחנו מנתחים הם קליקים, חשיפות, התנהגויות להמלצה, מי המשתמש והמאפיינים שלו. יש לנו 600 מיליון משתמשים וזה גם משמעותי. (4:10)
  • אנחנו מתמודדים עם מיליארדי אירועים ביום ומעבירים (7TB (Zipped ביום. מערכות הניטור של השרתים עצמן מייצרות 5 מיליון מטריקות בדקה. (5:47)
  • חלק מהארכיטקטורה הוא להתמודד עם דרישות QoS שונות. יש לנו מערכות קריטיות שבהן המידע זמין תוך פחות מדקה, ובחלק מהמערכות הוא יכול להיות זמין גם שעה אחרי. (8:47)
  • יש מאות סוגים של שירותים שמשתמשים ב-Alethia שהיא ספריה שפיתחנו. הספריה לוקחת יחידות מידע ועוטפת אותם במידע תפעולי שמסייע לנו לנהל את הדאטה. כלים נוספים: Kafka ו- Hadoop,  איתם אנחנו מייצרים Breadcrumbs שמאפשרים לנו לייצר התראות למי שצריך. (10:43)
  • Kafka משמשת אותנו להעברת מידע ממקום למקום, הכלי המקביל של אמזון הוא Kinesis. כלי נוסף הוא Storm שמאפשר לך לבצע חישובים מבוזרים. לפעולות אנליטיות משתמשים ב-Vertica שמציע יכולות ניתוח סופר מהירות. (17:42)
  • כל החשיבה והתכנון סובב סביב Scale. דוגמא טובה היא הדאטה על ניטור המערכות שבשלב מסוים דורש בניית מערכות חדשות בגלל הגודל. הלקוחות שלנו הם גם הצד העסקי וגם המפתחים. (23:30)
  • אנחנו בוחנים כל הזמן (אבל לא מספיק) יכולות שיש לספקי שירותי ענן ציבוריים, ומקבלים השראה כדי במידת הצורך לשלב את היכולות הללו גם אצלנו. אפשר לבחון מערכת או פיצ'ר חדשים באמצעות ענן ציבורי, ואז ללמוד איך ליישם אותם לתשתית הפרטית שלך. (27:42)
  • אנחנו כמובן גם מגייסים לצוות שלנו כל הזמן, אם אתם רוצים אתגרים מעניינים בתחום אז פשוט תבואו.


את הקובץ ב-MP3 אפשר להוריד בקליק ימני מכאן, ותודה לרועי שלומי על התקציר של הפרק ולגיא מנחם על העריכה הקולית. ותודה ל-Outbrain על החסות והתמיכה הכספית.