יום ראשון, 26 ביולי 2015

269 Analytics and Big Data with Google Cloud

פרק נוסף בסדרה על ספקי ענן (Cloud Vendors)  הסוקרת את פלטפורמות הענן הקיימות היום והיתרונות שלהן למפתחים. נושא התוכנית הפעם: ביג דאטה אנליטיקס. כרגיל בתוכנית המשתתפים הקבועים, נתי שלום ואורי להב.
מי שעוד לא נרשם לקבוצת הפייסבוק החדשה שלנו, אז אין שום סיבה לחכות, יש שם כבר מאות מפתחים ומאוד מעניין שם. והמבצע שלנו "כוסות תמורת הערות" נמשך! מי שתורם הערה מחכימה בדיונים בכוס איכותית של Reversim.

אורח התוכנית הפעם הוא ואדים סולובי, עובד בחברת DoIT, השותפה של גוגל בישראל, אבל גם GDE – Google Developer Expert. זוהי רשת המומחים בתחומים כמו פיתוח לאנדרואיד, UX ו-UI, שיווק וניהול המוצר. סולובי הוא אחד משני המומחים בישראל לפלטפורמת הענן של גוגל.
נקודות עיקריות במהלך התוכנית:
  • גוגל בין הראשונות להתמודד עם אתגרים של ביג דאטה, וחשפה את מרבית הטכנולוגיות הפנים ארגוניות שלה. (04:00)
  • ב-2009 גוגל החליטה לממש את הרעיונות שהופיעו ב-White Papers בצורת מוצרים ללקוחות. (07:20)
  • אף אחד בגוגל לא מריץ יותר Hadoop, בגלל התחזוקה השוטפת. הכלי המועדף הוא Dremel שהפך ל-BigQuery כאשר השירות מאפשר להריץ שאילתות מהירות על Dataset בלתי מוגבל. (09:20)
  • מדובר בשירות שהוא Near Real Time, לכן אם נרצה תגובה מיידית נריץ את השאילתה בצורה של Cron מראש. (16:07)
  • אנחנו יכולים באמצעות REST API לשדר עד 100K רשומות חדשות לשניה לטבלה, לתוך ה-BigQuery וכל שאילתה תעבוד על המידע החדש. (18:09)
  • DataFlow מאפשרת לבצע סטרימינג של מידע ולנתח אותו תוך כדי. המון שימושים של אנליטיקס בשירות כזה. מתמודדת עם מידע "שהוא תוך כדי תזוזה" לעומת BigQuery ששואלת שאלות ב-SQL במידע שכבר קיים. (19:58)
  • Google BigTable זה NoSQL שניתן כשירות והוא גם הבסיס לשירותים כמו Gmail ו-Adwords. Read Latency של 20 מילישניה, אבל צריך לבחון את זה בהתאם לדרישות שלכם. מתאים לשירותים כמו פיננסים, המלצות או IoT למשל. לא מומלץ לפחות מטרהבייט של נתונים. (26:57)
  • ה-API מבוסס על על HBase כך שאפשר להעביר את בסיס הנתונים בעתיד, ולא נעולים לספק. (34:48)
  • גוגל מתכוונת להשיק RDBS חדש במהלך השנה שנקרא Spanner, והוא יהיה ב-Scale של NoSQL על מידע רלציוני. (36:30)
  • Data Proc הוא שירות שאפשר להגדיר אותו כ- Hadoop as a Service. מאוד פשוט: המערכת מייצרת את ה-Cluster, שולחים את ה-Job ובסיום הריצה לסגור את ה-Cluster ולא לשלם עליו יותר. (40:30)
  • Pub/Sub הוא סוג של Message Bus, משתלב עם כל המוצרים האחרים. מעביר עד 100 אלף הודעות בשניה למנוי, ויודעת להבטיח את הסדר שלהן. (45:51)
  • Prediction API מנוע של ML, משמש למגוון שימושים. גוגל מציעה מודלים שמבוססים על הידע שלה כמו זיהוי עצמים, פנים, שפה ועוד. (48:20)

עוד כמה קישורים מעניינים:

ותודה לרועי שלומי על התקציר של הפרק.
הקובץ נמצא כאן, האזנה נעימה

אין תגובות:

פרסום תגובה