יום שני, 24 במאי 2010

065 hadoop

צוות הפתוח של Outbrain העלה לאחרונה מערכת דוחות חדשה, מבוססת Hadoop ו- Hive
דניאל וגבי מצוות הפיתוח של Outbrain התארחו אצלנו וסיפרו חוויות על המערכת החדשה
  • הזכרנו לכל המאזינים מי הוא Hadoop עליו דיברנו גם בפרק 2
  • מה הן היכולות שמוסיף Hive והסבר קצר על MapReduce
  • גבי סיפרה איך המערכת עבדה בעבר, מה הוליד את הצורך להחליף את המערכת הישנה
  • דניאל סיפר שאחרי טעינת המידע ל- Hadoop, בניגוד למערכת הישנה, ניתן להריץ שאילתות כבדות
  • מה עושה חברת Cloudera והתמיכה שלהם ב- Hadoop
  • שימוש ב- Hadoop ו- Hive וכתיבת ממשק בפרוטוקול Thrift
  • כלי ניטור וממשקי משתמש ל- Hadoop ו- Hive וכלי Cloudera שמשלימים את התמונה
  • תמיכה ומגבלות בשאילתות SQL ותוספות לשפה כגון multi-insert
  • האפשרות לגדול – כאשר נגמר המקום בדיסק או כשיש יותר מדי תהליכים
  • Cascading כממשק נוסף ומטמון ל- MapReduce
  • הצורך להיכרות טובה עם Hadoop בכדי לעבוד עם Hive

הקובץ נמצא כאן האזנה נעימה

3 תגובות:

  1. היי, פרק מצויין.
    האם אתם משתמשים בhadoop בנוסף לCassandra או שהחלטתם לוותר על Cassandra?
    האם יש יתרון לאחר על פני השני, או שכל אחד עדיף למטרה שונה?

    השבמחק
  2. משתמשים גם וגם, כל אחד לצרכים שונים. הדופ טוב לחישובי אופליין ארוכים, קסנדרה טוב בתור דאטהבייס אונליין מהיר

    השבמחק
  3. יש מגבלה מסוימת עם hadoop ש ה name node הוא single point of failure ולשם כך יש צורך לגבות אותו ולהשתמש בתצורת mater slave ולא כל ה file system יכול להאבד בזמן כישלון

    השבמחק