יום שני, 24 במאי 2010

065 hadoop

צוות הפתוח של Outbrain העלה לאחרונה מערכת דוחות חדשה, מבוססת Hadoop ו- Hive
דניאל וגבי מצוות הפיתוח של Outbrain התארחו אצלנו וסיפרו חוויות על המערכת החדשה
  • הזכרנו לכל המאזינים מי הוא Hadoop עליו דיברנו גם בפרק 2
  • מה הן היכולות שמוסיף Hive והסבר קצר על MapReduce
  • גבי סיפרה איך המערכת עבדה בעבר, מה הוליד את הצורך להחליף את המערכת הישנה
  • דניאל סיפר שאחרי טעינת המידע ל- Hadoop, בניגוד למערכת הישנה, ניתן להריץ שאילתות כבדות
  • מה עושה חברת Cloudera והתמיכה שלהם ב- Hadoop
  • שימוש ב- Hadoop ו- Hive וכתיבת ממשק בפרוטוקול Thrift
  • כלי ניטור וממשקי משתמש ל- Hadoop ו- Hive וכלי Cloudera שמשלימים את התמונה
  • תמיכה ומגבלות בשאילתות SQL ותוספות לשפה כגון multi-insert
  • האפשרות לגדול – כאשר נגמר המקום בדיסק או כשיש יותר מדי תהליכים
  • Cascading כממשק נוסף ומטמון ל- MapReduce
  • הצורך להיכרות טובה עם Hadoop בכדי לעבוד עם Hive

הקובץ נמצא כאן האזנה נעימה

3 תגובות:

אבי י אמר/ה...

היי, פרק מצויין.
האם אתם משתמשים בhadoop בנוסף לCassandra או שהחלטתם לוותר על Cassandra?
האם יש יתרון לאחר על פני השני, או שכל אחד עדיף למטרה שונה?

Ran Tavory אמר/ה...

משתמשים גם וגם, כל אחד לצרכים שונים. הדופ טוב לחישובי אופליין ארוכים, קסנדרה טוב בתור דאטהבייס אונליין מהיר

אנונימי אמר/ה...

יש מגבלה מסוימת עם hadoop ש ה name node הוא single point of failure ולשם כך יש צורך לגבות אותו ולהשתמש בתצורת mater slave ולא כל ה file system יכול להאבד בזמן כישלון

הוסף רשומת תגובה