יום רביעי, 22 באפריל 2009

פודקאסט מספר 17 - Key-Value Databases


היום אירחנו את חגי - CTO של Nuconomy
  • טיפה דיברנו על Nuconomy ומה היא עושה.
  • עברנו לסקירה היסטורית על התפתחות בסיסי הנתונים.
  • לא יכלנו שלא לגלוש לרכישה מאתמול של Oracle ו- SUN.
  • מה קרה באינטרנט הישן? הכל רץ על Oracle כי זה מה שהיה.
  • התפתחות בסיסי הנתונים מונחי הקוד הפתוח.
  • בסיסי נתונים לא רלציונים??? מה זה החיה הזו?
  • למי הם טובים ולמי לא.
  • ארוע מכונן - פירסום ה BigTable של גוגל.
  • דיברנו על בסיסי נתונים בענן: Amazon SimpleDB, Google AppEngine, Microsoft Azure
  • דיברנו על בסיסי נתונים למסמכים: Hbase, CouchDB, ThruDB,Voldermort
  • קצת על השפות שעוטפות קבצים שמאוכסנים ב- Hadoop
  • בסיסי הנתונים שהם בתוך התהליכים: BerkeleyDB, SQLite
  • memcacheDB
  • מה הם האתגרים שגרמו להתפתחות בסיסי הנתונים האלו.
  • דיברנו קצת על ביזור הנתונים (Sharding).
  • איפה אפשר לקרוא על בעיות ביזור נתונים: DB-war stories, HighScalability blog
תודה לחגי - @haggais
היה מאוד מעניין
הנה הקובץ
צ'או

10 תגובות:

  1. סחטיין על התמונה

    השבמחק
  2. התגובה הוסרה על ידי המשתמש שכתב אותה.

    השבמחק
  3. הפרטים שמורים בכספת של המערכת והמפתח... אצלה.

    השבמחק
  4. עוד פוסט מעניין על Key-Value DBs:
    http://www.metabrew.com/article/anti-rdbms-a-list-of-distributed-key-value-stores/

    השבמחק
  5. חשוב לציין שמסדי נתונים, ובעיקר key value stores הם לא one size fit all. יש למשל כאילה שנועדו לפלטפורמות map-reduce כגון HBase, CouchDB ואחרות כגון dynamo ו voldemort שנועדו למערכות online ואמורות לספק זמינות ומקצבים גבוהים במיוחד.

    השבמחק
  6. עוד פוסט מעניין של מישהו שעשה מחקר ביצועים קצר על כמה מערכות Key-Value
    http://randomfoo.net/2009/04/20/some-notes-on-distributed-key-stores

    השבמחק
  7. היי רן ואורי,
    מאוד נהנתי לשמוע את ההרצאה על SCALE , ובכלל, את כל ההרצאות ..
    בחברה שאני עובד בה יש לנו מספר "מסדי נתונים" שנראים כמו CSV אך יש אפשרות לתשאל אותם גם על הטורים ולא רק על ה KEY שלהם ( כמובן שרק "SQL" פשוט ולא JOIN וכו' )...
    ה DATA מפוזר על 9 מכונות בפורמט "קבצים" ועם אינדוקס ייחודי שפותח.
    מספר ההכנסות מגיע ל 15 מיליארד רשומות ביום ויש כמות גדולה מאוד של שאילתות שמתבצעות בזמן אמת על ה DATA.
    קראתי על :
    HBASE+LUCENE , CouchDB , HBASE , MongoDB
    ולא ראיתי שאף אחד מגיע לקצבים האלה ...
    האם שמעתם על פיתרון OPEN SOURCE שמגיע לקצבים כאלה ? האם אתם עובדים עם משהוא ב SCALE דומה ?
    מעניין מאוד ..
    תודה רבה.
    שמשון.

    השבמחק
  8. היי שמשון
    מה שאתה מתאר נראה מאוד דומה לפתרון של HADOOP עם HIVE.
    קצבי ההכנסה הם בעצם הקצבים של שמירת הקבצים והתשאול מתבצע קצת יותר לאט במתודולוגיה של MAP/REDUCE.
    HIVE בעצם נותנת את האפשרות לכתוב שאילתות בשפה שדומה ל SQL שמתורגמות ברקע לפונקציות של MAP.REDUCE.
    חפש אותם תחת הפרוייקט HADOOP של APACHE.

    אורי

    השבמחק
  9. שלום אורי,
    תודה רבה על תגובתך ,
    במהלך התחקור שעשיתי ראיתי את הפרוייקטים האלה , אך החבר'ה ב STACKOVERFLOW לא כלכך המליצו ...
    http://stackoverflow.com/questions/24179/how-does-hive-compare-to-hbase
    http://wiki.apache.org/hadoop/Hive/PoweredBy
    הבעיה שהפרוייקט ( למרות שהוא כבר ב APACHE ) אינו מספיק בשל למערכות Production (0.3.0)..
    ראה גם את mongodb שנראה מלהיב ..
    אך גם הוא סובל מבעיות ביצועים ...
    :(

    השבמחק
  10. כמו כן ראה את התגובה האחרונה ב Thread הזה ..

    http://stackoverflow.com/questions/354231/20-billion-rows-month-hbase-hive-greenplum-what

    כנראה בחור ישראלי :)

    השבמחק