רברס עם פלטפורמה: פודקאסט מספר 17

יום רביעי, 22 באפריל 2009

פודקאסט מספר 17 - Key-Value Databases

היום אירחנו את חגי - CTO של Nuconomy

טיפה דיברנו על Nuconomy ומה היא עושה.
עברנו לסקירה היסטורית על התפתחות בסיסי הנתונים.
לא יכלנו שלא לגלוש לרכישה מאתמול של Oracle ו- SUN.
מה קרה באינטרנט הישן? הכל רץ על Oracle כי זה מה שהיה.
התפתחות בסיסי הנתונים מונחי הקוד הפתוח.
בסיסי נתונים לא רלציונים??? מה זה החיה הזו?
למי הם טובים ולמי לא.
ארוע מכונן - פירסום ה BigTable של גוגל.
דיברנו על בסיסי נתונים בענן: Amazon SimpleDB, Google AppEngine, Microsoft Azure
דיברנו על בסיסי נתונים למסמכים: Hbase, CouchDB, ThruDB,Voldermort
קצת על השפות שעוטפות קבצים שמאוכסנים ב- Hadoop
בסיסי הנתונים שהם בתוך התהליכים: BerkeleyDB, SQLite
memcacheDB
מה הם האתגרים שגרמו להתפתחות בסיסי הנתונים האלו.
דיברנו קצת על ביזור הנתונים (Sharding).
איפה אפשר לקרוא על בעיות ביזור נתונים: DB-war stories, HighScalability blog

תודה לחגי - @haggais
היה מאוד מעניין
הנה הקובץ
צ'או

10 תגובות:

אנונימי22 באפריל 2009 בשעה 13:46
סחטיין על התמונה
השבמחק
תשובות
Ori22 באפריל 2009 בשעה 15:05
תגובה זו הוסרה על ידי המחבר.
השבמחק
תשובות
Ori22 באפריל 2009 בשעה 15:08
הפרטים שמורים בכספת של המערכת והמפתח... אצלה.
השבמחק
תשובות
Ori22 באפריל 2009 בשעה 15:21
עוד פוסט מעניין על Key-Value DBs:
http://www.metabrew.com/article/anti-rdbms-a-list-of-distributed-key-value-stores/
השבמחק
תשובות
ישי סמיט23 באפריל 2009 בשעה 9:49
חשוב לציין שמסדי נתונים, ובעיקר key value stores הם לא one size fit all. יש למשל כאילה שנועדו לפלטפורמות map-reduce כגון HBase, CouchDB ואחרות כגון dynamo ו voldemort שנועדו למערכות online ואמורות לספק זמינות ומקצבים גבוהים במיוחד.
השבמחק
תשובות
Ori26 באפריל 2009 בשעה 15:08
עוד פוסט מעניין של מישהו שעשה מחקר ביצועים קצר על כמה מערכות Key-Value
http://randomfoo.net/2009/04/20/some-notes-on-distributed-key-stores
השבמחק
תשובות
אנונימי30 בספטמבר 2009 בשעה 16:11
היי רן ואורי,
מאוד נהנתי לשמוע את ההרצאה על SCALE , ובכלל, את כל ההרצאות ..
בחברה שאני עובד בה יש לנו מספר "מסדי נתונים" שנראים כמו CSV אך יש אפשרות לתשאל אותם גם על הטורים ולא רק על ה KEY שלהם ( כמובן שרק "SQL" פשוט ולא JOIN וכו' )...
ה DATA מפוזר על 9 מכונות בפורמט "קבצים" ועם אינדוקס ייחודי שפותח.
מספר ההכנסות מגיע ל 15 מיליארד רשומות ביום ויש כמות גדולה מאוד של שאילתות שמתבצעות בזמן אמת על ה DATA.
קראתי על :
HBASE+LUCENE , CouchDB , HBASE , MongoDB
ולא ראיתי שאף אחד מגיע לקצבים האלה ...
האם שמעתם על פיתרון OPEN SOURCE שמגיע לקצבים כאלה ? האם אתם עובדים עם משהוא ב SCALE דומה ?
מעניין מאוד ..
תודה רבה.
שמשון.
השבמחק
תשובות
Ori30 בספטמבר 2009 בשעה 16:34
היי שמשון
מה שאתה מתאר נראה מאוד דומה לפתרון של HADOOP עם HIVE.
קצבי ההכנסה הם בעצם הקצבים של שמירת הקבצים והתשאול מתבצע קצת יותר לאט במתודולוגיה של MAP/REDUCE.
HIVE בעצם נותנת את האפשרות לכתוב שאילתות בשפה שדומה ל SQL שמתורגמות ברקע לפונקציות של MAP.REDUCE.
חפש אותם תחת הפרוייקט HADOOP של APACHE.

אורי
השבמחק
תשובות
אנונימי30 בספטמבר 2009 בשעה 17:18
שלום אורי,
תודה רבה על תגובתך ,
במהלך התחקור שעשיתי ראיתי את הפרוייקטים האלה , אך החבר'ה ב STACKOVERFLOW לא כלכך המליצו ...
http://stackoverflow.com/questions/24179/how-does-hive-compare-to-hbase
http://wiki.apache.org/hadoop/Hive/PoweredBy
הבעיה שהפרוייקט ( למרות שהוא כבר ב APACHE ) אינו מספיק בשל למערכות Production (0.3.0)..
ראה גם את mongodb שנראה מלהיב ..
אך גם הוא סובל מבעיות ביצועים ...
:(
השבמחק
תשובות
אנונימי30 בספטמבר 2009 בשעה 17:23
כמו כן ראה את התגובה האחרונה ב Thread הזה ..

http://stackoverflow.com/questions/354231/20-billion-rows-month-hbase-hive-greenplum-what

כנראה בחור ישראלי :)
השבמחק
תשובות

הוסף תגובה