יום רביעי, 22 באפריל 2009

פודקאסט מספר 17 - Key-Value Databases


היום אירחנו את חגי - CTO של Nuconomy
  • טיפה דיברנו על Nuconomy ומה היא עושה.
  • עברנו לסקירה היסטורית על התפתחות בסיסי הנתונים.
  • לא יכלנו שלא לגלוש לרכישה מאתמול של Oracle ו- SUN.
  • מה קרה באינטרנט הישן? הכל רץ על Oracle כי זה מה שהיה.
  • התפתחות בסיסי הנתונים מונחי הקוד הפתוח.
  • בסיסי נתונים לא רלציונים??? מה זה החיה הזו?
  • למי הם טובים ולמי לא.
  • ארוע מכונן - פירסום ה BigTable של גוגל.
  • דיברנו על בסיסי נתונים בענן: Amazon SimpleDB, Google AppEngine, Microsoft Azure
  • דיברנו על בסיסי נתונים למסמכים: Hbase, CouchDB, ThruDB,Voldermort
  • קצת על השפות שעוטפות קבצים שמאוכסנים ב- Hadoop
  • בסיסי הנתונים שהם בתוך התהליכים: BerkeleyDB, SQLite
  • memcacheDB
  • מה הם האתגרים שגרמו להתפתחות בסיסי הנתונים האלו.
  • דיברנו קצת על ביזור הנתונים (Sharding).
  • איפה אפשר לקרוא על בעיות ביזור נתונים: DB-war stories, HighScalability blog
תודה לחגי - @haggais
היה מאוד מעניין
הנה הקובץ
צ'או

10 תגובות:

אנונימי אמר/ה...

סחטיין על התמונה

Ori אמר/ה...
תגובה זו הוסרה על ידי המחבר.
Ori אמר/ה...

הפרטים שמורים בכספת של המערכת והמפתח... אצלה.

Ori אמר/ה...

עוד פוסט מעניין על Key-Value DBs:
http://www.metabrew.com/article/anti-rdbms-a-list-of-distributed-key-value-stores/

ישי סמיט אמר/ה...

חשוב לציין שמסדי נתונים, ובעיקר key value stores הם לא one size fit all. יש למשל כאילה שנועדו לפלטפורמות map-reduce כגון HBase, CouchDB ואחרות כגון dynamo ו voldemort שנועדו למערכות online ואמורות לספק זמינות ומקצבים גבוהים במיוחד.

Ori אמר/ה...

עוד פוסט מעניין של מישהו שעשה מחקר ביצועים קצר על כמה מערכות Key-Value
http://randomfoo.net/2009/04/20/some-notes-on-distributed-key-stores

אנונימי אמר/ה...

היי רן ואורי,
מאוד נהנתי לשמוע את ההרצאה על SCALE , ובכלל, את כל ההרצאות ..
בחברה שאני עובד בה יש לנו מספר "מסדי נתונים" שנראים כמו CSV אך יש אפשרות לתשאל אותם גם על הטורים ולא רק על ה KEY שלהם ( כמובן שרק "SQL" פשוט ולא JOIN וכו' )...
ה DATA מפוזר על 9 מכונות בפורמט "קבצים" ועם אינדוקס ייחודי שפותח.
מספר ההכנסות מגיע ל 15 מיליארד רשומות ביום ויש כמות גדולה מאוד של שאילתות שמתבצעות בזמן אמת על ה DATA.
קראתי על :
HBASE+LUCENE , CouchDB , HBASE , MongoDB
ולא ראיתי שאף אחד מגיע לקצבים האלה ...
האם שמעתם על פיתרון OPEN SOURCE שמגיע לקצבים כאלה ? האם אתם עובדים עם משהוא ב SCALE דומה ?
מעניין מאוד ..
תודה רבה.
שמשון.

Ori אמר/ה...

היי שמשון
מה שאתה מתאר נראה מאוד דומה לפתרון של HADOOP עם HIVE.
קצבי ההכנסה הם בעצם הקצבים של שמירת הקבצים והתשאול מתבצע קצת יותר לאט במתודולוגיה של MAP/REDUCE.
HIVE בעצם נותנת את האפשרות לכתוב שאילתות בשפה שדומה ל SQL שמתורגמות ברקע לפונקציות של MAP.REDUCE.
חפש אותם תחת הפרוייקט HADOOP של APACHE.

אורי

אנונימי אמר/ה...

שלום אורי,
תודה רבה על תגובתך ,
במהלך התחקור שעשיתי ראיתי את הפרוייקטים האלה , אך החבר'ה ב STACKOVERFLOW לא כלכך המליצו ...
http://stackoverflow.com/questions/24179/how-does-hive-compare-to-hbase
http://wiki.apache.org/hadoop/Hive/PoweredBy
הבעיה שהפרוייקט ( למרות שהוא כבר ב APACHE ) אינו מספיק בשל למערכות Production (0.3.0)..
ראה גם את mongodb שנראה מלהיב ..
אך גם הוא סובל מבעיות ביצועים ...
:(

אנונימי אמר/ה...

כמו כן ראה את התגובה האחרונה ב Thread הזה ..

http://stackoverflow.com/questions/354231/20-billion-rows-month-hbase-hive-greenplum-what

כנראה בחור ישראלי :)

הוסף רשומת תגובה