300 Carburetor 22 - InsightEdge | רברס עם פלטפורמה

אנחנו בפודקאסט 300, עם נתי שלום מחברת Gigaspaces– פרק מספר 22 של קרבורטור – היום נדבר על Spark והאתגרים בשינוי המוצר המכניס העיקרי של החברה XAP לInsightEdge

2:00 - מעט על Gigaspaces – שני מוצרים עיקריים, דאטאבייס In memory מבוזר וCloudify. מוצר הדאטאבייס XAP עבר שינוי משמעותי עקב התפשטות הOpen source.
6:00 – Apache Spark – פרוייקט Open source הכתוב בScala לביצוע Map-Reduce מהיר (ואף יותר), מבוסס על אבסטרקציה מרכזית של RDD’s (Resilient data store( אובייקט נתונים. נבנה בצורה אינטגרטיבית עם Hadoop (בשונה מ Storm).
11:40 – המוצר של Gigaspace, שנבנה לנהל Complex data בזיכרון התומך במספר סוגי API ויכולת להריץ קוד עם ה Data. היכולות של המוצר מעניינות את משתמשי Spark. ההבדלים העיקריים היו סוג הרישיון וה API השונה.
14:20 – איך מכניסים Plugin יותר מהיר מהזיכרון – שכן Spark מעבד את המידע בזיכרון – השיפור שמציעה Gigaspace היא בשינוי ה Inputs,Outputs של Spark מ HDFS למוצר של החברה. מוצרים נוספים דומים הם Tachyon ו MemSQL.
20:20 – הBenchmark מראה שיפור משמעותי מול ה HDFS – היתרון המרכזי הוא בStreaming.
21:50 – השינוי שנעשה בחברה - המוצר לא יוכל לכלכל את החברה לאורך זמן ולכן הוחלט על השינוי להיות Distro של Spark. לארוז את Spark עם המוצר ולהפיץ כיחידה אחת.
24:40 – האם הלקוחות למוצר הם הלקוחות הקיימים או לקוחות חדשים – הEarly adopters היו הלקוחות הקיימים (כגון American airlines). פרויקט המעבר לקח כ 3 חודשים עם הצוות הקיים. כמו כן, התחרות של החברה עברה מעולם Enterprise ופרוייקטים כגון Redis לתחרות בSpark Disros. (Insightedge.io)
30:37 – Economic mode – אסטרטגיית פיבוטינג לפי וורן באפט. לדוגמא סודה-סטרים – חברה נוספת שעשתה מיצוב מחדש.
34:55- מודל נוספים כגון SAS (כמו שDatabricks עושים) – אך זהו שינוי ארגוני גדול יותר.

הקובץ נמצא כאן, האזנה נעימה ותודה רבה לחן על התמלול