תקציר
פרויקט זה מבוצע עבור קבוצת Advanced Analytics (AA) תחת מחלקת ה–IT באינטל. הקבוצה מספקת פתרונות אנליטיים בהתבסס על אלגוריתמים של כריית נתונים עבור מגוון רחב של לקוחות פנימיים בארגון. השימוש בכריית נתונים מאפשר גילוי של תבניות והתנהגויות העשויות לספק יתרון תחרותי עבור יחידות ומשימות רבות בחברה כגון ייצור, שיווק ומכירות, אבטחה ועוד.
חלק מהלקוחות הפנימיים באינטל מייצרים כמויות אדירות של נתונים אשר פתרונות מסורתיים של עולם ה-IT וניהול בסיסי נתונים אינם מספקים להם פתרון הולם. כיום, עולם התוכנה מחפש אחר גישות חלופיות, כגון Apache Hadoop – פלטפורמת מחשוב מבוזר, בכדי לעמוד בקצב הגידול הגבוה בנפחי הנתונים (תופעה המכונה "נתוני עתק" או “Big Data”). בכדי להתמודד עם האתגרים הללו של אינטל בעולם ה–Big Data קבוצת AA החליטה לתחקר ולאמץ טכנולוגיות חדשניות כגון אלו. כחלק מיוזמה זו, פרויקט זה שם לעצמו כמטרה לבנות מנוע תשתיתי אשר יתמוך בחישובים מורכבים הנדרשים ליישומי כריית הנתונים ומערכות לומדות.
משימת העיבוד הראשונה שהמנוע יאפשר תהיה בחירת משתנים מסבירים (Feature Selection) עבור שלב הכנת הנתונים, כאשר המטרה העיקרית היינה להעשיר יכולות המהוות חלק ממתודולוגיית ה – CRISP-DM. עיצוב המערכת יתבסס על ארכיטקטורת שכבות ורכיבים מודולאריים, על מנת לאפשר תמיכה בהרחבה עתידית של המערכת. פרויקט קודם שבוצע עבור קבוצת ה-AA הגדיר דרישות כלליות למנוע אשר התבססו על ניתוח צרכים אירגוניים ודרישות מערכת כאשר פרויקט המשך זה יתמקד בבניית המנוע עצמו תוך שימוש בסביבת ה- Hadoop.
פריצת דרך משמעותית בפרויקט זה מתבטאת בשילוב בין טכנולוגית בסיסי נתונים מסורתיות לבין טכנולוגיות חדשניות מעולם ה–Big Data תוך ניצול מושכל של היתרונות היחסיים של כל אחת מהסביבות. נתוני אתחול של המערכת ונתונים עסקיים מובנים יישמרו בבסיסי נתונים טבלאיים, ואילו עיבוד נתונים הצורך עוצמה חישובית משמעותית יותר, כגון חישוב מטריצות קורלציה בין משתנים מסבירים, יתרחשו בסביבת ה-Hadoop. הפרויקט כלל פיתוח קוד עבור יישום .NET האחראי לתיאום תהליך החישוב, SQL Scripts האחראים לשמירה ואחזקה של הנתונים העסקיים, ו-Hadoop Scripts (Hive, Sqoop) האחראים לעיבוד נתונים וביצוע חישובים מורכבים.
מילות מפתח: נתוני עתק, Hadoop, בחירת מאפיינים