רקע ורציונאל
שילוב של נתונים ממאגרי מידע גדולים מאוד במחקרים אפידמיולוגיים רפואיים כרוך באינטגרציה מורכבת של נתונים דמוגרפיים, חברתיים, כלכליים, קליניים ופארמקולוגיים שנאספים לאורך מספר שנים. ניתוחים אפידמיולוגיים נועדו לזהות ולתאר דפוסים, מגמות ויחסים בין הנתונים. טכניקות מתחום ה"אבסטרקציה, רה-פורמולציה ואפרוקסימציה" (Abstraction, Reformulation, Approximation - ARA) הוצעו כאפשרות לפישוט תהליך האינטגרציה של הנתונים וגילוי קשרים חדשים.
בהמשך למחקר שבוצע בשיטות אפידמיולוגיות קלאסיות בתחום הפרעת קשב וריכוז עם או בלי היפראקטיביות (ADHD), בחנו את שיטות ה- ARA, על מנת להגדיר תת-אוכלוסיות בסיכון להיארעות ADHD. לשם כך, ניתחנו רשומות רפואיות של שירותי בריאות כללית בין השנים 2006 ו-2011. אוכלוסיית המחקר מנתה 1,013,149 ילדים בגילאים 6-17, ונבחנו הרשומות הרפואיות שלהן הכוללות מאפיינים סוציו-דמוגרפיים ונתוני מתן תרופות לטיפול ב-ADHD.
מטרות
מטרת המחקר היא לעשות שימוש בוויזואליזציה קומפקטית (Compact Visualization) שתקל בזיהוי:
- קשר בין אירועים,
- שינויים בקשרים אלה לאורך זמן,
- אשכולות של מאפיינים עבור מגמות דומות.
בנינו וויזואליזציה קומפקטית המשלבת ייצוג גרפי של האשכולות ההיררכיים (Hierarchical Clustering) עם מפת חום שבה גווני הצבע משקפים את ערכי ההיארעות לאורך הזמן בקיבוצים השונים.
תוצאות וממצאים עיקריים
תהליך גילוי הידע (Knowledge Discovery) התחיל באפרוקסימציה (העברת מיקום) של כל המאפיינים, מנתונים ברמת הפרט (המבוטח הבודד) לערכים המציגים מאפיינים ברמת תת-אוכלוסיות באמצעות המדדים האפידמיולוגיים שכיחות והיארעות. כל פרמטר אופיין ברמת פרקי זמן המוגדרים על ידי מומחה (Domain Expert); נעשה שימוש בגיל היחסי בכיתה (צעירים, אמצעיים, ומבוגרים).
בהמשך ביצענו אבסטראקציה דרך קיבוץ (Clustering) הנתונים הזמינים של כל מאפיין לערכים בדידים: קבוצות גיל, מספר אחים, וגיל יחסי לשנתון הלימודים (צעירים, אמצעיים, ומבוגרים).
כצעד שלישי, חישבנו מטריצת מרחק בין כל ערכי המדדים האפידמיולוגיים המתארים את הקבוצות של כל מאפיין (ערך אחד לכל מאפיין לגיל יחסי בכיתה בשנה). לאחר מכן, ביצענו קיבוץ היררכי, המבוסס על מטריצת מרחק אוקלידי, לכל המאפיינים הזמינים.
בסוף בוצעה רה-פורמולציה - שינוי בהצגת הנתונים. נעשה שימוש במפת-חום (Heatmap) לשני המדדים האפידמיולוגים שכיחות והיארעות. מפות-חום מציגות בסולם צבעים סימבולי את הערכים של המדדים הנחקרים, כאשר השורות מסודרות על פי הדמיון בין המאפיינים, כמוגדר במטריצת המרחק שנבנתה. רה-פורמולציה זו מייצרת וויזואליזציה קומפקטית תלת ממדית לזיהוי מגמות בסיסיות ובמסגרת עריכת המחקר הנוכחי, בטיפולים תרופתיים ודפוסים עונתיים רב-שנתיים.
מסקנות ותובנות
בהקשר של ADHD, על ידי תמונה חזותית של הוויזואליזציה הקומפקטית המבוססת על היארעות הצלחנו לראות כי:
- ילדים צעירים בכיתה מטופלים יותר ממבוגרים,
- יש עליה בהיארעות טיפול ראשון בין השנים 2006 ו-2011,
- זוהו 3 פרופילים עיקריים של ילדים הנוטלים טיפול תרופתי ל-ADHD.
תוצאות אלו היו דומות לאלו שנמצאו במחקר הקודם באמצעות גישות סטטיסטיות ואפידמיולוגיות קלאסיות. אולם המסקנות התקבלו בזמן קצר יותר ובצורה שמאפשרת למקבלי החלטות הרפואיות שימוש יעיל ונגיש יותר לנתונים רפואיים מורכבים.
תרומה והשלכות להמשך
וויזואליזציה קומפקטית יכולה להוות חלק במערך לתמיכת החלטות, ויכולה לתרום לקיצור זמני ביצוע המחקרים האפידמיולוגים ולייעול תהליך קבלת ההחלטות הנלוות.