קונגרס העולמי ה-18 למדעי היהדות

Using Machine-Learning-Based Methods to Forecast the Production Dates of Medieval Hebrew Manuscripts

תיארוכם של כתבי יד שאין להם ציון תאריך כתיבה מדויק או אישוש של תאריך משוער הוא אחד הנושאים החשובים בתחום חקר כתבי-יד. בעקבות חידושים טכנולוגיים בתחום דיגיטציה של כתבי יד והתפתחות טכנולוגיות למידת מכונה ניתן לעזור לחוקרים בתחום במלאכת תיארוך כתבי יד.

במסגרת המחקר פותח מודל חיזוי המבוסס על אלגוריתמי למידת מכונה לתיארוך כתבי-יד עבריים מימי-הביניים. מודל החיזוי מתבסס על מאפיינים קודיקולוגיים תוך הבנת ההשפעה של כל אחד מהמאפיינים הקודיקולוגיים על תיארוך כתבי-היד.

בתהליך ביצוע למידת המכונה התקבלו נתונים אשר הציגו את הקשרים השונים בין המאפיינים הקודיקולגיים לחיזוי התאריך. ניתוח נתונים אלו יכול לשפוך אור ולתת לחוקרים בתחום הבנה עמוקה איך כל מאפיין או קשר בין מאפיינים שונים משפיע על התיארוך של כתב-היד. תובנות המתקבלות מהמחקר המוצע יכולות ליצור ידע נוסף אודות השינויים שחלו עם הזמן באזורים שונים במלאכת יצירת כתבי-היד העבריים. ידע זה יכול להוות בסיס למחקרים הבאים בתחום חקר כתבי-היד העבריים של ימי-הביניים.

המחקר מתבסס על מסד הנתונים "ספרד-דתא" (https://sfardata.nli.org.il),שהוא מסד נתונים ומערכת אחזור מידע המכיל מספר רב של נתונים קודיקולוגיים של כתבי-יד עבריים מתקופת ימי-הביניים. חלק גדול מכתבי-היד מכילים ציון של תאריך מפורש של כתיבת המסמך. המאגר התפתח מתוך ״מפעל הפלאוגרפיה העברית״ אשר נוסד בשנת 1965, ביוזמתם של מלאכי בית אריה וקולט סיראט . במהלך השנים ובעקבות התקדמות הטכנולוגיה עבר המפעל שינויים ושיפורים רבים עד שהתפתח להיות למסד נתונים המאפשר גישה אינטרנטית בשילוב עם מערכת חיפוש חכמה. יצירתו של מסד הנתונים כללה איתור של כתבי-יד הכתובים בעברית הכוללים ציוני תאריכים מפורשים או ציוני שמות מעתקיהם, מחקר ותיעוד של כל התכונות החומריות הנראות לעין (תכונות קודיקולוגיות) ומיון תכונות אלו על-מנת ליצור טיפולוגיה היסטורית של הספר העברי הכתוב ביד וכך ליצור כלי זיהוי המאפשר למשתמשים לזהות את מוצא כתב-היד ואת תאריך כתיבתו כאשר נתונים אלו חסרים.

כיום שימוש בספר-דתא ככלי זיהוי של מוצא או תאריך כתיבה של כתבי-יד נעשה באמצעות חיפוש של כתבי-יד מתוארכים בעלי מאפיינים קודיקולוגיים דומים דרך ממשק החיפוש של אתר ספר-דתא. תהליך זה דורש ידע והבנה בתחום המחקר הקודיקולוגי. המחקר המוצע יוכל לתרום לפונקציונליות זאת של הפרויקט באמצעות פיתוח של כלי המבוסס על ללמידת מכונה.