The 18th World Congress of Jewish Studies

Tagging Medieval Hebrew in TEI: Semantic and Pragmatic Aspects

מטרת מחקר: העמדת קורפוס ימי ביניימי מתויג, המשתייך לסוגה הספרותית של ספרות השאלות והתשובות (שו"ת), שיהיה נגיש בצורה דיגיטלית. תיוג הטקסט ייעשה באמצעות התקן הטכני (technical standard) של TEI (Text Encoding Initiative).

הקורפוס: אוסף התשובות שהשיב ר` יצחק בן שמואל, כפי שההדירו רוט וריינר. ר"י פעל במאה ה-12 בצרפת והשתייך לזרם הפרשני של "בעלי התוספות". גודל הקורפוס הוא כ-50,000 מילה.

המחקר: במחקר זה ייעשה שימוש בכמה רמות ניתוח. באופן כללי, להשגת רמת ניתוח מסוימת בצורה אוטומטית, לרוב נדרשות מספר פעולות מקדימות לשם קבלת ייצוג לוגי או לחילופין החישוב הרצוי. נהוג להתייחס למנגנון זה כאל "צינור" (pipeline), ובמקרה של בלשנות חישובית "NLP pipelines". צינורות אלה כוללים כמה רמות ניתוח, ולרוב כל שלב בניתוח השפה נשען על הקודם לו. לכל רמת ניתוח נדרשת צורת ייצוג שבדרך כלל באה לידי ביטוי בפעולת תיוג.

אפשר להצביע על חמש רמות: א. תורת ההגה – פונטיקה ופונולוגיה, עיסוק בהגאי השפה ובתיאור וקלסיפיקציה שלהם; ב. מורפולוגיה – דרכי ההסתדרות של המורפמות בשפה, כלומר חלוקה והצטרפות שלהן אחת לשנייה; ג. תחביר – כיצד המורפמות מסתדרות לרמת הצירופים והמשפטים, ברמה זו מעורבת גם משמעות; ד. תורת המשמעים – סמנטיקה, מהן המשמעויות הנובעות מן הרמות הקודמות; ה. פרגמטיקה – הקשרים בין השפה והמשתמש, והמצבים שבהם נעשים בה שימוש.

מטרת התיוג ב-TEI היא, בין השאר, לכלול את הרמות השונות שתוארו: רמה א תכלול את ניקוד הקורפוס לכל אורכו, רמה ב ו־ג יכללו תיוג בשיטת התיוג "דקדוק אוניברסלי" (universal dependencies – UD). מוקד הרצאה זו הוא ברמות ד ו־ה, כלומר תיאור הקשרים הסמנטיים והפרגמטיים בקורפוס, כמו גם תיאור מבנה הטקסט באמצעות תיוג. התיוג יכלול חלוקה לרבדים שונים בתוך הקורפוס, המתקשרים ללשון השאלות והתשובות בפרט, כמו גם ללשון רבנית וללשון ימי ביניימית בכלל. כך למשל יוצגו הכותבים השונים המשתתפים בתשובה הכתובה, ככל שהנוסח שבידינו נותן לכך ביטוי – השאלה (לשון השואל), התשובה (לשון המשיב), תוספות המעתיק ועוד. כמו כן יינתן ביטוי לשאלות תיוג נוספות, כגון זיהוי שמות פרטיים (named entity recognition – NER) או לשון הציטוט והפרפרזה. בהרצאה יועלו שאלות מתחום חקר הלשון העברית ה"מסורתי" לצד שאלות מתחומי מדעי הרוח הדיגיטליים והבלשנות החישובית.