נקדן טקסט

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
תמונת מסך של נקדן טקסט

נקדן טקסט הייתה תוכנת ניקוד אוטומטית שפותחה בשנת 1996 על ידי מט"ח (המרכז לטכנולוגיה חינוכית) כחלק מפרויקט "רב מילים" לניתוח צורני ממוחשב של השפה העברית, המאפשרת זיהוי של רוב המילים בעברית בנטיות שונות, כינויים ואותיות שימוש. הפרויקט בוצע בראשותו של פרופסור יעקב שויקה. כיום שייכת התוכנה לחברת מלינגו, אשר המשיכה לפתח אותה, ומפעילה גרסה עדכנית שלה באתר נקדן מורפיקס.

תוכנת נקדן-טקסט שהייתה תוסף למעבד התמלילים Word, איפשרה לנקד ממילה בודדת ועד מסמך מלא באופן אוטומטי, תוך שהיא בוחרת, במקרה של כמה אפשרויות, את המילה השכיחה ביותר והמתאימה ביותר להקשר. לתוכנה זו היה גם אשף ניקוד ידני, שאפשר לבחור מתוך רשימת מילים מנוקדות, ולנקד מילים באופן חופשי ובקלות. אחוזי ההצלחה בניקוד אוטומטי בתוכנה זו היו גבוהים (לטענת המפתחים: 90% - 95% הצלחה), והיא זכתה בפרס איל"א ליישומי מחשב.

בתוכנה זו יש מנגנון ניתוח צורני ופירוק למרכיבים של המילה, בשם "מלי"ם", כך שברשימת המילים המנוקדות ניתן לעשות אבחנה, בין שתי מילים זהות שמנוקדות אחרת, כך למשל כאשר המנקד ניתקל במילה וכשמחברותיכם הוא יודע האם הוא רוצה את הניקוד של ו + כאשר + מ + החברות שלכם (רבים), או את הניקוד של אם ו + כאשר + המחברות שלכם.

הגרסה העדכנית של התוכנה פועלת כאמור באתר נקדן מורפיקס, בתשלום דמי מינוי.

דוגמה לטקסט שנוקד על ידי התכנה

נַקְדַן טֶקְסְט הִנָּהּ תָּכְנַת נִקּוּד אוֹטוֹמָטִית שֶׁפֻּתְּחָה עַל יְדֵי מָט"ח (הַמֶּרְכָּז לְטֶכְנוֹלוֹגְיָה חִנּוּכִית) כְּחֵלֶק מִפְּרוֹיֶקְט שֶׁל נִתּוּחַ מְמֻחְשָׁב שֶׁל הַשָּׂפָה הָעִבְרִית, בְּרָאשׁוּתוֹ שֶׁל פרופ' יַעֲקֹב שוייקה.

תָּכְנָהּ זוֹ שֶׁהָיְתָה תּוֹסָף לִמְעַבֵּד הַתַּמְלִילִים Word, אִפְשְׁרָה לְנַקֵּד מִמִּלָּה בּוֹדֶדֶת וְעַד מִסְמָךְ מָלֵא בְּאֹפֶן אוֹטוֹמָטִי, תּוֹךְ שֶׁהִיא בּוֹחֶרֶת, בְּמִקְרֶה שֶׁל כַּמָּה אֶפְשָׁרֻיּוֹת, אֶת הַמִּלָּה הַשְּׁכִיחָה בְּיוֹתֵר. לְתָכְנָהּ זוֹ יֵשׁ גַּם אַשַּׁף נִקּוּד, שֶׁמְּאַפְשֵׁר לְנַקֵּד מִלִּים בְּקַלּוּת וּבְאֹפֶן חָפְשִׁי. אֲחוּזֵי הַהַצְלָחָה בַּנִּקּוּד בְּתָכְנָהּ זוֹ גְּבוֹהִים, וְהִיא זָכְתָה בִּפְרַס אַיִל"א לְיִשּׂוּמֵי מַחְשֵׁב.

כַּיּוֹם הַתָּכְנָה נַקְדַן טֶקְסְט, שֶׁשָּׁמָּה הוּסַב לַנַּקְדָן, נִמְצָא בְּבַעֲלוּת שֶׁל חַבְרַת מלינגו, וְאֵינֶנָּה נִמְכַּרְתָּ כְּתָכְנָה עַצְמָאִית, וְהַשִּׁמּוּשׁ בָּהּ נַעֲשָׂה דֶּרֶךְ האינטרנט בַּתַּשְׁלוּם שֶׁל דָּמִי מָנוּי.

אפשר לשים לב שבטקסט, שיש בו 102 מילים, יש כתריסר טעויות מובהקות (מודגשות) ועוד כמה מילים לא מזוהות. למשל, כמה פעמים ניקדה התכנה את המילה "תכנה" עם מפיק באות ה'. בפעם הראשונה ("בתכנה זו") אין כל הצדקה מורפולוגית לכך, שכן לפי ניתוח הצירוף ע"פ ניקוד התכנה עולה כך: תוכן+שלה+זו. צירוף זה בלתי אפשרי בעברית, שכן היה צריך להיות תוכן+שלה+זה. לכן גם בכל הנוגע לזיהוי מורפו-סינטקטי התכנה איננה מושלמת כלל. מאז נרכשה "נקדן" על ידי חברת מלינגו כמעט לא פותחו בה שינויים ושיפורים לשוניים. שגיאות שונות שהיו עוד בתחילת הדרך נותרו בעינן. כפי שניתן לראות, הטעויות נובעות מניקודים אפשריים אך לא נכונים בהקשר הנתון. ניתוח ההקשר של התוכנה השתפר במהלך שנות פיתוחה. כיום באתר נקדן מורפיקס, בקטע המנוקד הנ"ל יש 3 טעויות מתוך 102 מילים.

דוגמה נוספת:

טקסט מקור הטקסט שהתקבל בנקדן הטקסט כפי שראוי לנקד
עוף גמל

מעלה על

על שבעת הימים טוס ופרח

דרוש בשלום

לאום ולאום

וברכם ביריד המזרח

עוֹף גָּמַל

מָעֳלֶה עַל

עַל שִׁבְעַת הַיָּמִים טוּס וּפֶרַח

דָּרוּשׁ בְּשָׁלוֹם

לְאֹם וּלְאֹם

וּבִרְכָּם בִּירִיד הַמִּזְרָח

עוּף גָּמָל

מַעֲלָה עָל

עַל שִׁבְעַת הַיַּמִּים טוּס וּפְרַח

דְּרֹשׁ בִּשְׁלוֹם

לְאֹם וּלְאֹם

וּבָרְכֵם בִּירִיד הַמִּזְרָח

בטקסט זה, שיר בן 15 מילים בלבד מאת חיים גורי, הציעה התכנה 9 מילים שגויות (60 אחוז שגיאות). מתוכן מילה אחת (וברכם) כלל לא מופיעה כאופציה לניקוד. ניקוד שירה הוא אתגר מיוחד לתוכנות ניקוד אוטומטי. כשיש כמה אפשרויות ניקוד למילה מסוימת בוחרת התוכנה במילה השכיחה יותר בשימוש והמתאימה להקשר התחבירי הנתון. אך השפה השירית בוחרת לרוב במילים הפחות שכיחות ובמבנים תחביריים בלתי שגרתיים. אתגר נוסף הוא צורת הציווי, שהיא נדירה סטטיסטית בטקסטים עבריים כלליים, אך עשויה להופיע בשיר מסוים מספר פעמים. בדרך כלל אתגר כזה נפתר על ידי בחירת צורת הציווי בממשק הגהה שמציע את כל אפשרויות הניקוד התקניות של המילה (כמו בנקדן מורפיקס).

מתחרים

קיימים מספר מתחרים לתוכנה.

  • נקדת, תוכנת ניקוד חדשנית כוללת בינה מלאכותית, מאגר הכולל מאות אלפי מילים בעברית וארמית, ניקוד על פי פסוקים, ועוד. התוכנה מותקנת כתוסף לוורד לנוחות משתמש מקסימלית. ניתנת לשימוש חודש ניסיון חינם.
  • נקדן סנופי, המשווק בשתי גרסאות (חינם עד 160 תווים ותוכנה בתשלום).
  • נקדן של חברת "טרנסגול".
  • ניקודה, אתר לניקוד טקסטים. עלה לראשונה לרשת בשנת 2007[1]. התוכנה משתמשת במאגר נתונים מבוסס על סריקת ניקוד מספרים מנוקדים ברשת ומשאירה את בחירת הניקוד הנכון למשתמש.
  • רב-נקד, תוכנת הניקוד היחידה שעובדת עם קבצי אינדיזיין (בנוסף לוורד, rtf וטקסט). לתוכנה מאגר משקלים ושורשים המכסים את רוב הפעלים, והמשתמש יכול להוסיף, לשנות או למחוק מתוך מאגרים אלה. שמות העצם מוכנסים ידנית. רב-נקד מאפשר גם להכניס סימני פיסוק תוך כדי הניקוד.

הערות שוליים