שכיחות אותיות בעברית
כבכל שפה, גם בעברית שכיחות האותיות אינה אחידה - יש אותיות הנמצאות בשימוש נרחב בשפה, ויש שהשימוש בהן מועט.
מידע על שכיחות האותיות שימושי לפענוח צפנים המבוססים על החלפת אותיות, מסייע למחקר בלשני וחיוני בבלשנות חישובית ובעיבוד שפה טבעית.
להלן שכיחות האותיות בשלושה מאגרי טקסט (קורפוסים) של עברית מודרנית, כ-40 מיליון אותיות בשניים הראשונים וכ-500 מיליון אותיות באחרון. הראשון הוא מאגר כתבות מעיתון הארץ מהשנים 1990–1991, השני מאגר פרוטוקולים של הכנסת משנת 2004 והשלישי הוא מוויקיפדיה עצמה. שני המאגרים הראשוניים נלקחו מ"מילה - מרכז ידע לתקשוב בשפה העברית" [1], והאחרון נלקח מוויקיפדיה העברית של מאי 2016.
האות | שכיחות (עיתון הארץ) | שכיחות (כנסת) | שכיחות (ויקיפדיה) |
---|---|---|---|
א | 6.25% | 4.83% | 4.66% |
ב | 5.22% | 5.27% | 5.36% |
ג | 1.15% | 1.43% | 1.78% |
ד | 3.16% | 2.66% | 2.66% |
ה | 9.22% | 8.78% | 8.40% |
ו | 10.27% | 10.87% | 11.2% |
ז | 1.11% | 0.85% | 0.93% |
ח | 2.52% | 2.47% | 2.20% |
ט | 0.90% | 1.32% | 1.78% |
י | 11.22% | 11.78% | 11.7% |
ך | 0.48% | 0.38% | 0.38% |
כ | 2.62% | 2.27% | 1.88% |
ל | 6.74% | 6.68% | 6.20% |
ם | 3.00% | 3.01% | 2.63% |
מ | 4.72% | 5.31% | 5.13% |
ן | 1.48% | 1.27% | 1.36% |
נ | 3.89% | 3.37% | 3.65% |
ס | 1.69% | 1.73% | 2.23% |
ע | 3.04% | 3.21% | 2.65% |
ף | 0.16% | 0.23% | 0.22% |
פ | 1.50% | 2.05% | 2.29% |
ץ | 0.11% | 0.16% | 0.20% |
צ | 1.37% | 1.34% | 1.30% |
ק | 1.85% | 2.31% | 2.62% |
ר | 5.56% | 5.83% | 6.65% |
ש | 5.00% | 4.77% | 4.24% |
ת | 5.65% | 5.68% | 5.46% |
סוגי כתיב
כשעוסקים בשכיחות האותיות, חשוב להבחין כי הכתיב העברי אינו אחיד - נהוגים כתיב חסר, וכתיב מלא. ההבדל בין צורות כתיבה אלו מתבטא בעיקר בשימוש באותיות יו"ד ווָ"ו, ולכן שכיחותן של אותיות אלו (ובמידה מועטה יותר, שכיחות כל האותיות האחרות) שונה באופן משמעותי בין טקסטים הכתובים בצורות השונות. הטקסטים ששימשו להכנת הטבלה שלעיל כתובים כולם בכתיב מלא. טקסט עברי מנוקד, כמו גם כל הטקסטים הישנים יותר, בין אם מנוקדים ובין אם לא, כתובים לפי כללי הכתיב החסר.
הבדלים נוספים צפויים בהשוואת טבלת שכיחויות מתקופות שונות של התפתחות העברית. עברית בת זמננו שאלה מילים רבות משפות לטיניות וגרמניות, ויש הטוענים שגם מבנים דקדוקיים. ודאי הוא שאוצר המילים השתנה מאד, כמו גם חלק ניכר מאופן השימוש במילים שמקורן קודם לעברית המודרנית.
ראו גם
קישורים חיצוניים
- על שכיחות האותיות וההגאים בעברית המקראית והחדשה, מאת יהודה ת' רדאי ופרופסור חיים שור
- יגאל זורע, שכיחות האותיות ||| כמה רישים יש בכנסת? כמה ממים יש בהארץ?, בבלוג "קווים ונקודות", 15 ביולי 2016