שכיחות אותיות בעברית

מתוך המכלול, האנציקלופדיה היהודית
גרסה מ־08:45, 29 במרץ 2018 מאת אנטוויקלען (שיחה | תרומות) (יבוא מוויקיפדיה)
(הבדל) → הגרסה הקודמת | הגרסה האחרונה (הבדל) | הגרסה הבאה ← (הבדל)
קפיצה לניווט קפיצה לחיפוש

כבכל שפה, גם בעברית שכיחות האותיות אינה אחידה - יש אותיות הנמצאות בשימוש נרחב בשפה, ויש שהשימוש בהן מועט.

מידע על שכיחות האותיות שימושי לפענוח צפנים המבוססים על החלפת אותיות, מסייע למחקר בלשני וחיוני בבלשנות חישובית ובעיבוד שפה טבעית.

להלן שכיחות האותיות בשלושה מאגרי טקסט (קורפוסים) של עברית מודרנית, כ-40 מיליון אותיות בשניים הראשונים וכ-500 מיליון אותיות באחרון. הראשון הוא מאגר כתבות מעיתון הארץ מהשנים 19901991, השני מאגר פרוטוקולים של הכנסת משנת 2004 והשלישי הוא מוויקיפדיה עצמה. שני המאגרים הראשוניים נלקחו מ"מילה - מרכז ידע לתקשוב בשפה העברית" [1], והאחרון נלקח מוויקיפדיה העברית של מאי 2016.

שכיחות האותיות בעברית באחוזים, מהנדירות לנפוצות.
האות שכיחות (עיתון הארץ) שכיחות (כנסת) שכיחות (ויקיפדיה)
א 6.25% 4.83% 4.66%
ב 5.22% 5.27% 5.36%
ג 1.15% 1.43% 1.78%
ד 3.16% 2.66% 2.66%
ה 9.22% 8.78% 8.40%
ו 10.27% 10.87% 11.2%
ז 1.11% 0.85% 0.93%
ח 2.52% 2.47% 2.20%
ט 0.90% 1.32% 1.78%
י 11.22% 11.78% 11.7%
ך 0.48% 0.38% 0.38%
כ 2.62% 2.27% 1.88%
ל 6.74% 6.68% 6.20%
ם 3.00% 3.01% 2.63%
מ 4.72% 5.31% 5.13%
ן 1.48% 1.27% 1.36%
נ 3.89% 3.37% 3.65%
ס 1.69% 1.73% 2.23%
ע 3.04% 3.21% 2.65%
ף 0.16% 0.23% 0.22%
פ 1.50% 2.05% 2.29%
ץ 0.11% 0.16% 0.20%
צ 1.37% 1.34% 1.30%
ק 1.85% 2.31% 2.62%
ר 5.56% 5.83% 6.65%
ש 5.00% 4.77% 4.24%
ת 5.65% 5.68% 5.46%

סוגי כתיב

כשעוסקים בשכיחות האותיות, חשוב להבחין כי הכתיב העברי אינו אחיד - נהוגים כתיב חסר, וכתיב מלא. ההבדל בין צורות כתיבה אלו מתבטא בעיקר בשימוש באותיות יו"ד ווָ"ו, ולכן שכיחותן של אותיות אלו (ובמידה מועטה יותר, שכיחות כל האותיות האחרות) שונה באופן משמעותי בין טקסטים הכתובים בצורות השונות. הטקסטים ששימשו להכנת הטבלה שלעיל כתובים כולם בכתיב מלא. טקסט עברי מנוקד, כמו גם כל הטקסטים הישנים יותר, בין אם מנוקדים ובין אם לא, כתובים לפי כללי הכתיב החסר.

הבדלים נוספים צפויים בהשוואת טבלת שכיחויות מתקופות שונות של התפתחות העברית. עברית בת זמננו שאלה מילים רבות משפות לטיניות וגרמניות, ויש הטוענים שגם מבנים דקדוקיים. ודאי הוא שאוצר המילים השתנה מאד, כמו גם חלק ניכר מאופן השימוש במילים שמקורן קודם לעברית המודרנית.

ראו גם

קישורים חיצוניים

Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0