קובץ טקסט

מתוך המכלול, האנציקלופדיה היהודית
גרסה מ־18:41, 28 ביוני 2017 מאת Davidnead (שיחה | תרומות) (גרסה אחת של הדף wikipedia:he:קובץ_טקסט יובאה)
קפיצה לניווט קפיצה לחיפוש

קובץ טקסט הוא סוג של קובץ המשמש לשמירת תוכן במערכת קבצים כרצף של שורות המופרדות זו מזו בתווים מיוחדים מוגדרים מראש. סיום הרצף מצוין באמצעות תו מיוחד אחד או יותר המכונה End-of-file (ובקיצור: EOF). קובצי טקסט יכולים להכיל תוכן טקסטואלי, אך הם אינם מוגבלים לכך ויכולים להציג מידע בינארי כל עוד הוא מקודד באופן שאינו סותר את מבנה קובץ הטקסט והשימוש בתווים המיוחדים המשמשים אותו.

ניתן לחלק את כל סוגי הקבצים לשניים: קובצי טקסט וקבצים בינאריים.

בשל פשטותם ונגישותם לקורא האנושי, משמשים קובצי טקסט פעמים רבות לאחסון נתונים, גם אם הם לא אמורים להיות קריאים על ידי גורם אנושי. השימוש בקובצי טקסט חוסך בעיות רבות שמציב השימוש בקבצים הבינאריים לסוגיהם: היצמדות לפורמט קבוע, חשיבות לסדר הכתיבה של הבתים ואף התלות במילה של המחשב נמנעת. יתרה מזאת, שיקום קובץ טקסט מהשחתת נתונים שאירעה לרוב פשוטה משמעותית משיקום קובץ בינארי שעבר אירוע דומה, ובמרבית המקרים ניתן להמשיך ולעבד את הקובץ הטקסטואלי גם לאחר האירוע. יחד עם זאת, במידה וקובץ טקסט אכן משמש לאחסון טקסט, האנטרופיה שלו נמוכה למדי, כך שנפח הקובץ הנדרש לאחסון המידע גדול משמעותית מהמינימום הנדרש לאחסון המידע הזה בהצגתו באנטרופיה גבוהה.

מבנה

קובץ טקסט יכול להכיל תוכן טקסטואלי בשפה כלשהי. במקרה זה לקובץ לא יהיה מבנה מוגדר פרט לחלוקה לשורות ולסוף קובץ:

כך נראה קובץ טקסט עברי לדוגמה
ללא מבנה מוגדר וללא הגבלה
מספר השורות ואורכן אינם קבועים וללא מגבלה
אלא רק התווים המגדירים סוף קובץ וסוף שורה

קובץ טקסט יכול להכיל תוכן שחייב לעמוד במבנה מוגדר כך שתוכנה חיצונית תוכל לעבד אותו כראוי. קובצי HTML לדוגמה הם קובצי טקסט שחייבים לעמוד בפורמט המוגדר על ידי W3C:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0//EN" "http://www.w3.org/TR/REC-html40/strict.dtd">
<html lang="he">
<head><title>עמוד דוגמה</title></head>
<body>
<p>זהו עמוד לדוגמה.</p>
</body>
</html>

תוכן אחר שיכול לאחסן קובץ טקסט הוא למשל תמונה המורכבת מתווים טקסטואליים. קבצים אלו נקראים אמנות ASCII. לדוגמה:

(\___/)
(=*.*=)
(")__(")

עריכת קובצי טקסט

פתיחת קובצי טקסט לתצוגה למשתמש נעשית באמצעות עורכי טקסט, המציגים על פי רוב את התוכן של הקובץ באופן מלא לפי הפורמט הנדרש. חלק מעורכי הטקסט מאפשרים למשתמש להציג גם תווים מיוחדים וגם תווים שאינם טקסטואליים, בעוד שחלק מעורכי הטקסט מסתירים אותם מהמשתמש.

פורמטים

הפורמט הסטנדרטי המקובל ברוב המוחלט של מערכות ההפעלה הוא ASCII, אם כי אלו נבדלות זו מזו באופן הקידוד של תווים שאינם טקסטואליים, וכן בתווים המיוחדים המסמנים את סוף השורה ואת סוף הקובץ.

פורמטים נוספים הם MIME, וקבצים בסיומת .txt המוגדרים על ידי מערכת ההפעלה (חלונות למשל).

ראו גם