Кодирование текста (для учеников Уинской школы)

КОДИРОВАНИЕ ИНФОРМАЦИИ

Кодирование - это преобразование информации из одной формы представления в другую.

Например, если эти предложения написать на английском, то это пример кодирования текста. Для человека преобразованная информация выглядит непривычно:

текст написан другими знаками (the text is written by other signs)
рисунок представлен в виде набора каких-то цифр (010111010)
звук превратился в набор символов

Мы будем рассматривать способы кодирования на языке ЭВМ, т.е. преобразование информации в числовой код.

Кодирование текста

Это представление символов текста в виде чисел: десятичных, двоичных, восьмеричных и шестнадцатеричных.
Кодирование применяют и для шифрования (засекречивания).
Дадим некоторые определения
Алфавит - набор символов применяемых в тексте (буквы, цифры, знаки, ...).
Мощность (число) - количество символов в алфавите

Формула для вычисления
N = 2ⁱ,
где N – мощность алфавита, i – информационный вес символа (бит)

Основной принцип - каждому символу алфавита ставят в соответствие конкретное число. Эти пары (символ-число) заносят в таблицу. Таблица называется таблицей кодировки

В компьютерах применяют две таблицы:

Таблица кодировки ASCII

American Standard Code for Information Interchange — американский стандартный код обмена информацией. В американском варианте английского языка произносится [э́ски], тогда как в Великобритании чаще произносится [а́ски]; по-русски произносится также [а́ски] или [аски́].

ASCII представляет собой 8-битную кодировку для представления десятичных цифр, латинского и национального алфавитов, знаков препинания и управляющих символов.

Первую половину кодовой таблицы (от 0 до 127) занимают символы US-ASCII (управляющие коды клавиш (например, код клавиши ESC равен 27), латиница, спецсимволы, ...).
Вторая часть (от 128 до 255) — используются для кодирования символов национальных алфавитов, а также символов псевдографики, которые можно использовать, например, для оформления в тексте различных рамок и текстовых таблиц.

В алфавите N = 256 символов.
Применяем формулу для вычисления информационного веса символа N = 2ⁱ. Подставляем N и получаем 256 = 2ⁱили 2⁸= 2ⁱ . Следовательно, информационный вес символа в таблице i = 8 бит или 1 байт

Примечание:

при наборе текста в документе можно использовать буквы только английского и национального (например, русского) алфавита.
ASCII коды ☺ ♥ ♣ ○ ♂ ♀ ♪ ♫ ☼ ► и т. д. можно вводить прямо с цифровой клавиатуры. На клавиатурах настольных компьютеров цифровая панель справа. Для ввода кода нажмите Alt, затем введите ASCII код символа на цифровой панели и отпустите Alt. Например, ALT + 1 введет смайлик ☺, ALT + 3 введет сердечко ♥ :) .

Таблица кодировки Unicode (Юникод)

Стандарт 16-битного кодирования символов, позволяющий представить знаки практически всех письменных языков мира.

В алфавите N = 65536 символов.
Применяем формулу для вычисления информационного веса символа N = 2ⁱ. Подставляем N и получаем 65536 = 2ⁱили 2¹⁶ = 2ⁱ. Следовательно, информационный вес символа в таблице i = 16 бит или 2 байта

Примечание: при наборе текста в документе можно использовать буквы не только английского и национального (например, русского) алфавита, а и всех языков мира :) . В документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы... Применяют в современных операционных системах.