Computer Science

Кодирование текста

Как текст превращают в числа?

Кодирование информации
процесс преобразования сигнала из формы, удобной для непосредственного использования информации, в форму, удобную для передачи, хранения или автоматической переработки.

Мы будем рассматривать способы кодирования на языке ЭВМ, т.е. преобразование информации в числовой код.

Кодирование текста
представление символов текста в виде чисел: десятичных, двоичных, восьмеричных и шестнадцатеричных.
Кодирование применяют и для шифрования (засекречивания). Дадим некоторые определения
Алфавит
набор символов применяемых в тексте (буквы, цифры, знаки, ...).
Мощность алфавита (число)
количество символов в алфавите.

Формула для вычисления "веса" одного символа (сколько двоичных цифр 0 или 1 - бит - понадобится для кодирования одного символа данного алфавита) N = 2i , где N – мощность алфавита, i – информационный вес символа (бит).

Основной принцип - каждому символу алфавита ставят в соответствие конкретное число. Эти пары (символ-число) заносят в таблицу. Таблица называется таблицей кодировки.

В компьютерах применяют две таблицы:

I. Таблица кодировки ASCII

American Standard Code for Information Interchange — американский стандартный код обмена информацией. В американском варианте английского языка произносится [э́ски], тогда как в Великобритании чаще произносится [а́ски]; по-русски произносится также [а́ски] или [аски́].

ASCII представляет собой 8-битную кодировку для представления десятичных цифр, латинского и национального алфавитов, знаков препинания и управляющих символов.

  1. Первую половину кодовой таблицы (от 0 до 127) занимают символы US-ASCII (управляющие коды клавиш (например, код клавиши ESC равен 27), латиница, спецсимволы, ...).
  2. Вторая часть (от 128 до 255) — используются для кодирования символов национальных алфавитов, а также символов псевдографики, которые можно использовать, например, для оформления в тексте различных рамок и текстовых таблиц.
  3. Мощность алфавита N = 256 символов.

Применяем формулу для вычисления информационного веса символа
N = 2i . Подставляем N и получаем 256 = 2i или 28= 2i. Следовательно, информационный вес символа в таблице i = 8 бит или 1 байт

Примечание:
ASCII коды ☺ ♥ ♣ ○ ♂ ♀ ♪ ♫ ☼ ► и т. д. можно вводить прямо с цифровой клавиатуры. На клавиатурах настольных компьютеров цифровая панель справа. Для ввода кода нажмите Alt, затем введите ASCII код символа на цифровой панели и отпустите Alt. Например, ALT + 1 введет смайлик ☺, ALT + 3 введет сердечко ♥.

II. Таблица кодировки Unicode (Юникод)

Стандарт 16-битного кодирования символов, позволяющий представить знаки практически всех письменных языков мира.

В алфавите N = 65536 символов.

Применяем формулу для вычисления информационного веса символа N = 2i . Подставляем N и получаем 65536 = 2i или 216 = 2i . Следовательно, информационный вес символа в таблице i = 16 бит или 2 байта

Примечание: при наборе текста в документе можно использовать буквы не только английского и национального (например, русского) алфавита, а и всех языков мира :) . В документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы... Применяют в современных операционных системах.

Мультик, смотрим пока понятно

Очень интересный сериал... Особенно про Цезаря. Знаете такого?


Про большие деньги...

Зашифруемся ...