Как измерить информацию?

Измерение информации: содержательный подход

Как измерить знания у человека? Вспомним определение информации и знаний.

Чтобы узнать что-то, люди задают вопросы. Наименьшую порцию знаний человек получает услышав в ответ "ДА" или "НЕТ". Если вопрос сформулирован правильно, то область незнания (неопределенность знаний) уменьшается в 2 раза. Минимальная порция получила название бит: binary digit - двоичная цифра.

Сообщение, уменьшающее неопределенность знаний в два раза, несет 1 бит информации.

Неопределенность знаний о некотором событии - это количество возможных результатов события.

 Пример: игра в отгадывание чисел. Ведущий задумал целое число в интервале от 1 до 8. Нам нужно за наименьшее количество вопросов, на которые можно услышать один из ответов (Да или Нет) отгадать число. Алгоритм должен гарантировать получение результата в любом случае. Закодируем ответ ДА цифрой 1, НЕТ цифрой 0.

Среди каких чисел ищем Вопрос Ответ Бит
1 2 3 4 5 6 7 8 Число > 4 Да 1
5 6 7 8 Число > 6  Нет 0
5 6 Это число = 5 Да 1

Задумано число 5. Получили результат за 3 вопроса. Знания увеличились на 3 бита: 101. Нетрудно понять, что при 16 числах понадобится 4 вопроса и т.д.

Среди каких чисел ищем Вопрос Ответ Бит
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Число > 8 Да 1
9 10 11 12 13 14 15 16 Число < 13 Да 1
9 10 11 12 Число > 10  Нет 0
9 10 Это число = 10  Нет 0

Задумано число 9. Объем знаний возрос на 4 бита: 1100

 Составим таблицу количества возможных вариантов выбора и объема информации, получаемой при решении задачи.

Таблица 1

Количество вариантов Количество вопросов (бит)
2 1
4 2
8 3
16 4
32 5
64 6
128 7
256 8
512 9
1024 10
... ...

Пример: после сдачи зачета или выполнения контрольной работы ученик мучается неопределенностью, он не знает, какую оценку получил: "Зачет", "незачет"?      "2", "3", "4" или "5"?

Наконец, учитель объявляет результаты, и он получаете одно из двух информационных сообщений: "зачет" или "незачет", а после контрольной работы одно из четырех информационных сообщений: "2", "3", "4" или "5".

Информационное сообщение об оценке за зачет приводит к уменьшению неопределенности знания в два раза, так как получено одно из двух возможных информационных сообщений. Информационное сообщение об оценке за контрольную работу приводит к уменьшению неопределенности знания в четыре раза, так как получено одно из четырех возможных информационных сообщений.

Пример: на книжном стеллаже восемь полок. Книга может быть поставлена на любую из них. Сколько информации содержит сообщение о том, где находится книга? Смотрите таблицу 1.

Составим итоговую таблицу. Введем обозначения: N - количество вариантов, i - количество бит (вопросов - ответов)

Таблица 2

N
количество вариантов
i
количество вопросов (бит)
Связь между
N и i
2 1 21
4 2 22
8 3 23
16 4 24
32 5 25
64 6 26
128 7 27
256 8 28
512 9 29
1024 10 210
... ... ...

Формула вычисления количества информации

2i = N

Количество информации, содержащееся в сообщении о том, что произошло одно из N равновероятных событий, определяется из решения уравнения 2i = N.

Задача 1: Сколько информации содержит сообщение о том, что из колоды карт достали король пик? В колоде 32 карты.

Решение:

В перемешенной колоде выпадение любой карты равновероятное событие.

N = 32. i - ?

2i = N

2i = 32

25 = 32

i = 5 бит

Задача 2: Сколько информации содержит сообщение о выпадении грани с числом 3 на шестигранном игральном кубике?

Решение:

N = 6. i - ?

2i = N

2i = 6

22 < 6 < 23

  i > 2  и  i < 3    Объем информации может быт дробным числом! Решение таких уравнений изучают в старших класса. Здесь приведем готовый ответ: i = 2,5849625007211561814537389439478 бит

Задача 3: Сколько информации содержит сообщение о том, что на поле 4х4 клетки одна из клеток закрашена? (Сначала найдите N)

Задача 4: В книге 512 страниц. Сколько информации несет сообщение о том, что закладка лежит на какой-либо странице?


Измерение информации: алфавитный подход

Познакомимся с способом измерения информации, который не связывает количество информации с содержанием сообщения, и называется он алфавитным подходом.

При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.

Применение алфавитного подхода удобно прежде всего при использовании технических средств работы с информацией. В этом случае теряют смысл понятия "новые - старые", "понятные - непонятные" сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода при измерении знаний конкретного человека.

Вспомним определение алфавита и его мощности (не забудьте вернуться назад).

Мощность алфавита только из заглавных русских букв равна 32.

АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЬЪЭЮЯ

 Будем писать, как это делали до 4-го века нашей эры: без пробелов и знаков препинания, т.е. слитно.

Сколько информации тогда несет один символ?

 Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита.
 В каждой очередной позиции текста может появиться любой из N символов.
 Тогда, согласно известной нам формуле 2i = N , каждый такой символ несет i бит информации, которое можно определить из решения уравнения: 2i = 32.

Получаем: i = 5 бит.

Количество информации в тексте

А теперь для того, чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на i.

Посчитаем количество информации на одной странице книги.

Пусть страница содержит 50 строк. В каждой строке - 60 символов. Значит, на странице умещается
 50 * 60=3000 знаков. Тогда объем информации будет равен: 5 * 3000 = 15000 бит.

Вывод: при алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита.

Двоичный алфавит

А что если алфавит состоит только из двух символов 0 и 1?

В этом случае: N = 2; 2i = N; 2i = 2; i = 1

При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации.

"Компьютерный" алфавит (смотрите таблицу)

Удобнее всего измерять информацию, когда размер алфавита N равен целой степени двойки. Например, если N=16, то каждый символ несет 4 бита информации потому, что 24 = 16. А если N =32, то один символ "весит" 5 бит.

Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. С ним мы скоро встречаемся при работе с компьютером. Это алфавит мощностью 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания....

Поскольку 256 = 28, то один символ этого алфавита "весит" 8 бит. Причем 8 бит информации - это настолько характерная величина, что ей даже присвоили свое название - байт.

1 байт = 8 бит

Количество информации в тексте

В настоящее время для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов.

В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах.

 Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице - 40 строк, в каждой строке - 60 символов.
 Значит страница содержит 40 * 60=2400 байт информации.
 Объем всей информации в книге: 2400 * 150 = 360 000 байт.

Более крупные единицы информации

  • 8 бит = 1 байт
  • 1 КБайт = 1024 Байт = 210 Байт
  • 1 МБайт = 1024 КБайт = 210 КБайт
  • 1 ГигаБайт = 1024 МБайт = 210 МБайт
  • 1 ТераБайт = 1024 ГБайт = 210 ГБайт
  • 1 ПетаБайт = 1024 ТБайт = 210 ТБайт

Перевод из одной единицы в другую

5 МБайт = 5 * 1024 КБайт = 5120 КБайт

2 КБайт = 2 * 1024 Байт = 2048 Байт

20 Байт = 20 * 8 бит = 160 бит

4 МБайт = 4 * 1024 * 1024 Байт = 4194304 Байт

1/256 МБайт = 1/256 * 1024 * 1024 * 8 бит = 32768 бит

4096 КБайт = 4096 : 1024 МБайт = 4 МБайт

512 МБайт = 512 : 1024 ГБайт = 0,5 ГБайт

Вывод:

  • Из КРУПНЫХ --> в мелкие - умножаем
  • Из мелких --> в КРУПНЫЕ - делим

 

 Скорость передачи информации

Прием-передача информации могут происходить с разной скоростью.

Количество информации, передаваемое за единицу времени, есть скорость передачи информации или скорость информационного потока.

Очевидно, эта скорость выражается в таких единицах, как бит в секунду (бит/с),
килобит в секунду (Кбит/с), байт в секунду (байт/с), килобайт в секунду (Кбайт/с) и т.д.

 

Задача 5: Племя Мумбу-Юмбу использует алфавит из букв: α β γ δ ε ζ η θ λ μ ξ σ φ ψ точка и для разделения слов используется пробел.
 Сколько информации несет свод законов племени, если в нем 12 строк и в каждой строке по 20 символов?

Задача 6: Вычислите мощность алфавита N, с помощью которого записано сообщение, содержащее 2048 символов, если его объем составляет 1.25 Кбайт.

Решение:

 1.25 КБ = 1.25 * 1024 * 8 бит = 10240 бит. Столько информации в тексте.

 i = 10240 : 2048 = 5 (бит) приходится на 1 символ

 Находим количество символов в алфавите языка (N), на котором написан текст:

N = 2i

N = 25

N = 32 символа в алфавите


Вопросы:

  1. Что такое "алфавит"? Что такое "мощность алфавита"?
  2. Как определяется количество информации в сообщении с алфавитной точки зрения?
  3. Что больше: 1 Кбайт или 1000 байт?
  4. Расположите единицы измерения информации в порядке возрастания:
      ГигаБайт; Байт; МегаБайт; КилоБайт, бит.
  5. Сколько информации содержится в сообщении, если для кодирования одного символа использовать 1 байт: "Компьютер - универсальный прибор."
  6. Два текста содержат одинаковое количество символов. Первый текст составлен в алфавите мощностью 32 символа, второй - мощностью 64 символа. Во сколько раз отличается количество информации в этих текстах?

 

mmx©2013