Все эти временные ряды и все устройства, работающие с ними, будь то в вычислительном бюро или в телефонной схеме, связаны с записью, хранением, передачей и использованием информации. Что же представляет собой эта информация и как она измеряется? Одной из простейших, наиболее элементарных форм информации является запись выбора между двумя равновероятными простыми альтернативами, например между гербом и решеткой при бросании монеты. Мы будем называть решением однократный выбор такого рода. Чтобы оценить теперь количество информации, получаемое при совершенно точном измерении величины, которая заключена между известными пределами А и В и может находиться с равномерной априорной вероятностью где угодно в этом интервале, положим А=0, В=1 и представим нашу величину в двоичной системе бесконечной двоичной дробью 0, а>1 а>2 а>3 … a>n …, где каждое а>1, а>2, … имеет значение 0 или 1. Здесь
Мы видим, что число сделанных выборов и вытекающее отсюда количество информации бесконечны.
Однако в действительности никакое измерение не производится совершенно точно. Если измерение имеет равномерно распределенную ошибку, лежащую в интервале длины 0, b>1b>2 … b>n …, где b>k — первый разряд, отличный от 0, то, очевидно, все решения от а>1 до а>k—1 и, возможно, до a>k будут значащими, а все последующие — нет. Число принятых решений, очевидно, близко к
[c.120]
и это выражение мы примем за точную формулу количества информации и за его определение.
Это выражение можно понимать следующим образом: мы знаем априори, что некоторая переменная лежит между нулем и единицей, и знаем апостериори, что она лежит в интервале (а, b) внутри интервала (0, 1). Тогда количество информации, извлекаемой нами из апостериорного знания, равно
Рассмотрим теперь случай, когда мы знаем априори, что вероятность нахождения некоторой величины между х и x+dx равна f>1(x)dx, а апостериорная вероятность этого равна f>2(x)dx. Сколько новой информации дает нам наша апостериорная вероятность?
Эта задача по существу состоит в определении ширины областей, расположенных под кривыми y=f>1(x) и y=f>2(x). Заметим, что, по нашему допущению, переменная х имеет основное равномерное распределение, т. е. наши результаты, вообще говоря, будут другими, если мы заменим х на х>3 или на какую-либо другую функцию от х. Так как f>1(x) есть плотность вероятности, то
Поэтому средний логарифм ширины области, расположенной под кривой f>1(x), можно принять за некоторое среднее значение высоты логарифма обратной величины функции f>1(x