Количество информации в тексте информатика

Количество информации в тексте информатика

Теория

Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита.

Алфавит — упорядоченный набор символов, используемый для кодирования сообщений на некотором языке.

Мощность алфавита — количество символов алфавита.

Двоичный алфавит содержит 2 символа, его мощность равна двум.

В традиционной кодировке (КОИ8-Р, Windows, MS DOS, ISO) для кодирования одного символа используется 1 байт (8 бит). Эта величина и является информационным весом одного символа. Такой 8-ми разрядный код позволяет закодировать 256 различных символов, т.к. 2 8 =256 (т.е. используется алфавит из 256 символов).

В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ два байта (16 бит). С его помощью можно закодировать 2 16 =65536 различных символов.

Чтобы определить объем информации в сообщении(информационный объем сообщения) при алфавитном подходе, нужно последовательно решить задачи:

1. Определить количество информации (i) в одном символе по формуле 2 i = N, где N — мощность алфавита

2. Определить количество символов в сообщении (m), включая пробелы

3. Вычислить объем информации по формуле: V = i * m.

Примеры

1. Книга содержит 150 страниц. На каждой странице размещается 35 строк, в каждой строке – 50 символов. Рассчитать объем информации, содержащейся в книге, ответ записать в Кб.

Решение: Т. к. один символ – 1 байт, то страница содержит 35*50 = 1750 байт информации. Информационный объем всей книги 1750(байт)*150(стр.) = 262500(байт) ≈ 256,348(Кб)

2. Текстовое сообщение, содержащее 1048576 символов общепринятой кодировки, необходимо разместить на дискете ёмкостью 1,44Мб. Какая часть дискеты будет занята?

Решение: Т.к. кодировка общепринятая, то количество информации в одном символе — 8(бит). Т.о. информационный объем текстового сообщения V = 1048576*8(бит) = 8388608(бит) = 1048576(байт) = 1024(Кб) =1Мб.

Т.к. объем дискеты составляет 1,44 Мб, то текстовым сообщением будет занято 1Мб*100% / 1,44Мб = 69% объёма дискеты.

Ответ: 69% объёма дискеты будет занято переданным сообщением.

Задачи для самостоятельного решения

1. Мощность алфавита N=32. Какое количество информации несет одна буква?

2. Текст занимает 0,25 Кбайт памяти компьютера. Сколько символов содержит текст?

3. Сообщение, записанное буквами из 64 — символьного алфавита, содержит 10 символов. Какой объем информации в битах оно несет?

4. Информационное сообщение объемом 500 бит содержит 100 символов. Какова мощность алфавита?

5. Сколько символов содержит информационное сообщение, записанное с помощью 16 — символьного алфавита, если объем его составил 120 бит?

6. В книге 250 страниц. На каждой странице 60 строк, в каждой строке 80 символов. Вычислить информационный объем книги.

7. Свободный объем оперативной памяти компьютера 640 Кбайт. Сколько страниц книги поместится в ней, если на странице 32 строки по 64 символа (64 строки по 64 символа, 16 строк по 64 символа)?

8. Для записи текста использовали 256 – символьный алфавит. Каждая страница содержит 30 строк по 70 символов в строке. Какой объем информации содержат 5 страниц текста?

9. Для записи сообщения использовался 64 – символьный алфавит. Каждая страница содержит 30 строк. Всё сообщение содержит 8775 байтов информации и занимает 6 страниц. Сколько символов в строке?

10. Сведения о сотруднике хранятся в виде строки из 2048 символов. Сколько понадобятся дискет емкостью 1,2Мб для хранения сведений обо всех 8500 сотрудниках фирмы?

11. Емкость одного условного печатного листа приблизительно равна 32Кб (1 символ занимает 8 бит), скорость печати – 64 символа в секунду. Сколько минут потребуется без учета смены бумаги для распечатки текста одной газеты (2 усл.п.л.) на матричном принтере (ответ округлить до целого числа)?

Читайте также:  Apple iphone xs max dual sim

12. Каково максимальное количество книг (каждая объемом 200 страниц, на каждой странице 60 строк, 80 символов в строке) размещаемых на лазерном диске емкостью 600 Мб?

13. Если досье на преступников занимают 45 Мб и каждое из них имеет объем 12 страниц (48 строк по 64 символа в каждой, 1 символ занимает 8 бит), чему равно число хранимых досье?

14. Два сообщения содержат одинаковое количество символов. Количество информации в первом тексте в 1,5 раза больше, чем во втором. Сколько символов содержат алфавиты, с помощью которых записаны сообщения, если известно, что число символов в каждом алфавите не превышает 10-ти, и на каждый символ приходится целое число битов?

Последнее изменение этой страницы: 2016-12-16; Нарушение авторского права страницы

ИЗМЕРЕНИЕ ИНФОРМАЦИИ

Информация (от лат. information – разъяснение, осведомление) – сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний (энтропии).

Количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Бит – количество информации, полученное из сообщения, уменьшающего неопределенность знаний в два раза.Бит соответствует одному двоичному разряду (0, 1).

Более крупой единицей измерения количества информации является байт (1 байт = 8 бит).

Существуют и другие единицы измерения количества информации:

1 килобайт (Кб) = 2 10 байт = 1024 байт.

1 мегабайт (Мб) = 2 10 Кб = 2 20 байт.

1 гигабайт (Гб) = 2 10 Мб = 2 20 Кб = 2 30 байт.

1 терабайт (Тб) = 2 10 Гб = 2 20 Мб = 2 30 Кб = 2 40 байт.

Измерение информации в тексте

При измерении количества информации в тексте, записанном с помощью N-символьного алфавита, используют следующие формулы:

где I – количество информации в тексте; i – количество информации, которое несет один символ (в битах); k – количество символов в тексте; N – мощность алфавита.

Задача 1.

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

1. при бросании монеты: "выпала решка", "выпал орел";

2. на странице книги: "количество букв чётное", "количество букв нечётное".

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN),
где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Дата добавления: 2015-10-05 ; просмотров: 1121 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Процесс познания окружающего мира приводит к накоплению информации в форме знаний (фактов, научных теорий и т. д.). Получение новой информации приводит к расширению знаний или, как иногда говорят, к уменьшению неопределенности знания. Если некоторое сообщение приводит к уменьшению неопределенности нашего знания, то можно говорить, что такое сообщение содержит информацию.

Например, после сдачи зачета или выполнения контрольной работы вы мучаетесь неопределенностью, вы не знаете, какую оценку получили. Наконец, учитель объявляет результаты, и вы получаете одно из двух информационных сообщений: "зачет" или "незачет", а после контрольной работы одно из четырех информационных сообщений: "2", "3", "4" или "5".

Читайте также:  Как открыть powershell в папке

Информационное сообщение об оценке за зачет приводит к уменьшению неопределенности вашего знания в два раза, так как получено одно из двух возможных информационных сообщений. Информационное сообщение об оценке за контрольную работу приводит к уменьшению неопределенности вашего знания в четыре раза, так как получено одно из четырех возможных информационных сообщений.

Ясно, что чем более неопределенна первоначальная ситуация (чем большее количество информационных сообщений возможно), тем больше мы получим новой информации при получении информационного сообщения (тем в большее количество раз уменьшится неопределенность знания).

Количество информации можно рассматривать как меру уменьшения неопределенности знания при получении информационных сообщений.

Рассмотренный выше подход к информации как мере уменьшения неопределенности знания позволяет количественно измерять информацию. Существует формула, которая связывает между собой количество возможных информационных сообщений N и количество информации I, которое несет полученное сообщение:

N = 2 i (1.1)

Бит. Для количественного выражения любой величины необходимо сначала определить единицу измерения. Так, для измерения длины в качестве единицы выбран метр, для измерения массы — килограмм и т. д. Аналогично, для определения количества информации необходимо ввести единицу измерения.

За единицу количества информации принимается такое количество информации, которое содержится в информационном сообщении, уменьшающем неопределенность знания в два раза. Такая единица названа битом.

Если вернуться к рассмотренному выше получению информационного сообщения о результатах зачета, то здесь неопределенность как раз уменьшается в два раза и, следовательно, количество информации, которое несет сообщение, равно 1 биту.

Производные единицы измерения количества информации. Минимальной единицей измерения количества информации является бит, а следующей по величине единицей — байт, причем:

1 байт = 8 битов = 2 3 битов.

В информатике система образования кратных единиц измерения несколько отличается от принятых в большинстве наук. Традиционные метрические системы единиц, например Международная система единиц СИ, в качестве множителей кратных единиц используют коэффициент 10 n , где n = 3, 6, 9 и т. д., что соответствует десятичным приставкам "Кило" (10 3 ), "Мега" (10 6 ), "Гига" (10 9 ) и т. д.

В компьютере информация кодируется с помощью двоичной знаковой системы, и поэтому в кратных единицах измерения количества информации используется коэффициент 2 n

Так, кратные байту единицы измерения количества информации вводятся следующим образом:

1 килобайт (Кбайт) = 2 10 байт = 1024 байт;

1 мегабайт (Мбайт) = 2 10 Кбайт = 1024 Кбайт;

1 гигабайт (Гбайт) = 2 10 Мбайт = 1024 Мбайт.

    1. Приведите примеры информационных сообщений, которые приводят к уменьшению неопределенности знания.
    2. Приведите примеры информационных сообщений, которые несут 1 бит информации.

Определение количества информационных сообщений.По формуле (1.1) можно легко определить количество возможных информационных сообщений, если известно количество информации. Например, на экзамене вы берете экзаменационный билет, и учитель сообщает, что зрительное информационное сообщение о его номере несет 5 битов информации. Если вы хотите определить количество экзаменационных билетов, то достаточно определить количество возможных информационных сообщений об их номерах по формуле (1.1):

Таким образом, количество экзаменационных билетов равно 32.

Определение количества информации. Наоборот, если известно возможное количество информационных сообщений N, то для определения количества информации, которое несет сообщение, необходимо решить уравнение относительно I.

Представьте себе, что вы управляете движением робота и можете задавать направление его движения с помощью информационных сообщений: "север", "северо-восток", "восток", "юго-восток", "юг", "юго-запад", "запад" и "северо-запад" (рис. 1.11). Какое количество информации будет получать робот после каждого сообщения?

Читайте также:  Acer aspire 7745g драйвера
Рис. 1.4. Управление роботом с использованием информационных сообщений

Всего возможных информационных сообщений 8, поэтому формула (1.1) принимает вид уравнения относительно I:

Разложим стоящее в левой части уравнения число 8 на сомножители и представим его в степенной форме:

8 = 2 × 2 × 2 = 2 3 .

Равенство левой и правой частей уравнения справедливо, если равны показатели степени числа 2. Таким образом, I = 3 бита, т. е. количество информации, которое несет роботу каждое информационное сообщение, равно 3 битам.

Алфавитный подход к определению количества информации

При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.

Информационная емкость знака. Представим себе, что необходимо передать информационное сообщение по каналу передачи информации от отправителя к получателю. Пусть сообщение кодируется с помощью знаковой системы, алфавит которой состоит из N знаков <1, . N>. В простейшем случае, когда длина кода сообщения составляет один знак, отправитель может послать одно из N возможных сообщений "1", "2", . "N", которое будет нести количество информации I (рис. 1.5).

Рис. 1.5. Передача информации

Формула (1.1) связывает между собой количество возможных информационных сообщений N и количество информации I, которое несет полученное сообщение. Тогда в рассматриваемой ситуации N — это количество знаков в алфавите знаковой системы, а I — количество информации, которое несет каждый знак:

С помощью этой формулы можно, например, определить количество информации, которое несет знак в двоичной знаковой системе:

Таким образом, в двоичной знаковой системе знак несет 1 бит информации. Интересно, что сама единица измерения количества информации "бит" (bit) получила свое название ОТ английского словосочетания "Binary digiT" — "двоичная цифра".

Информационная емкость знака двоичной знаковой системы составляет 1 бит.

Чем большее количество знаков содержит алфавит знаковой системы, тем большее количество информации несет один знак. В качестве примера определим количество информации, которое несет буква русского алфавита. В русский алфавит входят 33 буквы, однако на практике часто для передачи сообщений используются только 32 буквы (исключается буква "ё").

С помощью формулы (1.1) определим количество информации, которое несет буква русского алфавита:

Таким образом, буква русского алфавита несет 5 битов информации (при алфавитном подходе к измерению количества информации).

Количество информации, которое несет знак, зависит от вероятности его получения. Если получатель заранее точно знает, какой знак придет, то полученное количество информации будет равно 0. Наоборот, чем менее вероятно получение знака, тем больше его информационная емкость.

В русской письменной речи частота использования букв в тексте различна, так в среднем на 1000 знаков осмысленного текста приходится 200 букв "а" и в сто раз меньшее количество буквы "ф" (всего 2). Таким образом, с точки зрения теории информации, информационная емкость знаков русского алфавита различна (у буквы "а" она наименьшая, а у буквы "ф" — наибольшая).

Количество информации в сообщении. Сообщение состоит из последовательности знаков, каждый из которых несет определенное количество информации.

Если знаки несут одинаковое количество информации, то количество информации Ic в сообщении можно подсчитать, умножив количество информации Iз, которое несет один знак, на длину кода (количество знаков в сообщении) К:

Так, каждая цифра двоичного компьютерного кода несет информацию в 1 бит. Следовательно, две цифры несут информацию в 2 бита, три цифры — в 3 бита и т. д. Количество информации в битах равно количеству цифр двоичного компьютерного кода (табл. 1.1).

Ссылка на основную публикацию
Ключ для word windows 10
Рано или поздно любой пользователь может столкнуться с проблемой поиска ключа Office. Конечно, если лицензия на него приобретена, то таких...
Калибровка монитора macbook pro
Сервисный центр MacPlus (ремонт Apple) раскрывает секреты калибровки дисплея iMac и Macbook Вы замечали, что одни и те же изображения...
Калькулятор градусов и минут сложение и вычитание
Калькулятор, поддерживающий основные арифметические действия над выражениями с градусами. Создан по запросу пользователя. Этот калькулятор выполняет арифметические действия над градусами....
Ключ для эксель 365 лицензионный ключ бесплатно
Еще несколько лет назад компаня Майкрософт планировала свой пакет продавать вместе уже с компьютерами, как сейчас происходит с операционной системой...
Adblock detector