Задача кодирования сообщений. Префиксные коды и деревья Пусть задан алфавит

Учебное пособие Редактор А. В. Крейцер Издательство спбгэту «лэти» 1 97376, С. Петербург, ул. Проф. Попова, 5
2. Деревья поиска Идеально сбалансированные бинарные деревья
2 Случайные бинарные деревья поиска
Абракадабра!, содержащий 12 символов, включая специальный символ !
Задача кодирования сообщений. Префиксные коды и деревья Пусть задан алфавит
1 Код Фано-Шеннона
1 Метод Хаффмана
1 Реализация алгоритмов кодирования
1 Доказательство оптимальности кода Хаффмана Лемма 1
1 Энтропийная оценка средней длины кода
1 Динамическое кодирование по Хаффману
Абракадабра!, содержащий 12 символов, включая специальный символ !
Абракадабра!, содержащий 12 символов, включая специальный символ !
А. Ю. Алексеев с. А. Ивановский д. В. Куликов
При обучении программированию особую трудность вызывает работа с динамическими структурами данных
2. стеки и очереди спецификация стека и очереди
3 Определения дерева, леса, бинарного дерева. Скобочное представление
Примечания и библиографические указания
Списки
Задача о порядке перемножения матриц
С. А. Ивановский разработкакорректныхпрограм м санкт-Петербург 2003
Программирования
Разработка, доказательство корректности и анализ алгоритма
2. основы аналитической верификации программ основные правила аналитической верификации программ
3. индуктивные функции на последовательностях
4. корректность программ при работе с массивами
5. поиск в массиве линейный поиск
Разработка, доказательство корректности
Шень А. Программирование: теоремы и задачи: Учеб пособие

скачать doc

1. ДЕРЕВЬЯ ХАФФМАНА
Рассмотрим пример применения деревьев в задаче кодирования (упаковки, сжатия) сообщений.
1.1. Задача кодирования сообщений. Префиксные коды и деревья
Пусть задан алфавит A = {₁, ₂, …, _n}, где _i– символы алфавита или элементарные сообщения (i 1..n). Пусть имеется сообщение («текст» или последовательность m символов, т.е. элементарных сообщений):

(a₁, a₂, …, a_m), j 1..m: a_j  A.

В этом тексте (входной последовательности символов) каждый символ алфавита _i встречается w_i раз. Более формально ( j 1..m: (i 1..n: a_j = _i)) и ( i 1..n: w_i = (N j 1..m: a_j = _i)), где N – квантор счета. При этом _i_=1.._n w_i = m.

Требуется закодировать входное сообщение (a₁, a₂, …, a_m), т.е. для каждого символа алфавита _i получить его кодовое слово с_i , и породить выходную последовательность кодовых слов, заменив каждое вхождение символа во входной последовательности его кодом. При этом желательно получать закодированные сообщения возможно меньшей длины. Будем рассматривать только двоичные коды, т.е. такие, что для  i 1..n будем иметь с_i = (с_i(1), с_i(2),…, с_i(l_i)), где с_i(j)  {0, 1} и где l_i – длина кодового слова с_i.

Пример. Пусть A = {А, Б, В, Г}. Здесь n = 4, ₁= «А», ₂= «Б», ₃= «В», ₄= «Г». Пусть задан также входной текст «АББАГАВ», т.е. здесь m = 7 и W = (w_i)₁ⁿ= (3, 2, 1, 1).

Способ кодирования 1: равномерный 3-битный код.

w_i	3	2	1	1
_i	А	Б	В	Г
с_i	001	010	011	100

Код(«АББАГАВ») = 001 010 010 001 100 001 011

Здесь и далее в примерах пробелы в коде сообщения введены для удобства чтения. На самом деле никаких «разделителей» в коде нет. Длина закодированного текста есть 73 = 21 бит.

Способ кодирования 2: равномерный 2-битный код.

w_i	3	2	1	1
_i	А	Б	В	Г
с_i	00	01	10	11

Код(«АББАГАВ») = 00 01 01 00 11 00 10

Длина закодированного текста есть 72 = 14 бит.

Способ кодирования 3: неравномерный код. Здесь длины кодовых слов различных символов могут быть различны.

w_i	3	2	1	1
_i	А	Б	В	Г
с_i	0	10	110	111

Код(«АББАГАВ») = 0 10 10 0 111 0 110

Длина закодированного текста есть

_i_=1.._n w_i l_i = w₁ l₁ + w₂ l₂ + w₃ l₃ + w₄ l₄ = 31 + 22 + 13 + 13 = 13 бит.

Третий способ приводит к коду меньшей длины, чем первый и второй способы, поскольку при этом чаще встречающиеся символы кодируются более короткими кодовыми словами. Однако в этом случае неясно, как при декодировании выделять коды отдельных символов, если длина кодов разная. Использование специальных разделяющих кодов (как, например, в азбуке Морзе) удлинило бы закодированное сообщение.

Оказывается, что достаточным условием однозначного декодирования неравномерного кода является свойство префиксности кода. При этом декодирование возможно за один проход («на лету»).

Код называется префиксным, если никакое кодовое слово не является началом (префиксом) другого кодового слова. Более формально это можно выразить так. Пусть C = {c₁, c₂, …,c_n} – код, а с_i – кодовое слово для _i и с_i = (с_i(1), с_i (2),…, с_i(l_i)). Код C – называется префиксным, если для любых кодовых слов с_i и с_j (ij) имеем

(l_i  l_j)  (с_i(1), с_i(2),…, с_i(l_i))  (с_j(1), с_j(2),…, с_j(l_i)).

Легко убедится, что использованный выше при третьем способе кодирования неравномерный код является префиксным.

Между двоичными кодами и бинарными деревьями имеется соответствие. Рассмотрим сначала соответствие «код»  «дерево». Пусть задан код, например, c(А) =0 , c(Б) = 10, c(В) = 110, c(Г) = 111. Последовательность нулей и единиц в кодовом слове задает путь от корня до узла дерева, если считать, что, например, 0 означает переход к левому сыну, а 1 – к правому сыну текущего узла дерева. Для префиксного кода коды

символов сопоставляются листьям в кодовом дереве. Действительно, для указанных в примере кодов последовательно получаем

Последнее (правое) дерево соответствует заданному коду.

Пусть теперь задано бинарное дерево, листьям которого приписаны символы алфавита. Припишем ветвям дерева двоичные символы 0 и 1: ветвь, ведущую к левому сыну, пометим нулем, а ведущую к правому сыну – единицей. Тогда последовательность нулей и единиц, полученная обходам вершин дерева от корня к листу, может рассматриваться как префиксный код символа, приписанного к этому листу. Например, бинарному дереву
соответствует равномерный (все листья на одном уровне) код, совпадающий с кодом, полученным способом кодирования 2 в ранее рассмотренном примере. Следующее бинарное дерево

представляет неравномерный префиксный код

_i	А	Б	В	Г
с_i	0	11	100	101

Заметим, что если рассмотреть тот же пример текста «АББАГАВ», то данный код отличается от кода, полученного ранее способом кодирования 3. Однако суммарная длина закодированного текста и здесь будет равна 13 битам. Действительно, т. к. (w_i)₁ⁿ= (3, 2, 1, 1), то _i_=1.._n w_i l_i = 31 + 22 + 13 + 13 = = 13 бит. Листья в кодовом дереве располагаются на тех же уровнях, что и в ранее рассмотренном примере, а сами деревья, соответствующие этим различным кодам, отличаются лишь перестановкой некоторых поддеревьев.

Префиксный код называется полным, если добавление к нему любого нового кодового слова нарушает свойство префиксности. В терминологии кодовых деревьев это означает, что полному коду соответствует строго бинарное дерево, т. е. такое бинарное дерево, все узлы которого, кроме листьев, имеют ровно двух сыновей. Например, строго бинарное дерево

соответствует полному коду c_А = 0, c_Б = 10, c_В = 11. Дерево (не строго бинарное)

задает неполный код c_А = 0, c_Б = 100, c_В = 101. В такой код можно добавить, например, кодовое слово c_Г = 11, не изменяя остальные коды. Полученное после добавления кодовое дерево

является уже строго бинарным, а новый код – полным.

Итак, в кодовом дереве, соответствующем префиксному коду, символами помечаются только листья, и их ровно столько сколько символов в алфавите. Длина l_i кодового слова с_i есть длина пути от корня до листа _i.

Рассмотрим процессы кодирования и декодирования. Пусть построено кодовое дерево. Кодирование, т. е. порождение кодовых слов для всех символов алфавита, происходит следующим образом. Кодовое слово для символа _i получают, проходя по дереву от листа, соответствующего _i , к корню. При этом код выписывается справа налево. При подъёме по дереву от левого сына к отцу в начало кодового слова добавляется 0, а при подъёме от правого сына к отцу в начало кодового слова добавляется 1. При декодировании расшифровка очередного кодового слова получается последовательным чтением битов закодированного сообщения и синхронным движением по кодовому дереву от корня до листа так, что бит 0 вызывает переход к левому сыну, а бит 1 – к правому.

Далее для полной длины закодированного текста (последовательности сообщений) будем использовать обозначение

L = _i_=1.._n w_i l_i = w₁ l₁ + w₂ l₂ + … + w_n l_n.

При хорошем кодировании полная длина кода L должна быть малой. Естественно искать код, минимизирующий L, как функцию от (l_i)₁ⁿ. При этом заданными считаются n и (w_i)₁ⁿ, а найти требуется (l_i)₁ⁿ с условием, что все l_i являются длинами кодовых слов префиксного кода.

Этой задаче можно дать вероятностную (стохастическую) интерпретацию. Рассмотрим входной поток независимых сообщений. Пусть w_i – вероятность появления сообщения (символа) _i во входном потоке. Тогда L = _i_=1.._n w_i l_i есть математическое ожидание длины кода случайно выбранного символа (или с эмпирической точки зрения – средняя длина кода сообщения).

Переход к вероятностной («частотной») интерпретации может быть пояснен следующим образом. Разделим на m левые и правые части равенств _i_=1.._n w_i = m и L = _i_=1.._n w_i l_i и обозначим p_i = w_i / m и L^p = L / m. Тогда получим _i_=1.._n p_i = 1 и L^p = _i_=1.._n p_i l_i. Здесь естественно называть p_i частотами вхождения символов в текст, а L^p – средней длиной кодовых слов.

Учащимся

Учителям