NetNado
  Найти на сайте:

Учащимся

Учителям



Обработка сигналов в системах телекоммуникаций


Выбранный вокодер обеспечивает хорошее звучание синтезированной речи при скорости битового потока 2400 бит/с и величине битовых ошибок не более 1%.

Задача практической реализации низкоскоростного вокодера, имеющего приемлемое качество синтезированной речи при ошибках в канале до пяти процентов, решалась в два этапа. Первоначально была снижена скорость битового речевого потока до 1200 бит/сек без существенной деградации качества выходного речевого сигнала. Далее были выбраны оптимальные в смысле качества синтезированной речи коды, исправляющие ошибки, и разработан метод замены выбитых речевых параметров на интерполированные значения параметров предшествующих фреймов. После этого суммарная скорость потока информационных и проверочных бит составила 2400 бит/сек.



Рис.1 . Выбор трех значений векторов ЛСП из шести речевых фреймов с помощью решетчатой структуры
Первоначально в работе был рассмотрен вокодер с битовой скоростью 1200 бит/сек. При понижении скорости битового потока основное внимание уделялось сохранению разборчивости речи. Анализ алгоритма речевого преобразования MELP-2400 показывает, что амплитуды преобразования Фурье сигнала возбуждения отвечают в основном за узнаваемость диктора и передачу интонации, поэтому в разработанном вокодере MELP-1200 они не используются. Передача коэффициента усиления один раз за фрейм также не приводит к существенному ухудшению разборчивости. Для дальнейшего понижения битовой скорости была разработана техника передачи линейных спектральных пар (ЛСП) только по четным фреймам с помощью адаптивного выбора фреймов на основе решетчатой структуры c критичными значениями. Для нечетных фреймов вектор ЛСП находился с помощью интерполяционных методов из соседних четных фреймов.

При адаптивном выборе фреймов на основе решетчатой структуры c критичными значениями из шести последовательных речевых фреймов выбираются три вектора ЛСП, линейная интерполяция которых имеет минимальное среднеквадратичное отклонение от исходных шести векторов (рис.1) , за исключением ситуаций, при которых отклонение вектора ЛСП от некоторых выбранных критичных векторов менее заданной величины. В данных ситуациях вектор линейных спектральных пар передается в обязательном порядке.

В вокодере MELP-2400 выбираются 5 полос, в каждой из которых принимается решение “голосовой” или “шумовой”, и озвученность по полосам передается четырьмя битами на фрейм. Прямое уменьшение числа полос приводит к существенной деградации синтезированного сигнала, поэтому для уменьшения количества передаваемых бит была использована частота границы голосовой активности Wc, для чего было использовано 2 бита.

Суммарный список параметров алгоритма MELP-1200, передаваемый от кодера к декодеру за один речевой фрейм длительностью 45 мс, представлен в таблице 2.

Таблица 2.

Параметр


“Голосовой” фрейм (бит)

“Шумовой” фрейм (бит)

Линейные спектральные пары (ЛСП)

25

25

Амплитуды преобразования Фурье сигнала возбуждения





Коэффициенты усиления (2 за фрейм)

5+5

5 +5

Период основного тона, общая озвученность фрейма (2 за фрейм)

7+7

7+7

Озвученность по полосам (2 за фрейм)

2+2



Флаг периодичности

1

1

Защита от ошибок





Синхробит





Всего за кадр,45 мс

54

50

Наконец, последним был проведен анализ вокодера с битовой скоростью 2400 бит/сек для работы в каналах с величиной ошибок до 5% ( MELP_C-2400). Для исправления ошибок битового потока были исследованы несколько классов кодов. Наиболее оптимальными в смысле качества восстановленной речи оказались коды Хемминга (8,4), позволяющие исправлять одиночную ошибку в четырех информационных битах и определять наличие ошибки в два бита, и коды Голея (23,12), исправляющие три ошибки в двенадцати информационных битах. Из данных кодов были выбраны коды Хемминга, так как они позволяют более точно устанавливать, в каком именно речевом параметре произошла ошибка, и заменять только этот параметр его значением из предыдущего фрейма. В результате к пятидесяти четырем информационным битам добавлялись пятьдесят четыре проверочных бита и общая скорость битового потока составляла 2400 бит/сек.





Рис. 2. Зависимость MOS для вокодеров MELP-2400, MELP-1200 и MELP_C-2400 от процента канальных ошибок

Предлагаемый алгоритм построения низкоскоростного вокодера MELP_C-2400 был промоделирован на персональном компьютере с использованием языка программирования “СИ”, при этом данные были представлены в формате с фиксированной точкой. Для определения качества синтезированной речи использовалась диагностическая мера приемлемости (Diagnostic Acceptability Measure – DAM) [2]. Для этой цели были использованы шесть wav-файлов с мужскими голосами и шесть wav-файлов с женскими голосами, которые затем прослушивались на выходе тракта 30 слушателями, после чего определялась средняя оценка мнений – MOS. Такой метод называется методом субъективной оценки качества. Оценка производилась по пятибалльной шкале. За пять баллов принималось качество речи, синтезированной вокодером MELP-2400. Зависимость MOS для вокодеров MELP-2400 (сплошная линия), MELP-1200 (штрих-пунктриная линия) и MELP_C-2400 (штриховая линия) от процента канальных ошибок (ПКО) представлена на рис. 2.

На основе полученных результатов можно сделать следующие выводы: 1. Вокодер MELP-1200 имеет разборчивость синтезированной речи близкую к вокодеру MELP-2400 и может быть использован в каналах с пропускной способностью 1200 бит/сек. 2. При битовых ошибках в канале более 1% вокодер MELP_C-2400 дает существенно лучшее качество синтезированной речи.

Литература

1. Lynn.M.Supplee & Alan.V.McCree , Melp: The New Federal Standart at 2400 bps. ICASSP 97.

2. Коротаев Г.А. Эффективный алгоритм кодирования речевого сигнала на скорости 4.8 кбит/c и ниже // Зарубежная радиоэлектроника. – 1996. – № 3. – С 36.


PRACTICE REALIZATION OF THE LOW-SPEED VOCODERS FOR CHANNELS WITH HIGH PERCENT OF ERRORS

Vibornov S., Sidorova N.

Moscow Technical University of Communications and Informatics

111024, Moscow, Aviamotornaya st., 8a, Tel./Fax: +7 (495)-957-77-10. [email protected].

The necessity of low-speed coding speech arises because of the requirement to transmission of information on narrow-band channels at presence of low-capacity transmitters (for example, on means of movement). In addition, low-speed vocoders provide more reliable communication by having more noise in the channel and better quality of speech by working in greatly noisy environment. In this connection the problem of reduction of the bit stream at preservation of acceptably quality of speech is of interest and actual.

In this work the task of practice realization of low-speed MELP_C-2400 vocoder having admissible the quality of synthesized speech in channels with errors up to five percent has been solved. At first the vocoder with speed 1200 bit/sec having legibility of speech comparable with MELP-2400 vocoder, which designed by the Texas Instruments inc. and won opened competition on change codec of federal standard USA FS-1016 [1], has been implemented. Further the optimal codes, which correct errors, in terms the quality of synthesized speech, have been selected and the method changing the faulty bit of speech parameters on interpolation values of parameters preceded frames has been offered. After that the summarized speed of the stream information and checking bit has made 2400 bit/sec.

Offered algorithm of low-speed vocoder building on personal computer with using language programming “C” has been simulated, thus data were submitted in the format with a fixed point. In order to determine quality of synthesized speech the diagnostic acceptability measure (DAM) [2] has been used. For this purpose the six wav-files with men voices and the six wav-files with female voices have been used, which then have been listened on an output of the сhannel by 30 listeners, after mean opinion score (MOS) has been defined. Such method is named as a method of subject estimate quality. Estimate on five-ball scale has been made. For five balls the quality speech synthesizing by MELP-2400 vocoder has been accept. MOS dependence for MELP-2400 (continuous line), MELP-1200 (dash-dot), and MELP_C-2400 (dash) vocoders from percent channels errors is shown on Figure.



Fig. The relation of MOS for MELP-2400, MELP-1200 and MELP_C-2400 vocoders from percent of channel errors

On the basis received results it is possible to do the following conclusions: 1. MELP-1200 vocoder have legibility of synthesized speech near to vocoder MELP-2400 and be able is used in channels with capacity 1200 bit/sec. 2. If bit errors in line more 1% then MELP_C-2400 give best quality for synthesized speech.

Literature

1. Lynn.M.Supplee & Alan.V.McCree , Melp: The New Federal Standart at 2400 bps. ICASSP 97.

2. Korotaeiv G.A. The effective coding algorithm of a speech signal on speed 4.8 kbit/s and lower // Foreign radio electronics. – 1996. – № 3. – P. 36 [in Russian].



об одном методе ОБнаружения пауз в РЕЧЕВЫХ СИГНАЛах

Жиляков Е.Г.1), Белов С.П., Прохоренко Е.И.. Белов А.С.

1)Белгородский государственный университет

308015, Белгород, ул. Победы, 85, [email protected]

Введение

Постоянно нарастающая интенсивность использования информационно-телекоммуникационных систем (ИТС) для речевого взаимодействия привела к необходимости разработки способов минимизации затрат на хранение и передачу речевых данных, что достигается за счёт уменьшения объёмов их битовых представлений.

Особенностью речевых сигналов является высокая доля пауз. Суммарная продолжительность перерывов в среднем занимает около 15% от продолжительности слитной речи, а в режиме диалога 56% от общей длительности. Кроме того, речь содержит множество кратких перерывов длительностью от 5 до 200 мс, существующих как внутри слов, так и между словами в слитной речи [1]. Поэтому удаление из файла блока данных, соответствующих паузам, позволяет существенно уменьшить объемы битовых представлений речевых сообщений. Также важно не исказить за счет удаления части собственно звуковых данных, что может являться следствием несовершенства применяемой информационной технологии удаления данных паузы.

В докладе рассматривается метод обнаружения пауз, который адекватно отображает отличие между сигналом соответствующем паузе и звуковыми данными, заключающееся в распределении энергий по частотному диапазону, что при прочих равных условиях создает предпосылки повышения достоверности принимаемых решений.

Обнаружение границы пауза/звук

Анализ распределения по частотному диапазону энергии речевого сигнала, состоящего из звуков и пауз, показывает, что энергия фрагмента сигнала, соответствующего паузе, распределена относительно равномерно по всему диапазону частот, тогда как энергия фрагмента сигнала, соответствующего звуку, сосредоточена в узких полосах частот [2]. Нами предлагается метод обнаружения пауз, основанный на учете отличий в распределении энергетических составляющих звуков речи и сигнала паузы в частотной области [3].

Частотный диапазон разбивается на некоторое количество равных частотных интервалов

, (1), которые полностью покрывают всю частотную ось.

Формулируется следующая гипотеза: Н0: энергия исходного отрезка речевого сигнала в r-том частотном интервале () обусловлена внешними шумами.

Решающая функция для проверки гипотезы о том, что анализируемый отрезок сигнала соответствует паузе между звуковыми данными (нулевая гипотеза) имеет вид , r = 1, 2, … , R, (2), где - энергия анализируемого отрезка речевого сигнала в r-том частотном интервале, а в знаменателе стоят результаты предварительного усреднения по достаточно большому количеству отрезков сигнала, заведомо относящихся к паузам, долей энергий, попадающих в заданный частотный интервал . (3). Здесь - количество отрезков сигнала в паузе, которые используются для усреднения (обучения), что соответствует оцениванию математических ожиданий вычисляемых долей энергий в соответствующих частотных интервалах.

Для вычисления значений энергий может быть использован новый вариационный метод вычислений долей энергии отрезков речевых сигналов, соответствующим заданным частотным диапазонам [4].

Максимальное значение из отношений вида (2) берется для увеличения вероятности правильного обнаружения границы пауза/звук, так как энергия сигнала, соответствующего звуку может быть сосредоточена в сравнительно узком диапазоне частот.

Если выполняется неравенство , (4), то нулевая гипотеза отвергается, а в противном случае принимается решение о наличии паузы и отрезок кодируется на основе фиксации его начала и длительности (то есть не более чем двумя целыми числами).

Символ в правой части (4) означает порог, который вычисляется адаптивно на этапе обучения и обеспечивает заданный уровень вероятности ложной тревоги.


Вычислительные эксперименты

Для подтверждения эффективности работы предлагаемого метода были проведены вычислительные эксперименты, в ходе которых было обработано большое количество файлов, содержащих речевые данные (более 60 различных единиц речи и пауз).

В табл. 1 представлены оценки вероятности правильного и ложного обнаружения пауз, а также коэффициент сжатия сигнала за счет кодирования пауз на участке сигнала в 100000 отсчетов при заданных N и R.

Таблица 1. Оценка вероятности правильного и ложного обнаружения пауз, коэффициент сжатия (Kсжат).



N

R





K сжат

1

60

2

0,98261

0,0012

1,74

2

60

6

0,98801

0,0006

1,74

3

60

10

0,98441

0,0006

1,73

4

60

15

0,99101

0,0007

1,75

5

60

30

0,98381

0,0007

1,73

6

200

2

0,99001

0,0000

1,75

7

200

20

0,99601

0,0000

1,75

8

200

25

0,99201

0,0022

1,75

9

200

50

0,99801

0,0000

1,75

10

200

100

0,99801

0,0000

1,75

Вероятность правильного обнаружения определялась как , где - длина сигнала, соответствующего паузе, - количество значений решающей функции не превышающих порог.

Вероятность ложного обнаружения определялась как , где - длина сигнала, соответствующего звуку, - количество значений решающей функции не превышающих порог.

В табл. 2 приведена оценка вероятности правильного обнаружения пауз на отрезках сигнала, соответствующих слитной речи. Слова взяты со стечением согласных и содержащие глухие согласные звуки «с», «ф», «ч», которые являются невокализованными звуками, распределение энергий которых подобно распределению энергий пауз.

Таблица 2. Оценка вероятности правильного обнаружения пауз на отрезках сигнала,

соответствующих слитной речи

Вероятность правильного обнаружения пауз ,%

Слово

«аспект»

Слово «фактически»

Слово

«свойству»

Слово «значит»

98,7

97,3

100

98,5



Рис. 1. Обнаружение пауз между звукосочетаниями

Вероятности правильного обнаружения в словах «аспект», «фактически» и «значит» не достигают 100 процентов. Это объясняется тем, что в состав этого слова входят звуки, которые принадлежат к невокализованным звукам малой длительности, вероятность пропуска которых наиболее велика, из-за их малого (по сравнению с вокализованными звуками) уровня, и в данном случае отрезки определенные как паузы приходятся на окончание звука «к» и начало звуков «т» и «ч». Срезание начала звуков в этих случаях особенно нежелательно, так как это может снизить разборчивость речи. Тем не менее, экспертная оценка при воспроизведении сигнала с удаленными паузами показала, что звуки «к», «т» и «ч» в приведенных словах четко различимы.

Чувствительность метода иллюстрирует рис. 1, где показан результат анализа фразы, содержащей слово «пытаются». Здесь отрезки, определенные как паузы, соответствуют паузам между звукосочетаниями «пы»-«тают»-«ся».

Таким образом, предлагаемый метод позволяет определить паузы не только между отдельными словами, но и звукосочетаниями слитной речи, что может быть использовано для первичной сегментации речи, например в задаче распознавания.

страница 1 ... страница 2страница 3страница 4страница 5страница 6страница 7


скачать

Другие похожие работы: