Обработка сигналов в системах телекоммуникаций
Литература
1. Рихтер, С. Г. Кодирование и передача речи в цифровых системах подвижной радиосвязи.Учебное пособие для вузов.– М.: Горячая линия – Телеком, 2010.– 304 с.
2. Шелухин, О. И. Цифровая обработка и передача речи / Н. Ф. Лукьянцев, – М.: Радио и Связь, 2000 – С. 102 - 166;
3. Быков, С. В. Цифровая телефония: Учеб. пособие для вузов/ В. И. Журавлев, И. А. Шалимов М.: Радио и связь, 2003. С. 66 - 72.
4. Михайлов, В. Г., Златоустова Л.В. Измерение параметров речи. – М.: Радио и связь, 1987. – 168 с.
5. Рабинер, Л. Р., Шафер, Р. В. Цифровая обработка речевых сигналов. – М.: Радио и связь, 1981. – 496 с.
PARAMETER ALLOCATION OF THE SPEECH
SIGNAL MODEL ON SEGMENTS OF NATURE IDENTICAL FORMATION
Ivanov B., Afanasjev A., Ilushin M.
Now practically all equipment of a speech transmission used in communication systems on low speeds of transfer, as the basic way of coding/decoding of speech signals uses a method of a linear prediction.
At researches of a speech signal characteristics change dynamic by a method of the short-term analysis, the important problem is the choice of segments duration for which short-term energy, a current spectrum, number of crossings of zero etc. are estimated. It is interesting, that the duration of the settled process considerably exceed 10-30 ms for formed speech of various sounds. One of the basic moments in construction of speech segment final border of analysis interval is calculation of the basic tone period and changing of some correlation interval values. The increase in the short-term analysis duration will lead to remaining of the parameters of processing system forming function and an excitation signal on all extent of the analysis that is equivalent to reduction of speech signal average transfer speed. The offered way of a speech signal model parameter allocation on segments of the nature identical formation corresponds fine with almost stationary character of a speech signal on the time intervals corresponding to a mode of established sounds.
СПОСОБ ОБРАБОТКИ СПЕКТРА РЕЧЕВОГО СИГНАЛА
Колоколов А.С.
Институт проблем управления им. В.А.Трапезникова РАН, Москва
Предварительная обработка речевого сигнала является важным моментом в системах распознавания речи. С её помощью, во-первых, достигается существенное сжатие информации за счёт частотного анализа речевой волны, заканчивающегося получением кратковременного амплитудного спектра сигнала . Для этих целей обычно используется гребёнка из сравнительно небольшого числа полосовых фильтров. Во-вторых, создаётся устойчивое к уровню сигнала, частотным искажениям и фоновым шумам первичное описание речевого сигнала, необходимое для выявления его информативных признаков, используемых для распознавания фонем. С этой целью производится специальная обработка спектра речевого сигнала.
Примером подобной обработки является полосовая фильтрация логарифмического амплитудного спектра [1,2], сохраняющая спектральные пики, связанные с резонансами речевого тракта. В её результате формируется преобразованный спектр , (1)
где: – кратковременный логарифмический амплитудный спектр речевого сигнала, – импульсная характеристика полосового фильтра, являющаяся чётной функцией, т.е. , - операция свёртки, – нелинейное преобразование такое, что при , при . Вид используемой весовой функции показан на рис.1а.
Рассмотренную выше обработку логарифмического спектра (1) можно трактовать как процесс выявления в логарифмическом спектре локальных неоднородностей, связанных с максимумами в передаточной функции речевого тракта , представляющими резонансы речевого тракта, которые определяют фонетическое качество звука.
Р
ис.1. Вид весовых функций для полосовой фильтрации спектра.
Ниже предлагается ещё один способ обработки спектральной огибающей, также основанный на полосовой фильтрации логарифмического спектра, который совместно с рассмотренным выше способом обработки (1) целесообразно использовать в системах распознавания речи с целью получения более стабильного описания речевого сигнала в частотной области.
Максимумы в спектре речевого сигнала являются не единственным видом локальных спектральных неоднородностей, которые определяют фонетическое качество звука. Ряд речевых звуков, примерами которых являются некоторые гласные, звонкая смычка или фрикативные звуки имеют характерные, выраженные локальные наклоны спектра, положение которых по шкале частот также определяет фонетическое качество звука.
Отмеченные наклоны в спектре предлагается выделять с помощью полосовой фильтрации логарифмического спектра фильтром с нечётной импульсной характеристикой. Результат такой фильтрации определяется выражением , (2)
где . Типичный вид импульсной характеристики , который можно использовать для подобной полосовой фильтрации, приведён на рис.1б. В результате преобразования (2) локальные наклоны в спектре представляются в зависимости от знака наклона положительными или отрицательными пиками в , положения которых определяют места локальных наклонов в .
Результат преобразования (2) целесообразно представить с помощью двух отдельных составляющих
и , (3)
раздельно описывающих положительные и отрицательные наклоны в логарифмическом спектре . В этом случае последовательное выполнение преобразований (2) и (3) можно трактовать как результат работы двух специфических детекторов неоднородностей в логарифмической спектральной огибающей сигнала, реагирующих на присутствие в спектре резких положительных и отрицательных локальных наклонов, характеризуемых определённым диапазоном крутизны и протяжённости.
Ширину и форму импульсной характеристики полосового фильтра следует выбирать так, чтобы в результате фильтрации логарифмического спектра в и в виде хорошо выраженных пиков представлялись резкие локальные наклоны, присутствующие в передаточной функции речевого тракта но при этом подавлялась быстро изменяющаяся с частотой составляющая спектра , описывающая гармоническую структуру голосового источника.
Важной особенностью преобразований (2) и (3), основанных на полосовой фильтрации, является их нечувствительность к амплитуде речевого сигнала. Это следует из того, что умножение сигнала на константу проявляется в виде постоянной аддитивной составляющей в , которая исключается в результате полосовой фильтрации. Поэтому отпадает необходимость в нормализации, обработанных спектров , и по амплитуде.
Кроме того, благодаря полосовой фильтрации при преобразованиях (2) и (3), как и в случае преобразования (1), следует ожидать эффекта малой изменчивости обработанного спектра при наличии частотных искажений, создаваемых фильтром с частотной характеристикой медленно изменяющейся с частотой, и фоновых широкополосных шумов со спектральной плотностью медленно изменяющейся с частотой.
Предложенный способ был проверен на реальных фрагментах речевого сигнала, которые искажались с помощью дифференцирования. В проведённом исследовании образцы речевых сигналов вводились в ЭВМ с динамического микрофона через 16-и разрядную звуковую карту при частоте дискретизации 22,05 кГц. Логарифмические спектры речевых образцов получались с помощью частотного анализатора, в общих чертах учитывающего особенности частотного анализа звука в слуховой системе. Для этих целей использовалась гребенка из 35 цифровых полосовых фильтров, центральные частоты которых располагались равномерно по шкале Барков [3] с шагом 0,57 Барк, начиная с 1,95 Барк (200 Гц). Частотные характеристики фильтров слухового частотного анализатора аппроксимировались полосовыми фильтрами Баттерворта четвёртого порядка с наклонами частотной характеристики 12 дБ/окт и шириной полосы пропускания 1,5 Барка. Гребёнка цифровых фильтров была реализована в частотной области на основе 512-точечного быстрого преобразования Фурье, и с её помощью для отдельных фреймов речевых сигналов длительностью 512 отсчётов рассчитывались их логарифмические спектры , где - номер фильтра частотного анализатора, - номер фрейма. Для полосовой фильтрации спектра использовалась весовая функция
, (4)
где - функция Кронекера, . В этом случае вычисление свёртки сводилось к суммированию взвешенных спектральных отсчётов. Следует отметить, что применяемая для фильтрации спектра весовая функция (4) по сути является импульсной характеристикой гребенчатого фильтра с двумя лепестками. Однако вследствие того, что спектры находились с помощью гребёнки фильтров с относительно широкими полосами пропускания, имело место сглаживание спектральной огибающей и, как следствие, подавление в ней высокочастотных составляющих, представляющих гармоники основного тона. Поэтому использование весовой функции (4) при фильтрации спектра было равнозначно его полосовой фильтрации. Полученные обработанные спектры и сглаживались низкочастотным фильтром с импульсной характеристикой .
На рис.2а приведены спектры и для гласного "э" в слове "семь". На рис.2б даны те же спектры для продифференцированного сигнала гласного.
И
з рисунков можно видеть, что искажения, обусловленные дифференцированием, приводит к существенным различиям спектра гласного , достигающим 20 дБ. Однако это различие существенно меньше у спектров , полученных в результате предложенной обработки спектра, и не превышает величины 4-5 дБ.
Р
ис.2. Исходный и обработанный с помощью полосовой фильтрации спектры для фрагмента гласного «э» в слове «семь». а – исходный сигнал, б – продифференцированный сигнал.
Рис.3. Исходный и обработанный с помощью полосовой фильтрации спектры для фрагмента звонкой смычки в слове «да». а – исходный сигнал, б – продифференцированный сигнал.
Аналогичный эффект стабилизации обработанного спектра с помощью предложенного способа также иллюстрирует рис.3 для случая звонкой смычки в слоге «да».
1 Исследования выполнены при поддержке ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы, Государственный контракт № П964 от 27 мая 2010 г.
Цифровая обработка сигналов и ее применение
Digital signal processing and its applications
страница 1 ... страница 2страница 3страница 4страница 5
скачать
Другие похожие работы: