NetNado
  Найти на сайте:

Учащимся

Учителям



Обработка сигналов в системах телекоммуникаций


Обработка сигналов в системах телекоммуникаций

© электронная версия подготовлена АВТЭКС Санкт-Петербург, http://www.autex.spb.su


Проблемы формирования монофонического канала в многоканальной цифровой аудио аппаратуре

Гоц С.С., Янышев Д.Ш.

Башкирский государственный университет

Введение


В последнее время многоканальная аппаратура обработки звуковых сигналов стала привычным явлением, как в профессиональной, так и в бытовой аппаратуре. Большое психологическое воздействие, оказываемое звуковыми картинами многоканального звука, приводит к быстрому вытеснению одноканальных систем, применяемых в радиовещании и телевидении. Повседневная практика, однако, показывают, что часто слушатели либо не имеют возможности нахождения в зоне наилучшего восприятия многоканального звука, либо не имеют технической возможности приема или воспроизведения многоканального звука. Следует также отметить, что существующие стандарты эфирного радиовещания [1] предусматривают обязательное формирование монофонического сигнала для канала, передаваемого на основной несущей частоте. В связи тем, что большинство фонограмм подготавливаются и записываются в настоящее время в стандарте, как минимум, двухканального звука, представляет интерес исследование качественных показателей вторичного монофонического канала, формируемого в многоканальной цифровой аппаратуре обработки звуковых сигналов.

Среди известных стандартов, используемых в настоящее время при создании многоканальных систем цифровой обработки звуковых сигналов, наибольший практический интерес представляют две группы устройств: с аналоговым мультиплексированием каналов (АМК) и с цифровым мультиплексированием каналов (ЦМК). В данной работе проводится сопоставительный анализ погрешностей формирования монофонического канала в многоканальных цифровых системах с аналоговым и цифровым мультиплексированием каналов.

1. Функциональные схемы исследуемых систем

На рис. 1 изображена типовая схема многоканальной цифровой системы обработки звуковых сигналов в ПК с аналоговым мультиплексированием каналов (АМК).



Рис.1 Функциональная схема многоканальной цифровой системы обработки звуковых сигналов с аналоговым мультиплексированием каналов (АМК) на входе АЦП. ФНЧ – фильтр нижних частот, ТГ – тактовый генератор, MUX – мультиплексор.

В рассматриваемой системе сигналы с датчиков ДТ1 – ДТn, например, микрофонов, через согласующие устройства СУ1 – СУn и фильтры ФНЧ поочередно через аналоговый мультиплексор MUX поступают на аналоговый вход АЦП. Каждое новое переключение мультиплексора происходит синхронно с началом преобразования в АЦП. Для этого в рассматриваемой схеме предусмотрено управления мультиплексора m-разрядным кодом из ПК через интерфейс И. Цифровой код с выхода АЦП через интерфейс И поступает в персональный компьютер ПК. Основным достоинством схемы с АМС является большое количество каналов при малых технических затратах. Существенным недостатком схемы являются различные по величине задержки сигналов во времени по каналам.

На рис.2. изображена функциональная схема многоканальной цифровой системы обработки звуковых сигналов с отдельными АЦП по каждому каналу, цифровым мультиплексированием каналов (ЦМК) и синхронной передачей данных. Запуск всех АЦП на начало преобразования осуществляется синхронно из одного тактового генератора ТГ. Такое техническое решение определяет основное достоинство схемы, которое заключается в одновременности взятия отсчетных значений по всем каналам. Основным недостатком схемы, изображенной на рис.2, являются высокие требования к идентичности АЦП и постоянству времени их преобразования, более высокие затраты на оборудование и отдельные АЦП.



Рис.2. Функциональная схема многоканальной цифровой системы обработки звуковых сигналов с отдельными АЦП по каждому каналу и цифровой коммутацией каналов (ЦМК)

2. Эквивалентные схемы формирования монофонического сигнала

Наибольший практический интерес представляет рассмотрение качественных показателей формирования монофонического канала в двухканальных стереофонических системах. Существующие стандарты предусматривают формирование монофонического канала путем суммирования сигналов, поступающих с различных каналов [1]. Попробуем разобраться в том, какие специфические погрешности дает такое формирование монофонического сигнала.

Известно, что цифровые системы, в том числе и многоканальные, характеризуются, по крайней мере, двенадцатью видами специфических погрешностей, влияющих на качественные характеристики обработки сигналов [2-4]. В данной работе проведем учет влияния только одного вида погрешностей, связанных с неодинаковыми временными задержками сигналов в различных каналах.

На рис. 3 приведены две эквивалентные схемы формирования сигналов монофонического канала в двухканальных системах, функциональные схемы которых соответствуют рис. 1 и рис. 2.

При аддитивном объединении каналов в двухканальной системе с АМК образуется трансверсальный цифровой фильтр [5] первого порядка (см. рис. 3а) с элементом задержки, обеспечивающим задержку сигнала на величину , (1), где d=0, 1, 2 … – число дополнительных тактов разностной задержки отсчетных значений в буферной памяти, Т – период дискретизации сигнала.



Рис. 3. Эквивалентные схемы формирования монофонического канала в двухканальных системах цифровой обработки сигналов. А) с аналоговым мультиплексором на входе АЦП. Б) С цифровой коммутацией каналов.

Адитивное объединение каналов в двухканальной системе с ЦМК без дополнительных разностных задержек в буферной памяти соответствует эквивалентной схеме рис. 3 Б. При аддитивном объединении каналов в двухканальной системе с ЦМК при наличии дополнительных тактов задержки также образуется трансверсальный цифровой фильтр первого порядка (см. рис. 3а) с элементом задержки, обеспечивающим задержку сигнала на величину , (2), где d=0, 1, 2 … – число дополнительных тактов разностной задержки отсчетных значений в буферной памяти, Т – период дискретизации сигнала. Заметим, что при формировании монофонического канала в n-канальных системах формируется трансверсальный ЦФ n-1 порядка.

Наличие элемента задержки рис. 3 А приводит к изменению АЧХ при формировании монофонического канала. Наибольший практический интерес представляет случай, когда коэффициенты передачи правого и левого канала равны между собой. Не сужая общности анализа схем можно положить, что a0=a1=1. В этом случае АЧХ эквивалентного ЦФ первого порядка будет иметь следующий вид . (3). Данная АЧХ соответствует гребенчатому режекторному фильтру с частотами подавления сигнала fp , равными , k=0, 1, 2… (4)

С учетом ограничений на величину fpd/2 и на величину задержки при проведении расчетов согласно (2) реальный интерес представляет значение fp при k=0. Интересно отметить, что на слух искажения АЧХ вида (3) при формировании монофонического канала в цифровых аудиосистемах напоминают звучание монофонического канала в стереофонических аналоговых магнитофонах с неправильным углом установки воспроизводящей магнитной головки.

На частоте Найквиста f=fd/2 фазовый сдвиг между каналами, обусловленный различной задержкой сигналов между каналами на время , составит . (5)

Для удобства анализа результаты численных расчетов, выполненные согласно (1) – (5) приведены в следующей таблице.
Таблица 1. Расчетные характеристики формирования монофонического канала

Многоканальная система


d

Задержка

Частота fр режекции

Сдвиг фазы на частоте fd/2

ЦМК без дополнительной задержки

0

0



0

АМК без дополнительной задержки

0

Т/2

fd

900

ЦМК с дополнит. задержкой на 1 такт

1

Т

fd/2

1800

АМК с дополнит. задержкой на 1 такт

1

1.5Т

fd/3

2700

ЦМК с дополнит. задержкой на 2 такта

2



fd/4

3600

Экспериментальные исследования АЧХ и фазовых сдвигов между каналами были последовательно выполнены на персональном компьютере с пятью разновидностями современных звуковых плат. Измерения, проведенные с помощью компьютерной программы [6] подтвердили расчеты, представленные в таблице 1.

Выводы

При формировании вторичного монофонического канала в многоканальных системах цифровой обработки сигналов должны учитываться неодинаковые задержки сигналов в различных каналах.

Наилучшие показатели по АЧХ вторичного монофонического канала и фазовым сдвигам сигналов между каналами обеспечивают системы с цифровым мультиплексированием каналов.

Для улучшения АЧХ вторичного монофонического канала целесообразно предусмотреть коррекцию разностных временных задержек.

Литература


  1. Радиовещание и акустика. Под ред. Ю.А.Ковалгина. - Радио и связь. 1998.

  2. Гоц С.С. Основы построения и программирования автоматизированных систем цифровой обработки сигналов. 3-е издание. - Уфа, 2006, 212 с.

  3. Гоц С.С. Анализ погрешностей цифровой обработки звуковых сигналов. - Материалы докладов 7-й международной конференции “Цифровая обработка сигналов и ее применение”, М.: 2005. С. 131-133

  4. Гоц С.С. Классификация основных видов искажений при цифровой обработке сигналов в телекоммуникационных системах. - Материалы 9-й международной конференции “Цифровая обработка сигналов и ее применение”, М.: 2007. С. 65-68

  5. Гоноровский И.С. Радиотехнические цепи и сигналы. - М.: Радио и связь, 1986. 512 с.

  6. Гоц С.С. Компьютерная программа для анализа спектральных и статистических характеристик звуковых сигналов. - Материалы докладов 8-й международной конференции “Цифровая обработка сигналов и ее применение”, М.: 2006. С. 173-177


mono channel Formation Problems in multiplex digital audio equipment

Ghots S., Yanyshev D.

Bashkir State University, Frunze Street, 32, Ufa, Russia


In recently multi channel digital equipment became the accustomed phenomena, both in professional, and in home equipment. Greater psychological influence rendered by sound pictures of multi channel sound brings about quick displacing the single channel audio systems applicable in broadcasting and television. The existing standards of ethereal broadcasting provide shaping the mono signal for channel, sent on the main carrying frequency. In connection with that majority phonogram prepare and are saving at present in standard, as minimum, dual-link sound, presents of interest study of qualitative factors of shaping the secondary mono channel in multiplex digital audio equipment.

In given work is conducted comparative analysis of inaccuracy of shaping the mono channel in multi channel digital systems with analog multiplexing of channels (AMC) and with digital multiplexing of channels (DMC). Most in detail considered processes of shaping the mono channel in stereo systems. They are analyses inaccuracy, connected with different temporal delays of signals in different channels.

At additional association channels in dual-link system with AMC is formed transversal first-order digital filter with element of time delay of signal on value , (1), where d - number of tact differential time delay of samples, Т - period of sampling.

At additional association channels in dual-link system with DMC is formed transversal first-order digital filter with element of time delay of signal on value .

Presence of the time delay element of brings about change amplitude-frequency characteristic (AFC) when forming the mono channel. At equality between transmit coefficients of right and left channels AFC equivalent first-order DF will have following type . (2). Eq. (2) corresponds to comb suppression filter with frequencies of suppression of signal , k=0, 1, 2… (3)

On the grounds of theoretical and experimental studies AFC mono channel, formed by means of PC and modern sound blaster, are made following findings.

When shaping the secondary mono channel in multi channel audio systems must be taken into account the different time delays of signals in different channels.

The Best performances AFC of the secondary mono channel and phase shifts of signals between channels provide the systems with digital multiplexing of channels.

For improvement AFC of the secondary mono channel reasonable to provide program or hardware correcting the different time delays in different sound channels.



РАСПОЗНАВАНИЕ ФОНЕМ НА ОСНОВЕ СОГЛАСОВАННЫХ ВЕЙВЛЕТ-ФИЛЬТРОВ

Ульдинович С.В., Новоселов С.А., Приоров А.Л.

Ярославский государственный университет им. П.Г. Демидова

150000, Россия, Ярославль, ул. Советская, 14. Тел. (4852) 79-77-75. dcslab@uniyar.ac.ru

Вейвлет-анализ является на сегодняшний день одной из перспективных технологий анализа данных, его инструменты находят применение в самых различных сферах интеллектуальной деятельности. Обработка звука, в частности речевых сигналов, не стала исключением.

В отличие от традиционно применяемого при анализе данных преобразования Фурье, результаты, полученные с помощью вейвлет-анализа, зачастую обладают большей информативностью и способны непосредственно обрабатывать такие особенности данных, которые при традиционном подходе анализировать затруднительно[1,2]. Это свойство вейвлет-преобразования позволяет эффективно применять вейвлеты для выделения новых информативных параметров сигналов в задаче распознавания речи. Сейчас создаются новые блоки предобработки речи на основе вейвлетов для получения некоторого множества параметров сигнала, по которому можно производить распознавание, используя нейросетевые алгоритмы и скрытые цепи Маркова. На сегодняшний день предложено множество качественных алгоритмов предобработки для распознавания, сжатия речевых сигналов, и большая часть из них опираются на концепцию создания, так называемого, «супер-вейвлета», т. е. базиса, который наилучшим образом описывает конкретный сигнал. Другими словами, сейчас пытаются применять базисы, обеспечивающие наименьшее количество коэффициентов преобразования для полного восстановления сигнала, и на основе этих базисов проводить распознавание.

В данной работе речь пойдет о согласованных вейвлет-фильтрах (СВФ). СВФ – это фильтры обеспечивающие «предсказания» детализирующих вейвлет-коэффициентов по аппроксимирующим. Полное восстановление сигнала происходит только по аппроксимирующим коэффициентам. Вейвлет-фильтр строится с учетом согласования с обрабатываемым сигналом.

На рис. 1 представлена структура согласованного одноуровнего вейвлет-разложения. Использование данного разложения для распознавания речевых сигналов подробно описано в работах [3,4].

Частотная характеристика СВФ определяется следующим образом:




Рис. 1. Одноуровневое вейвлет-разложение

, (1), где – преобразование Фурье исходного сигнала, с которым согласуется вейвлет-фильтр.

На основе двухполосного разложения предложен алгоритм распознавания отдельных фонем, схема которого приведена на рис. 2



Рис. 2. Структурная схема алгоритма распознавания речевых сигналов

Рассмотрим предложенный алгоритм пофонемного распознавания речевого сигнала:

  1. Исходный речевой сигнал сегментируется на фонемы.

  2. Каждая фонема поступает на вход системы фонемных СВФ, в которой происходит вычисление вейвлет-коэффициентов.

  3. Блок анализа вычисляет информативные параметры.

  4. Блок идентификации распознает фонему по параметрам.

Теперь рассмотрим одну из возможных схем вычисления информативных параметров на основе вейвлет-коэффициентов, приведенную на рис. 3.

Для вычисления информативных g-параметров необходимо произвести три вейвлет-разложения, как показано на схеме (рис. 3). Для этого требуется синтезировать согласованные фильтры, как для самой эталонной фонемы, так и для аппроксимирующих и детализирующих коэффициентов, полученных на основе разложения фонемы этими фильтрами. Вычисляя энергию d-коэффициентов для распознаваемой фонемы, получаем набор g-параметров (g-векторов). В итоге получим некоторое множество векторов g. Назовем его G.

Дальнейшая задача сводится к нахождению по некоторому правилу g – минимального из множества G. Это обусловлено свойствами согласованных фильтров. Тот фильтр, на выходе которого наблюдается минимальное значение некоторой нормы вектора g, является «наиболее согласованным» с распознаваемой фонемой. На основании данных результатов делается вывод о том, какая фонема поступила на «Блок фонемных вейвлет-фильтров». Результаты работы распознавателя для дикторозависимого случая на основе предложенного алгоритма приведены в табл. 1. В качестве тестовых сигналов брались десять фонем, для каждой из которых строился СВФ. Затем на каждый из СВФ подавались 10 вариантов каждой фонемы, которые было необходимо распознать. Из таблицы видно, что алгоритм дает очень хорошие результаты, большинство фонем распознавалось с вероятностью 1.

Табл. 1. Результаты работы алгоритма распознавания.

Фонема

«А»

«Г»

«Е»

«З»

«Л»

«М»

«О»

«С»

«Ю»

«Я»

Вероятность распознавания

1

1

1

1

0.9

1

1

1

0.9

1






Рис. 3. Вычисление информативных параметров для одного блока фильтров (для одной эталонной фонемы)




Для более детального описания фонемы предлагается повысить кратность вейвлет-разложения. Кроме двухполосного разложения можно произвести обобщение на полосный случай. Тогда расчет частотных характеристик СВФ сведется к следующему:

(2), где – количество полос разложения. Видно, что при , формулы (2) переходят в (1).

Проводились исследования, в результате которых был получен эмпирическим путем следующий параметр , обеспечивающий высокую вероятность распознавания отдельных фонем для дикторозависимого случая: , (3), где – энергия входного сигнала, – энергия низкочастотных коэффициентов, – энергия сигнала, восстановленного по низкочастотным коэффициентам. Схема распознавателя не изменяется, но в качестве меры оценки используются параметры , вычисленные на основе N-кратных СВФ. Ниже, в табл. 2 приведены результаты моделирования.

Для распознавания слитной речи нам потребуется алгоритм, который бы эффективно мог разделять речь на отдельные фонемы. Такие алгоритмы на сегодняшний день также достаточно эффективно используют вейвлет-разложение, т.к. оно позволяет локализовать сигнал не только в частотной, но и во временной областях. Дальнейшее использование таких алгоритмов совместно с приведенными выше позволит более эффективно осуществлять распознавание человеческой речи.

Табл. 2. Зависимость вероятности распознавания отдельных фонем

от величины порога чувствительности

P

«А»

«Г»

«Е»

«З»

«Л»

«М»

«О»

«С»

Ю

Я

450

1

1

0,5

0,5

0,7

0,9

1

1

0,3

0,8

500

1

1

0,5

0,5

0,7

0,9

1

1

0,4

0,8

550

1

1

0,5

0,5

0,7

0,9

1

1

0,3

0,8

Здесь P – параметр, отвечающий за минимальный уровень сигнала, который будет обработан, т.е. параметр, отсекающий шум перед фонемой и после нее.

Литература

  1. Малла С. Вейвлеты в обработке сигналов. М.: Мир, 2005. 671 с.

  2. Daubechies I. Ten Lectures on Wavelets. SIAM, Philadelphia, PA, 1992.

  3. Новоселов С.А. Применение согласованных одномерных вейвлет-фильтров в задаче распознавания речевых сигналов. Докл. 9-й междунар. конф. «Цифровая обработка сигналов и ее применение». Москва, 2007. С. 147-149.

  4. Новоселов С.А. Приоров А.Л. Согласованные одномерные вейвлет-фильтры в задаче распознавания речевых сигналов. Тр. LХII науч. сессии, посвященной Дню Радио. Москва, 2007. С. 160-161.



the phoneme recognition with the help of coordinated wavelet Filters

Uldinovich S., Novosyelov S., Priorov A.

Yaroslavl State University
14 Sovetskaya st., Yaroslavl, Russia 150000. Phone: 7-4852-797775. E-mail: [email protected]

In process of development of computer systems it is more and more obvious that use of these systems will much more extend if we can use human speech at work direct deal with a computer. It will be possible to operate machine with using usual voice in real time and also to enter and to deduce the information as usual human speech.

Existing technologies of speech recognition have no sufficient opportunities for their wide use yet, but at the given stage of researches intensive search of opportunities of the use of short multiple-valued procedures for simplification of understanding is carried out.

The speech signal is an example of non-stationary process in which the fact of change of its time-and-frequency characteristics is informative. To analyse the speech signals pertinently to apply such mathematical method as wavelet - transformation.

In view of recent theoretical researches in the branch of wavelet -analysis, the expression was received, allowing to carry out calculation of the amplitude and - frequency characteristics of wavelet -filter (WF) which provides full restoration of a signal after procedure of single-level wavelet - decomposition, using only low-frequency components of decomposition.

Let - an initial signal, length of readout, and - its Furier-spectrum. Then amplitude – and – frequency and phase – and – frequency characteristics of wavelet -filter with property of full restoration is defined by formulas: (1)

Such filters is named one-dimensional coordinated WF (CWF).

For more detailed description of a phoneme it is offered to raise frequency rate -decomposition. Except for two-way decomposition it is possible to make generalization on raised order. Then calculation frequency characteristics СВФ will be reduced to the following: (2)

Preliminary results give the basis to believe, that application of the coordinated -filters in a problem of speech recognition is very effective.



РАЗРАБОТКА ВСТРОЕННОЙ СИСТЕМЫ АВТОМАТИЧЕСКОЙ ВЕРИФИКАЦИИ ДИКТОРОВ ПО ГОЛОСУ

Симончик К.К.

Санкт-Петербургский Государственный Электротехнический Университет "ЛЭТИ

Введение

Системы определения индивидуальности говорящего по речевым характеристикам развиваются в последнее время очень активно. Интерес к решению прикладных задач в этом направлении, прежде всего, определяется наличием широкого круга практических приложений:

  • защищенный доступ к различным службам по телефону

  • защищенный доступ к информационным ресурсам через Интернет

  • идентификация говорящего для криминалистической экспертизы

Преимущества установления индивидуальности по голосу при решении подобных прикладных задач очевидны:

  • голос не отчуждаем от человека (в отличие от ключа, магнитной карты);

  • он не требует непосредственного контакта с пропускной системой (как это необходимо для отпечатка пальца, ладони, подписи).

В данной работе рассматривается проблема разработки системы верификации для встроенных приложений. Проводится исследование современных методов и алгоритмов в области речевых технологий, применимых в условиях ограниченных вычислительных ресурсов и объемов используемой памяти.

Результатом разработок является программное обеспечение, реализующее базовую функциональность системы верификации, переносимое под различные платформы, на базе DSP процессоров. В данной работе – DSP фирмы Texas Instruments и Analog Devices.

Системы верификации

Предметом исследований являлась текстозависимая система верификации. В такого рода системах каждому клиенту сопоставляется одна или несколько фраз или слов. Обычно процесс использования системы верификации состоит из двух шагов. Первый шаг заключается в регистрации клиента, когда записывается одна или несколько тестовых речевых фраз сказанных этим человеком. Эти записи используются системой для обучения и создания так называемой модели клиента. Вторым шагом является сам процесс верификации, когда пользователь говорит некоторую фразу и которая используется системой верификации для сравнения с моделью клиента для принятия решения о пропуске или отклонении. При этом пользователь в каком-то виде идентифицирует себя, чтобы система могла выбрать нужную модель клиента для сравнения [1].

Основными проблемами, встающими перед разработчиками систем обработки и анализа речи, являются:

  • Выделение индивидуальных признаков человека по его речи.

  • Устранение временной неравномерности произношения.

  • Реализация принятия решения о верификации.

Выделение речевых характеристик

В системах верификации дикторов из речевого сигнала извлекается набор таких его характеристик, которые как можно более полно содержали индивидуальные особенности пользователя, но при этом не несли избыточной информации. Кепстральные коэффициенты как представление спектральных характеристик наиболее часто используются как в задачах верификации диктора, так как они обеспечивают наиболее точное представление речи, как тихих условиях, так и под воздействием шумов [2]. Формулы для вычисления кепстральных коэффициентов приведены ниже: , где - средняя спектральная мощность фильтра , - общее количество фильтров,

Для получения величины используется набор полосовых фильтров с АЧХ треугольной формы.

Алгоритм ДИВ

Алгоритм Динамического Искажения Времени (Dynamic Time Warping) устраняет временные различия между двумя последовательностями речевых характеристик, искажая временную ось одной последовательности для максимального совпадения с другой. Речь является процессом, меняющимся во времени. Различные произношения одного и того же слова, в основном, имеют разные длительности, а произношение одного и того же слова с одинаковой длительностью отличаются в середине из-за различных частей слова, произносимых с разной скоростью. Чтобы получить глобальную оценку расхождения между двумя речевыми образцами, представленными как последовательности векторов, должно быть произведено выравнивание во времени.

Эта проблема показана на рис.1. Временная матрица используется для визуализации выравнивания.

На этом рисунке входной сигнал “EXsAMPhL” – это “зашумленная” версия эталона “EXAMPLE. Идея заключается в том, что «s» - ближайшее совпадение с «X» по сравнению с чем-нибудь ещё в эталоне. Задача состоит в поиске пути, ставящему каждому элементу эталона соответствующий элемент сигнала, и при этом являющегося минимальным с точки зрения расхождения эталона и теста.

Для оптимальности поиска максимального совпадения между эталоном и входным сигналом на путь накладываются ограничения.

  • Каждый кадр входного сигнала должен быть использован в процессе сравнения.

  • С
    Рис. 1. Временная матрица.
    уществуют пределы сжатия тестового сигнала, называемые глобальными ограничениями.

  • Пути не могут идти назад во времени (так наз. локальные ограничения).


Классификатор

Задача качественного сравнения двух выровненных во времени последовательностей векторов речевых характеристик может быть приведена к классической задаче классификации. Пусть даны два вектора характеристик С1 и С2 одинаковой длины. Требуется определить, принадлежат ли они одному или разным классам.

В данной работе рассчитывалось суммарное квадратичное отклонение между последовательностями речевых характеристик по каждой компоненте: , где - -й элемент эталонного вектора речевых характеристик в момент времени ; - -й элемент тестового вектора речевых характеристик в момент времени ;

Для принятия решения о допуске пользователя или его отклонении сформируем две гипотезы. Первая гипотеза H0 будет обозначать, что величина измеренного отклонения Y принадлежит распределению , вторая - H1 – что принадлежит распределению . Та из гипотез, которая будет принята верной, определит соответствующий выбор системы при допуске пользователя.

На рис. 2 показаны проекции вектора на плоскости, образованные его 2-й и 3-й компонентами для 240 случаев доступа в систему клиента или злоумышленника.

Р
ешение о принадлежности случайного вектора определялось, исходя из знака линейной решающей функции: , где - набор весовых коэффициентов.

Аналитический расчет такого рода функций сложен, кроме того, он использует известную плотность распределения и корреляционные коэффициенты между случайными величинами . Поэтому в данной работе была использована линейная решающая функция, весовые коэффициенты которой вычислялись итеративно с помощью алгоритма SMO (sequential minimal optimization) [3].

Реализация системы верификации на ПЦОС

П
Рис. 2. Проекции вектора Y на плоскости, образованные его 2-й и 3-й компонентами.
рограммный код, реализующий функциональность автоматической текстозависимой системы верификации, был разработан с использованием стандарта ANSI C. Это дает возможность портировать его на большинство известных процессором Цифровой Обработки Сигналов.

Особенностью данной реализации являлось то, что в ней не использовалось каких-либо специфических возможностей ПЦОС того или иного семейства. Использовались общие способы по оптимизации при написании кода для ПЦОС:

  • минимизация использования быстрой оперативной памяти

  • использование 16-битных данных

  • использование операций над числами в целой точке

  • развертка и программная конвейеризация циклов

В таблице 1 представлены сравнительные характеристики DSP процессоров семейств TMS320C64xx и ADSP-BF53x [4]. Таблица 1. Сравнительные характеристики ПЦОС.

ПЦОС

TMS320C64xx

ADSP-BF53x

Тактовая частота

400-1000 МГц

350-750 МГц

MMACS (16-бит)

1600-4000

700-1500

Память программ и данных

160–2080 кбайт

52–308 кбайт

Реализация алгоритма системы автоматической верификации поставляется в виде открытого кода. Для использования алгоритма программист должен следовать следующим соглашениям:

  • соглашения на вызов функции алгоритма;

  • соглашения на распределение памяти процессора.

В таблице 2 представлено распределение памяти для ПО реализованной системы верификации и требуемая производительность для каждой платформы.

ПЦОС

TMS320C6416

ADSP-BF535

Память данных

538.2 кбайт

604.4 кбайт

Память программ

6.8 кбайт

3.4 кбайт

Время верификации (1 сек речи)

~120 мс

~600 мс

Таблица 2. Распределение памяти и производительность.

Результаты тестирования

Для тестирования исследуемой автоматической системы верификации была использована речевая база данных 20 дикторов. Для регистрации требовалось 5 записей одной и той же парольной фразы. У всех дикторов была одинаковая парольная фраза – слово «Распознавание». Было произведено 200 попыток доступа клиента и 3800 попыток доступа в систему злоумышленника. Результаты опыта приведены в таблицах 3, 4.

Пользователь

Кол-во попыток доступа

Кол-во отказов

Кол-во пропусков

Клиент

200

2

198

Злоумышленник

3800

3799

1

Таблица 3. Результаты тестирования.

Заключение

В результате изучения возможности использования алгоритма ДИВ для временного выравнивания образцов и простейшей дискриминантной фунции для классификации при построении автоматической текстозависимой системы верификации диктора, получены экспериментальные данные, показывающие достаточно высокую эффективность работы. Так, ошибки пропуска/отклонения, равные 0.026/1.00% допустимы при использовании её в системах охраны.

Литература

1. Kuitert. M. and Boves. L. (1997), Speaker verification with GSM coded telephone speech, In Proceedings of the European Conference on Speech Technology. pages 975-978. Rhodes.Л.Р.

2. Rabiner L. Juang B.H.. Fundamentals of Speech Recognition. - N.Y.: Prentice Hall, 1993.

3. S.S. Keerthi, S.K. Shevade, C. Bhattacharyya, K.R.K. Murthy, "Improvements to Platt's SMO Algorithm for SVM Classifier Design". Neural Computation, 13(3), pp 637-649, 2001

4. Процессоры цифровой обработки сигналов компании Texas Instruments Inc. М.: «СКАН», 1999.



DEVELOPMENT OF EMBEDDED AUTOMATIC SPEACKER VERIFICATION SYSTEM

Simonchik K.

Saint-Petersburg State Electrotechnical University

Problem of automatic speaker verification system is observed for embedded platforms. Modern algorithms and methods of speech technologies area that used in the low performance and memory conditions are investigated.

The subject of analysis is text-dependent speaker verification system. This determines, first of all, by the wide variety of practice applications:

  1. Validity check of access permissions to different information and physical systems (bankers' discount status query by the telephone, information from database).

  2. Criminality examination (telephone talk analysis, proofs in the court).

  3. Possibility of using in the portative devices (mobile phones, etc.)

In such systems some voice phrases or voice words associated to every client. Usually there are two steps of verification system using. First step consist of client registration when one or several example client voice password phrases are recorded by the system. System uses these audio records for training and creation of the so-called client model. The second step is immediately verification process. User speaks his password phrase and system compares it to corresponding client model and to takes the verification decision: to access or reject user. At the same time user somehow identify itself in order that the system was able to choose the necessary client model for compare.

The basic problems facing the researchers of speech analyses and speech processing are:

  • Person individual speech characteristic choice by itself voice.

  • Articulation timing warping compensation.

Mel Cepstrum coefficients were used as individual features of user speech. And Dynamic Timing Warping algorithm was used for timing difference compensation between two speech descriptions consecutions.

Special classificatory was used for taking of speech verification decision. Different methods based on Neuron Networks and linear decision functions were investigated. Weight coefficients of linear function were calculated by SMO (sequential minimal optimization) algorithm.

Verification system was developed on ANSI C programming language. This allows to porting program system for different DSP (Texas Instruments and Analog Devices DSP in this work).

Testing results of automatic speaker verification system are listed in the work. They show good quality and competitive capacity of developed system comparing to analogous products.







Цифровая обработка сигналов и ее применение

Digital signal processing and its applications

страница 1


скачать

Другие похожие работы: