NetNado
  Найти на сайте:

Учащимся

Учителям



Обработка сигналов в системах телекоммуникаций


Обработка сигналов в системах телекоммуникаций



1

2

3


Рис. 2. Отображение 3-х целей.






Рис.3. Слева – переход к растровому изображению с обращением цветов.

Справа – результат построчной медианной фильтрации.


Проведенные расчёты демонстрируют перспективность использования разнесенных в пространстве приемников для существенного повышения разрешающей способности гидролокаторов по углу. Очевидно, что предложенный способ может быть использован не только в гидролокаторах, но и в системах безопасности и контроля водной акватории, в профилографах, средствах УЗИ, акустических парковочных устройствах и т.д.

Литература

1. Гуткин Л.С. Теория оптимальных методов приема при флуктуационных помехах. -М.: Сов.радио, 1961.

2. Кук Ч., Бернфельд М. Радиолокационные сигналы. – М.: Советское радио. 1971.

3.Залогин Н.Н., Кислов В.В., «Широкополосные хаотические сигналы в радиотехнических и информационных системах», Радиотехника, - М. 2006.

4. Драбкин А.Л. и др. Антенн-фидерные устройства – М.: Советское радио, 1974.

5. Залогин Н.Н., Скнаря А.В., К вопросу об экономичной оцифровке аналоговых сложных сигналов. Р.-Э., т.13, вып.10, с.1307-1314, 2008.
THE HIGH RESOLUTION HYDROLOCATION

Zalogin N., Kolesov V., Sknarya A.

Kotel’nikov IRE RAS

In modern sonars for the most part there are used as probe signals periodic sequences of short pulses with sinusoid’s filling (ton signals). In 60-th years of past century in radar the last one was replaced by complex signals.

Now it becomes appeared a more easy promoting of modern digital methods for forming and processing of complex probing signals in hydrolocation then in radiolocation. The modern high-speed computing systems easy manage with a generation, radiation and processing of complex probing signals in the frequency band of operation.

The results got in theory of radiolocation as far back as in 50-th, 60-th years of last century and experience in development of radiolocation make appeared that using of complex probing signals are rising a distance of radar operation in several times more with saving a high distance resolution. This issue is supported by testing of domestic sonars with probing chirp signals.

At the same time a resolution by angle in modern sonars with linear antennas is a several order worse then a resolution on distance. For improving a resolution on angle it was proposed to use in condition of diversity reception several spaced apart receiving detector. In this case there are juxtaposed as exactly as possible the moments of arriving signals to every one detector and a problem of accurate definition of target disposition is resolving.

Modelling of such type sonar operation in MATLAB system with using a very high band frequency chaotic probing signal was demonstrated significant increasing of angle resolution.

Carried out a modeling of operation demonstrate the availability of using spaced apart receivers for significant arising of sonar angle resolution. Obviously, the proposed method may be used not only in sonars but in system of safety and of water aria’s control also and profilographe, installation of ultrasonic scanning, acoustic parking units and so on.



Об одном способе обработки речевого сигнала в частотной области

Колоколов А.С.

Институт проблем управления им. В.А.Трапезникова РАН, Москва

Обработка речевого сигнала играет важную роль в системах распознавания речи. Благодаря ей формируется первичное описание речевого сигнала, используемое для формирования речевых эталонов и реализации процесса распознавания. Обычно такая обработка заключается в получении кратковременного амплитудного спектра речевого сигнала . Однако получаемое в результате частотное описание речевого сигнала может в значительной степени изменяться при наличии частотных искажений сигнала, что нарушает процедуру сравнения с эталонами и резко снижает качество распознавания.

Причинами этих искажений могут быть передача речи по каналу связи, реверберация, смена микрофона, а также вариация формы импульса голосового источника при изменении психофизиологического состояния диктора. В свете этого весьма привлекательной представляется, гипотеза о том, что, при анализе звука слуховой системой используются локальные спектральные признаки, позволяющие получить более устойчивое частотное описание речевого сигнала [1].

Действительно, в [2] было показано, что с помощью специальной обработки кратковременного логарифмического амплитудного спектра , выявляющей его локальные частотные признаки, можно получить более устойчивое описание речевого сигнала в присутствии частотных искажений, сравнительно медленно изменяющихся с частотой. Предложенная обработка основывается на полосовой фильтрации спектра фильтром с чётной импульсной характеристикой и имеет вид (1), где: – операция свёртки, – импульсная характеристика полосового фильтра, при , при . Характер весовой функции поясняет рис.1.

Рис.1. Типичный вид весовой функции .

В результате обработки (1) при соответствующем подборе ширины , в спектре выделяются максимумы, связанные с формантами (резонансами) речевого тракта, являющиеся разновидностью локальных неоднородностей спектра по частоте. Заметим, что соотношение (1) также описывает однородную нейронную сеть [3], моделирующую эффект латерального торможения в слуховой системе.

Следует отметить, что слуховым анализатором, наряду с выделением локальных неоднородностей спектра по частоте, производится также выделение неоднородностей в спектре акустического стимула по времени. Об этом свидетельствуют наличие в слуховой системе так называемых on и off нейронов, избирательно отвечающих на начало и конец стимула [4], причём число таких нейронов существенно возрастает в верхних отделах слухового анализатора. Подобный эффект обычно объясняется с помощью задержанного торможения, в том или ином виде реализующего операцию дифференцирования спектра.

Следовательно, основываясь на вышесказанном, можно заключить, что выделение неоднородностей спектра по частоте и во времени являются базовыми операциями в процессе обработки звука в слуховой системе.

Цель настоящего исследования состояла в развитии способа обработки кратковременного логарифмического амплитудного спектра, реализующего выявление неоднородностей спектра по времени.

Описание способа

Предлагаемый способ основан на полосовой фильтрации логарифмического спектра фильтром с нечётной импульсной характеристикой. Для этого находятся две функции (2)

и
, (3), где и . Характер весовых функций и поясняет рис.2.

Рис.2. Типичный вид весовых функций и..
Благодаря нелинейному преобразованию в и в виде хорошо выраженных пиков отражаются соответственно моменты резкого нарастания и убывания логарифмического спектра, имеющие место на границах квазистационарных сегментов речевого сигнала.

Важной особенностью преобразований (2) и (3) является их нечувствительность к частотным искажениям речевого сигнала. Это следует из того, что для произвольной частоты умножение на константу вводит в лишь аддитивную постоянную, которая исключается полосовой фильтрацией. Таким образом, функции и практически не изменяются при наличии частотных искажений исходного речевого сигнала. Это позволяет предположить, что преобразования (2) и (3) могут быть использованы как для построения алгоритмов, реализующих устойчивую сегментацию речевого сигнала в присутствии значительных частотных искажений, так и для получения устойчивых информативных признаков речевого сигнала.

Исследование способа

Предложенный способ был исследован на фрагментах речевых сигналов, образцы которых были записаны с помощью 16–разрядного АЦП при частоте дискретизации 22,05 кГц. Логарифмические спектры речевых образцов получались с помощью частотного анализатора, в котором в общих чертах были учтены особенности частотного анализа звука в слуховой системе. Для этих целей использовалась гребенка из цифровых полосовых фильтров, центральные частоты которых располагались равномерно по шкале Барков с шагом 0,57 Барк, начиная с 1,95 Барк, что позволяло производить частотный анализ в диапазоне частот от 200 до 8660 Гц. Частотные характеристики фильтров слухового анализатора аппроксимировались полосовыми фильтрами Баттерворта четвёртого порядка с наклонами частотной характеристики 12 дБ/окт и шириной полосы пропускания 1,5 Барка. Гребёнка цифровых фильтров была реализована в частотной области на основе 512–точечного быстрого преобразования Фурье, и с её помощью для отдельных фреймов речевых сигналов рассчитывались их логарифмические спектры , где – номер фильтра гребёнки, а – номер спектра. Вычисление спектров производилось с интервалом мс. Для полосовой фильтрации спектра использовались симметричные нечётные весовые функции

, где ., – параметр, определяющий ширину весовых функций. Поэтому вычисление свёрток в (2) и (3) сводилось к суммированию взвешенных спектральных отсчётов. В результате формировались дискретные функции и . При нахождении этих функций использовался параметр из тех соображений, что речевой сигнал на отрезках 30–40 мс может рассматриваться как квазистационарный.

Проведённое исследование способа продемонстрировало его нечувствительность к частотным искажениям сигнала. С его помощью пиками в и надёжно отмечались границы квазистационарных сегментов речевого сигнала. Основываясь на этом, можно заключить, что предложенный способ может быть использован в основе алгоритмов сегментации речи при проведении фонетического анализа и для измерения длительностей речевых событий. Известно, что вариациями длительности в речевом сообщении передаётся значительная часть просодической информации, ударение и даже фонетическая информация. О последнем свидетельствует тот факт, что с уменьшением длительности щелевые фрикативные согласные звуки начинают восприниматься как взрывные, сходные по месту образования.

Выявляя фрагменты речевого сигнала между ближайшими пиками и , когда , можно фиксировать сегменты речевого сигнала, соответствующие смычке. При этом по продолжительности смычки могут быть разделены, например, различающиеся способом образования взрывные согласные и сонант «р».

Наконец, следует заметить, что, хотя фонетическая информация, содержащаяся в спектрах кваистационарных сегментов речи, практически терялась в результате преобразований (2) и (3) из-за короткой длительности и , тем не менее информация о спектральном составе взрывных согласных сохранялась в на границе между смычкой и взрывом. Таким образом, использование преобразования (2) предоставляет дополнительный способ частотного анализа взрывных согласных для определения их места образования.

Заключение

Предложен способ обработки речевого сигнала, основанный на полосовой фильтрации кратковременного логарифмического амплитудного спектра фильтром с нечётной импульсной характеристикой. Результатом такой фильтрации является выделение неоднородностей спектра по времени. Предложенный способ не чувствителен к частотным искажениям сигнала и может найти применение при решении ряда задач, возникающих при анализе и распознавании речи. Примерами таких задач являются сегментация речи, определение длительности выявленных в процессе сегментации речевых фрагментов, обнаружение ударных слогов, выявление смычки и, наконец, частотный анализ взрывных согласных для их последующей классификации по месту образования.

Литература


  1. Чистович Л.А., Венцов А.В., Гранстрем М.П. и др. Физиология речи. Восприятие речи человеком. / В серии «Руководство по физиологии».- Л., Наука, 1976.

  2. Колоколов А.С. Обработка спектра речевого сигнала // DSPA-2006. 2006. с.164-166.

  3. Любинский И.А., Позин Н.В., Яхно В.П. Анализ моделей однородного нейронного слоя с латеральными связями // АиТ. 1967. №10. С.168-181.

  4. Гершуни Г.В. О механизмах слуха (в связи с исследованием временных и временно-частотных характеристик слуховой системы) // Пробл. Физиол. акустики.1967. Т. VI. Механизмы слуха. С. 3-32.



A method of speech signal processing in the frequency domain

Kolokolov A.

Institute of Control Sciences of Russian Academy of Sciences.

A method of speech signal processing is proposed. It is based on short-time logarithmic amplitude spectrum processing which includes bandpass filtering with odd puls-response filter characteristic and following nonlinear transformation. As a result of the processing there is selection of spectrum time nonuniformities at the moments of rapid spectrum changes. To all appearance such a spectrum processing take a place in the auditory analyzer where it manifests itself in the form of responses of the on-off neurons responding selectively to the beginning and end of an acoustic stimulus.

Asset of the proposed processing consists in that its result is insensitive to speech signal frequency distortions, which occur by means of reverberation, microphone replacement or communications channel. So it allows to form more stable description of speech signal in the frequency domain in comparison with usual spectral representation.

Moreover the processing can have application as a core of speech segmentation procedure, for duration measurement of speech quasi-stationary segments or for spectrum estimate of short noise bursts in the case of plosive consonants with the purpose of articulation place determination.

The method was tested on the real speech examples, when short time spectrum was estimated on the base of filer bank. The filter bank characteristics were selected in such a way as to reproduce in general way frequency analysis of sounds in the hearing system.




МОДИФИКАЦИЯ АДАПТИВНОГО АЛГОРИТМА НА ОСНОВЕ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ С НОРМАЛИЗАЦИЕЙ ПО ОШИБКЕ ДЛЯ ЗАДАЧИ ЭХОКОМПЕСАЦИИ

Лихолет М.Б., Тараканов А.Н.

Ярославский государственный университет им. П.Г. Демидова

Явление электрического эха возникает из-за неидеальной работы дифференциальной системы в абонентских комплектах станционного оборудования. Восприятие эхосигнала является субъективным и зависит от его задержки относительно исходного сигнала. Как правило, наличие эхосигнала с задержкой более 30 мс приводит к ухудшению восприятия речи абонентом, повторной передаче информации и, как следствие, увеличению времени занятия линии одной парой абонентов [1,2]. Для борьбы с эхосигналом в настоящее время широко используют эхокомпенсаторы, работа которых заключается в создании оценки эхосигнала и ее вычитании из действительного эхосигнала.

Схема включения эхокомпенсатора приведена на рис. 1, где введены следующие обозначения: – сигнал дальнего абонента, – сигнал ближнего абонента, – ошибка предсказания эхосигнала (остаточный эхосигнал). Эхотрактом будем считать часть цепи от до .



Рис. 1. Схема размещения эхокомпенсатора в четырехпроводной части цепи
Структурная структура эхокомпенсатора показана на рис. 2. Введены следующие обозначения: – эхосигнал, – сумма эхосигнала и сигнала ближнего абонента, – оценка эхосигнала, – коэффициенты КИХ-фильтра, моделирующего эхотракт, – коэффициенты адаптивного фильтра, ДВР – детектор встречного разговора (определяет ситуацию, когда одновременного говорят оба абонента). Кроме того, при создании эхокомпенсатора полагают, что искажения, вносимые в сигнал элементами сети, за исключением дифференциальной системы, не существенны, а отличная от нуля часть импульсной характеристики эхотракта мала по сравнению с общей длительностью импульсной характеристики эхотракта.

В большинстве случаев для построения эхокомпенсатора используются адаптивные алгоритмы на основе метода наименьших квадратов (МНК) [3]. В частности, наибольшее распространение получил алгоритм на основе нормализованного метода наименьших квадратов (НМНК) [4]. Это объясняется тем, что характеристики данного алгоритма (скорость сходимости, достигаемая ошибка подстройки весовых коэффициентов адаптивного фильтра) удовлетворяют требованиям задачи эхокомпенсации [5,6]. Однако существует ограничение на длительность импульсной характеристики эхотракта, которую может обрабатывать НМНК – обычно она не превышает 512 отсчетов. Это связано со значительным уменьшением скорости сходимости данного алгоритма при увеличении числа весовых коэффициентов адаптивного фильтра [7]. Одним из способов решения данной проблемы является использование рекурсивного алгоритма наименьших квадратов [4].



Рис. 2. Структурная схема эхокомпенсатора
Рекурсивный метод наименьших квадратов (РНК) обладает большей скоростью сходимости, чем алгоритмы семейства МНК. Платой за высокую скорость сходимости является повышенная вычислительная сложность РНК по сравнению с МНК. Для каждого шага корректировки фильтра требуется операций умножения и сложения для МНК и операций для РНК. Перестройка весовых коэффициентов адаптивного фильтра эхокомпенсатора с помощью РНК описывается выражениями

, , , 

, , , ,

где – вектор отсчетов сигнала дальнего абонента, – вектор весовых коэффициентов адаптивного фильтра, – вектор коэффициентов усиления, – оценка обратной корреляционной матрицы сигнала. Начальная инициализация алгоритма задается следующим образом , .

Как видно из выражений (1)-(4), использование РНК связано с выполнением операций над матрицами размерностью и использованием операндов большой разрядности, что предполагает использование достаточно мощного в вычислительном плане микропроцессора. Даже не смотря на то, что вычислительная мощность современных микропроцессоров постоянно возрастает и появляется возможность реализации даже таких относительно сложных алгоритмов, уменьшение вычислительной сложности алгоритма может дать разработчику эхокомпенсатора дополнительные преимущества.

Во-первых, алгоритм с более низкой вычислительной сложностью позволяет реализовать устройство на аппаратуре с меньшей производительностью, что снижает себестоимость. Во-вторых, при реализации на достаточно производительном процессоре с помощью такого алгоритма возможно обрабатывать большее число эхотрактов по сравнению с ранее использовавшимися алгоритмами.

В связи с этим предлагается использовать в качестве алгоритма эхокомпенсации модифицированный адаптивный алгоритм на основе метода наименьших квадратов с нормализацией по ошибке. Исходный алгоритм на основе метода наименьших квадратов с нормализацией по ошибке (НОМНК) имеет следующие выражения для перестройки весовых коэффициентов адаптивного фильтра [8,9]:

, , где . 

Данный алгоритм обладает более высокой скоростью сходимости, чем НМНК, что позволяет использовать НОМНК для обработки эхотрактов большей длительности, а вычислительная сложность обоих алгоритмов имеет одинаковый порядок.

Однако, как и в случае с РНК, высокая скорость сходимости алгоритма приводит к необходимости использования дополнительных средств, обеспечивающих малое отклонение весовых коэффициентов адаптивного фильтра от оптимальных значений в ситуации встречного разговора. Для этого можно воспользоваться процедурой робастификации.

Процедура робастификации может быть получена с помощью метода модифицированных остатков [10], одним из достоинств которого является возможность повышения робастности алгоритма при сохранении его основных выражений, необходимых для перестройки коэффициентов фильтра.

Для этого будем минимизировать сумму следующего вида , ,

где – некоторая выпуклая функция. Взяв производную функции по и обозначив , вместо  будем решать систему уравнений , . 

В задаче эхокомпенсации i-ым остатком будет остаточный эхосигнал, определяемый как . Тогда систему  можно считать произведением винзорированного вектора остатков и вектора-столбца отсчетов сигнала дальнего абонента.

Получим оценку масштаба, используя медиану абсолютных отклонений от медианы остатков . Для этого введем буфер ошибок длиной и будем производить вычисления, основываясь на значениях находящихся в буфере, тогда .

Учитывая вид производной функции Хьюбера, заменим остатки их винзорированными вариантами, используя следующее выражение . (9).

Далее возможна перестройка коэффициентов адаптивного фильтра, используя вычисленные с помощью (9) ошибки и выражения (5) и (6) в алгоритме НОМНК.

Получаемый в результате алгоритм обладает более высокой скоростью сходимости, чем НМНК, что позволяет обрабатывать эхотракты с увеличенной длительностью импульсной характеристики. Кроме того, данный алгоритм сохраняет невысокую вычислительную сложность, что позволяет реализовывать его на маломощных в вычислительном плане цифровых сигнальных процессорах.

Литература

  1. Адаптивные фильтры / Под ред. К.Ф.Н. Коуэна, П.М. Гранта. – М.: Мир, 1988. 392 с.

  2. Феер К. Беспроводная цифровая связь. Методы модуляции и расширения спектра: Пер. с англ. / Под ред. В.И. Журавлева. – М.: Радио и связь, 2000. 520 с.

  3. Уидроу Б., Стирнз С. Адаптивная обработка сигналов: Пер. с англ. – М.: Радио и связь, 1989. 440 с.

  4. Glentis G.-O., Berberidis K., Theodoridis S. Efficient LS adaptive algorithms for FIR transversal filtering // IEEE Signal Processing Magazine, 1999. V.16, N. 4. Р. 13-41.

  5. ITU-T Recommendation G.165. Echo cancellers. 1993.

  6. ITU-T Recommendation G.168. Digital network echo cancellers. 2004.

  7. Тараканов А.Н. Влияние длины импульсной характеристики эхотракта на поведение эхокомпенсатора в режиме двойного разговора // Телекоммуникации, 2003. № 10. С. 15-19.

  8. Ramadan and A. Poularikas. An adaptive noise canceller using error nonlinearities in the LMS adaptation // Proc. of the IEEE SoutheastCon, Greensboro, North Carolina, March 2004. P. 359-364.

  9. Ramadan and A. Poularikas. New LMS algorithms based on data and error nonlinear functions // WSEAS Transactions on systems, July 2004. V. 3, N 5. P. 2249-2253.

  10. Хьюбер П. Робастность в статистике: Пер. с англ. – М.: Мир, 1984. 304 с.


MODIFICATION OF ERROR NORMALIZED STEP-SIZE LEAST MEAN SQUARE ALGORITHM FOR ECHO CANCELLATION

Liholet M., Tarakanov A.

Yaroslavl Demidov State University

The phenomenon of an electric echo arises because of non ideal characteristic of differential system in sets of the station equipment. The perception of echo is subjective and depends on delay in the telephone line. As a rule, presence of the echo with a delay more than 30 ms results in deterioration of perception of speech by the subscriber, repeated transfer of the information and, as consequence, to increase time of occupation of a line in one pair subscribers. A Line Echo Cancellers are widely use for removing echo from the signal of far-end subscriber.

For long echo path least mean square (LMS) algorithm and its variations do not provide sufficient speed of convergence. Using for reorganization of taps of the adaptive filter recursive algorithm of the least squares (RLS), it is possible to solve a problem of convergence of algorithm on long echo path. Recursive least squares algorithm has higher convergence speed than LMS algorithm. The cost of high speed is more computational complexity of RLS than LMS. Each iteration requires operations of multiplication and addition for LMS and operations for RLS.

The computing capacity of modern microprocessors constantly grows and there is an opportunity of realization even relatively complex in computing sense algorithms. Reduction of computing complexity of algorithms can give the developer of the echo canceller side benefits. First, the algorithm with lower computing complexity allows create the device on the equipment with smaller performance that reduces the cost price. Second, at realization on productive enough processor with the help of such algorithm it is possible to process the greater number of channels in comparison with earlier used algorithms.

A new class of LMS algorithms based on error normalization has been reported in IEEE conferences in 2004. One of them is Error Normalized Step-Size LMS Algorithm (ENSS). It has follow expressions for updating of weighted coefficients of adaptive filter: , , where . .

The algorithm (1)-(2) has more rapid speed of convergence than NLMS and can be used for processing long echo paths. Computational complexity of both algorithms are the same.

As it was in case of RLS – fast speed of convergence leads to instability of echo canceller in double-talk mode. Procedure of robustification may be used for avoiding of this. Procedure of robustification can be obtained with using of modified remainders method. We can apply this method to adaptive algorithm without changing of expressions for adaptive filter weight coefficients update.

Obtained algorithm based on ENSS has more rapid convergence speed than common NLMS. It can be used for processing long echo paths. Also new algorithm has low computational complexity and can be realized on cheap digital signal processors.

Алгоритм идентификации диктора с помощью метода динамического искажения времени и вейвлет-преобразования

Новоселов С.А., Максимов В.И., Кравцов С.А., Гречко Р.С.

Ярославский государственный университет имени П.Г. Демидова

Голосовые технологии – это обширная область научно-технической и коммерческой деятельности, связанная с разработкой и практическим использованием систем, объектом анализа которых является человеческая речь (в более широком смысле – голос живого существа, хотя акустическая диагностика может использоваться применительно к любым объектам). К ним относятся системы распознавания диктора по его голосу (в частном случае, по его речи). Среди таких систем выделяется группа системы верификации и группа системы идентификации диктора. Голос диктора (на практике, его речевой сигнал) уникален ввиду специфики физиологического строения его артикуляторного аппарата и специфики его речи. Именно это обуславливает интерес к нему, как биометрическому объекту. Только в некоторых весьма редких случаях указанная уникальность может не иметь места (например, однояйцовые близнецы, воспитанные в одинаковых условиях).

Задача идентификации диктора существенно отличается от задачи верификации. В этом случае система должна точно указать одного из дикторов среди N дикторов данного множества. Идентификация диктора обеспечивает высокую надежность распознавания и может быть использована в устройствах "безопасной телефонии", голосовых замках, для голосового контроля доступа и во многих других приложениях [1-2].

В данной работе рассмотрен один из методов идентификации диктора и некоторые экспериментальные данные, позволяющие оценить его надежность.

Детектор речевой активности

Наиболее простым классификатором речевого сигнала является VAD (Voice Activity Detector, детектор речевой активности), который выделяет во входном речевом сигнале активную речь и паузы. Этот алгоритм очень важен для систем автоматического распознавания речи.

Существуют различные методы детектирования речи, которые используют при работе множество параметров (энергию фреймов, количество переходов через ноль, спектр). В работе предлагается простой и достаточно эффективный способ определения речевой активности с помощью коэффициентов вейвлет-преобразования [3-4] и оператора энергии Тэггера. Наличие участков речи определяется с помощью пороговой обработки энергии Тэггера вейвлет-коэффициентов четвертого уровня разложения.

Динамическое искажение времени

Наиболее удачные формы трансформации, использованной для сокращения различий, были впервые представлены Сакоя и Чибо и назывались динамичными искажениями (dynamic time warping DTW). Техника динамичного искажения используется для временного вытягивания и сокращения расстояния между искаженным представлением и шаблоном для говорящего. Вначале сигнал преобразовывается в область трансформант, где определяется немногочисленный, но высокоинформативный набор параметров. Затем определяются конечные выходные параметры для варьирования голоса (следует отметить, что данная задача не является тривиальной) и производится нормализация для составления шкалы параметров, а также для определения ситуационного уровня речи. Метод DTW применялся в основном для распознавания изолированных команд с ограниченным словарем.

В работе предложен алгоритм идентификации диктора по фразе русской речи с помощью метода нелинейного преобразования масштаба времени и вейвлет-преобразования. Предложено для сравнения двух сигналов применять энергию вейвлет-коэффициентов симметричного вейвлет-разложения. Матрица информативных параметров речевых команд представляет собой набор энергий вейвлет-коэффициентов 5 го уровня разложения симметричного вейвлет-преобразования последовательно рассчитанных для фреймов, на которые разбит речевой сигнал (рис. 1, рис. 2). Такая матрица была названа скейлограммой энергий.



Рис. 1 Рис. 2

Для работы алгоритма идентификации необходимо синтезировать базу скейлограмм энергий для эталонных сигналов. Вычисление «минимального пути» для сравнения речевых сигналов приведено на рис. 3 (слева «матрица-весов», справа «матрица стоимости»).



Рис. 3

Описание алгоритма идентификации:

  1. Рассчитывается скейлограмма энергии для распознаваемого образца.

  2. Полученная скейлограмма энергий сравнивается с эталонными скейлограммами при помощи алгоритма DTW

  3. Идентификация диктора происходит на основе нахождения минимального отклонения от эталонных параметров.

Результаты работы алгоритма

Алгоритм тестировался на записанной базе речевых сигналов. В эксперименте участвовало 8 дикторов. Результаты работы алгоритма приведены в табл. 1.

Таблица 1

№ Диктора

1

2

3

4

5

6

7

8

1

89%

11%

-

-

-

56%

-

-

2

-

89%

-

-

-

-

-

-

3

11%

-

100%

-

-

-

-

-

4

-

-

-

100%

11%

-

-

-

5

-

-

-

-

89%

-

-

-

6

-

-

-

-

-

44%

-

-

7

-

-

-

-

-

-

100%

11%

8

-

-

-

-

-

-

-

89%

В целом, в рамках исследуемых 8 дикторов надежность работы алгоритма равна 87.5%. Для сравнения алгоритма с другими аналогами использовались результаты статьи Смирнова Н.С. “Идентификация дикторов на основе сравнения параметров реализации мелодических контуров высказываний”, где лучший из исследованных параметров – минимальная частота восходящего ядерного тона – обеспечивает надежность идентификации 82%. Предварительные результаты, описанные здесь, дают основания полагать, что данный алгоритм может быть с успехом использован в задачах идентификации диктора. Дальнейшая работа в этой области будет направлена на усовершенствование и модернизацию метода.

Литература

1. Сорокин В.Н. Моторная теория восприятия речи и теория внутренней модели // Институт проблем передачи информации РАН, М. 2007.

2. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. – М.: Радио и связь, 1981.

3. Яковлев А.Н. Основы вейвлет-преобразования: Учебное пособие. – М.: САЙНС-Пресс, 2003.

4. Новиков Л.В. Спектральный анализ сигналов в базисе вейвлетов // Научное приборостроение. 2000.
THE Algorithm of SPEECH identification BASED ON dynamic TIME WARPING and WAVELET-transformation

Novoselov S., Maximov V., Kravcov S., Grechko R.

Yaroslavl State University

Voice technologies is the extensive development field of scientific technical and commercial activity. It resulted in development and practical use of human speech analysis (in a more comprehensive sense - a voice of an alive essence though acoustic diagnostics can be used with reference to any objects). The recognition systems of the announcer concern to them on his voice (in that specific case, on his speech). There are the group of verification system and group of identification system of the announcer among such systems. The voice of the announcer (in practice, his speech signal) is unique in view of specificity of human physiology and specificity of his speech. It causes interest to him, as to biometric object. Only in some rather rare cases the specified uniqueness can not take place (for example, the twins who have been brought up in identical conditions).

The problem of the announcer identification essentially differs from a task of verification. In this case the system precisely should specify one of announcers among N announcers of the given set. Identification of the announcer - provides high reliability of recognition and can be used in devices of "a safe telephony", voice locks, for the voice control of access and in many other appendices.

In the given work one of methods of identification of the announcer and some experimental data is considered, allowing to estimate its reliability.

The algorithm of the announcer identification with a phrase of Russian speech with the help of a dynamic time warping (DTW) method of and Wavelet-transformation is offered. It is offered to apply the energy of symmetric wavelet-decomposition factors to compare signals. The informative parameters matrix of speech commands represents a set of 5-th level wavelet-factors of symmetric wavelet-transformation consistently designed for frames on which the speech signal is divided. Such matrix was named the scalogramm of energy. The algorithm of identification to work it is necessary to synthesize the base of energy scalogramms for reference signals.

The description of algorithm:

1. The scalogramm of energy for the recognition pattern is countered.

2. The countered scalogramm is compared with base reference by means of DTW algorithm.

3. Identification of the announcer occurs on the basis of a finding of the minimal deviation from reference parameters.



ИССЛЕДОВАНИЕ МЕТОДА НА ОСНОВЕ ИСПОЛЬЗОВАНИЕ СМЕШАННЫХ ГАУССОВСКИХ МОДЕЛЕЙ В ЗАДАЧЕ ОЦЕНКИ ВАРИАТИВНОСТИ ДИКТОРА

Жукова Н.А., Симончик К.К.

Санкт-Петербургский Государственный Электротехнический Университет «ЛЭТИ»

Введение

В основе вариативности лежат две причины: межиндивидуальные различия людей как источников речевых сообщений и изменчивость каждого такого источника при изменении психофизиологического состояния человека. Проблема оценки межиндивидуальной вариативности решается в задачах верификации и идентификации диктора. В данной работе рассматривается проблема внутридикторской вариативности, связанная с изменением психофизиологического состояния говорящего.

Оценка вариативности диктора используется для выявления близких фрагментов речевых сигналов в задачах синтеза речи.

Методы моделирования голоса диктора

Скрытые Марковские Модели.

Очень популярным вероятностным подходом к моделированию речи, а также голоса диктора является скрытая Марковская модель (СММ) [1].

Скрытая Марковская модель отличается от Марковской модели тем, что последовательность её состояний не может наблюдаться непосредственно и известна только последовательность наблюдений. Марковская модель – это конечный автомат, который меняет свое состояние один раз в единицу времени, и в каждый момент времени t, в который осуществлен переход в состояние j, генерируется вектор наблюдения ot c плотностью вероятности bj(ot). Переход из i-го состояния в j-е определяется вероятностью aij. Плотность вероятности pi описывает вероятность наблюдения , когда известно, что процесс находится в состоянии si. Плотности pi можно аппроксимировать взвешенными суммами плотностей: (1),

где i - номер состояния, j- номер компоненты смеси, N - количество состояний, M - количество компонент смеси.

Ниже приведены допущения, на которых основано применение СММ к акустическим наблюдениям [2]:

  1. каждому наблюдению соответствует состояние из конечного множества N состояний;

  2. вероятность нахождения модели в состоянии si в момент времени t зависит только от состояния в момент времени t-1;

  3. все наблюдения попарно независимы;

  4. плотности вероятности соответствуют многомерному распределению Гаусса.

Несмотря на то, что эти допущения в точности не соответствуют действительности, когда наблюдениями являются акустические вектора, скрытые Марковские модели являются одним из самых популярных и эффективных методов моделирования акустических временных последовательностей [3].

В задаче оценки вариативности диктора каждая запись диктора моделируется одной скрытой Марковской моделью, описывающей диктора по участкам обучающего материала, которые не являются паузами. На этапе распознавания, вычисляется правдоподобие тестового речевого фрагмента для заявленного диктора, совмещая тестовые данные с моделью диктора, пропуская при этом паузы.

Векторное квантование

Для решения проблемы оценки вариативности речи диктора сначала необходимо создать базу данных, состоящую из набора эталонов. Для этого по обучающим сигналам строятся кодовые книги. Входной сигнал разбивается на фрагменты, из которых извлекается набор векторов, содержащих параметры речевого сигнала, необходимые для определения вариативности диктора.

После того, как на основании произнесенной диктором речи, получен набор признаков, необходимо построить эталон, который уже, и будет участвовать в процессе оценки вариативности. Такая задача решается при помощи векторного квантования (VQ) – процесса отображения большого количества векторов в конечное число областей векторного пространства [4]. Каждая такая область называется кластером и может быть представлена своим центроидом, называемым кодовым вектором. Множество кодовых векторов для одной записи называется кодовой книгой, что и является эталоном. Схема процесса векторного квантования и получения эталона изображена на рис 1.



Рис. 1. Принцип векторного квантования.
Некоторые кодовые книги рассчитываются заранее и не изменяются. Они называются фиксированными кодовыми книгами. Другие кодовые книги могут обновляться в процессе работы. Одним из способов сделать кодовую книгу следящей за характеристиками входного вектора с течением времени является ее адаптация. Такие кодовые книги называются адаптивными.

Для эффективной работы метода векторного квантования в оценке вариативности речи диктора необходимо соблюдать одинаковый размер кодовой книги для каждой записи. Пороговое значение отклонения новой кодовой книги от уже существующих в базе данных подбирается экспериментально, и от этого значения зависит правильная работа метода.

Существенные недостатки метода заключаются в необходимости заранее определять количество кластеров в кодовых книгах, а также в установлении порога допустимого искажения. Главным достоинством рассмотренного метода является его простота.

Математический аппарат СГМ

В течение последних нескольких лет, смеси гауссовых моделей (СГМ) стали доминирующим подходом для моделирования в текстонезависимых приложениях распознавания диктора. Это доказано многочисленными исследования и описано в статьях, изданных на международных конференциях, таких как международная конференция по акустике речи и обработке сигналов (ICASSP), (EuroSpeech), (ICSLP), а также статьями в Трудах ESCA и Трудах IEEE.

Для наблюдаемого входного вектора плотность гауссовой смеси – есть взвешенная сумма М компонент смеси, и она задается выражением: (2), где -мерный случайный вектор, , i = 1. .., М., являются компонентами смеси, , {i = 1,...,М} являются весами смеси.

Каждая компонента плотности – это функция Гаусса -мерной случайной величины со средним вектором и ковариационной матрицой : (3),

где веса компонент смеси удовлетворяют связи .

СГМ параметризуется набором параметров определенных для каждой i-ой компоненты смеси: средними векторами , матрицами ковариации и весами .

Существует несколько методов, для того, чтобы найти оптимальные параметры СГМ. Cамым популярным из них является метод наибольшего правдоподобия (Maximum Likehood, ML) метод [5].

Схема работы исследуемой системы оценки вариативности дикторов на основе СГМ

Схема работы прототипа системы автоматической оценки межсессионной вариативности диктора с использованием алгоритма Смешанных Гауссовых Моделей показана на рис. 2.



Рис. 2. Система оценки вариативности с использованием метода GMM.
Кепстральные коэффициенты как представление спектральных характеристик наиболее часто используются как в задачах речевой обработки, так как они обеспечивают наиболее точное представление речи в тихих условиях. Кроме того, они образуют ортогональное множество, что полезно для вычисления Евклидового расстояния между векторами. В работе использовались Mel кепстральные коэффициенты Фурье (MFCC) в качестве признакового описания речи диктора.

На этапе предварительной обработки сигнала частота дискретизации устанавливалась 11025 Гц и производилось сегментирование речевого сигнала на отрезки длиной 256 отсчетов (~25 мс) c перекрытием 75%. Далее, из каждого сегмента извлекалось по 16 MFCC коэффициентов, которые подавались на вход EM-алгоритма.

Дистанция между моделями рассчитывалась с помощью эмпирической формулы Kullback-Leibler: (9), где - наблюдения для первой модели , - функция правдоподобия.

На рис. 3 показаны проекции распределений для двух компонент GMM-моделей, исходные речевые сигналы которых принадлежат одному диктору. Исходные фонограммы а) и б) имели малую вариативность между собой, а на фонограмме в) диктором был изменен голос: частота основного тона (ОТ) увеличена на 10%.



Рис. 3. Проекции распределения GMM-моделей для двух записей малой вариативности: а), б) и записи с измененным голосом в).
В таблице 1 приведены результаты сравнительного анализа записей речевого сигнала, полученных с синтезатора английской речи Infovox Desktop 2.0. Использовались записи с различным текстом длительностью ~30 сек., количество компонент смеси равно 10. В закрашенных ячейках приведены дистанции для записей с одинаковыми параметрами частоты основного тона голоса диктора. В остальных ячейках – с варьируемым параметром частоты основного тона.




Цифровая обработка сигналов и ее применение

Digital signal processing and its applications

страница 1


скачать

Другие похожие работы: