NetNado
  Найти на сайте:

Учащимся

Учителям



Алгоритм шумоочистки речевых команд методом спектрального слежения


References

1. E. Zwicker, R. Feldkeller, “The Ear As A Communication Receiver”, Am. Inst. Of Physics, 1999.



МЕТОД ВЫДЕЛЕНИЯ ИНФОРМАТИВНОГО РЕЧЕВОГО ФРАГМЕНТА В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ВЕРИФИКАЦИИ ДИКТОРА
Спажакин Ю.Г., Сушкова Л.Т.
Владимирский Государственный Университет
Использование автоматических систем верификации личности по характеристикам голоса вызывает в последнее время все больший интерес во всем мире [2]. Голос и речь человека несут, как известно, явную индивидуальную информацию, что может быть использовано как индикатор персонализации личности.

Работа систем верификации базируется на известных принципах распознавания образов: выделение речевого фрагмента, определение информативных признаков речевого высказывания, составление по ним модели диктора на этапе регистрации, а на этапе верификации - сопоставление (согласование) признаков предъявляемого образца с хранимой в памяти БД и определение меры их близости для последующего принятия решения [1].

Определение границ информативного участка речевого произнесения (парольной фразы) необходимо для:

- сокращения объема информации;

- удаления несловарных слов и информативного мусора (кашель, резкие вдох-выдох и т.д.) [5];

- создания модели диктора максимально описывающей его особенности.

Выделение речевого фрагмента для создания модели диктора связано с серьезными вычислительными затратами. Поэтому для решения данной проблемы необходимо создать адаптивное программное средство определения границ речевого сообщения, обладающее высокими показателями скорости, надежности и небольшими вычислительными затратами.

На практике используют спектральную фильтрацию для удаления шумовой составляющей, при которой определяется участок, содержащий только шум, а программа моделирует частотный спектр шума и обеспечивает фильтрацию сигнала. Эффективность такого метода существенно зависит от спектра шума во всей записи, степени его однородности и выбора участка для построения модели шума, не содержащего нерегулярностей, например, внезапных щелчков. Кроме того, учитывая, что спектры шума и полезного сигнала, как правило, пересекаются, то при очистке записи может произойти искажение полезного речевого сигнала. Выделение сигнала в системах с частотной фильтрацией основано на том, что пауза обладает двумя параметрами – пороговым уровнем сигнала и продолжительностью, которых системам с адаптивным порогом недостаточно для обеспечения высокой точности работы.

Более прогрессивные методики используют анализ энергетических уровней сигнала и паузы (шума). Однако и они не являются совершенными без дополнительных решающих критериев.

Предлагаемый метод выделения информативного речевого сегмента базируется на результатах анализа:

- кратковременной средней энергии сигнала En,

- частоты переходов осциллограммы речевого сигнала через ноль fz,

- кратковременной функция среднего значения разности AMDF (Average Magnitude Difference Function) [2].

Для создания моделей голосовых паролей дикторов была создана речевая база данных, содержащая 100-200 произнесений парольной фразы. Запись производилась через микрофон в акустически благоприятных условиях с частотой дискретизации 8 кГц и глубиной квантования 16 бит.

Осциллограмма речевого сигнала представлена на рисунке 1.

Кратковременная энергия представляет собой сумму квадратов отсчетов сигнала входящих, в рассматриваемый сегмент и определяется выражением: (1) [4]

где х(n) – отсчеты речевого сигнала, n – количество отсчетов в сегменте сигнала.

Результатом обработки на каждом интервале яв­ляется число или совокупность чисел, являющаяся новой, зависящей от времени последовательно­стью, которая может служить характеристикой речевого сигнала (рис. 2 а).

Детектор переходов отсчетов осциллограммы через ноль необходим для определения границ речевого сообщения, результат его работы представлен на рис. 2 б.






а)



б)

Рис. 1. Осциллограмма речевого сигнала.

Рис. 2: а) график функции кратковременной средней энергии речевого сигнала, б) частота перехода отсчетов речевого сигнала через ноль.

При условии задания адаптивного порогового значения для En использование функции кратковременной средней энергии и детектора переходов через ноль позволяет определить границы полезного речевого сигнала уже на данном этапе. Наличие в записи речевого фрагмента шумов, щелчков и информационного шума, приводит к появлению дополнительных всплесков на графиках функций кратковременной энергии и детектора переходов через ноль. В данной ситуации программа определит неправильно начало или конец фразы и, при обучении системы верификации модель диктора будет содержать излишние и искаженные данные. С целью исключения подобной ситуации предлагается использовать измеритель основного тона (ИОТ), обеспечивающего классификацию сегментов речевых сигналов на невокализованные и вокализованные, а также определение периода (частоты) основного тона.

В данной работе ИОТ основан на анализе кратковременной функции среднего значения разности AMDF (Average Magnitude Difference Function) [2]: , (2)

где R – нормирующий делитель; Х[n] – значение входного сигнала ИОТ в момент времени nTд; Tд – период дискретизации; N – число выборок в сегменте сигнала.

В общем случае Х[n] – сумма периодического и случайного компонентов, поэтому данная функция является случайной. Типичная форма ее математического ожидания для вокализованных звуков изображена на рисунке 3 (сплошная линия). Штриховыми линиями указана зона наиболее вероятных значений y(k). Период Тот основного тона определяется расстоянием между двумя минимумами функции.



Рис. 3. График функции AMDF.
Однако согласно исследованиям, проведенным в [6], функция AMDF в данном виде очень чувствительна к шумам, что приводит к сложностям выделения минимума функции, в котором определяется реальная частота основного тона. В зашумленных условиях данная функция может определить минимум в Тот/2 или 2Тот. Иначе это называется ошибками полутона и двойного тона соответственно (‘half pitch error’, ‘double pitch error’) (рис. 4 а). Кроме того, если учесть, что длительность сегмента очень мала и уже в его середине AMDF перестает передавать периодическую природу вокализованной речи, то это также может привести к ошибочному принятию решения.

Для решения данной проблемы предлагается использовать расширенную функцию среднего значения разности (EAMDF - Extended AMDF) [6]: . (3)

В отличие от оригинальной AMDF, вычисление EAMDF распространяется на три сегмента: охватывает вторую половину предыдущего сегмента, текущий сегмент и первую половину следующего сегмента. Поэтому EAMDF приобретает характерную траекторию тренда (рис. 4 б), что способствует значительному снижению вероятности ошибок полутона и двойного тона.



а)



б)

Рис. 4 : а) график функции AMDF с ошибкой двойного тона, б) график функции EAMDF.

Недостатком данной функции является ее зависимость от количества отсчетов в сегменте сигнала без учета его формы. Поэтому в данной работе предлагается использовать нормирующий делитель [2], учитывающий характер сигнала: , тогда (3) будет определено как:

. (4)

Несмотря на все достоинства EAMDF в зависимости от уровня шума и его интенсивности остается возможным появление ошибок полутона и двойного тона. Для уменьшения данную вероятности появления ошибок в [6] предлагается произвести дополнительную обработку функции средней разности в соответствии со структурной схемой реализации метода выделения информативного речевого фрагмента, приведенной на рисунке 5.



Рис. 5. Структурная схема реализации метода выделения информативного речевого фрагмента.
В процессе тестирования предложенный метод демонстрировал высокий показатель стабильности и надежности. Использование расширенной кратковременной функции средней разности способствовало повышению вероятности выделения характеристики «тон» даже в участках, где очень велико влияние артикуляции и наложения соседних звуков, тем самым, позволив с большой достоверностью определить присутствие речи в выделенных сегментах сигнала. В 90 % речевых фрагментов результаты, полученные по данному методу, не отличались от результатов органолептической оценки границ сигналов. Для реализации метода требуются небольшие вычислительные затраты, поскольку в основе лежат простые математические закономерности и операции. Данный метод позволяет значительно облегчить работу оператора при создании модели диктора и значительно автоматизирует данный процесс. Исследования, проведенные в [6, 7] показали, что модифицированные AMDF в благоприятных акустических условиях определяют частоту основного тона с точностью 98-99% в участках вокализованной речи, что позволяет широко применять их в статистических алгоритмах верификации.
Литература

1. Цифровая обработка сигналов,-научно технический журнал №4 (10)/2003 \С.Ю Иконин Д.В. Сарана Система автоматического распознания речи Spirit ASR Engine

2. Левин, Е.К., Эффективное кодирование и распознавание речевых сигналов: Метод. указания к лабораторным работам / Владим.гос.ун-т: Е.К. Левин. Владимир, 2002. 51 с.

3. Рабинер Л.Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ./Под ред. М. В. Назарова и Ю. Н. Прохорова. — М.: Радио и связь, 1981. — 496 с, ил.

4. Сергиенко А. Б., Цифровая обработка сигналов; учебник для вузов.2-е издание-СПб.: Питер, 2007 г.-751 с.

5. Broun, C.C.; Campbell, W.M. Robust out-of-vocabulary rejection for low-complexity speakerindependent speech recognition. Acoustics, Speech, and Signal Processing, 2000. ICASSP apos;00. Proceedings. 2000 IEEE International Conference on Volume 3, Issue , 2000 Page(s): 1811-1814 vol.3

6. Ghulam Muhammad, Extended average magnitude difference function based pitch detection. The International Arab Journal of Information Technology, Vol. 8, No. 2, April 2011

7. Young-Hwan Song, Doo-Heon Kyun, Jong-Kuk Kim, and Myung-Jin Bae, On SNR Estimation by the Likelhood of near Pitch for Speech Detection, World Academy of Science, Engineering and Technology 32 2007
METHOD OF INFORMATIVE SPEECH SIGNAL EXTRACTION IN TASKS OF AUTOMATICAL SPEAKER VERIFICATION

Spazhakin Yu., Sushkova L.

Vladimir State University
Abstract. Use of automatic systems of an identification of the person under characteristics of a voice causes recently the increasing interest all over the world. The voice and speech of the person carry, as is known, the obvious individual information. One of the main stage of the verification system studying is a separation of informative speech signal or removing the pauses and noise. The Offered method allows to obtain high reliability under low computing expenses. The Given method uses analysis of short term energy function, zero cross detector and Extended Average Magnitude Difference Function for speech detection.



УСОВЕРШЕНСТВОВАНИЕ АЛГОРИТМА СЛЕПОГО РАЗДЕЛЕНИЯ НЕДООПРЕДЕЛЕННЫХ СМЕСЕЙ РЕЧЕВЫХ СИГНАЛОВ
Топников А.И., Скопинцев Я.М., Веселов И.А.
Ярославский государственный университет им. П.Г. Демидова
Введение. Большинство современных методов слепого разделения источников (Blind Source Separation, BSS) основаны на применении анализа независимых компонент (Independent Component Analysis, ICA). Эти методы наряду с высокой эффективностью имеют и существенный недостаток: число разделяемых источников не может превышать число смесей. В частности, для задач слепого разделения звуковых источников (Blind Audio Source Separation, BASS) это ограничение приводит к необходимости применения микрофонных решеток, что невозможно или нежелательно при решении ряда актуальных задач. Как следствие, в последнее десятилетие активно развивается направление недоопределенного слепого разделения источников. Одной из задач в рамках этого направления является выделение N>2 источников по стереозаписи. Данная работа посвящена рассмотрению алгоритма DUET (Degenerate Unmixing Estimation Technique), позволяющего решить вышеозначенную задачу, а также поиску и исследованию возможных направлений его усовершенствования.

Если в случае определенного слепого разделения источников решение задачи сводится к нахождению обратной матрицы, то в недоопределенном случае обратная матрица не существует и процесс разделения смесей (демикширования) осуществляется иными способами. В настоящее время большинство алгоритмов, в том числе и алгоритм DUET, для разделения сигналов в спектральной области используют битовую маску. Подобный подход эффективен только в том случае, когда спектральные составляющие отдельных источников ортогональны, то есть не пересекаются (W-disjoint orthogonality) [1]. Ряд исследований свидетельствует, что это предположение для речевых сигналов выполняется в случае, когда число источников невелико. В этом случае для каждой точки частотно-временного представления процесс смешивания может быть записан в следующем виде [1, 2]:

Здесь и – смеси сигналов источников, – j-й сигнал источника, – относительный коэффициент ослабления для j-го сигнала, – относительная величина задержки для j-го сигнала.

Алгоритм DUET строится на предположении, что каждый источник обладает индивидуальными значениями параметров ослабления и задержки и состоит из следующих этапов [2]:

  1. Поканальное разложение стереосигнала с помощью оконного преобразования Фурье (Short Time Fourier Transform, STFT).

  2. Локальное вычисление симметричного ослабления



  1. Вычисление параметра задержки

  2. Построение двумерной гистограммы (рис. 1-2).

  3. Определение числа пиков гистограммы и координат их центров. Каждый пик гистограммы соответствует определенному источнику.

  4. Построение битовых масок для спектрограмм каждого выделяемого источника.

  5. Выделение источников в спектральной области и преобразование их во временную.








Рис. 1. Пример двумерной гистограммы для случая трех источников

Рис. 2. Пример двумерной гистограммы для случая четырех источников и наличия эха

страница 1 ... страница 4страница 5страница 6страница 7страница 8


скачать

Другие похожие работы:




Тема: Линейные алгоритмы

Программа: 1 стр.


Документы

архив: 1 стр.