NetNado
  Найти на сайте:

Учащимся

Учителям



Алгоритм шумоочистки речевых команд методом спектрального слежения


Направления усовершенствования алгоритма. В ряде случаев пики гистограммы могут быть расположены близко друг к другу и даже "сливаться". В этих случаях достичь качественного разделения источников практически невозможно. Усовершенствование алгоритма может осуществляться в нескольких направлениях. Крайне важным является выбор представления смесей сигналов на первом этапе алгоритма. Применяемое преобразование должно обеспечивать максимально возможную разреженность представления и минимальное перекрытие составляющих, принадлежащих разным источникам. Исследования показывают, что при применении оконного преобразования Фурье оптимальная длина окна равна 1024. Перспективным и в меньшей степени исследованным направлением является использование Q-постоянного преобразования (constant-Q transform, CQT) [3]. Логарифмическая шкала частот особенно эффективна в алгоритмах, предназначенных для обработки музыки, но и ее применение в алгоритмах слепого разделения речевых сигналов также приводит к увеличению эффективности в ряде случаев [4]. Для определения оптимальных параметров Q-постоянного преобразования в рассматриваемой задаче применена методика, основанная на вычислении коэффициента Джинни (Gini index). Чем ближе значение этого коэффициента к единице, тем выше разреженность частотно-временного представления сигнала [5]. Таким образом, можно найти оптимальное значение длины и шага окна для Q-постоянного преобразования при его использовании на первом этапе алгоритма DUET (табл. 1).

Другое направление совершенствования методов недоопределенного слепого разделения источников – комбинирование различных методов и алгоритмов. Начало этому направлению было положено в 2003 году статьей японских исследователей, которые предложили совместное использование метода, применяющего битовые маски, с анализом независимых компонент [6]. Однако, предложенный исследователями алгоритм не исчерпывает всех возможных вариантов совместного использования двух методик. Выбор метода слепого разделения сигналов в значительной степени зависит от ряда факторов: числа и расположения источников сигналов, их статистических свойств, акустических параметров помещения (или иного пространства).

Таблица 1. Зависимость коэффициента Джини от длины и шага окна для частотно-временного представления смеси речевых сигналов, полученного при помощи Q-постоянного преобразования

Длина окна

Шаг окна (в % от длины окна)

3,125

6,25

12,5

25

50

75

64

0,7125

0,7125

0,7125

0,7125

0,7125

0,7126

128

0,7610

0,7610

0,7610

0,7612

0,7619

0,7624

256

0,8512

0,8512

0,8511

0,8511

0,8512

0,8497

512

0,9055

0,9056

0,9056

0,9057

0,90641

0,9042

1024

0,9268

0,9267

0,9267

0,9269

0,9268

0,9332

2048

0,9337

0,9338

0,9340

0,9336

0,9267

0,9366


Заключение. В работе рассмотрен алгоритм слепого разделения недоопределенных смесей речевых сигналов DUET, позволяющий выделить N>2 источников из стереозаписи. Исследована усовершенствованная версия алгоритма, использующая частотно-временное представление сигнала с логарифмической шкалой частот, полученное при помощи Q-постоянного преобразования. На основе моделирования установлены оптимальные значения длины и шага окна для Q-постоянного преобразования.

Литература

  1. O. Yilmaz and S. Rickard, “Blind separation of speech mixtures via time-frequency masking,” IEEE Transactions on Signal Processing, vol. 52, no. 7, pp. 1830–1846, 2004.

  2. A. Jourjine, S. Rickard, and O. Yilmaz, Blind Separation of Disjoint Orthogonal Signals: Demixing N Sources from 2 Mixtures, IEEE Conference on Acoustics, Speech, and Signal Processing (ICASSP2000), Volume 5, Pages 2985-2988, Istanbul, Turkey, June 2000.

  3. J. C. Brown, “Calculation of a constant Q spectral transform,” Journal of the Acoustical Society of America, vol. 89, no. 1, pp. 425–434, 1991.

  4. Interactive Audio Lab / Research Projects / Audio Source Separation: http://music.cs.northwestern.edu/research.php

  5. S. Rickard, M. Fallon. The Gini Index of Speech. In Proceedings of the 40th Annual Conference on Information Sciences and Systems, Princeton, NJ, March 2004.

  6. Araki S., Makino S., Blin A., Mukai R., Sawada H. Blind Separation of More Speech than Sensors with Less Distortion by Combining Sparseness and ICA. – IWAENC2003, 2003, pp. 271-274.


MODERNISATION OF UNDERDETERMINED BLIND SPEECH SEPARATION ALGORITHM
Topnikov A., Skopintsev Y., Veselov I..

Yaroslavl State University
The most modern methods of blind source separation based on the use of independent component analysis. These methods have a drawback: the number of shared sources cannot exceed the number of mixtures. As a consequence, now underdetermined blind source separation is developed. One of such algorithms is Degenerate Unmixing Estimation Technique (DUET), which can provide underdetermined blind source separation from a stereo signal. The main assumption of this algorithm is that every source has an individual values of symmetric attenuation and delay parameters, which can be calculated for every time-frequency point of representation [1, 2]. There are main steps in this algorithm:

  1. Construct time-frequency representations from mixtures;

  2. Calculate symmetric attenuation and delay parameters for each time-frequency point of representation;

  3. Construct 2D smoothed weighted histogram;

  4. Locate peaks and peak centers which determine the mixing parameter estimates;

  5. Construct time-frequency binary masks for each peak center;

  6. Apply each mask to the appropriately aligned mixtures;

  7. Convert each estimated source time-frequency representation back into the time domain [1, 2].

The main direction for improvement of DUET algorithm is the choice of signal representation, which should provide the most possible sparseness. In this article is explored the ability of constant-Q transform’s using [3]. The use of a logarithmic frequency scale also leads to algorithm efficiency increasing [4].

For optimal constant-Q transform parameter estimation is using method of Gini index computing [5]. Equality of Gini index to unity mean the most sparseness of time-frequency signal representation. As result, it was found optimal length and overlap of window for constant-Q transform, when it using at first phase of DUET algorithm.
Literature

  1. O. Yilmaz and S. Rickard, “Blind separation of speech mixtures via time-frequency masking,” IEEE Transactions on Signal Processing, vol. 52, no. 7, pp. 1830–1846, 2004.

  2. A. Jourjine, S. Rickard, and O. Yilmaz, Blind Separation of Disjoint Orthogonal Signals: Demixing N Sources from 2 Mixtures, IEEE Conference on Acoustics, Speech, and Signal Processing (ICASSP2000), Volume 5, Pages 2985-2988, Istanbul, Turkey, June 2000.

  3. J. C. Brown, “Calculation of a constant Q spectral transform,” Journal of the Acoustical Society of America, vol. 89, no. 1, pp. 425–434, 1991.

  4. Interactive Audio Lab / Research Projects / Audio Source Separation: http://music.cs.northwestern.edu/research.php

  5. S. Rickard, M. Fallon. The Gini Index of Speech. In Proceedings of the 40th Annual Conference on Information Sciences and Systems, Princeton, NJ, March 2004.



О ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ ОСОБЕННОСТЕЙ РАСПРЕДЕЛЕНИЯ ЭНЕРГИИ ПО ЧАСТОТНЫМ ДИАПАЗОНАМ В ЗАДАЧАХ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ1
Фатова М.В., Фирсова А.А.
Белгородский государственный университет, г.Белгород
В системах автоматического распознавания речи важной задачей является сегментация речи в соответствии с фонетической транскрипцией языка. В процессе распознавания необходимо сначала сегментировать речевой сигнал на характерные элементы, определить тип сегмента, а затем проводить сравнение по различным признакам. На сегодняшний момент при решении задачи сегментации речевого сигнала имеется два подхода к решению, одним из которых является - разделение на фиксированные участки с последующим распознаванием их принадлежности к определенным фонемам и определение границ между фонемами с последующим распознаванием выделенной фонемы. В современных системах распознавания речи преобладает первый подход ввиду отсутствия надежных алгоритмов сегментации границ между фонемами [1].

Существующие алгоритмы сегментации речевых сигналов можно разделить на два вида: с использованием анализа статических характеристик речи и анализа динамических характеристик. К статическим характеристикам относят частоту центра тяжести спектра, длительность глухого участка и степени изрезанности сглаженного спектра и т.д. Такой анализ не позволяет в полной мере осуществлять точную сегментацию. Особое внимание в современных системах сегментации речи уделяют анализу динамических характеристик: изменение амплитудного спектра, изменение формантных частот при переходе из одного кадра сигнала к другому [1,2].

Если в качестве структурных единиц речи рассматривать фонемы, как звуки речи, то задача сегментации сводится к обнаружению межфонемных переходов, т.е. переходов между звуками в пределах звукосочетания.

Анализ особенностей распределения энергии различных фонем русской речи показал, что энергия сигналов, соответствующих разным фонемам, сосредоточена в узком частотном диапазоне (свойство частотной концентрации энергии) и имеет различное распределение вдоль частотной оси. Это свойство может быть использовано для определения межфонемных переходов в речевых сигналах.

Частотный анализ распределения энергии отрезков сигналов предлагается проводить на основе точного метода [3]. В этом случае полный набор долей энергии отрезка сигнала определяется следующим образом:

, (1) где: – анализируемый отрезок сигнала; r =1,…,R – номер частотного интервала, R – количество частотных интервалов, на которые разбивается частотная ось;

– субполосная матрица, определяемая для каждого из R частотных интервалов с элементами вида , i,k = 1,…,N, (2)

где , – границы r-ого частотного интервала, причем:

, , r=1,…,R, (3)

N – длительность анализируемого отрезка речевого сигнала.

Величина частотной концентрации оценивается с использованием следующего выражения [4]:

, (4) где – минимальное количество частотных интервалов (частотная концентрация), в которых сосредоточена заданная доля энергии m звукового отрезка, т.е.: (5)

Здесь выполняется неравенство: (6)

где – анализируемый отрезок сигнала, m – заданное значение доли энергии сигнала,

– упорядоченные по убыванию доли энергий сигнала, попадающих в заданные частотные интервалы, т.е.: , k=1,…,R (7)

Для оценки возможности сегментации с использованием свойства частотной концентрации звуков русской речи было проведено большое количество экспериментов по оценке частотной концентрации различных фонем при различных значениях числа частотных интервалов, на которые разбивается ось частот (R=4,8,16,32,64) и значениях длины окна анализа (N=128,256). В качестве исходного материала был использован фрагмент лекции, содержащий большое количество различных фонем, записанный с частотой дискретизации fд=8кГц с 16-битовым представлением в монорежиме.

В результате проведенных экспериментов было выявлено, что длина фонем изменяется в пределах 1000-4000 отсчетов и зависит от типа звукосочетания: открытый слог, закрытый слог, ударный слог, безударный слог и т.д.. Результаты экспериментов также показали, что увеличение количества интервалов, на которые разбивается частотная ось, приводит к уточнению величины частотной концентрации отрезка сигнала.

На рисунке 1 представлены графики распределения величины частотной концентрации для звукосочетания «апп» из слова «аппроксимация», при длине окна анализа N=128 и доле энергии m=0,95, для различных значений величины частотных интервалов R.



Рис. 1 – График изменения величины частотной концентрации при различных R (сигнал, соответствующий звукосочетанию «апп», N=128)

Анализ показывает, что увеличение числа частотных интервалов от 16 до 32 приводит к значительному уточнению величины частотной концентрации, в то время, как увеличение до 64 частотных интервалов позволяет незначительно уточнить изменение величины частотной концентрации. Так как увеличение числа интервалов, на которые разбивается частотная ось, приводит к увеличению объема вычислений, то оптимальным, с точки зрения представления результатов и объема вычислений, является выбор R=32.

В таблице 1 представлены результаты оценки величины частотной концентрации для различных звуков русской речи.

Таблица 1– Распределение долей частотных интервалов, в которых сосредоточено 95% энергии при N=128, R=32 для различных звуков русской речи

Гласные

звук

а

е

ё

и

о

у

ы

э

ю

я

WNR

0,31

0,13

0,09

0,09

0,19

0,09

0,16

0,31

0,13

0,09

сонорные согласные

звук

й

л

м

н

р

WNR

0,19

0,19

0,19

0,16

0,34

звонкие согласные

звук

б

в

г

д

ж

з

WNR

0,22

0,28

0,19

0,16

0,25

0,13

глухие согласные

звук

к

п

с

т

ф

х

ц

ч

ш

щ

WNR

0,22

0,16

0,25

0,28

0,16

0,25

0,19

0,44

0,47

0,34


Из таблицы 1 видно, что величина частотной концентрации гласных звуков отличается от величины частотной концентрации согласных. Но для некоторых гласных и согласных звуков величина частотной концентрации совпадает. Особенно это проявляется для сонорных согласных.

На рисунке 2 представлен фрагмент речевого сигнала, соответствующий звукосочетанию «апп», выделенному из слова «аппроксимация». Звук разбит на 8 равных окон анализа по 128 отсчетов.



Рис. 2 – Фрагмент речевого сигнала (слог «апп» - безударный)

На рис. 3 представлен график изменения величины частотной концентрации при переходе из одного окна в другое.



Рис. 3 – Распределение долей частотных интервалов вдоль звукосочетания «апп» (N=128 и R=32)
Анализ результатов экспериментов, представленных на рисунке 3 показывает, что при выборе 95% энергии при переходе от 2 окна к 3-му, а также от 4-го к 5-му и от 6-го к 7-му, величина частотной концентрации изменяется на 2 частотных интервала, в то время как при переходе для остальных окон изменение частотной концентрации составляет 1 частотный интервал. Эта особенность может быть использована для определения перехода между звуками. На рисунке 2 видно, что окна 5 и 7 соответствуют переходу соответственно от звука «а» к звуку «п», и от звука «п» к звуку «п». Окно 3 соответствует переходу от начала звука к середине. Таким образом, увеличение разности частотной концентрации между соседними окнами может быть использовано для определения границы перехода между звуками.

В ходе исследования были проведены эксперименты для различных типов фонем. Сравнение ударных и безударных слогов показало, что если гласный стоит под ударением, то длительность слога возрастает примерно в ¼ раза. Спектры соответствующих звуков в ударном и безударном слогах отличаются незначительно. Важным аспектом также является то, что отделить гласный звук от рядом стоящего сонорного звука сложнее, так как величина частотной концентрации этих звуков отличается незначительно.

Анализ полученных результатов показывает, что использование данного метода позволяет выявить место перестройки речевого аппарата с согласной на гласную и с гласной на согласную. Таким образом, данный метод может быть использован как один из элементов сегментации речевого сигнала на отдельные звуки.

Литература

  1. Федоров, В.М. Сегментация сигналов на основе дискретного вейвлет-преобразования /В.М. Федоров, П.Ю. Юрков// Журнал «Информационное противодействие угрозам терроризма», выпуск 12/2009 – Таганрог 2009г., с.138-146.

  2. Сорокин, В.Н. Сегментация и распознавание гласных /В.Н. Сорокин, А.И. Цыплихин// Журнал «Информационные процессы», Т.4, № 2 – Москва 2004г. с.202-220.

  3. Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным на основе частотных представлений – Белгород, 2007. – 160с.

  4. Фирсова, А.А. О различиях распределения энергии звуков русской речи и шума /А.В. Болдышев, А.А. Фирсова// Материалы 12-ой Международной конференции и выставке «ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ и ЕЁ ПРИМЕНЕНИЕ - DSPA'2010» 31 марта - 02 апреля 2010 года, г.Москва, – с.204-207.


OF THE POSSIBILITY OF DISTRIBUTION OF ENERGY BANDWIDTHS IN THE SEGMENTATION PROBLEM OF SPEECH SIGNALS2

Fatova M., Firsova A.

Belgorod state university, Belgorod
In a system of automatic speech recognition is an important task of speech segmentation in accordance with the phonetic transcription of the language. In the process of recognition, you must first segment the speech signal at the characteristic elements that determine the type of segment, and then make a comparison on different grounds. In modern speech recognition systems dominated by the approach of separation of the fixed sites, followed by recognition of their belonging to particular phonemes, in the absence of reliable algorithms for segmentation of the boundaries between the phonemes [1].

Existing algorithms for segmentation of speech signals can be divided into two types: using the analysis of static characteristics of speech and analysis of dynamic characteristics. Particular attention in modern systems of segmentation of speech given to the analysis of dynamic characteristics as the analysis of static characteristics can not fully implement the accurate segmentation [1,2].

Analysis of the characteristics of the energy distribution of different phonemes of Russian speech showed that the energy of the signals corresponding to different phonemes, is concentrated in a narrow frequency range (frequency property energy density) and has a different distribution along the frequency axis. This property can be used to determine interphoneme transitions in speech signals.

During the study, experiments were performed for different types of phonemes. Comparison of stressed and unstressed syllables showed that if the vowel is under stress, the duration of a syllable increases approximately ¼ times. Spectra of the corresponding sounds in stressed and unstressed syllables differ slightly. An important aspect also is that the separate vowel sound of a nearby sonorant sound complicated, since the concentration of the frequency of these sounds differ slightly.

Analysis of the results shows that increasing the concentration of the frequency difference between adjacent windows can be used to identify the location adjustment of the speech apparatus with a consonant and a vowel with a vowel to a consonant. Thus, this method can be used as part of a segmentation of the speech signal into individual sounds.

Literature

  1. Fedorov, V.M. Segmentation of signals based on discrete wavelet transform /V.M. Fedorov, P.J. Yurkov, Journal «Information countering the threats of terrorism», issue 12/2009 - Taganrog, 2009., P.138-146.

  2. Sorokin, V.N. Segmentation and recognition of the vowels / V.N. Sorokin, A.I. Tsyplihin // Journal «Information Processes», Volume 4, № 2 - Moscow 2004. s.202-220.

  3. Zhilyakov, E.G. Variational methods for analyzing and constructing functions from empirical data based on frequency representations - Belgorod, 2007. - 160s.

  4. Firsova, A.A. On the differences of the energy distribution of Russian speech sounds and noise / A.V. Boldyshev, A.A. Firsova, Proceedings of the 12th International Conference and Exhibition «Digital Signal Processing and its Application - DSPA'2010» March 31 - April 2, 2010, Moscow - s.204-207.




1 Исследования выполнены при поддержке гранта РФФИ № 10-07-00326-а.

2 This study was supported by Grant
№ 10-07-00326-A



Цифровая обработка сигналов и ее применение

Digital signal processing and its applications

страница 1 ... страница 5страница 6страница 7страница 8


скачать

Другие похожие работы:




Тема: Линейные алгоритмы

Программа: 1 стр.


Документы

архив: 1 стр.