Обработка сигналов в системах телекоммуникаций Заключение

Литераура

1. Сергиенко А.Б. Цифровая обработка сигналов. Учебник для вузов. 2-е изд. – СПб.: Питер, 2007. – 751с.

2. Фатуллаев Ф.Б., Ибрагимов Б.Г. Выборы частоты дискретизации в системах распознавания речи // Труды Международной Академии информатизации по конференции телекоммуникационные и вычислительные системы. МТУСИ, Москва, 2008. – 140-141с.

3.Левинсон С.Е. Структурные методы автоматического распознавания речи // ТИИЭР, том 73, № 11, ноябрь, 1985. – с.100 - 128

4. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. - Киев: Наука. думка, 1987. – 264с

5. Ибрагимов Б.Г. Подход к реализации многофункциональных абонентских терминалов с использованием цифровой обработки сигналов // Автоматизация и современные технологий. №3, 2003, с.19-22.

ANALYSIS AND CHOICE OF SAMPLING FREQUENCY FOR PRELIMINARY PROCESSING OF SPEECH SIGNALS

Fatullaev A., Ibrahimov B.

Institute of Cybernetic of ANSA, Baku

Azerbaijan Technical University, Baku

In a present stage of development of systems of transfer and the processing of continuous signals at recognition of the speech information on the basis of perspective linguistic DSP (Digital Signal Processing) technologies get the large urgency in systems by a digital method of processing of speech signals. Thus the large interest causes of continuous speech signals on some entrance data, such as amplitude-frequency and amplitude-phase characteristics recognition of speech signals by means of transformation of an analog signal to a digital signal [1,2].

In systems of processing and recognition of speech the devices of input and transfer of continuous signals are used which realize preliminary processing of the entrance speech information with the purpose of reception more compact description of an entrance speech signal.

These systems get the important value in connection with introduction in practice low high-speed of digital channels communication, where link speed V_k ≤64 Kbit/s.

In the given work the question of a choice of effective value of frequency sampling

for a speech signal in systems of recognition of speech is considered at processing continuous speech signals with application of a method sampling of processing of narrow-band signals, i.e. method undersampling of signals.

The mathematical formulation of the offered approach for continuous speech signals can be submitted by the following criterion function [3,4]: Е_д(∆F,t_pc, L_дк) = {U(t_pc), U_d[kT_д], U_k[k∆t_kv], U[N(km)]}, k=0,1,2,… (1)

where U(t_pc) – function of amplitude of an entrance continuous speech signal t_c; U_d[kT_д] – function sampling of an entrance signal on time as discrete readout; U_k[k∆t_kv] – function of quantization entrance sampling of a signal on a level as discrete readout; U[N(km)] – function of binary calculation which is taking into account operation of coding sample of values of a transmitted signal as a sequence of binary code combinations with length L_дк; m – basis of a used code.

The expression (1) is analytical algorithm of transformation of a continuous signal, with which help the minimally effective value of possible frequency sampling F_д the converter of a speech signal U(t_рс) on frequency to criteria can be determined.

For preliminary processing of a speech signal, on the basis of the carried out system-technical analysis, the decision realized on the basis of the structurally functional circuit of the digital processor of processing of signals with use of DSP-technology and is offered consisting from following blocks: the analyzer, quantizer and coder with the filter VAD (Voice Activate Detection).

In the considered block diagram the important module is the digital processor of processing of signals. His components are discreditizer, quantizer and coder with the filter, and also VAD.

Thus, as well as in a case sampling quadrate, the frequency sampling is limited from below to double width of a spectrum of a signal. In view of it from ( k+1 )F_д - F_max > F_max,

it is possible to define the greatest possible value k [1]:

, (2)

For all whole, not exceeding this value, from a double inequality 2F_max- F_д< k∙F_д <2F_min (3)

is possible is to determined with a range of possible values of sampling frequency:

(4)

The choice of a step of quantization after a level of continuous signals approximations, providing process, of continuous signals by digital signals, that is, signals with discrete values of readout also is defined by the following inequality [5]: ∆t_kv ≤ Т_д, T_д =2

(5), where

width of the top frequency spectrum quainter of a continuous speech signal.

The results of research and analysis have shown, that received can be used for preliminary processing and input of the speech messages in system of speech recognition.

References

1. Sergienko A.B. Digital signal processing. Textbook for institute of higher education. 2- pupl. – SPb.: Piter, 2007. – 751c.

2. Fatullaev A.B., Ibrahimov B.G. The choice sampling frequency in systems speech recognition // Proceedings of International Academy Information’s on the conference telecommunication and computer system. MTUCI, Moskow, 2008. – 140-142pp.

3. Levinson S.E. Structural methods in automatic speech recognition // Proceedings of the IEEE Trans. Informat. Theory. 1984, vol.73, N.11, pp.1625-1650.

4. Vinsuk T.K. Analyses, recognition and interpretations speech signals. – Kiev : Nauka, Dumka, 1987. – 264pp.

5. Ibrahimov B.G. The approach to realisation of multifunctional user's terminals with use of digital processing signals //Automation and modern technologies. No.3, 2003, pp.19-22.

Устройство универсальной перепаковки потоков данных

Аминев Д.А., Батов А.А.

ЗАО “Московский научно-исследовательский телевизионный институт”

Введение

В системах сбора информации, системах регистрации и воспроизведения цифровых сигналов, системах спутникового приема и цифрового теле- радиовещания и т.п. возникает необходимость перепаковки потоков данных по нескольким каналам.

Известно множество решений по перепаковке потоков данных, но при обработке информации на компьютерах часто возникает задача ввода-вывода данных по нескольким каналам, причем их число может оперативно меняться, например, от одного до восьми.

Результаты исследований

Известны и широко используются такие устройства перепаковки потоков данных, как мультиплексоры и демультиплексоры, реализуемые как на специализированных интегральных схемах, так на ПЛИС.

В качестве аналогов можно привести микросхемы SN74LV164 и SN74LV165 фирмы Texas Instruments, которые позволяют выполнить перепаковку сигналов из одного потока в 8 и обратно. Фактически такая фиксированная схема перепаковки и является их недостатком.

Также имеются выделенные схемные компоненты ISERDES и OSERDES, входящие в состав ПЛИС семейства Virtex4 фирмы Xilinx и содержащие сдвиговые регистры. При этом компонент ISERDES предусматривает перепаковку данных из 1 потока в 2–8 потоков, а компонент OSERDES – перепаковку из 2–8 потоков в 1 поток. Эти схемные компоненты имеют следующие недостатки:

1) Такие компоненты принципиально требуют жесткой синхронизации входных и выходных потоков. То есть, для их работы каждый раз требуется две тактовые частоты, которые находятся в целочисленном соотношении между собой: для ISERDES выходная тактовая частота должна быть в 2–8 раз меньше входной (в зависимости от числа выходных каналов), а для OSERDES выходная тактовая частота должна быть соответственно в 2–8 раз больше входной (в зависимости от числа входных каналов).

2) Оба схемных компонента предназначены лишь для распараллеливания поступающего извне одного входного потока на несколько каналов внутри ПЛИС и для сбора нескольких потоков в один внутри ПЛИС для вывода во внешнюю цепь. В частности, они позволяют распараллеливать входной поток на четыре канала и собирать выходной поток из четырех каналов, что обеспечивает снижение требований по быстродействию для внутренней логики ПЛИС. Однако эти компоненты не обеспечивают решение задачи ввода и вывода нескольких параллельных потоков.

3) Физические ограничения по частотам ввода вывода в ПЛИС (поэтому такие компоненты целесообразно использовать для перепаковки из 4 потоков в 1 и обратно).

Рис. 1 – Структурная схема устройства – тракт ввода.

Описание устройства универсальной перепаковки потоков данных

Таким образом, учитывая недостатки существующих решений, предлагается устройство универсальной перепаковки потоков данных, состоящее из двух основных функциональных блоков – блок реализации тракта ввода и блок реализации тракта вывода потоков данных. Блок реализации тракта ввода осуществляет перепаковку данных из 1–8 входных потоков в 64-разрядный поток, используя входной тактовый сигнал синхронизации. Блок реализации тракта вывода осуществляет перепаковку данных из 64-разрядный потока в 1–8 выходных потоков и формирует выходной тактовый сигнал синхронизации.

На рис. 1 представлена структурная схема устройства – тракт ввода.

Описание входных сигналов

Data_in[n-1:0] – входные данные разрядностью n (от 1 до 8);

Start – сигнал старта (процесса приема потока данных);

Stop – сигнал остановки (процесса приема потока данных);

Clk_in – входной тактовый сигнал;

Reset – сигнал сброса, переводит все элементы схемы в начальное состояние;

Число каналов [2:0] – код числа каналов ввода (от 1 до 8).

Описание внутренних сигналов

Clk/4 – тактовый сигнал с частотой в четыре раза меньше входного

тактового сигнала Clk_in;

ClkPlis – тактовый сигнал контроллера системной шины;

Data[n*4] – данные разрядностью n*4, полученные путем распараллеливания входных данных
Data_in[n-1:0];

Адрес[4:0] – адресная шина;

Описание выходных сигналов

Сброс – преобразованный сигнал сброса Reset;

WE – сигнал разрешения записи для FIFO;

Data[63:0] – 64-разрядные данные записываемые в FIFO.

Основная задача устройства на тракте ввода – преобразовать входной n-разрядный поток данных
(n = 1, 2 … 8) в 64-разрядный и записать его в FIFO.

Делитель на 4 используется для деления частоты приходящих данных на 4 и распараллеливания каждого входного канала на 4 потока.

Демультиплексор DEMUX производит запись данных по n-разрядной шине в разрядный регистр, а мультиплексор MUX производит считывание данных из регистра.

Формирователь адреса задает адрес для мультиплексоров, в соответствии с которым будет произведена запись в требуемые разряды регистра. Формирователь WE предназначен для формирования сигнала разрешения записи данных в FIFO.

Контроллер системной шины передает данные из FIFO в компьютер.

На рис. 2 представлена структурная схема устройства – тракт вывода.

Описание входных сигналов:

Data[63:0] – 64-разрядные данные читаемые из FIFO;

Start – сигнал старта (процесса приема потока данных);

Stop – сигнал остановки (процесса приема потока данных);

Reset – сигнал сброса, переводит все элементы схемы в начальное состояние;

Число каналов [2:0] – код числа каналов вывода (от 1 до 8).

Описание внутренних сигналов

ClkSyn – тактовый сигнал задающего частотного синтезатора;

Clk/4 – тактовый сигнал с частотой в четыре раза меньше выходного

тактового сигнала Clk_out;

Data[n*4] – данные разрядностью n*4 читаемые из регистра;

Адрес[5:0] – адресная шина;

Описание выходных сигналов

Сброс – преобразованный сигнал сброса Reset;

RE – сигнал разрешения чтения из FIFO;

Clk_out – выходной тактовый сигнал;

Data[n-1:0] – выходные данные разрядностью n (от 1 до 8);

Временные диаграммы работы устройства

Заключение

Литература

Virtex-4 Libraries Guide for HDL Designs. – Xilinx, 2005.
Калабеков Б.А.. Цифровые устройства и микропроцессорные системы. М.: Горячая линия – Телеком, 2003
Low-Voltage Logic Data Book. – Texas Instruments, 1996.

UNIVERSAL DEVICE FOR REPACK DATA STREAMS



ПРИМЕНЕНИЕ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ И СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД

Веселов И.А., Новосёлов С.А., Новиков А.Е., Топников А.И.

Ярославский государственный университет имени П.Г. Демидова

Введение

Распознавание речи, одного из важнейших способов человеческой коммуникации, является значительной частью задачи усовершенствования интерфейсов между человеком и компьютером. Под распознаванием речи может пониматься преобразование речи в текст, распознавание и выполнение определенных команд, обработка и извлечение каких-либо ключевых параметров. В работе затрагивается проблема распознавания голосовых команд. Несмотря на очевидный прогресс в данной области исследований, распознавание речи продолжает оставаться сложной проблемой. Уже существуют эффективные алгоритмы распознавания голосовых команд, однако, до сих пор актуален вопрос о методе и приёмах, которые могут использоваться для решения поставленной задачи. Процедура распознавания голосовой команды состоит из двух основных этапов: этап предварительной обработки, фильтрации и выделения ключевых информативных параметров речи и этап непосредственного сравнения входящей реализации команды с множеством заранее созданных реализаций эталонов. Предлагается возможность применения аппарата вейвлет-анализа для реализации первого этапа и аппарата скрытых Марковских моделей для реализации второго.

Скрытые Марковские модели

Рассмотрим систему, которая в произвольный момент времени может находиться в одном из N различных состояний S₁, S₂, …, S_N. В дискретные моменты времени система претерпевает изменение состояния (возможно, переходя при этом опять в то же состояние) в соответствии с некоторым вероятностным правилом, связанным только с текущим состоянием. В каждом таком состоянии система в соответствии уже с другим вероятностным правилом выдает символ наблюдения, один из M возможных V₁, V₂, …, V_M. Для полного вероятностного описания такой системы необходимо задать три матрицы вероятностей:

Начальное распределение вероятностей состояний , где – вероятность того, что в начальный момент времени находится в состоянии S_i.
Распределение вероятностей переходов между состояниями (или матрица переходных вероятностей) , где – вероятность того, что из состояния S_i система перейдёт в состояние S_j.
Распределение вероятностей появления символов наблюдения , где – вероятность того, что в состоянии S_j будет выдан символ наблюдения V_k.

Такую систему называют скрытой Марковской моделью и обозначают как

. Её результатом будут две последовательности: состояний S (которая скрыта и в данном случае интересовать не будет) и наблюдений O (которая состоит из символов наблюдений V).

В теории скрытых Марковских моделей [1,2] существуют три основные задачи. В работе использованы решения двух из них.

Первая задача. Пусть заданы последовательность наблюдений

и модель

. Необходимо вычислить вероятность появления этой последовательности наблюдений для данной модели, т.е. найти

. Это обычная задача оценивания.

Вторая задача. Пусть заданы последовательность наблюдений

и модель

. Каким образом нужно подстроить параметры модели (изменить А, В и π), чтобы максимизировать

? Задача является оптимизационной, с её помощью «обучают» модель. Итеративно производя подстройку модели, можно добиться желаемого качества её соответствия последовательности наблюдений.

Обе задачи имеют аналитические решения, которые можно найти, например, в [1].

Решение второй задачи можно распространить на случай нескольких последовательностей наблюдений O₁, O₂, …, O_n. Тогда будет максимизироваться произведение вероятностей появления отдельных последовательностей

.При распознавании речи это позволяет строить одну модель для нескольких дикторов.

В работе скрытые Марковские модели использовались в качестве классификатора.

Входными параметрами для моделей являлись энергии полос вейвлет-разложения.

Речевой сигнал является примером нестационарного процесса, в котором информативным является сам факт изменения его частотно-временных характеристик. Для выполнения анализа таких процессов требуются базисные функции, обладающие способностью выявлять в анализируемом сигнале как частотные, так и его временные характеристики. Другими словами, сами функции должны обладать свойствами частотно-временной локализации.

Идея дискретного вейвлет-анализа [3] состоит в представлении сигнала последовательностью образов с разной степенью детализации (многомасштабный анализ), что позволяет выявлять локальные особенности сигнала и классифицировать их по интенсивности. Как показано на рис. 1, дискретное симметричное вейвлет-преобразование осуществляется с использованием цифровых низкочастотного и высокочастотного вейвлет-фильтров G и H и блоков децимации. В процессе разложения участвуют вейвлеты Добеши (Daubechies) – db1, db2, db3, …, где последняя цифра обозначает количество нулевых моментов.

Рис. 1. Дискретное симметричное вейвлет-разложение

Алгоритм

Имеется обучающая база тестовых речевых команд.

Для каждого сигнала из базы применяется симметричное вейвлет-разложение и считается энергия вейвлет-коэффициентов в каждой полосе. В результате получается последовательность из 2^N параметров (где N – уровень разложения). Это последовательность квантуется.
По последовательностям, полученным для нескольких образцов одной команды, строится скрытая Марковская модель, соответствующая этому сигналу. При обучении осуществляется определенное количество итераций, которое влияет на правильность распознавания. В результате получаем множество моделей (по одному для каждой речевой команды из базы).
Неизвестный сигнал, который необходимо распознать, подвергается такой же обработке, как и команды из базы в пункте 1. В результате получается «неизвестная» последовательность параметров.
Эта последовательность подается на все созданные модели. Вычисляется вероятность её появления для каждой модели (путём решения первой задачи). Делается вывод, что неизвестный сигнал совпадает с той командой из базы, для модели которой получена максимальная вероятность. На практике возникали ситуации, когда максимум однозначно определить не удаётся (например, все вероятности нулевые), в этом случае делается вывод, что неизвестный сигнал не соответствует ни одной команде.

Исследования

База состояла из цифр, произнесённых на русском языке одним диктором, по 30 образцов для каждой. Все сигналы выровнены по энергии. Построено десять Марковских моделей, каждая для 30 сигналов. Распознавались только цифры, произнесённые тем же диктором. Алгоритм был реализован в среде программирования MatLab.

Представляло интерес выявить зависимость процента правильно распознанных цифр от:

уровня вейвлет-разложения;
количества итераций при обучении модели;
гладкости вейвлета, используемого при разложении.

Результаты приведены в табл. 1 и табл. 2.
Таблица 1. Вероятность распознавания для уровней разложения 3 и 4,

вейвлетов Добеши 2,3 и 6 и количества итераций от 10 до 80

количество итераций	уровень разложения-3			уровень разложения-4
количество итераций	db2	db3	db6	db2	db3	db6
10	0,85	0,83	0,65	0,80	0,80	0,75
20	0,85	0,83	0,65	0,80	0,78	0,73
30	0,85	0,82	0,65	0,80	0,78	0,73
40	0,85	0,82	0,65	0,80	0,78	0,72
50	0,85	0,82	0,65	0,80	0,78	0,72
60	0,85	0,82	0,65	0,80	0,78	0,72
70	0,85	0,82	0,65	0,75	0,78	0,72
80	0,85	0,82	0,65	0,75	0,78	0,72

Таблица 2. Вероятность распознавания для уровней разложения 5 и 6,

вейвлетов Добеши 2, 3 и 6 и количества итераций от 10 до 80

количество итераций	уровень разложения-5			уровень разложения-6
количество итераций	db2	db3	db6	db2	db3	db6
10	0,70	0,82	0,78	0,38	0,45	0,70
20	0,70	0,85	0,87	0,52	0,50	0,70
30	0,72	0,85	0,90	0,55	0,53	0,70
40	0,72	0,85	0,90	0,55	0,53	0,70
50	0,70	0,85	0,90	0,47	0,55	0,78
60	0,73	0,85	0,90	0,47	0,60	0,77
70	0,73	0,85	0,90	0,47	0,65	0,77
80	0,73	0,85	0,90	0,47	0,65	0,77

Выводы

Предложен алгоритм распознавания речевых команд при использовании информативных параметров, основанных на вейвлет-разложении сигнала, и скрытых Марковских моделей в качестве классификатора. Установлено, что оптимальным с точки зрения вероятности правильного распознавания является пятый уровень разложения. Более низкие уровни (2, 3, 4) дают меньшую вероятность из-за того, что Марковские модели путают сигналы друг с другом, так как такой крупный масштаб не позволяет выявить отличительные особенности каждой команды. Более высокие уровни (6, 7) так же уменьшают вероятность распознавания, потому что возрастает количество ситуаций, когда система делает неправильный вывод об отсутствии входной команды в базе. Это происходит из-за того, что модель подстраивается под достаточно мелкий масштаб, в то время как реальные образцы одной команды могут отличаться друг от друга сильнее. Решение этой проблемы видится в увеличении обучающей базы команд. Оптимальным количеством итераций является 50-60. При меньшем значении система ещё не достаточно хорошо подстроилась под команду. Дальнейшее увеличение количества итераций лишь увеличивает вычислительную сложность программы, при этом мало влияя на вероятность. Наилучшим с точки зрения гладкости является вейвлет Добеши 6.

Полученные результаты для вероятности распознавания согласуются с другими алгоритмами, использующими вейвлет-параметры сигнала. Однако пока разработанный алгоритм несколько уступает кепстральным методам.

Исследования данного алгоритма предполагается продолжить. В частности, провести эксперименты для дикторонезависимого случая. Так же предлагается использовать в качестве информативных параметров команд энергии полос вейвлет-разложения сразу нескольких уровней. В перспективе планируется создание самообучающейся системы, то есть в процессе работы система сама будет изменять параметры скрытых Марковских моделей, подстраивая их под новые входные данные.

Литература

Рабинер Л.Р. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор. // ТИИЭР, 1989. Т. 77, № 2.
Benesty, Sondhi, Huang (Eds.) Springer Handbook of Speech Processing. // Springer 2008.
Daubechies I. Ten Lectures on Wavelets. SIAM, Philadelphia, PA, 1992.

THE APPLICATION OF WAVELET TRANSFORM AND HIDDEN MARKOVS MODELS IN THE SPEECH COMMANDS RECOGNITION PROBLEM

Veselov I., Novoselov S., Novikov A., Topnikov A.

Yaroslavl State University

The speech recognition one of the major ways of the human communications. It is a significant part of improvement of interfaces between the person and a computer. The speech to the text transformation, commands recognition can be understood as the speech recognition. In the given work the problem of the voice commands recognition is considered. Despite of obvious progress in the given area of researches, the speech recognition remains a complex problem. Already there are effective algorithms of voice commands recognition ,however, the question on a method and receptions which till now is actual can be used for the solving of a task in view. Procedure of recognition of a voice command consists of two basic stages: Predesign stage, filtrations and allocation of key informative parameters of speech and a stage of direct comparison of entering realization of a command with set of beforehand created realizations of standards. The opportunity of application of the device Wavelet-analysis for realization of the first stage and the device hidden Markovs models for realization of the second is offered [1].

The speech signal is an example of non-stationary process in which the fact of change of its time-and-frequency characteristics is informative. To the analysis of speech signals pertinently to apply such mathematical method as wavelet - transformation.

Algorithm

There is training base of test speech commands.

1. Symmetric wavelet-decomposition is applied to each signal from base and energy wavelet-factors in each strip is considered. In result the sequence from 2^N parameters (where

- a level of decomposition) turns out. It is a sequence квантуется.

2. On the sequences received for several samples of one command, is under construction latent Markovs model appropriate to this signal. At training the certain quantity of iterations which influences correctness of recognition is carried out. In result we receive set of models (on one for each speech command from base.

3. The unknown signal which is necessary for distinguishing, is exposed to the same processing, as well as commands from base in item 1. In result the "unknown" sequence of parameters turns out.

4. This sequence is moved to all created models. The probability of its occurrence for each model (is calculated by the solving of the first task). It is judged, that the unknown signal coincides with that command from base for which model the maximal probability is received. In practice there were situations, when a maximum is unequivocal to define not possible (for example, all probabilities zero), in this case is judged, that the unknown signal does not meet to any command.

References

Benesty, Sondhi, Huang (Eds.) Springer Handbook of Speech Processing. // Springer 2008.



СИСТЕМА ПОИСКА КЛЮЧЕВЫХ СЛОВ В НЕПРЕРЫВНОМ РЕЧЕВОМ ПОТОКЕ

Гладышев К.К.

Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича

Одной из актуальных задач в области речевых технологий, является поиск определенных слов в потоке разговорной речи. Набор таких слов, как правило, ограничен. Необходимо определить, встречаются ли данные слова в произнесенных фразах, и зафиксировать время начала и окончания их звучания.

Автором статьи разработана экспериментальная система по распознаванию ключевых слов или целых фраз в непрерывном речевом потоке (слитной речи). Система является иерархической, основана на бионической модели восприятия речи человеком [3] и состоит из нескольких взаимосвязанных модулей.

Обрабатываемые речевые сигналы подаются на вход системы в оцифрованном виде. Данная операция выполняется с помощью микрофона и звуковой карты ПК. Очевидно, что использовать представление звука во временной форме для задач распознавания речи неэффективно, т.к. оно не отражает характерных особенностей звукового сигнала. Необходимо наличие блока по выделению эффективных информативных признаков речевого сигнала. К настоящему времени известны различные варианты моделей и методов выделения акустических признаков речевых сигналов. В разработанной системе используется аппарат линейного предсказания [2]. Получаемые признаки – линейные спектральные корни (ЛСК), обладают рядом полезных свойств – они просто рассчитываются, дают компактное представление речевых сигналов, наименее чувствительны к действиям помех и смене диктора. Исходный сигнал разбивается на отрезки (окна или кадры) определенной длины. Кадры перекрываются между собой. На каждом кадре производится расчет набора ЛСК. В результате речевой сигнал представляется в виде массива точек в многомерном пространстве признаков ЛСК.

На первой стадии необходимо провести обучение системы. Диктором записывается набор эталонных речевых единиц (например, слов), поиск которых необходимо будет проводить. Для всех элементов производится расчет наборов ЛСК, данные сохраняются в базе. Система обучена и готова к распознаванию.

Для обеспечения работы системы в режиме реального времени используется накопительный буфер, который позволяет сохранять отрезки сигнала определенной длительности. За это время производится распознавание предыдущего речевого фрагмента. Таким образом, дальнейшая обработка производится на сигналах конечной длительности. Размер буфера равен средней длительности звучания эталонов из словаря. Для каждого фрагмента входного речевого сигнала производится расчет набора ЛСК.

На следующем этапе для анализируемого речевого фрагмента необходимо провести поиск ближайшего представителя по словарю. Выполняется последовательное сравнение с каждым из эталонов с помощью динамической свертки (или динамического программирования) [1]. Подсчитывается минимальное накопленное расстояние при переходе системы из состояния, соответствующего набору ЛСК одного сигнала, в состояние, соответствующее другому образцу речевого сигнала. При этом учитывается временная последовательность ЛСК. На выходе процедуры сравнения получается некоторое число (мера близости). Чем оно больше, тем более различаются эталон и входной сигнал. В качестве меры расстояния между многомерными векторами сигналов используется Евклидова метрика.

Одним из основных преимуществ динамической свертки является автоматическое масштабирование во временной области для различных по длительности образцов. В случае речевых сигналов, нет необходимости точной подгонки длительности сигналов, четкого вырезания пауз и т.д. Важно, что темп произнесения слов может быть разным, например, отдельные гласные могут тянуться человеком.

Распознанным эталоном на текущем кадре речевого сигнала будет являться тот, до которого подсчитано минимальное накопленное расстояние. Если мера близости превышает определенный порог, значит, на текущем кадре не встречается искомых ключевых слов. Величина порога определяется экспериментально и является настроечным параметром системы.

Временная последовательность анализируемых кадров соотносится с входящим РС. Благодаря этому по результатам сравнения с эталонами определяются границы искомых слов в анализируемой фразе.

На рисунке 1 представлена временная диаграмма фразы «черная тойта номер три два один в сторону Питера». На рисунках 2-3 показаны результаты поиска различных слов в данной фразе. По горизонтальной оси отложены номера кадров, на которые разбивается входящий речевой сигнал, по вертикальной оси значения меры близости до искомого эталона. Видно, что в обоих случаях для искомых слов наблюдаются минимумы. Это свидетельствует об успешности разработанной системы.