NetNado
  Найти на сайте:

Учащимся

Учителям



Обработка сигналов в системах телекоммуникаций Заключение


Обработка сигналов в системах телекоммуникаций


Заключение.

Предложен способ измерения основного тона, основанный на обработке логарифмического спектра и обеспечивающий устойчивость к частотным искажениям, шумам и микровариациям речевого сигнала. Используемая в предложенном способе обработка в спектральной области включает высокочастотную фильтрацию логарифмического спектра, нелинейное преобразование, сохраняющее в отфильтрованной спектральной огибающей положительные пики, соответствующие гармоникам речевого сигнала, и потенцирование обработанного спектра. В результате таких преобразований происходит выравнивание амплитуд гармоник и выделение фрагментов спектра, соответствующих гармоникам сигнала, где отношение сигнал/шум максимально, что снижает чувствительность к шумам. Выделенные и выровненные по амплитуде гармоники взвешиваются с наклоном –12 дБ/окт, характерным для затухания спектра голосового источника. Этим снижается влияние на измерение основного тона микровариаций голосового источника, проявляющихся в виде нулей в высокочастотной области спектра, подчёркиваемых фильтрацией логарифмического спектра. По обработанному спектру речевого сигнала находится связанная с ним автокорреляционная функция, не искажённая свёрткой с импульсной характеристикой речевого тракта, с хорошо выраженным пиком на периоде сигнала. Оценка основного тона получается в результате измерения координаты главного пика полученной автокорреляционной функции и оцениванием периода речевого сигнала с помощью определения координаты её главного пика.

Литература


  1. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М., Радио и связь, 1981.

  2. Boersma P. Accurate short–term analysis of fundamental frequency and the harmonic–to–noise ratio of a sampled sound. IFA Proceedings 17, 1993, pp.97-110.

  3. Noll A.M. Cepstrum pitch determination. J. Acoust. Soc. Amer., 1967, v.41, pp.293-309.

  4. Колоколов А.С. Обработка спектра речевого сигнала. 8-я Международная конференция и выставка «Цифровая обработка сигналов и её применение» (DSPA), 2006, с.164-166.

  5. Колоколов А.С., Любинский И.А., Яхно В.П. Повышение отношения сигнал/шум для периодического сигнала с помощью фильтрации амплитудного спектра. 6-я Международная конференция и выставка «Цифровая обработка сигналов и её применение» (DSPA). Москва, 2004. c.228-229.

  6. Фант Г. Акустическая теория речеобразования. М.: Наука. 1964.

  7. Plomp R. Pitch of complex tones. J. Acoust. Soc. Am. 1967. V.41. №, 1526-1533.



A method of fundamental tone measurement for speech signal


Kolokolov A.

Institute of Control Sciences of Russian Academy of Sciences. [email protected].

A method of fundamental tone measurement is proposed. It is based on logarithmic spectrum processing that is providing measurement stability in the presence of frequency distortions, background noise and microvariations of a speech signal. The spectrum processing includes a high-frequency filtration of a logarithmic spectrum, the nonlinear transformation selecting filtered spectral regions around positive peaks, corresponding harmonics of a speech signal, and exponentiation of the processed spectrum. As a result of such transformations there is an equalization of amplitudes of harmonics and selection of fragments of the spectrum corresponding harmonics of a signal where the attitude a signal/noise as much as possible, that reduces sensitivity to noise. The harmonics selected and leveled on amplitude are weighed with an inclination –12 dB/oct, that is in accord with spectrum attenuation of a voice source. The weighting decreases undesirable drastic spectrum changes due to voice source microvariations, which are shown in the form of zero in high-frequency area of a spectrum and emphasized by a filtration of a logarithmic spectrum. Finally, the processed spectrum of speech signal is used to determine the related autocorrelation function which is not distorted by convolution with the pulse characteristic of the vocal tract and has a well-pronounced peak on the signal period. The estimation of the fundamental tone is concluded with the main peak detection and measurement of its coordinate which represents the speech signal period.


два алгоритма без потерь для выделения особенностей в аудиосигнале

Жарких А.А., Павлов И.А.

Мурманский государственный технический университет

Введение

Цель данной работы – рассмотрение двух алгоритмов для выделения особенностей в аудиосигнале, основанных на арифметике остаточных классов [1]. Под действием каждого из двух линейных операторов аудиосигнал преобразуется соответственно в один из аудиосигналов того же формата, содержащий локализованные особенности. Каждый из двух полученных сигналов содержит всю информацию об исходном сигнале и может быть в него преобразован однозначно соответствующим линейным оператором в -1-й степени. Алгоритмы аналогичные предложенным в данной работе, были частично апробированы в [2]. Они использовались для выделения контуров на изображении.

С математической точки зрения аудиосигнал представляет собой вектор с элементами из конечного алфавита. Без ограничения общности можно считать, что аудиосигнал это вектор (1)

Элемент вектора принадлежит кольцу классов вычетов . Для записи аудиосигнала используются значения P равные 8 и 16. Предположим далее, что показатель степени , то есть не является простым числом. Тогда каждый элемент может быть представлен в - ичной системе счисления: (2), (3)

Такое представление позволяет рассматривать аудиосигнал как объединение слоев и соответственно по слоям проводить выделение особенностей. При таком подходе каждый элемент выборки разбивается на T подэлементов, каждый из которых отвечает своему слою аудиосигнала. Два предельных случая соответствуют слоям и - ичной арифметике или 1 слою и - ичной арифметике.

1. Два алгоритма для выделения особенностей в аудиосигнале

Введем два оператора, отвечающих за выделение особенностей в аудиосигнале. Для этих двух операторов выбирается множество элементов выборки, которые не меняются оператором и связанное с этим множеством направление преобразования. Из следующих формул понятно, что инвариантные множества – это несколько первых или несколько последних элементов выборки. В следующих формулах соответственно исходный аудиосигнал, сигнал локализующий особенности, оператор формирующий сигнал с локализацией особенностей из исходного аудиосигнала.

Оператор , (4)

Оператор , (5)

Параметры в записи операторов и выходных значений слоев аудиосигнала обозначают следующее - число бит в слое речевого сигнала, - движение слева, - движение справа, r – масштаб анализа аудиосигнала (любое целое число от 1 до M - 2), - параметр усиления (любое нечетное число от 0 до ). В зависимости от масштаба анализа, вычитаются отсчетные значения, разнесенные во времени на несколько интервалов дискретизации. Если масштаб равен 1, то вычитаются соседние значения, если масштаб равен r, то вычитаются значения, разнесенные на r временных интервалов. Таким образом, при данном значении масштаба, вычитаются значения отсчетов с пропуском (r - 1) отсчета. Термин слева означает, что вычитаются значения предыдущих отсчетов из значений последующих отсчетов. Термин справа означает, что вычитаются значения последующих отсчетов из значений предыдущих отсчетов. Кроме того, при движении вычислительной процедуры слева r начальных отсчетов остаются неизменными. А при движении вычислительной процедуры справа – неизменными остаются r последних отсчетов. Так условно можно представить перемещение вычислительной процедуры по слою аудиосигнала при действии соответствующего оператора. Представленные операторы попарно некоммутируют. Они однозначно определены для заданного речевого сигнала и допускают возведение в любую целую степень и перемножение в любом количестве и любом порядке.

2. Результаты применения алгоритмов

Для анализа особенностей был использован речевой сигнал с произнесением слова «восемнадцать». Число уровней квантования – 16, частота дискретизации 22050 Гц. Осуществлялась полосовая фильтрация этого речевого сигнала с полосой пропускания от 100 до 200 Гц. Затем к профильтрованному речевому сигналу были применены указанные алгоритмы с некоторыми параметрами. Отметим лишь несколько характерных результатов применения алгоритмов, соответствующих случаю, когда речевой сигнал представлен одним слоем. На всех графиках единица измерения оси абсцисс – номер отсчета сигнала, оси ординат – значение отсчета сигнала.

На рис. 1 показан исходный и фильтрованный речевые сигналы.

На рис. 2 показаны результаты применения левого преобразования и правого преобразования. Как видно они приводят к выделению участков монотонности. Для левого преобразования вертикальная черная линия и находящаяся под ней соответствующая вертикальная белая линия указывают на участок возрастания; вертикальная белая линия и находящаяся под ней соответствующая вертикальная черная линия указывают на участок убывания. Толщина линии показывает длину участка монотонности. Для правого преобразования структура линий та же самая, но их цвета изменяются на противоположные.

На рис. 3 на фоне аналогичных выделений участков монотонности проявляются сплошные черные участки ограниченные некоторой огибающей и ее зеркальным отражением. Форма огибающей на двух графиках с высокой степенью точности отражает форму изменения огибающей речевого сигнала.



Рис. 1. Исходный и фильтрованный речевые сигналы



Рис.2. Первый график - результат применения левого преобразования. Второй график - результат применения правого преобразования (r = 1, = 32767).



Рис.3. Первый график - результат применения левого преобразования. Второй график - результат применения правого преобразования (r = 1, = 32737).

Заключение

Задачи выделения особенностей в аудиосигнале публиковались в работах многих авторов. Отметим лишь широко известные публикации, касающиеся речевого сигнала. В работах [3, 4] рассматривается задача обнаружения речевого сигнала и его локализация на фоне шума. В работах [5, 6] в речевом сигнале выделяются значения глобальных экстремумов на участках постоянного знака. Предложенные нами алгоритмы позволяют выделять различные особенности в аудиосигнале. В частности, приведенные примеры показывают выделение участков монотонности и формы огибающей речевого сигнала. Мы надеемся, что данные алгоритмы будут дополнять имеющийся арсенал алгоритмов анализа и синтеза аудиосигналов. В дополнение к изложенному, можно отметить, что современная компьютерная техника позволяет реализовать удобную визуализацию выделения особенностей в аудиосигнале. Это предоставит возможность использовать для анализа, как человека-оператора, так и различные сканирующие устройства.

Алгоритмы имеют линейную сложность по числу отсчетов в аудиосигнале. Для автоматического использования алгоритмов требуется более тщательное их изучение с математической точки зрения и более многочисленная апробация на записях аудиосигналов.

Литература

1. Виноградов И.М. Основы теории чисел. – СПб.: Лань, 2004. – 176 с.

2. Zharkikh A.А. Two Stage Algorithm of Contour Allocation in the Image // Pattern Recognition and Image analysis: New Information Technologies: Conference Proceedings, Vol. 3. – Yoshkar – Ola, the Russian Federation, 2007, pp. 47 – 50.

3. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: пер. с англ. / Под ред. М. В. Назарова, Ю. Н. Прохорова.- М.: Радио и связь, 1981. – 496 с.

4. Rabiner, L.R. and Sambur, M.R., "An Algorithm for Determining the Endpoints of Isolated Utterances". The Bell System Technical Journal, Vol. 54, No. 2, February 1975, pp. 297-315.

5. Лейтес Р.Д., Соболев В.Н. Цифровое моделирование систем синтетической телефонии. - М.: Связь, 1969. – 120 с.

6. Соболев В.Н. Простые алгоритмы экономного кодирования и декодирования речевой волны// Материалы 14 Межрегиональной научно – технической конференции «Обработка сигналов в системах наземной связи и оповещения», Москва - Нижний Новгород. – М.:2006, с. 172-174.


two lossless algorithms of features Allocation in the audio signal

Zharkikh A., Pavlov I.

Murmansk State Technical University

The purpose of this work is examination of two algorithms of features allocation in the audio signal based on residue arithmetic [1]. Under the action of either of the two linear operators audio signal is transformed accordingly into one of audio signals (with the same format) contained localized features. Either of the two signals obtained contains all the information about source signal and can be transformed into source signal unambiguously with the help of appropriate linear operator raised to -1 power.

The algorithms of a similar nature were partially approved in the paper [2]. They were used for allocating of contour in the image.

The algorithms stipulate usage of residue arithmetic modulo. The subtraction modulo operation from the left or from the right is applied, where Q is number of quantization levels of audio signal. In the one of algorithms calculating procedure by convention moves from the left and in another it moves from the right. The scale of analysis and coefficient of amplification are used as parameters of statements. Values of samples located from each other at a distance of some sampling intervals are subtracted against the scale of analysis. If the scale equals one than neighboring values are subtracted. If the scale equals k than values of samples located from each other at a distance of r sampling intervals are subtracted. Thus, using this value of scale, values of samples are subtracted with omitting of (r - 1) samples. The term “left” means that values of previous samples are subtracted from values of following samples. The term “right” means that values of following samples are subtracted from values of previous samples. Besides, moving of calculating procedure from the left, r first samples remain invariable. While moving of calculating procedure from the right, r last samples remain invariable.

Previously speech signal filtered off with pronouncing of word “eighteen” was used for features analysis. It was marked only some distinctive results using algorithm. The results of applying “left” transformation are illustrated in Fig. 2. These results display allocating of monotony sections. In Fig. 3 the complete black sections confined of some envelope and its mirror reflection are become apparent against a background of analogous allocating of monotony sections. The form of envelope in both pictures shows the shape of changing of speech signal envelope with fine-resolution.

The algorithms proposed in this work permit to allocate different features in audio signal. In particular, examples given show allocating of monotony sections and speech signal envelope shape. We hope that these algorithms will expand the arsenal of existent algorithms for analysis and synthesis of audio signals. In addition, it is significant to pay attention to the fact that the modern computer technologies allows to realize handy visualization of features allocation in audio signal. It allows to use for analysis both human-operator and different scanners.

The algorithms have linear complexity depended on quantity of samples in audio signal. For the automatic usage of algorithms it is required more careful their studying from the mathematical point of view and more number of experiments on records of audio signals.

References

1. Виноградов И.М. Основы теории чисел. – СПб.: Лань, 2004. – 176 с.

2. Zharkikh A.А. Two Stage Algorithm of Contour Allocation in the Image // Pattern Recognition and Image analysis: New Information Technologies: Conference Proceedings, Vol. 3. – Yoshkar – Ola, the Russian Federation, 2007, pp. 47 – 50.



ПОСТРОЕНИЕ МНОГОКАНАЛЬНОГО ЭХОКОМПЕНСАТОРА НА ОСНОВЕ АДАПТИВНОГО АЛГОРИТМА С ПОНИЖЕННОЙ ВЫЧИСЛИТЕЛЬНОЙ СЛОЖНОСТЬЮ

Тараканов А.Н.

Ярославский государственный университет им. П.Г. Демидова
150000, Россия, Ярославль, ул. Советская, 14. Тел. (4852) 79-77-75. [email protected]

По историческим и экономическим причинам подключение абонентских линий к телефонной станции производится с помощью дифференциальной системы. Такое решение имеет недостаток, заключающийся в том, что дифференциальная система становится причиной возникновения эхосигналов, мешающих нормальному разговору абонентов [1, 2]. Когда задержки сигналов в каналах передачи малы – абоненты не замечают эхо, однако для каналов с большим временем распространения сигналов оно становится серьезной проблемой.

Современным способом борьбы с паразитными эхосигналами является применение эхокомпенсаторов, которые устанавливаются в четырехпроводной части цепи и производят вычитание сформированной оценки эха из просочившегося эхосигнала [3, 4]. Вычисление оценки эхосигнала производится с помощью адаптивного фильтра (АФ) [5, 6]. Характеристики АФ в значительной степени определяются типом используемого адаптивного алгоритма. Существует большое количество разнообразных адаптивных алгоритмов [7], однако их использование при построении эхокомпенсаторов не всегда оправдано, т.к. изначально они создавались без учета особенностей данной задачи [8, 9].

Первой особенностью задачи эхокомпенсации является необходимость высокой скорости сходимости адаптивного алгоритма на начальном этапе определения весовых коэффициентов адаптивного фильтра, что обеспечивает значительное подавление эхосигнала с первых же секунд работы эхокомпенсатора. В дальнейшем скорость сходимости желательно снизить, т.к. при возникновении ситуации встречного (одновременного) разговора, когда одновременно говорят оба абонента, могут возникнуть существенные искажения значений весовых коэффициентов адаптивного фильтра, что приведет к неправильной оценке эхосигнала [8].

Вторая особенность заключается в предпочтительном использовании многоканальной обработки и определяется использованием времяуплотненных ИКМ сигналов при передаче и коммутации речевых сигналов в телефонных сетях. В таком случае использование многоканальной обработки в модуле эхокомпенсации позволит упростить сопряжение его с другими блоками коммутационной станции или IP-шлюза [2].

Третья особенность тесно связана со второй и заключается в уменьшении вычислительной сложности адаптивного алгоритма. В случае многоканальной обработки уменьшение вычислительной сложности, достигнутое при обработке каждого канала, приводит к снижению вычислительной сложности всей системы эхокомпенсации пропорционально числу обрабатываемых каналов. Это, в свою очередь, позволяет либо увеличивать число или длину обрабатываемых эхотрактов, либо использовать менее мощные в вычислительном плане и более дешевые микропроцессоры.

Рассматривая существующие адаптивные алгоритмы с точки зрения учета ими указанных особенностей можно отметить следующие недостатки. Разнообразные алгоритмы, основанные на методе наименьших квадратов (МНК), в частности, нормализованный метод наименьших квадратов (НМНК), обеспечивают относительно невысокую скорость адаптации, которая уменьшается при увеличении числа весовых коэффициентов адаптивного фильтра [9].

Семейство алгоритмов на основе рекурсивного метода наименьших квадратов (РНК) обладает более высокой скоростью сходимости, чем разновидности МНК, что позволяет обрабатывать эхотракты большой длительности, но высокая вычислительная сложность и чувствительность к ситуации встречного разговора ограничивает их применение [7].

Широко известные алгоритмы с низкой вычислительной сложностью могут обеспечить обработку только очень коротких эхотрактов, т.к. в них уменьшение вычислительной сложности происходит за счет снижения скорости сходимости [6, 7].

Таким образом, несмотря на большое число известных адаптивных алгоритмов, актуальной остается задача построения новых специализированных адаптивных алгоритмов эхокомпенсации с уменьшенной вычислительной сложностью и возможностью одновременной обработки нескольких эхотрактов.

Чтобы понизить требования алгоритмов НМНК и РНК к вычислительным ресурсам, но при этом сохранить необходимые характеристики (скорость сходимости, уровень подавления эхосигнала), предлагается исключить из обработки те весовые коэффициенты адаптивного фильтра, которые соответствуют нулевым отсчетам импульсной характеристики (ИХ) эхотракта и не влияют на суммарное значение сигнала, и тем самым уменьшить вычислительную нагрузку.

Для построения процедуры понижения вычислительной нагрузки адаптивных алгоритмов выполняются следующие действия: весь набор коэффициентов адаптивного фильтра делится на блоки, размер которых кратен 2, т.к. число коэффициентов фильтра, как правило, выбирается кратным 2. На каждой итерации производится оценка, на основании которой отключаются определенные блоки весовых коэффициентов адаптивного фильтра.

Обычно лишь небольшое количество отсчетов ИХ эхотракта имеют относительно большую амплитуду, и, следовательно, только их значения будут влиять на оценку эхосигнала, в остальных блоках коэффициенты ИХ близки к нулю и их влияние можно не учитывать. Для этого в процессе работы адаптивного алгоритма сравнивается значение суммы модулей весовых коэффициентов каждого блока с максимальной из сумм блоков, умноженной на некоторый пороговый коэффициент, что может быть записано в виде следующего неравенства:
, (1), где j – номер блока, l – число весовых коэффициентов в блоке, m – общее число блоков, p – порог отключения блоков, который задается на этапе инициализации алгоритма, – значения весовых коэффициентов адаптивного фильтра.

Введем следующие обозначения: ,

.

С учетом введенных обозначений (1) перепишется в виде . (2)

Неравенство (2) описывает условие, при выполнении которого происходит отключение -го блока весовых коэффициентов.

Применим полученную процедуру понижения вычислительной сложности к алгоритму НМНК. Схему работы нового алгоритма можно определить следующим образом. До момента включения оценки значений блоков весовых коэффициентов адаптивного фильтра функционирование алгоритма определяется выражениями для обычного НМНК [5]. На каждой итерации оценивается уровень остаточного эха на выходе эхокомпенсатора. При достижении заданного порога уровня остаточного эха (значение порога задается на этапе инициализации алгоритма) начинает работать оценка значений блоков, определяемая выражением (2). Согласно этой оценке формируется массив, содержащий информацию об отключаемых блоках в виде

Рассмотрим работу многоканального эхокомпенсатора, изображенного на рис. 1, построенного с применением данного алгоритма. Из рисунка видно, что один эхокомпенсатор обслуживает все каналы. Подобная реализация позволяет максимально эффективно использовать вычислительные ресурсы сигнального процессора, входящего в состав эхокомпенсатора, во время потоковых вычислений, так как все каналы обрабатываются одним адаптивным алгоритмом, а дополнительная память требуется только для хранения весовых коэффициентов адаптивного фильтра и отсчетов входного сигнала.



Рис. 1. Схема многоканального эхокомпенсатора
Сравним результаты работы нового адаптивного алгоритма в составе одно-, трех- и пятиканального эхокомпенсаторов. Предполагается, что эхотракты имеют длительность ИХ . Параметры адаптивного алгоритма следующие:, порог ERLE=10дБ. Уровни входных сигналов для каналов:, , , ,. Величина подавления эхосигнала, равная 50 дБ, достигалась алгоритмом за 200 мс. Максимальное подавление составило 85 дБ.

Если предполагается, что все эхотракты, которые может дополнительно обработать эхокомпенсатор, имеют одинаковую длительность ИХ, то применение одноканального устройства будет неоправданно, так как освободившиеся ресурсы нельзя использовать для обработки дополнительных каналов. В случае трех каналов освободившиеся ресурсы позволяют дополнительно подключить два канала с длительностью импульсной характеристики 256 отсчетов. В пятиканальном варианте освобождаются ресурсы еще для четырех каналов. Следовательно, преимущество от применения новых алгоритмов будет ощутимо при реализации их в составе эхокомпенсатора, обрабатывающего три и более каналов.

На рис. 2 показана зависимость суммарного времени, необходимого для подстройки весовых коэффициентов при обработке одной секунды речевого сигнала от количества каналов для алгоритма НМНК и построенного на его основе нового алгоритма. Зависимости получены при исследовании работы эхокомпенсатора в системе Matlab с использованием функции профайлинга. При указанных параметрах применение нового адаптивного алгоритма позволило снизить вычислительную нагрузку на 30% по сравнению с эхокомпенсатором на основе НМНК.



Рис. 2. Зависимость суммарного времени подстройки весовых коэффициентов адаптивного фильтра от количества каналов для НМНК и нового алгоритма

Таким образом, построение многоканального эхокомпенсатора с использованием адаптивного алгоритма с пониженной вычислительной сложностью позволяет получить следующие преимущества:

  • использование многоканальной обработки в модуле эхокомпенсации упрощает сопряжение его с другими блоками коммутационной станции или IP-шлюза;

  • уменьшение вычислительной сложности, достигнутое при обработке каждого канала, в случае многоканальной обработки приводит к снижению вычислительной сложности всей системы эхокомпенсации пропорционально числу обрабатываемых каналов, что, в свою очередь, позволяет либо увеличивать число или длину обрабатываемых эхотрактов, либо использовать менее мощные в вычислительном плане и более дешевые микропроцессоры.

страница 1страница 2страница 3


скачать

Другие похожие работы: