Алгоритм шумоочистки речевых команд методом спектрального слежения
Литература
Gerald Enzner, Peter Vary. Frequency domain adaptive Kalman filter for acoustic echo control in hands-free telephones. Signal Processing 86 (2006)
Malik, S. and Enzner, G.: “Model-based vs. Traditional Frequency-Domain Adaptive Filtering in the Presence of Continuous Double-Talk and Acoustic Echo Path Variability”, Proc. of Intl. Workshop on Acoustic Echo and Noise Control (IWAENC), Seattle (Washington), 09/2008
Y. Ephraim and D. Malah, ”Speech enhancement using minimum mean square error log-spectral amplitude estimator”, IEEE Trans. vol.ASSP-33, no.2, pp.443-445, April 1985
I. Cohen and B. Berdugo, ”Speech enhancement for non-stationary noise environments”, Signal Processing, vol.81, no.11, pp.2403-2418, 11/2001
ITU-T G.164, Echo Suppressors, 08/1990
ITU-T G.165, Echo Cancellers, 03/1993
ITU-T G.168, Digital Network Echo Cancellers, 04/2000
Lu Lu, Implementation of Acoustic Echo Cancellation for PC Applications using MATLAB, Stoskholm, 05/2007
Nilesh Mahdu, Ivan Tashev, Alex Acero, An EM-based probabilistic approach for acoustic echo suppression, ICASSP, 2008
Jerome Berclaz, Acoustic Echo Cancellation for human-robot communications, EPFL, 03/2004
Simon Haykin, Adaptive Filters Theory, Prentice Hall, Third Edition
ACOUSTIC ECHO CANCELLATION FOR PC-BASED VOICE-OVER-IP CONFERENCING
Sarana D.
FGUP “GRFC”, Moscow
A novel method to acoustic echo cancellation for PC-based Voice-over-IP conferencing is proposed.
Traditional AEC algorithms based on NLMS + DTD are incapable to operate correctly in the presence of instant additive noise and audio input/output missynchronization.
Proposed method based on Kalman filtering in the spectral domain. It operates independently in each frequency bin and uses near-end noise statistics that allows to exclude the DTD module from the algorithm.
Both echo suppression and echo cancellation implementations are described.
Literature
Gerald Enzner, Peter Vary. Frequency domain adaptive Kalman filter for acoustic echo control in hands-free telephones. Signal Processing 86 (2006)
Malik, S. and Enzner, G.: “Model-based vs. Traditional Frequency-Domain Adaptive Filtering in the Presence of Continuous Double-Talk and Acoustic Echo Path Variability”, Proc. of Intl. Workshop on Acoustic Echo and Noise Control (IWAENC), Seattle (Washington), 09/2008
Y. Ephraim and D. Malah, ”Speech enhancement using minimum mean square error log-spectral amplitude estimator”, IEEE Trans. vol.ASSP-33, no.2, pp.443-445, April 1985
Cohen and B. Berdugo, ”Speech enhancement for non-stationary noise environments”, Signal Processing, vol.81, no.11, pp.2403-2418, 11/2001
ITU-T G.164, Echo Suppressors, 08/1990
ITU-T G.165, Echo Cancellers, 03/1993
ITU-T G.168, Digital Network Echo Cancellers, 04/2000
Lu Lu, Implementation of Acoustic Echo Cancellation for PC Applications using MATLAB, Stoskholm, 05/2007
Nilesh Mahdu, Ivan Tashev, Alex Acero, An EM-based probabilistic approach for acoustic echo suppression, ICASSP, 2008
Jerome Berclaz, Acoustic Echo Cancellation for human-robot communications, EPFL, 03/2004
Simon Haykin, Adaptive Filters Theory, Prentice Hall, Third Edition
УЛУЧШЕННОЕ КВАНТОВАНИЕ ПАРАМЕТРОВ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ ДЛЯ РЕЧЕВОГО КОДЕКА НА БАЗЕ G.729.1
Сарана Д.В.
ФГУП “ГРЧЦ”, г. Москва
Речевой/аудио кодек согласно рекомендации МСЭ-Т G.729.1 [1] был разработан для применения в Voice-Over-IP телефонии. Одним из его основных преимуществ является масштабируемость битового потока, что позволяет обойтись без операций транскодирования в многопользовательской конференции при разной пропускной способности линий абонентов, участвующих в конференции. При этом становится возможным максимально использовать доступную пропускную способность каждого канала без потери качества звука. При отсутствии транскодирования на серверной стороне в каждый момент времени выбираются n (обычно 2 или 3) активных абонентов, и битововые потоки передаются каждому абоненту без операций декодирования-микширования-кодирования. Кодирование микшированных речевых потоков в принципе крайне нежелательно для CELP кодеков. При этом минимальная скорость входящего (с точки зрения абонента) потока будет равна n*8 кбит/c, т.е. минимум 16 кбит/c, что является существенным ограничением для использования в конференции низкоскоростных каналов. Существует рекомендация G.729 C+ [2] со скоростью 6.4. кбит/с, но она не может быть использована как базовый уровень для G.729.1 из за общего снижения качества речи на всех последующих скоростях. В данной работе преследовались две цели: 1. снижение базового битрейта G.729.1 без потери качества речи, 2. уменьшение вычислительной сложности алгоритма.
Описание оригинального алгоритма G.729.1. На базовой скорости G.729.1 (8 кбит/c) используется битовый поток, идентичный G.729. В кодеке G.729 используется CELP-подобный алгоритм. Каждый 10-мс фрейм кодируется 80 битами информации, из которых 18 бит – квантованные значения LPC коэффициентов 10-го порядка. Квантование осуществляется с помощью векторного квантователя. G.729.1 оперирует с 20-мс фреймами, на базовой скорости состоящими из 2-х G.729 фреймов. Т.о. мы можем производить совместное квантование двух фреймов без уменьшения устойчивости к ошибкам (потерям фреймов).
Описание алгоритма. Используется совместное квантование двух векторов LSF (линейные спектральные частоты). На каждом 20-мс фрейме составляется новый вектор x из двух векторов LSF (первого и второго 10-мс фрейма): x = [x1,… x20]T
На многоязыковой речевой базе P.501 [5] был получен набор значений {x}, с которым и проводились дальнейшие исследования (с разделением на обучающую и тестовую последовательности).
Обучающая последовательность методом k-средних разделялась на K кластеров {xk} с весами wk, средними значениями μk и ковариационными матрицами Σk.
Далее для каждого кластера вычислялась матрица декоррелирующего преобразования Vk [4], состоящая из собственных векторов ковариационной матрицы Σk. Нетрудно показать, что набор векторов {yk}, полученных как yki = Vk ∙(xki - μk), k=1..K где xki – i-й вектор в наборе {xk}, имеет диагональную ковариационную матрицу Dk с собственными значениями матрицы Σk на главной диагонали. Т.о. мы условно можем считать компоненты {yk} независимыми и применять к каждой из компонент скалярное квантование.
Количество бит b, используемое для квантования каждого кластера, является постоянным. Эксперимент показал, что целесообразности в введении зависимости b от веса кластера wk нет. Количество бит, используемое для квантования каждой j-й компоненты векторов {yk}, определяется собственным значением dkj, т.е. j-м элементом главной диагонали Dk:

где K – количество кластеров, P – размерность векторов {yk}, в данном случае P=20.
Количество бит на компонент в общем случае будет нецелым. В этом случае мы используем для квантования ближайшее целое количество уровней:

Значения уровней квантования вычислялись по экспериментально полученным гистограммам таким образом, чтобы все уровни были равновероятными.
Полностью алгоритм квантования входного вектора x = [x1,…xP] выглядит следующим образом.
1. Для каждого кластера вычисляется вектор y: yk = Vk ∙ (xk - μk)
2. Каждая j-я компонента (j=1..P) из K полученных векторов yk подвергается скалярному lkj – уровневому квантованию:

3. Для каждого кластера восстанавливается квантованное значение вектора x:

4. Выбирается наилучший кластер по мере спектрального искажения:



В битовый поток упаковываются и передаются индекс уровня для каждого компонента вектора, а также номер кластера.
На стороне декодера по номеру кластера и индексам уровней восстанавливается вектор

Эффективность предложенного алгоритма проверялась на тестовом подмножестве базы P.501. Для разных типов квантования измерялось среднее значение спектрального искажения, а также процентное соотношение спектральных искажений, превышающее пороги 1, 2 и 4 дБ. Результаты эксперимента представлены в таблице:
-
Метод квантования
SD>1 дБ , %
SD>2 дБ, %
SD>4 дБ, %
Среднее значение SD, дБ
Векторное квантование G.729
33
0.1
0
0.99
Предложенный метод, K = 1
35
0.9
0
0.94
Предложенный метод, K = 2
24
0.6
0
0.88
Предложенный метод, K = 4
22
0.6
0
0.86
Предложенный метод квантования параметров LSF при скорости битового потока, идентичной оригинальному алгоритму векторного квантования кодека G.729 вносит меньшее среднее искажение в огибающую спектра. Тем не менее, метод даёт значительно большие (0.6% против 0.1%) проценты спектрального искажения, превышающего порог в 2 дБ. Таким образом, существенного запаса по уменьшению объёма передаваемых данных предложенный метод не имеет. Дальнейшее увеличение количества кластеров K приводит к увеличению количества вычислений, пропорционально К, но после K=2 не даёт существенного улучшения точности квантования. Тем не менее, предложенный метод чрезвычайно эффективен вычислительно (около 80.000 операций в секунду для процесса кодирования), а также допускает эффективную параллелизацию вычислений.
Литература
Рекомендация МСЭ-Т G.729.1 (05/2006) Встроенный кодер G.729 с переменной скоростью передачи: двоичный поток широкополосного масштабируемого кодера со скоростями 8-32 кбит/с, способный взаимодействовать с G.729.
ITU-T Recommendation G.729 (01/2007). Coding of speech at 8 kbit/s using conjugate structure algebraic-code-excited linear prediction (CS-ACELP)
Low complexity wideband LSF quantization using GMM of uncorrelated Gaussian mixtures. Saikat Chatterjee and T.V. Sreenivas. 16th European Signal Processing Conference (EUSIPCO 2008), Lausanne, Switzerland, August 25-29, 2008
A Tutorial on Principal Component Analysis. Jonathon Shlens. Center for Neural Science, New York University New York City, NY 10003-6603 and Systems Neurobiology Laboratory, Salk Insitute for Biological Studies La Jolla, CA 92037. April 22, 2009.
ITU-T Recommendation P.501 (12/2009). Test signals for use in telephonometry.
IMPROVED LPC QUANTIZATION ALGORITHM FOR THE G.729.1 CODEC
Sarana D.
FGUP “GRFC”, Moscow
Report describes modification of G.729.1 coder. The purposes of the modification are the follows:
- decreasing of the lower bitrate without speech quality degradation,
- decreasing the computational complexity of the algorithm.
Vector quantization of LSF parameters was replaced by novel algorithm based on k-means, KLT and set of independent scalar quantizers.
Effectiveness of the proposed algorithm was tested on multilingual speech database ITU-T P.501 using Logarithmic Spectral Distortion of the smoothed spectrum.
Results
Proposed algorithm has better average spectral distortion for the same bitrate and significantly less computational complexity.
On the other hand it produces more frames with spectral distortion exceeded 2 dB threshold.
Literature
ITU-T Recommendation G.729.1 (05/2006) G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729.
ITU-T Recommendation G.729 (01/2007). Coding of speech at 8 kbit/s using conjugate structure algebraic-code-excited linear prediction (CS-ACELP)
Low complexity wideband LSF quantization using GMM of uncorrelated Gaussian mixtures. Saikat Chatterjee and T.V. Sreenivas. 16th European Signal Processing Conference (EUSIPCO 2008), Lausanne, Switzerland, August 25-29, 2008
A Tutorial on Principal Component Analysis. Jonathon Shlens. Center for Neural Science, New York University New York City, NY 10003-6603 and Systems Neurobiology Laboratory, Salk Insitute for Biological Studies La Jolla, CA 92037. April 22, 2009.
ITU-T Recommendation P.501 (12/2009). Test signals for use in telephonometry.
определение местоположения пользователей внутри
помещения с развернутой wi-fi сетью
Семенов В.Ю.(1), Аверин И.М.(2)
(1)Нижегородский государственный университет им. Н.И. Лобачевского
(2)ООО «МЕРА НН»
Введение. В современном мире все большее значение приобретает информация о местонахождении того или иного объекта. Например, в перспективных системах беспроводной передачи данных, подобная информация позволяет значительно повысить качество и расширить перечень сервисов, предоставляемых пользователям. На текущий момент широкое применение нашли системы глобального позиционирования GPS и ГЛОНАСС [1]. С их использованием точность позиционирования составляет 5-10 м практически в любой точке земного шара.
Следует отметить, что наилучшая точность при использовании систем глобального позиционирования достигается в условиях открытой местности. Внутри зданий точность определения местоположения значительно ухудшается. Достаточно часто местоположение не может быть определено совсем. Это связано, в первую очередь, с сильным ослаблением сигнала в стенах и перекрытиях зданий. Другим ухудшающим фактором является наличие большого числа рассеивателей сигнала вокруг приемника.
Преодолеть указанную проблему позволяет развертывание систем локального позиционирования. Такие системы находят применение на крупных стоянках машин для их охраны, складах продукции для отслеживания перемещения товаров. Системы локального позиционирования могут использоваться в крупных аэропортах и железнодорожных вокзалах для навигации пассажиров к нужным терминалам и т.д. Таким образом, широкий круг прикладных задач может быть решен с использованием систем локального позиционирования.
Для локального позиционирования может быть предложен подход, основанный на использовании существующей инфраструктуры локальных беспроводных сетей (WLAN). В состав WLAN входят так называемые точки доступа и оборудование пользователей. С позиции решения задач навигации важным моментом является то, что точки доступа размещаются стационарно в местах с известными координатами и являются приемниками, принимающими сигнал в некоторой полосе частот. Оборудование пользователя (объекта с неизвестным местоположением) является передатчиком в той же полосе частот. Характеристики сигнала, принятого совокупностью точек доступа, могут использоваться для оценки координат пользователя.
В настоящей работе рассматривается метод определения местоположения пользователей внутри помещения с использованием инфраструктуры WLAN семейства Wi-Fi (стандарт IEEE 802.11) [2]. Предполагается, что позиционирование пользователей является дополнительным сервисом данной локальной сети. В качестве метрики, применяемой для решения задачи позиционирования, используется функция частотной когерентности передаточной характеристики канала связи между точкой доступа и оборудованием пользователя.
Метод позиционирования. Методы позиционирования объектов внутри помещения можно условно разделить на два класса. К первому классу относятся методы, известные в зарубежной литературе как fingerprint [3]. В их основе лежит идея позиционирования с использованием заранее сформированной базы данных (БД), в которой хранятся сведения о значениях некоторой метрики для точек с известными координатами. Совокупность таких точек образует опорную сетку. Позиционирование производится путем сравнения метрики для текущего положения объекта, со значением метрик из БД и выбора ближайшей по метрике опорной точки в качестве оценки местоположения.
Ко второму классу относятся разнообразные методы, общим среди которых является то, что формирование и применение опорной сетки не предусматривается [4].
В настоящей работе рассматривается метод, относящийся к классу fingerprint. Предполагается, что опорная сетка формируется на этапе развертывания WLAN путем последовательного размещения тестового передатчика в точках с известными координатами и записи характеристик соответствующих сигналов, принимаемых одной или несколькими точками доступа.
Будем считать, что WLAN работает с использованием технологии ортогонального частотного мультиплексирования (OFDM), и сигналы охватывают N поднесущих частот [5]. Пусть некоторая точка доступа на частоте fk принимает сигнал от объекта, находящегося в точке с координатами (x,y)

где k – индекс частоты, P0 – мощность передатчика, Hk(x,y) – коэффициент передачи канала связи на k-й частоте, dk – известный символ (пилот-сигнал), k – белый гауссовский шум с нулевым средним и дисперсией σ02. Из выражения (1) следует, что оценка коэффициента передачи может быть найдена как

Совокупность коэффициентов передачи определяет передаточную характеристику канала связи в полосе частот, занимаемых сигналом, и позволяет вычислить функцию частотной когерентности. С учетом дискретности спектра OFDM-сигнала, функция частотной когерентности определяется выражением

где l – индекс сдвига по частоте (l=0,1…N-1), Δfsc – расстояние между соседними поднесущими, ( )* - операция комплексного сопряжения.
При использовании функции частотной когерентности в качестве навигационной метрики, оценка неизвестных координат объекта при условии регулярности опорной сетки является решением уравнения

где J – число используемых точек доступа; Δx и Δy – шаг расположения узлов опорной сетки по длине и по ширине помещения соответственно; p и q – индексы узла опорной сетки по длине и по ширине помещения соответственно;



Потенциальная точность. В целях определения эффективности алгоритма (3) введем в рассмотрение два специальных случая. Первый случай определяет верхнюю потенциальную границу ошибки позиционирования и соответствует алгоритму, когда в качестве оценки местоположения пользователя случайным образом выбирается произвольная точка комнаты. Назовем такой алгоритм «случайным». Второй случай определяет нижнюю границу ошибки позиционирования для методов fingerprint и достигается при использовании «идеального» алгоритма: в качестве оценки местоположения пользователя всегда выбираются координаты наиболее близкого к нему в пространстве узла опорной сетки. Точность «идеального» алгоритма возрастает с уменьшением размеров ячейки сетки. Из геометрических соображений можно получить, что плотность вероятности ошибки позиционирования w(ρ) для «идеального» алгоритма при размере ячейки сетки Δ описывается выражением:

Модель радиоканала. Будем считать, что пользователь может находиться в произвольной точке прямоугольной комнаты размером axb. Для упрощения рассуждений рассмотрим двумерный случай (плоская комната), а также будем считать, что комната симметрична, и в ней отсутствуют всевозможные перегородки и окна.
Пусть в точке П с координатами (xП ; yП) находится пользователь, излучающий сигнал. Для того чтобы найти величину поля в некоторой точке К с координатами (xК ; yК) используем лучевую модель распространения электромагнитных волн в комнате.
Согласно лучевой трактовке сигнал, пришедший от источника в точку К, может быть представлен как суперпозиция сигнала от источника, находящегося в точке П и сигналов от мнимых источников. Мнимые источники образуются зеркальным отражением точки П от стен комнаты.
Если ограничиться учетом влияния только первичных и вторичных мнимых источников, то можно показать, что комплексная амплитуда сигнала в точке К на некоторой частоте f с точностью до несущественного множителя описывается выражением

где Ф - коэффициент отражения от стен комнаты. Первое слагаемое в (5) описывает сигнал, прошедший по прямому лучу, а r0 – расстояние между точками П и К. Второе слагаемое определяется суммой 4 сигналов, однократно отраженных от стен комнаты, третье слагаемое – суммой 12 двукратно отраженных сигналов, а


Результаты моделирования. Для определения точностных характеристик предложенного алгоритма было проведено компьютерное Монте-Карло моделирование. Всего рассматривалось 10000 случайных положений («вбрасываний») пользователя при фиксированном положении точек доступа. Предполагалось, что пользователь с равной вероятностью может находиться в произвольной точке комнаты, а модель радиоканала определяется выражением (5). Для каждого «вбрасывания» пользователя производилась оценка его местоположения, а затем вычислялась ошибка позиционирования. Ошибка позиционирования определялась как расстояние между истинным положением пользователя и его оценкой. Полученная совокупность ошибок позиционирования использовалась для построения функции распределения.
Параметры комнаты полагались фиксированными: размеры a=60 м; b=40 м, коэффициент отражения от стен комнаты Φ=-0,7 на центральной частоте F0=2,4 ГГц. В качестве параметров моделирования задавались количество J точек доступа и полоса частот F сигнала, которая охватывается N=64 дискретными поднесущими.
На рис. 1 представлены интегральные функции распределения ошибки позиционирования при использовании J=3 точек доступа с координатами (29,2;16,2), (29,2;-16,2) и (-29,2;16,2) м, полосе частот ΔF=40 МГц, шаге опорной сетки Δ=1, 2 и 4 м (кривые 1, 2 и 3 соответственно). Цифрами 4, 5 и 6 отмечены зависимости, полученные для «идеального» алгоритма при шаге опорной сетки Δ=1, 2 и 4 м соответственно. Цифрой 7 отмечен результат моделирования для «случайного» алгоритма.
Нетрудно видеть, что предложенный метод близок по эффективности к «идеальному» алгоритму и значительно превосходит «случайный» алгоритм. Так, например, для шага сетки Δ=2 м, точность позиционирования (по медианному уровню) при использовании предложенного алгоритма лишь на 1,1 м хуже, чем
![]() |
Рис. 1 |
На рис. 2 представлены функции распределения ошибки позиционирования для нескольких частотных полос ΔF. Представленные результаты соответствуют параметрам J=2 точки доступа с координатами (29,2;16,2) и (-29,2;16,2) м, шаг сетки Δ=2 м, ΔF= 10, 20, 40, 60 и 80 МГц (кривые 1-5 соответственно). Кривая 6 соответствует «идеальному» алгоритму. На рис. 3 приведена соответствующая медианная ошибка позиционирования в зависимости от ΔF (кривая 1) и медианная ошибка позиционирования для «идеального» алгоритма (кривая 2).
![]() | ![]() |
Рис. 2 | Рис. 3 |
Как видно из рис. 2 и рис. 3 с увеличением ΔF точность позиционирования возрастает. Это происходит из-за уменьшения корреляционной зависимости между частотными составляющими. Так, для ΔF=80 МГц ошибка позиционирования при использовании предложенного алгоритма составляет 1,17 м, что лишь на 0,37 м хуже, чем точность «идеального» алгоритма.
Выводы. В настоящей работе рассмотрено решение задачи позиционирования пользователей внутри помещений на базе использования инфраструктуры локальных сетей беспроводной передачи данных. Предложен метод позиционирования, основанный на измерении функции частотной когерентности передаточной характеристики канала радиосвязи. Получены численные результаты, позволяющие оценить точность позиционирования. Показано, что предложенный метод позволяет получить точность позиционирования, близкую к теоретическому пределу.
страница 1страница 2страница 3страница 4 ... страница 7страница 8
скачать
Другие похожие работы: