NetNado
  Найти на сайте:

Учащимся

Учителям



Обработка сигналов в системах телекоммуникаций

Conclusions


In this paper we have proposed a method for estimation instantaneous amplitudes of pitch harmonics with application to speech signals. The algorithm employs Harmonic Transform as a spectral analysis tool in order to provide the analysis in harmonic domain. As pitch frequency is a time-varying speech parameter proposed technique allows for tracking pitch frequency changes within a single analysis frame. In order to estimate a time-varying amplitudes of a pitch harmonics we have separated an individual harmonics first by selecting only these harmonic spectrum bins which are connected with particular harmonic and then applied the Inverse Harmonic Transform to obtain a signal of each harmonic. Hilbert Transform envelope was taken as instantaneous amplitudes estimate. Results on the synthetic polyharmonic signals have shown that this method is able to track both the instantaneous pitch frequency and the instantaneous amplitudes of pitch harmonics.

This work was supported by Bialystok Technical University under the grant W/WI/2/05.

References


[1] R.J McAulay, T.F. Quatieri, “Sinusoidal Coding” in Speech Coding and Synthesis (W. Klein and K. Palival, eds.), Amsterdam: Elsevier Science Publishers, 1995.

[2] E.B. George, M.J.T. Smith, “Speech Analysis/Synthesis and Modification Using an Analysis-by-Synthesis/Overlap-Add Sinusoidal Model”, IEEE Trans. on Speech and Audio Processing, vol. 5, no. 5, pp. 389-406, 1997.

[3] D.W. Griffin, J.S. Lim, “Multiband Excitation Vocoder”, IEEE Trans. on Acoust., Speech and Signal Processing, vol. ASSP-36, pp. 1223-1235, 1988.

[4] B. Yegnanarayana, C. d’Alessandro, V. Darsions, “An Iterative Algorithm for Decomposiiton of Speech Signals into Voiced and Noise Components”, IEEE Trans. on Speech and Audio Coding, vol. 6, no. 1, pp. 1-11, 1998.

[5] P.J.B. Jackson, C.H. Shadle, “Pitch-Scaled Estimation of Simultaneous Voiced and Turbulence-Noise Components in Speech”, IEEE Trans. on Speech and Audio Processing, vol. 9, no. 7, pp. 713-726, Oct. 2001

[6] F. Zhang, G. Bi, Y.Q. Chen, “Harmonic Transform”, IEEE Trans. on Vis. Image Signal Processing, vol. 151, No. 4, pp. 257-264, Aug. 2004.

[7] V. Sercov, A. Petrovsky, “An Improved Speech Model with Allowance for Time-Varying Pitch Harmonic Amplitudes and Frequencies in Low Bit-Rate MBE Coders”, in Proc. of the 6ht European Сonf. on Speech Communication and Technology EUROSPEECH’99, Budapest, Hungary, 1999, pp. 1479-1482.

[8] P. Zubrycki, A. Petrovsky, “Accurate Speech Decomposition Into Periodic and Aperiodic Components Based on Discrete Harmonic Transform”, Proc. of 15-th European Signal Processing Conference EUSIPCO 2007, Poznan, Poland, September 2007.



ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ НИЗКОСКОРОСТНЫХ ВОКОДЕРОВ ДЛЯ КАНАЛОВ С ВЫСОКИМ ПРОЦЕНТОМ ОШИБОК

Выборнов С.В., Сидорова Н.А.

Московский технический университет связи и информатики

111024, Москва, ул. Авиамоторная, 8a, Т./Ф +7 (495)-957-77-10. [email protected].

Реферат. В работе рассмотрена задача практической реализации низкоскоростного вокодера, имеющего приемлемое качество синтезированной речи в каналах с ошибками до пяти процентов. Предложены оптимальные в смысле качества синтезированной речи коды, исправляющие ошибки, и разработан метод замены выбитых речевых параметров на интерполированные значения параметров предшествующих фреймов, что позволило добиться суммарной скорости потока информационных и проверочных бит 2400 бит/сек.

Цифровое кодирование речи в ограниченной полосе является предметом интенсивных исследований на протяжении последних трех десятилетий. В результате были развиты различные методы и системы кодирования речи для битовых потоков от 64 кбит/с до 1.2 кбит/с и ниже. Выбор кодирования речи для конкретной задачи определяется компромиссом между двумя противоречивыми факторами желаемым качеством кодированной речи и скоростью битового потока.

Необходимость низкоскоростного кодирования речи возникает из-за требования передачи информации по узкополосным каналам связи при наличии маломощных передатчиков (например, на средствах передвижения). Кроме того, низкоскоростные кодеры обеспечивают более надежную связь при наличии канальных помех и более высокое качество речи при работе в сильно зашумленных окружающих условиях. Кодирование речи с низкой скоростью также уменьшает объем цифровой информации, требуемой для реализации речевых сообщений, поэтому задача уменьшения битового потока при сохранении приемлемого качества речи является достаточно актуальной.

К первым низкоскоростным вокодерам можно отнести полосовые вокодеры, гомоморфные вокодеры и вокодеры с линейным предсказанием (например, LPC-10, который являлся вокодером федерального стандарта США FS-1015 со скоростью битового потока 2.4 кбит/с). Все перечисленные вокодеры определяли любой речевой фрейм либо голосовым, либо шумовым, что приводило к неестественному звучанию синтезированного речевого сигнала. Кроме того, определение основного тона в данных вокодерах было неточным, что ухудшало разборчивость речи. В дальнейшем был разработан большой класс алгоритмов вокодеров, из которых можно выделить IMBE (Improved Multi-Band Excitation), AMBE (Advanced Multi-Band Excitation), MPLPC (Multi Pulse Excited LPC) и MELP (Mixed Excitation Linear Prediction).

Разработка в начале 1980 годов алгоритмов IMBE и AMBE и последующее их совершенствование привело к существенному улучшению качества вокодеров с потоком бит менее 2.4 кбит/с. Данные вокодеры разбивают всю частотную область фрейма речевого сигнала на N полос, причем N определяется основным тоном сигнала. Затем в каждой полосе принимается решение “голосовой”-“шумовой” (что приводит к повышению разборчивости и натуральному звучанию речи), и не используют технику линейного предсказания и остаточный сигнал. К их основным недостаткам необходимо отнести существенную зависимость качества речи от диктора, что определяется поиском основного тона, и сильную деградацию качества речи в зависимости от увеличения ошибок в битовом потоке.

MPLPC вокодеры при хорошей слоговой разборчивости обеспечивают низкое качество речи, что связано со сложностью размещения импульсов возбуждения. MELP вокодеры также обладают подобными недостатками, но по мнению большинства специалистов обеспечивают лучшее качество речи для широкого диапазона дикторов и в повышенных шумах. В этой связи в настоящей работе рассмотрены наиболее эффективные методы практической реализации низкоскоростных (1.2 – 2.4 кбит/с) MELP вокодеров для работы в канале с высоким процентом канальных ошибок и показаны основные направления совершенствования данных методов.

В качестве базового алгоритма вокодера был выбран алгоритм MELP-2400, разработанный фирмой Texas Instruments и выигравший открытый конкурс по замене кодека федерального стандарта США FS-1016[1].

Данный алгоритм основан на традиционной параметрической модели кодирования с линейным предсказанием, но, кроме того, содержит ряд дополнительных особенностей:

– вся рабочая область частот делится на пять полос, в каждой из которых принимается решение о классе сигнала возбуждения – “шумовой” или “голосовой”, таким образом, суммарный сигнал возбуждения является смешанным;

– форма “голосового” сигнала возбуждения реконструируется в декодере с помощью амплитуд коэффициентов Фурье, вычисленных в анализирующей части вокодера;

– для реализации одиночных импульсов возбуждения применяются “апериодические” импульсы;

– c целью улучшения “натуральности” звучания синтезированной речи применяются дисперсионный и адаптивный фильтры.

Суммарный список параметров, передаваемый от кодера к декодеру за один речевой фрейм длительностью 22,5 мс, представлен в таблице 1.

Таблица 1.

Параметр


“Голосовой” фрейм (бит)

“Шумовой” фрейм (бит)

Линейные спектральные пары (ЛСП)

25

25

Амплитуды преобразования Фурье сигнала возбуждения

8

-

Коэффициенты усиления (2 за фрейм)

8

8

Период основного тона, общая озвученность фрейма

7

7

Озвученность по полосам

4

-

Флаг периодичности

1

-

Защита от ошибок

-

13

Синхробит

1

1

Всего за кадр,22.5 мс

54

54

страница 1 ... страница 2страница 3страница 4страница 5страница 6страница 7


скачать

Другие похожие работы: