NetNado
  Найти на сайте:

Учащимся

Учителям



Обработка сигналов в системах телекоммуникаций Заключение


Обработка сигналов в системах телекоммуникаций


Заключение

Результаты проведенных исследований позволяют сделать следующие основные выводы:

1. Использование медианных фильтров позволяет восстанавливать речевые сигналы, искаженные импульсным шумом с фиксированными и случайными значениями импульсов.

2. Взвешенный медианный фильтр является наиболее эффективным алгоритмом удаления импульсного шума среди рассматриваемого класса медианных фильтров.

3. Найдены оптимальные параметры взвешенного медианного фильтра с точки зрения критериев PESQ и MSE для двух речевых эталонов с разным динамическим диапазоном. В двух случаях наблюдается расхождение этих параметров.

4. В случае импульсного шума с фиксированными значениями импульсов имело место расхождение в оценке качества сигнала по критериям PESQ и MSE. По критерию PESQ при плотности шума более 7,7% фильтрация переставала оказывать улучшающее воздействие, в отличие от оценки по критерию MSE.

5. При удалении импульсного шума из речевых сигналов следует руководствоваться параметрами фильтров, оптимизированными по критерию PESQ, как наиболее точному инструменту эталонной оценки качества речи на данный момент развития телекоммуникационных систем.

Литература

  1. Brownrigg D. The weighted median filter // Comm. ACM. № 27, P. 807-818, 1984.

  2. Радзишевский А.Ю. Основы аналогового и цифрового звука – М.: Вильямс, 2006.

  3. Benesty J., Sondhi M., Huang Y. Handbook of Speech Processing, Springer-Verlag, 2008.

  4. Морриси П. Как измерить качество речевой связи // Сети и системы связи, № 8, 2005.

  5. Rix A., Hollier M., Hekstra A., Beerends J.: Perceptual Evaluation of Speech Quality (PESQ) The New ITU Standard for End-to-End Speech Quality Assessment, Part 1 // 2002 (www.psytechnics.com).

  6. Rix A., Hollier M., Hekstra A., Beerends J.: Perceptual Evaluation of Speech Quality (PESQ) The New ITU Standard for End-to-End Speech Quality Assessment, Part 2 // 2002 (www.psytechnics.com).


IMPULSE NOISE REMOVING FROM SPEECH SIGNALS USING WEIGHTED MEDIAN FILTERS

Gerasimov N., Kuykin D., Khryashchev V.

Yaroslavl Demidov State University

Often median filters are used for digital signals preliminary processing and restoration because of it’s ability to decrease outliers while staying original samples non modified. It makes possible to apply median filters for impulsive noise removal from images and speech signals [1].

Using of weighted median filters provides more possibilities of filter parameters attenuation for specified type of noise removing. Comparative analysis of median and weighted median filters for speech signals denoising is presented using signal quality criteria PESQ [2]. Salt-and-pepper and random valued impulsive noise are considered.

Received results of salt-and-pepper impulsive noise corrupted test signal “Car” restoring by different algorithms are depicted in Table 1.

Table 1.

Filter type

PESQ

MSE*10-4

Corrupted by 2% salt-and pepper noise signal

1.745

197

Median filter (3*1)

2.192

9.07

Median filter (5*1)

2.942

3.78

Median filter (7*1)

2.743

6.6

Median filter (9*1)

2.464

11.2

Weighted median filter (121)

1.975

55.7

Weighted median filter (13531)

2.448

6.72

Weighted median filter (1357531)

3.010

3.26

Weighted median filter (135797531)

3.005

3.47

Random valued impulsive noise removing from speech signals were considered also and similar results were obtained.

As results of researches optimised weighted median filter parameters for effective impulse noise removal were obtained for two types of impulsive noise. The optimised mask size for two cases of impulse noise elimination are presented in Table 2.

Table 2.

Noise type

Test signal

Filter mask size

PESQ

MSE

Salt-and-pepper impulsive noise

“Car”

7*1

7*1

“ENG_M”

7*1

5*1

Random valued impulsive noise

“Car”

7*1

5*1

“ENG_M”

5*1

5*1

As a result of our work recommendations for choice of mask size and weights of weighted median filters depending on noise level was generated based on PESQ signal quality criteria.

References

  1. Brownrigg D. The weighted median filter // Comm. ACM. № 27, P. 807-818, 1984.

  2. Rix A., Hollier M., Hekstra A., Beerends J.: Perceptual Evaluation of Speech Quality (PESQ) The New ITU Standard for End-to-End Speech Quality Assessment, Part 1 // 2002 (www.psytechnics.com).



ОБЪЕКТИВНЫЕ ОСНОВЫ ПОВЫШЕНИЯ ЕСТЕСТВЕННОСТИ (НАТУРАЛЬНОСТИ) СИНТЕЗИРОВАННОЙ РЕЧИ ПРИ РАСШИРЕНИИ ПОЛОСЫ ЧАСТОТ РЕЧЕВОГО СИГНАЛА ДО ДИАПАЗОНА 50 – 7000 ГЦ

Рыболовлев, А.А., Илюшин М.В.

Академия Федеральной Службы Охраны Российской Федерации, г. Орел

В настоящее время все мы являемся свидетелями и даже участниками процесса построения глобального информационного общества, основой функционирования которого является возможность предоставления пользователям широкого спектра современных инфокоммуникационных услуг в любое время при нахождении абонентов на стационарных объектах и в движении. Данная возможность обеспечивается за счет конвергенции сетей связи общего пользования и таких технологий, как сети сотовой связи поколения 3G и Интернет. Дальнейшее развитие в направлении объединения предоставляемых услуг привело к формированию концепции сетей связи следующего поколения – NGN (Next Generation Network).

Объем передаваемой в мире информации постоянно растет. Согласно имеющимся в научной литературе данным, период удвоения циркулирующего по сетям объема информации в мире сокращается: с 5 лет в 1980 г. до 3 мес. в настоящее время, причем ожидается ускорение этого процесса. Анализ прогнозов роста объема доходов и количества подписчиков по основным услугам сетей мобильной связи поколения 3G позволяет оперировать следующими цифрами. Прогнозируемый среднегодовой темп роста (СГТР) количества пользователей телефонными услугами сетей связи 3G в период с 2005 г. по 2010 г. составляет 46%, а СГТР объема доходов от традиционных услуг по передачи речи за тот же период равен 32%. Также прослеживается тенденция увеличения телефонных услуг с улучшенным качеством. Ожидаемый СГТР объема доходов от передачи высококачественной речи в период с 2005 г. по 2010 г. составляет 95% [2,3,6].

Необходимо отметить, что существующие и перспективные технологии в рамках развития сетей связи следующего поколения, как правило, не ориентированы на использование низкоскоростных каналов из-за сравнительно невысокого качества восстановленного речевого сигнала (РС). Дополнительные проблемы при построении низкоскоростных систем передачи возникают в тех случаях, когда в системе связи требуется обеспечить конфиденциальность передаваемой информации, а также устойчивость работы системы в целом при изменениях ее структуры и параметров, т.е. при функционировании ведомственных систем связи для нужд государственного управления.

Качество телефонных услуг, предоставляемых абоненту, в основном определяется алгоритмом кодирования в речепреобразующем устройстве. Целью кодирования речи является получение компактного цифрового описания РС в форме, которая может быть использована для эффективной записи и передачи его в виде кодированного (сжатого) сигнала.

Исторически сложились три подхода к технологии преобразования речи.

В кодерах формы сигнала кодируется форма РС как функция времени и при достаточно высо­кой скорости передачи обеспечивается высокое качество восстановленной речи. При параметрическом кодировании моделируется процесс речеобразования человека. Для этого в кодере из речевого сигнала вычисляются определенные параметры, которые передаются к декодеру, где они используются для восстановления формы сигнала. Использование полностью параметрических методов в настоящее время ограничено, так как они приводят к заметному ухудшению натуральности звучания голоса. Один из способов снижения скорости передачи речи и повышения эффективности использования полосы пропускания канала связи состоит в применении гибридных методов, основанных на принципах линейного предсказания и объединяющих параметрическое кодирование и аппроксимацию формы речевой волны [1].

Выбор кодера для конкретных применений зависит от учета ряда характеристик, к которым относятся:

  • вид электросвязи;

  • скорость передачи;

  • приемлемый уровень качества;

  • ограничения на временные задержки;

  • учет потерь в канале;

  • учет возможности последовательного соединения кодеков при взаимодействии с другими системами передачи.

Речевые сигналы являются случайными, и их особенности выражаются некоторыми видами характеристик. Фонетические характеристики определяют звуковой состав речи. Информационные характеристики позволяют разделить речевую информацию на сигнальную (определяет источник звука), семантическую (передает содержание речи) и эстетическую (отображает эмоциональные переживания диктора). Временные характеристики определяют длительность различных звуков речи и пауз. К акустическим характеристикам относятся такие физические параметры РС, как его мощность, динамический диапазон, формантный состав, направленные свойства и др.

Использование электрического тракта для передачи речевых сигналов часто приводит к заметному изменению их акустических характеристик. Это не только снижает общее качество звучания, но и сказывается на фонетических характеристиках речи. Трансформация акустических параметров сигнала влияет и на информативные показатели речи, делая ее недостаточно разборчивой и мало выразительной. Все это заставляет более детально исследовать акустические характеристики РС, изменения которых определяют конечное качество восстановленной речи по признаку естественности (узнаваемости, натуральности).

Измерения показывают [5], что звуки речи значительно отличаются по мощности. Так, для гласных звуков средняя мощность составляет 700 мкВт, тогда как для согласных она приближается к 0,7 мкВт. Такое большое различие в мощностях гласных и согласных приводит к снижению разборчивости речи.

Важными факторами ощущаемого качества кодера по признаку естественности восстановленной речи являются частотный диапазон, в котором передается кодируемый сигнал, и формантный состав речи. Решающими в выборе полосы 0,3 – 3,4 кГц были экономические соображения и нехватка телефонных каналов.

Большая часть энергии чаще всего содержится в гласных звуках, которые занимают полосу частот ниже 3 кГц. Однако, всем известно, что согласные звуки являются более информативными по сравнению с гласными. Например, в слове «посылка» звуки «п», «с», «л», «к» дают большее представление о его смысле, чем звуки «о», «ы», «а». А для передачи согласных звуков часто требуется учитывать полосу частот выше 3 кГц. Поэтому применение узкополосных систем связано с ухудшением разборчивости, например, звуки «с» и «ф» различаются только из-за формант, расположенных в верхней полосе частот.

Согласно результатов исследований в области обработки речевых сигналов [1,5,7] формантные области большинства звуков русского языка находятся в пределах от 100 до 8000 Гц. При этом основные форманты, определяющие распознавание каждого звука, концентрируются в пределах 200-3200 Гц, а вспомогательные форманты, отвечающие за натуральность звучания восстановленной речи, занимают полосу частот от 3000 до 8000 Гц.

Из всего вышесказанного можно сделать вывод, что кодирование узкополосной речи связано со следующими недостатками:

  • различие в мощностях гласных и согласных звуков (около 30 дБ) приводит к снижению разборчивости речи;

  • у большинства согласных звуков, обладающих большей информативностью по сравнению с гласными, усиленные участки спектра расположены в полосе частот выше 3 кГц;

  • вспомогательные форманты остаются за границами используемой полосы частот;

  • ухудшение разборчивости по причине ограничения частотного диапазона приводит к увеличению концентрации внимания абонента и, следовательно, к повышению усталости.

В качестве одного из возможных направлений устранения данных недостатков и повышения качества телефонной связи в сетях ведомственного предназначения, необходимость которого обусловлена возрастающими современными требованиями абонентов, может рассматриваться переход от кодирования узкополосного РС (УРС) к передаче широкополосного речевого сигнала (ШРС) с диапазоном частот от 50 до 7000 Гц [1,4].

Разработки в области преобразования ШРС нашли отражение в рекомендациях МСЭ G.722, G.722.1, G.722.2 [8,9,10]. В [4] предлагается модель широкополосного CELP-кодера с реконфигурацией структуры кодовой книги на основании информации, полученной из психоакустической модели.




Рис.1. Диаграмма качества речи по пятибалльной шкале MOS, достигаемого различными гибридными кодеками

Из рис.1, на котором показана сравнительная оценка качества речи, обеспечиваемого гибридными кодеками на скоростях до 32 кбит/с, видно, что алгоритмы кодирования ШРС позволяют достичь лучшего качества по сравнению с кодеками УРС на приблизительно равных и даже меньших скоростях.

Перспективным направлением дальнейших исследований в области передачи широкополосного речевого сигнала следует назвать повышение степени адаптивности кодеков к параметрам анализируемого кадра речевого сигнала. Сокращение статистической избыточности речи планируется достичь за счет структурной адаптации системы кодирования к статистическим характеристикам кодируемых параметров сегментов речевого сигнала, разделенным на конечное число классов. Введение в состав кодера психоакустической модели и трехмерной кодовой книги, отражающей свойства кодируемого сигнала, позволит исключить перцептуальную избыточность, снизив тем самым требования к объему передаваемой информации. При разработке кодека широкополосного РС должны быть учтены аспекты, связанные с учетом характеристик ШРС, возможностью субполосного липредерного кодирования и способностью существующих цифровых процессоров обеспечить функционирование перспективного кодека речевых сигналов в режиме реального времени [1,4].

Таким образом, на основе анализа направлений развития в области кодирования речевых сигналов есть основание считать, что в настоящее время существуют все предпосылки для перехода к передаче широкополосного речевого сигнала с диапазоном от 50 до 7000 Гц. Данное расширение полосы частот позволит значительно повысить качество восстановленного речевого сигнала по признаку естественности звучания при ориентации на низкоскоростные каналы передачи в ведомственных сетях.

Литература

1. Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. – М.: Радио и связь, 2003. – 144 с.: ил.

2. Громаков Ю. А. Концептуальные аспекты развития сотовой связи // Электросвязь.  2003.  № 11.  С. 65  70.

3. Гулевич, Д.С.   Сети связи следующего поколения: учеб. пособие для вузов / Д.С. Гулевич. - М.: Интернет-университет Информационных Технологий: БИНОМ, 2007. - 183 с. : ил., табл.

4. Лившиц, М. З. Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой / М. З. Лившиц, М. Парфенюк, А. А. Петровский // Цифровая обработка сигналов.  2005.  № 2.  С. 20  35.

5. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. – М.: Радио и связь, 1987. – 168 с.

6. Москвитин В.Д. Рост объемов информации – главный фактор развития пакетных сетей // Электросвязь.  2008.  № 10.  С. 32  33.

7. Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещания : Учебное пособие для вузов. – М.: Горячая линия – Телеком, 2007. – 341 с.

8. ITU-T Recommendation G.722. 7 kHz audio-coding within 64 kbit/s.  Geneva, 1988.

9. ITU-T Recommendation G.722.1. Coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss.  Geneva, 1999.

10. ITU-T Recommendation G.722.2. Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (AMR-WB).  Geneva, 2003.
OBJECTIVE BASES OF INCREASE OF NATURALNESS (RECOGNITION) OF THE SYNTHESIZED SPEECH AT EXPANSION OF THE STRIP OF FREQUENCIES OF THE SPEECH SIGNAL TO THE RANGE 50 - 7000 HZ

Rybolovlev A., Iljushin M.

Academy of FGS of Russia

Now in the field of telecommunications there is a process of transition to networks which give users a wide spectrum of qualitative services. It is necessary to note, that existing and perspective technologies of batch transfer of the information are not focused on use of channels by low speed of transfer owing to rather low quality of the synthesized speech signal.

In this article the lacks arising at coding of a standard speech signal with a strip of frequencies 0,3 - 3,4 kHz are described. To them concern:

  • distinction in capacities of vowels and consonants results in decrease in legibility of speech;

  • at the majority of the consonants possessing the greater information, than the vowels, amplified sites of a spectrum are located in a strip of frequencies above 3 kHz;

  • auxiliary amplified sites remain behind borders of a used strip of frequencies;

  • deterioration of legibility owing to restriction of a frequency range results in increase in concentration of attention of the subscriber and, hence, to increase of weariness.

As one of possible directions of elimination of the given lacks and improvement of quality of telecommunication in networks of departmental applicability which necessity is caused by growing modern requirements of subscribers, transition from coding narrow-band speech to transfer of a wideband speech signal with a range of frequencies from 50 up to 7000 Hz can be considered.

The analysis of transformation of speech with the help of hybrid algorithms allows to draw a conclusion, that codecs of a wideband speech signal provide better quality in comparison with systems of compression of narrowband speech on approximately equal and even smaller speeds. Expansion of a strip of frequencies will allow to increase considerably quality on the basis of naturalness of sounding of a restored speech signal.



АНАЛИЗ И ВЫБОР ЧАСТОТЫ ДИСКРЕТИЗАЦИИ ДЛЯ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ

Фатуллаев А.Б., Ибрагимов Б.Г.

Институт Кибернетики НАНА, Баку

Азербайджанский Технический Университет, Баку

В современном этапе развития систем передачи и обработки непрерывных сигналов при распознавании речевой информации на базе перспективных лингвистических DSP (digital Signal Processing) технологий приобретают большую актуальность в системах цифровым методом обработки речевых сигналов. При этом большой интерес вызывает непрерывных речевых сигналов по некоторым входным данным, таких как амплитудно-частотных и амплитудно-фазовых характеристик распознаваемых речевых сигналов посредством преобразования аналогового сигнала в цифровой сигнал.

Известно [1], что цифровое представление непрерывных сигналов обеспечивает эффективную предварительную обработку речевых сигналов, помехоустойчивость и надежность связи, а также возможность защиты от несанкционированного доступа путем засекречивания.

В системах обработки и распознавания речи используются устройства ввода и передачи непрерывных сигналов, которые реализуют предварительную обработку входной речевой информации с целью получения более компактного описания входного речевого сигнала.

Однако, проведенные экспериментальные исследования показали, что ранее полученная частота дискретизации, шаг квантования и длина двоичной кодовой комбинации не всегда удовлетворяют вышеизложенным требованиям по предварительной обработке речевых сигналов в частотной области для распознавании речи.

На повышения эффективности распознавания речевой информации посвящены разные труды зарубежных специалистов многих стран [2,3], начиная от ввода, предварительной обработки и до озвучивания речи. Их целью является создание систем речевого общения между человеком и компьютером, а также методы анализа и синтеза алгоритмов работы систем распознавания речевых сообщений.

На основе системно-технического анализа установлено [4,5], что один из существенных факторов влияющих на ухудшение качества ввода и передачи речи является ее этапная цифровая обработка. Несмотря на то, что речь обладает значительной временной избыточностью, ее качество ввода и передачи через устройства ввода цифрового процессора становится в значительной мере зависимой от параметров речевого сообщения.

Учитывая, особенности, состав и характер исследуемого речевого сообщения при преобразовании и обработке непрерывных сигналов можно рассматривать как процесс аппроксимации непрерывных сигналов цифровыми сигналами в широком смысле, т.е. сигналами значениями отсчетов, необходимого для ввода с требуемой достоверностью. Эти системы приобретают важное значение в связи с внедрением в практику низкоскоростных цифровых каналов связи, где скорость передачи Vk ≤64 Kбит/с.

В данной работе рассматривается вопрос выбора эффективного значения частоты дискретизации для речевого сигнала в системах распознавания речи (при обработке непрерывных речевых сигналов) с применением метода квадратурной обработки узкополосных сигналов, т.е. методом субдискретизации сигналов.

Математическая формулировка предложенного подхода для непрерывных речевых сигналов может быть представлена следующей целевой функцией:

Ед(∆F,tpc, Lдк) = {U(tpc), Ud[kTд], Uk[k∆tkv], U[N(km)]}, k=0,1,2,… (1), где U(tpc) – функция амплитуды входного непрерывного речевого сигнала tс; Ud[kTд]–функция дискретизации входного сигнала по времени в виде дискретного отсчета; Uk[k∆tkv] – функция квантования входного дискретизированного сигнала по уровню в виде дискретного отсчета; U[N(km)] – функция двоичного исчисления, учитывающая операцию кодирования квантованных значений передаваемого сигнала в виде последователь­ности двоичных кодовых комбинаций с длиной Lдк; m - основании используемого кода.

Выражение (1) является аналитическим алгоритмом преобразования непрерывного сигнала, с помощью которого может быть определено минимально эффективное значение возможной частоты дискретизации Fд преобразуемого речевого сигнала U(tрс) по частотным критериям.

Проведенные исследования показали [1,2], что для эффективной передачи (в смысле возможности последующего восстановления без потерь) и распознавания речевого сигнала на базе компьютерных технологий необходима предварительная обработка спектра речевого сигнала, обеспечивающая устойчивость распознавания речи при наличии частотных искажений сигнала из-за этапной цифровой обработки. Поэтому в устройствах цифрового процессора для предварительной обработки речевого сигнала, частотный спектральный анализ речи играет важную роль.

С этой целью, т.е. для предварительной обработки речевого сигнала, на основе проведенного системно-технического анализа, предлагается решение, реализованное на основе структурно-функциональной схемы цифрового процессора (обработки сигналов) с использованием DSP-технологии и состоящая из следующих блоков: анализатор, квантователь и кодер с фильтром VAD (Voice Activate Detection), которая показана на рис.1.




ЦПОС

Рис.1. Структурно-функциональная схема цифрового процессора обработки сигналов на базе DSP-технологии

В рассматриваемой структурной схеме важным модулем является цифровой процессор обработки сигналов (ЦПОС). Его составными элементами являются дискретизатор, квантователь и кодер с фильтром, а также VAD. Для реализации алгоритмов преобразования речевой информации, ЦПОС содержит модуль дискретизатор, модуль квантователь и кодер с фильтром. Модуль дискретизатор имеет фильтр низкой частоты, ограничивающий ширину спектров исходного сигнала, который преобразовывает входной аналоговый речевой сигнал Uрс(t) в дискретный Uд(t), через интервал дискретизации tд в виде U[kTд], k =0, 1, 2,… дискретных отсчетов. Полученные отсчеты мгновенных значений в модуле квантования квантуются по уровню и превращаются в цифровую кодовую комбинацию на базе двоичного кодера.

Кроме этого, на основе исследований в [2,3] установлено, что для передачи и обработки узко- и широкополосных сигналов важное место занимают методы субдискретизации сигналов, сущность которых составляет метод квадратурной дискретизации сигнала. В телекоммуникационных системах квадратурная обработка сигналов является одним из высокоэффективных методов модуляции непрерывных и цифровых сигналов, которые позволяют дискретизировать полосовой сигнал с частотой, определяемой не верхней границей, а шириной спектра сигнала.

Для решения задачи предварительной обработки частотных характеристик речевых сигналов в распознавании речи, выбран метод квадратурной обработки узкополосных непрерывных сигналов (F=0,3…3,4кГц), т.е. метод субдискретизации сигналов.

Частотный спектральный анализ непрерывных речевых сигналов заключается в следующем:

1. Выбор частоты дискретизации на основе методов квадратурной дискретизации узкополосных сигналов, базирующейся на теореме Котельникова. Для решения данной задачи применен метод субдискретизации сигналов, а алгоритмы реализации выполняются следующим образом:

Пусть аналоговый полосовой сигнал имеет спектр, расположенный в диапазоне между частотами Fmin и Fmax. Как правило частота дискретизации должна превышать 2Fmax. Однако для точного восстановления сигнала по его дискретным отсчетам необходимо обеспечить отсутствие перекрытия сдвинутых копий спектра. Это дает дополнительную возможность выбора точного значения частоты дискретизации. И восстановление сигнала в данном случае, естественно, должно производиться с помощью полосового фильтра типа VAD.

На основе метода субдискретизации сигналов и алгоритма предложенного подхода, можно определить условия, которые дают возможность дискретизации сигнала таким образом, что при некотором целом k зеркальная половина спектра будет оказаться расположенной между k-й и (k+1) -й сдвинутыми копиями спектра. Отсюда получаем неравенства:

- Fmin + k∙Fд 1, - Fmax + ( k+1 )Fд > Fmax (2).

Можно преобразовать эти неравенства в одно двойное неравенство: 2Fmax - Fд < k∙Fд <2Fmin (3)

Отсюда следует, что 2Fmin >2Fmax – Fд и, следовательно Fд >2∙ (Fmax - Fmin )

Неравенства (2) и (3) являются необходимыми условиями выбора эффективного значения дискретизации речевого сигнала.

Таким образом, как и в случае квадратурной дискретизации, частота дискретизации ограничена снизу удвоенной шириной спектра сигнала. С учетом этого из (2) можно определить максимально возможное значение : (4)

Для всех целых , не превышающих это значение, из двойного неравенства (3) можно определить диапазон возможных значений частоты дискретизации: (5)

В качестве примера рассмотрим дискретизацию сигнала со средней частотой 25 кГц и шириной полосы 4 кГц. Границы занимаемой сигналом полосы частот в этом случае равны 22 кГц и 28 кГц, а минимальное значение , согласно (3), определяется следующим неравенством: ≈ 4

Для целочисленных значений =1, …,4, удовлетворяющих это неравенство, согласно (4) имеем следующие диапазоны возможных частот дискретизации речевых сигналов [1]:

1. кГц = 28….44,0 кГц

2. кГц = 18,66…44,0 кГц

3. кГц = 14…14,66 кГц

4. кГц = 11,20….11,0 кГц

На основе расчета получены числовые значения частоты дискретизации речевого сигнала. Здесь показаны, что важные спектры дискретизированного сигнала, получается при выборе частот дискретизации, равных 25 кГц (), 18,6 кГц () , 14,0 кГц (), 11,20 кГц (). При значении k =0, исходя из (4), дает диапазон частоты дискретизации от 2Fmax до бесконечности и, таким образом, соответствует обычной дискретизации сигнала согласно теореме Котельникова.

2. Выбор шага квантования по уровне непрерывных сигналов, обеспечивающие процесс аппроксимации непрерывных сигналов цифровыми сигналами, т.е. сигналами с дискретными значениями отсчетов и определяется следующим неравенством [5]: ∆tkv ≤ Тд, Tд =2 , (6), где ширина верхнего частотного спектра квантуемого непрерывного речевого сигнала.

Выполнение условий (5) и (6), на основе теоремы Котельникова позволяет однозначно устранить частотное искажение речевого сигнала при вводе его по дискретным отсчетам U[kTд], k=0, 1, 2,… включая и гармоническую составляющую сигнала.

3.Выбор кода на основе двоичного счисления для кодирования квантованных сигналов. Запись квантованного уровня с Lkv разрешенными уровнями в двоичной системе счисления может быть представлена в виде[1]: Lkv = , (7).

После строгие выполнения выше указанных этапных - частотных, временных и кодированных алгоритмов, позволяют более эффективно реализовать предварительная обработка и ввода цифровых речевых сообщений при распознавании речевых сигналов, которые особое место занимает в системе речевой связи с машиной, т.е. в системе распознавания речи.

Результаты исследования и анализ показали, что полученные могут быть использованы для предварительной обработки и ввода речевых сообщений в системе распознавания речи.

страница 1страница 2


скачать

Другие похожие работы: