NetNado
  Найти на сайте:

Учащимся

Учителям



Обработка сигналов в системах телекоммуникаций

1. Введение


В этой статье мы рассмотрим задачу текстонезависимой идентификации дикторов. Один из наиболее современных подходов к решению этой задачи – использование гауссовых смесей (GMM) вида [1] для моделирования распределения таких характеристик диктора как мел-кепстральные коэффициенты (MFCC) [1] или кепстральные коэффициенты линейного предсказания (LPCC) [2]. Классификация достигается выбором класса диктора с максимальным правдоподобием на заданном участке данных. Более сложный подход [3] использует дикриминативные методы (например, метод опорных векторов) для разделения акустических классов. Также существуют гибридные системы [4], комбинирующие метод опорных векторов и GMM.

Мы рассмотрим простейшую систему идентификации диктора, в которой можно выделить 3 основных этапа: 1) предобработка на основе MFCC и использования детектора речи, 2) начальная кластеризация в пространстве признаков, 3) переоценка параметров гауссовых смесей на основе EM-алгоритма (Expectation Maximization) [5]. Решающее правило в задаче идентификации формулируется в виде принципа максимального правдоподобия модели диктора на наборе входных векторов признаков X:

, (1), где – набор параметров гауссовых смесей, а каждый i-ый набор определяет модель диктора, заявленного на поиск.

В данной работе мы подробно остановимся на выборе способа начальной кластеризации для построения модели диктора. Ниже будут рассмотрены несколько известных алгоритмов кластеризации, использующих как четкую, так и нечеткую логику. Используя эти алгоритмы, мы ищем метод машинного обучения, на основе которого строятся модели с наименьшей ошибкой идентификации по формуле (1). Также рассматривается влияние детерминированности начального приближения ЕМ-алгоритма на эффективность построенных моделей в задаче идентификации диктора. В конце статьи указаны некоторые перспективные направления исследования задачи начальной кластеризации в рамках акустического анализа речи.

2. Алгоритмы кластеризации

2.1. Алгоритм К-средних


К-средних – один из наиболее популярных алгоритмов кластеризации. Его основные достоинства – простота реализации и низкая вычислительная сложность [6]. Работая на дискретном наборе данных, алгоритм минимизирует расстояние между k центрами кластеров и точками исходных данных в соответствующем пространстве.

2.2. Алгоритм К-средних++


К-средних++ – модификация К-средних, отличающаяся инициализацией, которая рекурсивно инициализирует центры кластеров, на основании вероятности, где D(x) – кратчайшее евклидово расстояние между точкой x и ближайшим к ней уже выбранным центром [7].

Если набор центров C построен при помощи К-средних++, то потенциальная функция удовлетворяет .

2.3. Алгоритм Linde-Buzo-Gray (LBG)


LBG изначально представлен в [8]. Он очень похож на К-средних, за исключением того, что он обходит недетерминированность выбора начальных точек. Основная идея алгоритма – установить начальные центры в соответствии с главными компонентами входного вектора. Сначала находится среднее всего вектора. Затем область входных данных разбивается на 2 кластера по оси главной компоненты. Далее с помощью стандартного К-средних вычисляются 2 кластера. Затем берется кластер с большим радиусом и снова делится пополам. Так продолжается до достижения нужного количества кластеров.

2.4. Алгоритм Fuzzy C-means (FCM)


FCM – один из наиболее популярных алгоритмов нечёткой кластеризации. Он делит область данных на K сферических кластеров. Основная идея алгоритма – построение матрицы разбиения , значениями которой являются вероятности принадлежности k-ому кластеру точки с индексом n [9]. На каждой итерации вычисляются центры кластеров и пересчитывается матрица разбиения , где – евклидова норма.

2.5. Алгоритм Гюстафсона-Кесселя (ГК)


Алгоритм ГК рассматривается как улучшение FCM [10]. Его основное отличие от FCM – введение для каждого кластера матрицы ковариации, вычисляемой по формуле . На основании этой матрицы пересчитывается расстояние от точки до центра кластера в формуле: . Далее матрица разбиения вычисляется так же, как в алгоритме FCM.

3. Эксперимент

Для эксперимента мы выбрали базу русскоговорящих дикторов, записанную с телефонным качеством 8 кГц и частотным диапазоном 300–3400 Гц. Обучающий набор состоит из 40 дикторов, включающих мужские и женские голоса. Каждая запись, длиной в среднем 40 секунд, содержит фоновый шум, тишину и прочие неречевые данные. Тестовая база состоит из 10-, 20- и 30-секундных речевых фрагментов, причем каждый диктор представлен в среднем 5 записями. Результаты были получены независимо для каждой длины тестового файла, а затем скомбинированы для получения итогового результата.


страница 1страница 2страница 3страница 4страница 5


скачать

Другие похожие работы: