Обработка сигналов в системах телекоммуникаций
1. Введение
В этой статье мы рассмотрим задачу текстонезависимой идентификации дикторов. Один из наиболее современных подходов к решению этой задачи – использование гауссовых смесей (GMM) вида

Мы рассмотрим простейшую систему идентификации диктора, в которой можно выделить 3 основных этапа: 1) предобработка на основе MFCC и использования детектора речи, 2) начальная кластеризация в пространстве признаков, 3) переоценка параметров гауссовых смесей на основе EM-алгоритма (Expectation Maximization) [5]. Решающее правило в задаче идентификации формулируется в виде принципа максимального правдоподобия модели диктора на наборе входных векторов признаков X:


В данной работе мы подробно остановимся на выборе способа начальной кластеризации для построения модели диктора. Ниже будут рассмотрены несколько известных алгоритмов кластеризации, использующих как четкую, так и нечеткую логику. Используя эти алгоритмы, мы ищем метод машинного обучения, на основе которого строятся модели с наименьшей ошибкой идентификации по формуле (1). Также рассматривается влияние детерминированности начального приближения ЕМ-алгоритма на эффективность построенных моделей в задаче идентификации диктора. В конце статьи указаны некоторые перспективные направления исследования задачи начальной кластеризации в рамках акустического анализа речи.
2. Алгоритмы кластеризации
2.1. Алгоритм К-средних
К-средних – один из наиболее популярных алгоритмов кластеризации. Его основные достоинства – простота реализации и низкая вычислительная сложность [6]. Работая на дискретном наборе данных, алгоритм минимизирует расстояние между k центрами кластеров и точками исходных данных в соответствующем пространстве.
2.2. Алгоритм К-средних++
К-средних++ – модификация К-средних, отличающаяся инициализацией, которая рекурсивно инициализирует центры кластеров, на основании вероятности

Если набор центров C построен при помощи К-средних++, то потенциальная функция


2.3. Алгоритм Linde-Buzo-Gray (LBG)
LBG изначально представлен в [8]. Он очень похож на К-средних, за исключением того, что он обходит недетерминированность выбора начальных точек. Основная идея алгоритма – установить начальные центры в соответствии с главными компонентами входного вектора. Сначала находится среднее всего вектора. Затем область входных данных разбивается на 2 кластера по оси главной компоненты. Далее с помощью стандартного К-средних вычисляются 2 кластера. Затем берется кластер с большим радиусом и снова делится пополам. Так продолжается до достижения нужного количества кластеров.
2.4. Алгоритм Fuzzy C-means (FCM)
FCM – один из наиболее популярных алгоритмов нечёткой кластеризации. Он делит область данных на K сферических кластеров. Основная идея алгоритма – построение матрицы разбиения




2.5. Алгоритм Гюстафсона-Кесселя (ГК)
Алгоритм ГК рассматривается как улучшение FCM [10]. Его основное отличие от FCM – введение для каждого кластера матрицы ковариации, вычисляемой по формуле


3. Эксперимент
Для эксперимента мы выбрали базу русскоговорящих дикторов, записанную с телефонным качеством 8 кГц и частотным диапазоном 300–3400 Гц. Обучающий набор состоит из 40 дикторов, включающих мужские и женские голоса. Каждая запись, длиной в среднем 40 секунд, содержит фоновый шум, тишину и прочие неречевые данные. Тестовая база состоит из 10-, 20- и 30-секундных речевых фрагментов, причем каждый диктор представлен в среднем 5 записями. Результаты были получены независимо для каждой длины тестового файла, а затем скомбинированы для получения итогового результата.
страница 1страница 2страница 3страница 4страница 5
скачать
Другие похожие работы: