Анализ многомерных данных
3.4.4 Непараметрические методы анализа связи между количественной и качественными переменными
Дисперсионный анализ опирается на предположение нормальности распределения исходных данных. Возможны два подхода к ситуациям, когда это предположение не выполняется. Первый подход заключается в том, чтобы подобрать преобразование, которое сделало бы распределение зависимой переменной Y более близким к нормальному. Второй подход состоит в использовании методов анализа, не зависящих от вида распределения наблюдаемых случайных величин, из которых наиболее разработаны ранговые методы. Рассмотрим некоторые из них. Более подробно с этими методами можно познакомиться в (Холлендер, Вульф, 1983; Sokal, Rolf, 1995).
3.4.4.1 Однофакторный анализ
Пусть фактор А варьируется в эксперименте на I уровнях, и на i-ом уровне производится ni наблюдений , i=1, …, I, N=n1+…+nI. Предполагается, что I выборок являются независимыми и каждая из них извлечена из непрерывной совокупности с неизвестным распределением Fi(x), причем распределения Fi(x) имеют одинаковую форму и могут различаться лишь параметром сдвига.
Для проверки гипотезы H0 о том, что I выборок извлечены из одной и той же совокупности, можно воспользоваться свободным от распределения критерием Крускала-Уоллиса (Kruskal-Wallis test). Этот критерий является обобщением двухвыборочного критерия Вилкоксона на случай I выборок, I≥2. Упорядочим все N наблюдений по возрастанию, заменим величины yij их рангами и найдем для каждой выборки i сумму рангов Ri, i=1,…, I. Статистика Крускала-Уоллиса имеет вид:
Заметим, что среди yij могут быть равные по величине наблюдения. Если совпадения встречаются внутри одной выборки, то при ранжировании применяется метод случайного ранга. Такого типа совпадения не влияют на значение статистики критерия. Когда же совпадения принадлежат разным выборкам, то используется метод среднего ранга (см. 2.3.8). В этом случае значение статистики критерия H следует разделить на величину
(3.22)
где K - общее количество групп, состоящих из равных наблюдений, tk - количество совпадений в k-ой группе, k=1,…,K.
Если гипотеза H0 верна, то статистика H распределена асимптотически при n→∞ как χ2 с I-1 степенями свободы. Этим приближением можно пользоваться при ni >5 или I>3. Критическое множество уровня значимости α при альтернативе H1, что не все выборки извлечены из одной совокупности, состоит из одного полуинтервала [χ2I-1,1-α,+∞), где χ2I-1,1-α - квантиль порядка 1-α распределения χ2 с числом степеней свободы I-1.
Для проверки гипотезы о том, что медианы I выборок совпадают, можно воспользоваться медианным критерием Брауна-Муда (Brown-Mood test). Статистика этого критерия имеет вид
,
где mi - число наблюдений i-ой выборки, значения которой не меньше значения выборочной медианы для объединенной выборки из N наблюдений.
Если верна нулевая гипотеза, то статистика Χ2 распределена асимптотически как χ2 с I-1 степенями свободы. Критическое множество уровня значимости α при альтернативе H1, что хотя бы две выборки имеют различные медианы, состоит из одного полуинтервала [χ2I-1,1-α,+∞), где χ2I-1,1-α - квантиль порядка 1-α распределения χ2 с I-1 степенями свободы.
Асимптотическая относительная эффективность критерия Крускала-Уоллиса по отношению к F-критерию для однофакторного дисперсионного анализа равна 0,955, а медианного критерия Брауна–Муда – 0,637.
Если гипотеза H0 отвергается, то чтобы выделить заведомо различные выборки, применяются свободные от распределения методы множественного сравнения. Для сравнения всевозможных пар выборок (непараметрический аналог непланируемых сравнений, которые рассматривались в 3.4.1), можно использовать приближенный метод Данна (Dunn test). Две выборки различаются параметром сдвига значимо на уровне значимости α, если
где R.i=Ri/ni, а Ri - сумма рангов i-ой выборки, R.j=Rj/nj, а Rj - сумма рангов j-ой выборки, i<j=1, …, I; uα/(I(I-1)) - квантиль стандартного нормального распределения порядка α/(I(I-1)).
В случае равных объемов выборок n1=…=nI=n≥8 можно использовать приближенный метод Дуосса (Dwass method). Для каждой пары выборок вычисляется статистика Манна-Уитни, Uij, i<j, i, j =1,…, I, критическое значение которой равно
,
где QI,∞;1-α - квантиль порядка 1-α стьюдентизированного размаха с числом степеней свободы I, ∞. Выборки, для которых Uij≥UI,n;1-α, статистически значимо различаются параметром сдвига.
Критерии Данна и Дуосса имеют одинаковую асимптотическую эффективность.
3.4.4.2 Двухфакторный анализ
Мы рассмотрим два метода двухфакторного непараметрического анализа.
3.4.4.2.1 Критерий Фридмана
Метод Фридмана предназначен для анализа результатов наблюдений по схеме плана случайных блоков без повторений. Пусть в каждом из J блоков имеется по одному наблюдению на каждом из I уровней постоянного фактора A. Предполагается, что каждая из I выборок извлечена из непрерывной совокупности с неизвестным распределением Fi(x). Распределения Fi(x) i=1,…,I имеют одинаковую форму и могут различаться лишь параметром сдвига.
Результаты наблюдений можно представить в виде таблицы из I строк и J столбцов. Наблюдениям каждого столбца сопоставим соответствующие им ранги. Обозначим через Ri сумму рангов i-ой строки. Для проверки гипотезы H0 о том, что фактор A не влияет, т.е. все I выборок извлечены из одной и той же совокупности, против альтернативы H1, что хотя бы Fi(x) и Fj(x), i≠j, различаются параметром сдвига, можно воспользоваться свободным от распределения критерием Фридмана (Friedman test). Статистика критерия Фридмана имеет вид:
Если верна гипотеза H0, то статистика Χ2, как и статистика H, распределена асимптотически при n→∞ как χ2 с I-1 степенями свободы. Критическое множество уровня значимости α при альтернативе H1 состоит из одного полуинтервала [χ2I-1,1-α,+∞), где χ2I-1,1-α - квантиль порядка 1-α χ2 -распределения с числом степеней свободы I-1.
Если в столбцах таблицы встречаются совпадающие значения, то при переходе к таблице рангов используют метод средних рангов (см. 2.3.8), а значение статистики критерия Χ2 следует разделить на величину (3.22), заменив N на IJ.
Для сравнения всевозможных пар выборок можно использовать свободный от распределения метод множественного сравнения Дуосса, заменив в (3.22) n на J.
3.4.4.2.2 Критерий Пейджа
Часто исследователь может предположить монотонное влияние фактора на зависимую переменную. В этом случае для проверки гипотезы H0 об отсутствии влияния фактора A против альтернативы H1 об упорядоченном влиянии фактора A можно воспользоваться критерием Пейджа (Page test). Этот критерий является более мощным, чем критерий Фридмана для данной альтернативы H1. Статистика Пейджа имеет вид
,
где Ri -сумма рангов i-ого столбца, как и выше. Если верна гипотеза H0, то при n→∞ статистика
распределена асимптотически нормально N(0,1). Критическое множество уровня значимости α при альтернативе H1 состоит из одного полуинтервала [u1-α,+∞), где u1-α - квантиль порядка 1-α стандартного нормального распределения. Если в строках таблицы встречаются совпадающие значения, то при переходе к таблице рангов используются средние ранги. Число совпадений влияет на точность полученных выводов, с увеличением числа совпадений выводы становятся менее точными.
3.5 Кластерный анализ
Кластерный анализ в некотором смысле похож на многомерный дисперсионный анализ – количественные отклики и качественные факторы. Существенное различие, однако, состоит в том, что факторы неизвестны и надо каким-то образом их сконструировать. Идея этого конструирования проста – наблюдения разбиваются на однородные группы, которые объявляются разными классами, а переменная, указывающая на принадлежность каждого наблюдения к одному из этих классов, объявляется искомым качественным фактором. Проблема, следовательно, состоит только в том, как разбить совокупность наблюдений на однородные группы.
Имеется много методов решающих эту задачу, наиболее распространенным из которых является агломеративно-иерархический кластерный анализ, который последовательно объединяет наблюдения, начиная с самых близких, во все более и более крупные группы. Результаты этого последовательного объединения представляются в виде дендрограммы. Можно, однако, по-разному определять как близость отдельных наблюдений, так и сформированных из них групп – кластеров (от англ. cluster – гроздь, скопление).
Исходные данные в задачах кластерного анализа задаются в виде таблицы (матрицы), строки который соответствуют различным наблюдениям, а столбцы – различным переменным
Если рассматривать строки-наблюдения, как точки в пространстве переменных, то естественно использовать в качестве меры различия между наблюдениями i и k евклидово расстояние между соответствующими им точками в m-мерном евклидовом пространстве
Если, однако, переменные измерены в разных единицах, то суммирование квадратов их разностей будет неправомерным. В таких случаях следует каким-то образом сделать переменные соизмеримыми, например, путем их стандартизации, т.е вычитания среднего и деления на среднеквадратичное отклонение
где
и
Можно использовать и другие меры различия между наблюдениями, например, манхеттеновское, или сити-блок расстояние, равное сумме абсолютных величин разностей между значениями переменных
В случае бинарных переменных манхеттеновское расстояние между двумя наблюдениями равно просто сумме несовпадающих значений в них и обычно называется хэмминговым.
Вычислив каким-либо способом расстояния между всеми парами наблюдений, мы получим матрицу расстояний
которая и служит основой для дальнейших расчетов. Главная диагональ этой матрицы состоит из нулей, и матрица симметрична относительно этой диагонали.
Имея матрицу расстояний, можно начать процесс последовательного объединения наблюдений в кластеры. Алгоритм этого объединения работает следующим образом.
Сначала все наблюдения считаются отдельными кластерами. На первом шаге в матрице расстояний ищется минимальный внедиагональный элемент (поскольку матрица симметрична, достаточно просмотреть ее поддиагональную часть). Пусть этот элемент находится на пересечении i–ой строки и j–го столбца, что означает, что среди всех пар кластеров, состоящих каждое из одного наблюдения, наиболее близки между собой i–ый и j–ый кластеры. Эти два кластера объединяются между собой в один и общее число кластеров уменьшается на единицу – их становится n –1 вместо исходных n. Возникает, однако, проблема определения расстояния от вновь образованного кластера i+j до остальных кластеров. Рассмотрим некоторые возможные варианты.
Можно определить расстояние от i+j до любого другого кластера k как минимум из расстояний от i до k и от j до k
Это так называемый метод минимальной связи, или метод ближайшего соседа.
Другой вариант - определить расстояние от i+j до любого другого кластера k как максимум из расстояний от i до k и от j до k
Это метод максимальной связи, или метод дальнего соседа.
Третий вариант, метод средней связи, состоит в определении расстояния от i+j до любого другого кластера k как среднего арифметического из расстояний от i до k и от j до k
Второй и последующий шаги аналогичны первому – каждый раз объединяются два самых близких кластера и вычисляются расстояния от нового объединенного кластера до остальных. На каждом шаге общее число кластеров сокращается на единицу и процесс заканчивается, когда все кластеры объединятся в один.
Метод средней связи имеет модификацию, называемую методом взвешенной средней связи. Она отличается тем, что если на некотором шаге объединяются кластеры от i и j, состоящие, соответственно, из и Ni и Nj наблюдений, то расстояние от их объединения до любого другого кластера k вычисляется не как простое среднее, а как среднее взвешенное из расстояний от i до k и от j до k
Метод дальнего соседа имеет тенденцию формировать кластеры одинакового размера и может не учитывать реальной неоднородности расположения наблюдений в пространстве признаков. Метод ближайшего соседа, наоборот, хорошо отслеживает локальные неоднородности и может выявлять кластеры довольно сложной формы и разного размера. Однако он может объединить очень разные кластеры, если между ними случайно имеется цепочка близких наблюдений. Хорошим компромиссом между этими двумя методами является метод взвешенной средней связи.
Результаты кластерного анализа удобно представлять в виде так называемой дендрограммы, графически представляющей последовательность объединений с учетом расстояний между объединяющимися кластерами. Ее визуальный анализ может помочь в определении числа кластеров, на которые естественным образом разбивается совокупность наблюдений – объединение сильно различающихся кластеров отражается на дендрограме скачкообразным увеличением межкластерного расстояния.
Рис. 3.6. Пример работы агломеративно-иерархического кластерного анализа.
На рис. 3.6 приведен пример работы агломеративно-иерархического кластерного анализа. Данные состоят из 12 наблюдений, характеризующихся двумя переменными Y1 и Y2. Они представлены на рис. 3.6 в виде точек на плоскости. Верхняя половина рисунка наглядно иллюстрирует процесс объединения наблюдений в кластеры: сначала объединяются наиболее близкие друг к другу наблюдения 6 и 4, затем объединяются 3 и 1, потом к 3+1 присоединяется 2 и т.д. В нижней половине представлена дендрограмма – результат работы алгоритма. Из нее ясно видно, что совокупность наблюдений отчетливо разделяется на два кластера. Конечно, это еще лучше видно из представления точек на плоскости, но оно возможно только потому, что у нас две переменные. Дендрограмму же мы можем получить при любом числе переменных, поскольку она строится на основе анализа расстояний между наблюдениями, а их можно вычислять для любого числа переменных (см. формулы для евклидова или манхеттеновского расстояний).
Среди других широко известных алгоритмов кластерного анализа следует отметить так называемый метод K средних. Его идея проста. Среди исходных наблюдений выбираются наудачу K наблюдений – начальных центров будущих кластеров. Первый шаг алгоритма начинается с распределения всех наблюдений между этими центрами – каждое наблюдение относится к ближайшему центру. После этого центры кластеров пересчитываются заново – каждая координата центра кластера вычисляется как среднее из координат входящих в этот кластер наблюдений. Второй и последующие шаги аналогичны первому. Процедура заканчивается, когда центры кластеров перестанут смещаться при новом пересчете. Рис. 3.7 иллюстрирует работу алгоритма. Показано два шага. Очевидно, что на третьем шаге не будет изменения положения центров кластеров, т.к. их состав не изменится. Таким образом , в данном случае для разбиения совокупности наблюдений на кластеры оказалось достаточно двух шагов.
Рис. 3.7. Пример работы метода K средних.
Несомненным преимуществом метода K средних является возможность классифицировать с помощью него наборы из многих сотен и даже тысяч наблюдений, тогда как с помощью агломеративно-иерархического алгоритма, хотя теоретически и возможно, но слишком громоздко обрабатывать более сотни-двух наблюдений. Недостатками его являются необходимость априорного задания числа кластеров, отсутствие наглядного представления результатов и зависимость результатов от начального выбора центров – при неудачном их выборе алгоритм может дать классификацию, не соответствующую реально имеющейся.
3.6 Факторный анализ
Целью факторного анализа (factor analysis) является поиск представления, возможно, приближенного, но с наименьшей потерей информации, исходного набора m переменных Y1, Y2…., Ym в виде линейных комбинаций меньшего числа r переменных V1, V2…., Vr, называемых факторами. Для упрощения изложения будем считать Y1, Y2…., Ym центрированными, т.е. полученными из непосредственно измеренных переменных вычитанием из них их средних. Тогда их можно выразить в виде линейных комбинаций (без свободных членов) центрированных факторов V1, V2…., Vr, ,
В матричных обозначениях эти соотношения можно записать следующим образом
(3.22)
или, в развернутом матричном виде,
(3.23)
Элементы aij матрицы порядка m?r называют факторными нагрузками (factor loadings).
Поскольку каждой переменной Yi исходных данных соответствует вектор-строка ее наблюденных значений yik, k=1, 2, …, n, то (3.23) можно записать в еще более развернутом виде
Это соотношение в матричной форме выражает значения наблюдений yik, i=1, 2, …, m, k=1, 2, …, n, через факторные значения (factor scores) vjk, j=1, 2, …, r, k=1, 2, …, n,
Факторный анализ используется для выявления скрытой структуры данных. Например, оценки, полученные группой испытуемых по большому числу тестовых задач, можно приближенно попытаться представить как линейные комбинации нескольких факторов, которые можно интерпретировать как различные способности испытуемых - общие, математические, лингвистические и др. Нагрузки aij в представлении задачи Yi будут выражать степень важности способности Vj для решения этой задачи.
Из соотношения (3.22) можно получить обратное выражение для выражения факторов через исходные переменные . Умножая слева обе части (3.22) на , а затем обе части полученного равенства слева на (заметим, что матрица порядка r?r является квадратной и поэтому может иметь обратную матрицу), получаем
откуда
или
(3.24)
где – матрица порядка r?m.
Соотношение (3.24) можно также записать в нематричной форме
где bji – элементы матрицы , j=1, 2, …, r, i=1, 2, …, m.
Непосредственно факторные значения выражаются через значения наблюдений следующим образом
или
Из соотношения (3.24) можно снова получить соотношение (3.22) для выражения исходных переменных через факторы . Умножая слева обе части (3.24) на , а затем обе части полученного равенства слева на (матрица порядка m?m является квадратной и поэтому может иметь обратную матрицу), получаем
откуда
(3.25)
или
где – матрица порядка m?r. Таким образом, для решения задачи факторного анализа достаточно найти любую из матриц или .
Однако очевидно, что представить, тем более, приближенно, матрицу наблюденных значений в виде (3.22), т.е. в виде произведения матрицы нагрузок на матрицу факторных значений, можно бесчисленным множеством способов, т.к. заранее неизвестны обе матрицы-сомножители в правой части. Поэтому, чтобы сделать задачу факторного анализа определенной, необходимо наложить какие-то ограничения на факторные нагрузки и факторные значения. В зависимости от вида этих ограничений получаются различные методы факторного анализа. Базовым можно считать метод главных компонент (principal component analysis), в котором факторы, называемые главными компонентами (principal components), должны удовлетворять двум требованиям – быть ортогональными и содержать максимум информации об исходных данных.
Метод главных компонент имеет простую геометрическую интерпретацию. В качестве иллюстрации, на рис. 3.8 в трехмерном пространстве (Y1, Y2, Y3) представлена совокупность точек-наблюдений образующая конфигурацию, напоминающую удлиненный сплющенный эллипсоид, который, для наглядности также изображен на рисунке. Пусть, для простоты, начало координат O находится в центре этой совокупности.
Рис. 3.8. Геометрическая иллюстрация метода главных компонент.
На рис. 3.8 изображены также оси главных компонент - V1, V2 и V3. Первая главная компонента V1 имеет направление, соответствующее наибольшему разбросу проекций наблюдений среди всех направлений, проходящих через O. Вторая главная компонента V2 находится в плоскости, ортогональной к V1 и имеет направление наибольшего разброса среди всех направлений этой плоскости. Третья главная компонента V3 в случае трех измерений однозначно определяется условием ортогональности к первым двум. Она должна находиться на той же плоскости что и V2 и, соответственно, разброс проекций наблюдений на V3 меньше, чем на V2 (поскольку, по построению, направление наибольшего разброса уже поставлено в соответствие второй главной компоненте). Как мы видим, число главных компонент в данном примере равно числу исходных переменных. Однако целью факторного анализа является сокращение числа переменных, описывающих данные. В методе главных компонент этого можно добиться простым отбрасыванием последних компонент и заменой исходных наблюдений их проекциями на оставшиеся компоненты. Например, в ситуации рис. 3.8 можно спроектировать наблюдения на плоскость первой и второй главной компоненты и отбросить третью, что не приведет к большой потере информации о взаимном расположении наблюдений.
Попробуем теперь описать метод главных компонент в более точных терминах. Общий разброс совокупности n наблюдений в m-мерном пространстве ортогональных наблюдаемых переменных Y1, Y2…., Ym определяется как сумма квадратов евклидовых расстояний от центра совокупности до точек-наблюдений
В свою очередь, квадрат евклидова расстояния между двумя точками равен сумме квадратов разностей (расстояний) между проекциями этих точек на каждую координатную ось пространства, т.е., в частности, расстояние от начала координат до k-го наблюдения равно
Отсюда следует, что общий разброс можно представить как сумму разбросов проекций наблюдений на координатные оси
(3.26)
где
Из равенства (3.26) путем деления обеих его частей на n (воспользуемся, для простоты, смещенной оценкой) получаем также соотношение
показывающее, что общая дисперсия наблюдений равна сумме дисперсий проекций наблюдений на координатные оси.
Если мы перейдем к любой новой системе координат, в частности, к системе координат, определяемой главными компонентами V1, V2…., Vm, то общая дисперсия не изменится и по-прежнему будет равна сумме дисперсий проекций наблюдений на координатные оси (уже новые)
(3.27)
Теперь мы можем точно определить условия, налагаемые на главные компоненты и позволяющие их вычислить: первая главная компонента – это направление V1, которому соответствует максимальное значение дисперсии проекций наблюдений на это направление, вторая главная компонента – это направление V2, ортогональное направлению первой главной компоненты и максимизирующее дисперсию проекций наблюдений на это направление, третья главная компонента – это направление V3, ортогональное направлению первой и второй главных компонент и максимизирующее дисперсию проекций наблюдений на это направление и т.д. Поскольку, в соответствии с (3.27), общая дисперсия равна сумме дисперсий проекций наблюдений на главные компоненты, то можно принять за 100% и тогда каждой главной компоненте будет соответствовать своя доля (процент) объясненной дисперсии.
Можно доказать, что условие максимизации дисперсий проекций наблюдений на подпространство нескольких первых компонент влечет одновременную минимизацию суммы квадратов расстояний от наблюдений до этого подпространства. Например, если исходные данные являются наблюдениями двух переменных Y1 и Y2, то первая главная компонента V1 будет для них не только направлением наибольшего разброса точек, но и направлением, сумма квадратов расстояний до которого от наблюдений минимальна. В этом смысле первая главная компонента похожа на линию регрессии Y2 по Y1, которая также находится минимизацией суммы квадратов расстояний от наблюдений до линии регрессии. Разница состоит в том, что в методе главных компонент минимизируется сумма квадратов длин перпендикуляров, опущенных из точек-наблюдений на главную компоненту, а в регрессионном анализе расстояние измеряется вдоль оси Y2 (по этой причине регрессия Y2 по Y1может не совпадать с регрессией Y1 по Y2).
Можно также показать, что условие максимизации дисперсий проекций наблюдений на подпространство нескольких первых компонент влечет одновременную минимизацию суммы разностей между квадратами расстояний между всеми парами наблюдений в исходном пространстве и квадратами расстояний между проекциями этих наблюдений в подпространстве нескольких первых главных компонент. Например, если мы спроектируем все наблюдения на плоскость первых двух главных компонент, то можем быть уверены, что это именно та плоскость, на которой взаимные расстояния между наблюдениями в среднем наименее искажены. Таким образом, первые две главные компоненты дают возможность наглядного графического представления данных на плоскости, сохраняя максимум информации о них.
Отметим, что если направление какой-либо оси поменять на противоположное, т.е. поменять на противоположные знаки всех проекций на эту ось, то величина дисперсии проекций наблюдений на это направление не изменится. Это означает, что любое из двух противоположных направлений главных компонент можно выбирать произвольно. Иногда это бывает полезно для более удобной их интерпретации.
Рассмотрим кратко некоторые вычислительные аспекты нахождения главных компонент.
Выше мы видели, что для решения задачи факторного анализа достаточно найти любую из матриц или , выражающих, соответственно, либо наблюдения через факторы либо, наоборот, факторы – через наблюдения. Поскольку координатные оси главных компонент получаются вращением исходной системы координат с сохранением их ортогональности, то матрица в преобразовании исходных переменных в главные компоненты должна быть ортогональной, т.е. . Из этого, в частности, следует, что в методе главных компонент упрощается переход от соотношения (3.24), выражающее факторы через исходные переменные, к соотношению (3.22), выражающему исходные переменные через факторы. Действительно, преобразуя (3.25), получаем
т.е. матрица факторных нагрузок , фигурирующая в (3.22), совпадает с транспонированной матрицей . Элементы матриц и – это косинусы углов между старыми и новыми осями, и суммы их квадратов по строкам и столбцам равны единице.
Можно показать, что условие максимизации проекций наблюдений приводит к уравнению
(3.28)
где - выборочная матрица ковариаций переменных Y1, Y2…., Ym порядка m?m, равная деленному на n произведению матрицы наблюдений на ее транспонированную матрицу (напомним, что переменные Y1, Y2…., Ym центрированы)
Уравнение (3.28), левая часть которого является полиномом степени m, в данном случае имеет m действительных корней, собственных чисел матрицы . Эти собственные значения, расположенные в порядке убывания, равны дисперсиям соответствующих главных компонент, а совокупность собственных векторов матрицы образует искомую матрицу , преобразующую исходные переменные в главные компоненты.
Часто наблюдаемые переменные Y1, Y2…., Ym измерены в разных единицах и тогда их непосредственный совместный анализ является бессмысленным. В этом случае переменные нормируются путем деления на свои выборочные среднеквадратичные значения (их центрирование путем вычитания выборочных средних мы предположили с самого начала), что делает их соизмеримыми по величине. Матрица ковариаций при этом превращается в корреляционную матрицу.
Если факторный анализ используется не просто для редукции громоздких данных или их наглядного представления – эта задача достаточно успешно решается методом главных компонент, а нацелен, действительно, на поиск неких скрытых факторов, лежащих в основе наблюдаемых данных, то используются более сложные методы. Для многих из них метод главных компонент служит начальным шагом анализа. Наиболее часто применяемым является так называемый метод варимаксного вращения (varimax rotation method). Его идея проста. В качестве отправных берутся факторы, совпадающие с первыми главными компонентами. Предположим, что на первую главную компоненту приходится 60% дисперсии, а на вторую – 30%. В сумме они объясняют 90% дисперсии – это достаточно много и можно предположить, что за наблюдаемыми значениями большого числа переменных, возможно, нескольких десятков, стоят всего два базовых фактора. Желательно понять их смысл, что можно сделать только анализируя содержательно представление этих факторов-компонент через исходные переменные. Это легче сделать, если нагрузки «контрастны», т.е. близки либо к нулю, либо к единице. Однако главные компоненты в этом отношении могут оказаться не лучшим выбором. Можно попробовать улучшить ситуацию, вращая первые две главные компоненты в их собственной плоскости. При этом суммарная дисперсия, приходящаяся на эти главные компоненты не уменьшится, так что потери информации не произойдет. Может уменьшиться дисперсия первой главной компоненты, например, соотношение между дисперсиями, приходящимися на новые оси (уже не главные компоненты) будет 50% и 40%. Однако требование максимальной информативности первого фактора может быть совсем не важным или, по крайней мере, менее важным, чем желательность хорошей интерпретируемости факторов. Контрастность нагрузок можно определить разными способами. В методе варимаксного вращения она определяется как усредненная по всем факторам дисперсия квадратов нагрузок в выражениях факторов через исходные переменные. Чаще используется нормализованный метод варимаксного вращения (normalized varimax rotation method), в котором факторные нагрузки предварительно нормируются путем деления каждой из них на соответствующую ей сумму квадратов нагрузок по факторам.
3.7 Дискриминантный анализ
Дискриминантный анализ (discriminant analysis) - один из методов распознавания образов (pattern recognition). Задачей распознавания образов является построение правила, позволяющего с наименьшей ошибкой предсказывать принадлежность объекта к одному из заданных классов по его описанию. Для построения этого правила используется предварительная информация о наборе объектов, для которых известны как описание, так и принадлежность к классу. Например, имеется группа пациентов, для которых известен набор симптомов и точный диагноз. Требуется, используя эти данные, построить правило, дающее возможность в дальнейшем ставить диагноз по симптомам новым пациентам.
Рассмотрим задачу распознавания образов, пользуясь вероятностными терминами. Пусть рассматриваемые потенциальные объекты (наблюдения) характеризуются значениями m переменных X1, X2…., Xm, являющихся непрерывными случайными величинами, распределенными по одному из законов F1(x1, x2…., xm), F2(x1, x2…., xm), …или Fk(x1, x2…., xm) в зависимости от того, к какому из классов k=1, 2, …, K относится объект.
Рис. 3.9. Распознавание между двумя классами, заданными двумя одномерными нормальными распределениями с равными априорными вероятностями.
Пусть, например, имеется два класса, заданными двумя одномерными нормальными распределениями N(?=3, ?2=1) и N(?=5, ?2=1)., причем объекты из этих классов встречаются с равными априорными вероятностями p=q=0.5. На рис. 3.9 изображены плотности этих двух распределений с равными весами. Мы видим, что левее точки X1=4.5 плотность f1(x1) выше плотности f2(x1), а справа – наоборот. Правило, состоящее в том, чтобы любое новое наблюдение, оказавшееся левее точки X1=4.5 относить к первому классу, а оказавшееся правее – ко второму, обеспечивает минимальную ошибку классификации.
Рис. 3.10. Распознавание между двумя классами, заданными двумя одномерными нормальными распределениями с неравными априорными вероятностями.
На рис. 3.10 рассмотренная ситуация несколько модифицирована – объекты класса 1 встречаются при случайном выборе в 4 раза чаще, чем объекты класса 2. Это приводит к тому. что граница разделения между классами сдвигается правее – примерно в точку X1=5.
Другими словами, мы пользуемся байесовским правилом – относим наблюдение к классу, имеющемму наибольшую апостериорную вероятность.
В рассмотренных двух примерах мы предположили, что известны теоретические распределения, определяющие классы. Если имеются только выборки наблюдений из них, то по ним можно построить оценки распределений. В частности, если есть основания считать, что неизвестные распределения нормальны, то достаточно вычислить средние и дисперсии двух выборок. Априорные вероятности можно взять равными долям встречаемости наблюдений двух классов в выборке.
Рис. 3.11. Распознавание между двумя классами, заданными двумя двумерными нормальными распределениями с равными априорными вероятностями.
На рис. 3.11 показана ситуация, когда классы заданы двумя двумерными нормальными распределениями с равными дисперсиями и корреляциями и одинаковыми априорными вероятностями, отличаясь, однако, своими математическими ожиданиями. Каждая плотность схематично представлена одной из своих линий уровня (взято одно и тоже значение уровня для обеих плотностей). Легко показать, что в этом случае линия разделения между двумя классами, т.е. линия, вдоль которой значения обеих плотностей равны, является прямой (заметим, кстати, что в данном примере на одномерных проекциях на оси X1 и X2 распределения разделялялись бы гораздо хуже, чем в двумерном пространстве). Действительно, условие равенства плотностей имеет вид
где (,) и (,) – координаты центров первого и второго распределений, и - их дисперсии по первой и второй оси, - коэффициент корреляции, а коэффициенты определяется выражением
Сокращая на и логарифмируя, получаем соотношение
(3.29)
из которого видно, что после возведений в квадрат и перемножений выражений в скобках члены второго порядка , и сократятся и в левой части уравнения останется выражение первого порядка относительно и , т.е. это уравнение, действительно, определяет прямую на плоскости . Заметим, что этот вывод существенно использует предположение о равенстве соответствующих дисперсий и коэффициентов корреляций двух распределений, что эквивалентно равенству их ковариационных матриц и
На рис. 3.12 показан случай, когда надо разделить три класса. Здесь также предполагается, что соответствующие дисперсии и корреляции трех распределений равны, поэтому каждая пара разделяется прямой равной плотности. Совокупность этих прямых формирует, как видно из рисунка, результирующую кусочно-линейную границу разделения классов на плоскости.
Рис. 3.12. Распознавание между тремя классами, заданными тремя двумерными нормальными распределениями с равными априорными вероятностями.
В предположении равенства ковариационных матриц и многомерной нормальности всех распределений рассмотренная ситуация обобщается и на большее число измерений. В трехмерном пространстве классы будут разделяться плоскостями, в четырехмерном – трехмерными гиперплоскостями и т.д. Именно предположение о нормальности и равенстве ковариационных матриц распределений, соответствующих разным классам, определяет условия применимости дискриминантного анализа, точнее, линейного дискриминантного анализа. В принципе, эти условия довольно жестки, однако, благодаря своей статистической прозрачности и легкости численной реализации, метод линейного дискриминантного анализа реализован во всех пакетах программ статистической обработки данных и широко применяется при анализе данных даже в ситуациях, когда его предпосылки выполняются лишь приближенно.
Рассмотрим еще некоторые понятия, связанные с линейным дискриминантным анализом.
Левую часть равенства (3.29), которую после преобразований можно записать в виде
называют линейной дискриминантной функцией классов для классов 1 и 2. Если для некоторого нового наблюдения эта функция больше нуля, то наблюдение следует отнести к классу 1, а если меньше – к классу 2.
Очевидно, для случая K классов имеется K(K-1)/2 дискриминантных функций и все их надо сравнить с нулем. В случае большого числа классов процедура становится слишком громоздкой, поэтому поступают иначе. С каждым классом k связывают функцию Lk(x1,x2), называемую линейным дискриминантом этого класса, и для нового наблюдения вычисляют значения дискриминантов для всех классов. Полученные K значений сравниваются и наблюдение относится к тому классу, которому соответствует максимальное значение дискриминанта. Если вернуться к уравнению (3.29), то легко видеть, что его левую часть можно представить как разность двух линейных дискриминантов, соответствующим первому и второму членам в левой части (после раскрытия скобок и взаимного уничтожения квадратичных членов).
В пространстве наблюдаемых переменных для любого наблюдения можно вычислить его евклидовы расстояния от центра каждого класса. Однако эти расстояния могут не отражать истинные близости наблюдения к разным классам. Например, на рис. 3.11 точка на пересечении трех разделяющих прямых находится на разном расстоянии от центров трех классов, однако с точки зрения ее отнесения к одному из классов она равноудалена от них. Адекватной мерой расстояния в ситуации дискриминантного анализа (при равных априорных расстояниях) является так называемое расстояние Махаланобиса. Расстояние Махаланобиса между двумя точками в пространстве наблюдаемых переменных определяется как евклидово расстояние между этими точками в новом пространстве, получаемым из исходного пространства путем такого его преобразования, при котором первоначальные произвольные нормальные распределения преобразуются в нормальные распределения с единичными дисперсиями и нулевыми коэффициентами корреляциями. Например, в случае рис. 3.10 этого можно достичь путем поворота координатных осей в направлении осей эллипсов, представляющих линии уровня, и последующего соответствующего изменения масштаба новых осей.
Если предпосылки линейного дискриминантного анализа не выполняются даже приближенно, то используют нелинейные методы распознавания образов. Одним из таких методов является метод k ближайших соседей. Он состоит в том, что находятся k ближайших соседей нового наблюдения, и оно относится к тому классу, представителей которого больше всего среди этих ближайших соседей. Выбор числа k не формализован - алгоритм работает даже при k =1, но очевидно, что при большом числе наблюдений его можно брать большим, поскольку это должно повысить надежность правильного распознавания. Может оказаться полезным перед вычислением расстояний от нового наблюдения до всех остальных (для выявления ближайших) произвести преобразование пространства с тем, чтобы новые расстояния лучше соответствовали реальной близости наблюдений к своим классам. Во всяком случае, обязательно стоит пронормировать наблюдаемые переменные путем деления их на свои выборочные среднеквадратичные отклонения, если эти переменные измерены в разных единицах.
Литература
Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Исследование зависимостей. М.: Финансы и статистика, 1985, 487 с.
Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Классификация и снижение размерностей. М.: Финансы и статистика, 1989, 607 с.
Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. М.: Мир, 1982, 488 с.
Благовещенский Ю.Н., Самсонова В.П., Дмитриев Е.А. Непараметрические методы в почвенных исследованиях. М.: Наука, 1987, 98 с.
Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. Вып. 1. М.: Мир, 1974, 405 с.
Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983, 416 с.
Боровков А.А. Математическая статистика. Новосибирск: Наука, 1997, 772 с.
Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия. Учебное пособие. Л.: Изд-во ЛГУ, 1982, 264 с.
Гмурман В.Е. Теория вероятностей и математическая статистика. 12-е изд. М.: Юрайт, 2005, 479 с.
Гнеденко Б.В., Хинчин А.Я. Элементарное введение в теорию вероятностей. 1982. М.: Наука.
Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Диалектика, 2007, 912 с.
Ивашов-Мусатов О.С. Теория вероятностей и математическая статистика. М.: Фима, 2003, 224 с.
Кендалл М. Дж., Стьюарт А. Теория распределений. М.: Наука, 1966, 586 с.
Кендалл М. Дж., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973, 892 с.
Кендалл М. Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. М.: Наука, 1976, 734 с.
Колмогоров А.Н. Основные понятия теории вероятностей. М.: Наука,, 1974, 119 с.
Компьютерная биометрика. Под ред. В.Н. Носова. М.: Из-во МГУ, 1990, 232 с.
Коршунов Д.А., Чернова Н.И. Сборник задач и упражнений по математической статистике. Новосибирск: Из-во Института математики, 2004, 128 с.
Крамер Г. Математические методы статистики. Москва: Мир, 1975, 648 с.
Макаров А.А., Тюрин Ю.Н. Анализ данных на компьютере. 3-е изд. М.: ИНФРА-И, 2003, 544 с.
Манита А.Д. Теория вероятностей и математическая статистика. М.: Из-во МГУ, 2001, 120 с.
Мешалкин Л.Д. Сборник задач по теории вероятностей. М.: Изд-во МГУ, 1963, 154 с.
Мостеллер Ф. Пятьдесят занимательных вероятностных задач с решениями. М.: Наука, 1971, 103 с.
Налимов В.В., Голикова Т.И. Логические основания планирования эксперимента. 2-е изд. М.: Металлургия, 1981, 151 с.
Тутубалин В.Н. Теория вероятностей и случайных процессов. М.: Из-во МГУ, 1992, 400 с.
Тюрин Ю.Н. Непараметрические методы статистики. М.: Знание, Непараметрические методы математической статистики. М., Знание, 1978, 64 с.
Феллер В. Введение в теорию вероятностей и ее приложения. Том 1. М.: Мир, 1984, 528 с.
Феллер В. Введение в теорию вероятностей и ее приложения. Том 2. М.: Мир, 1984, 752 с.
Фишер Р.А. Статистические методы для исследователей. Госстатиздат, 1958, 267 с.
Хан Г., Шапиро С. Статистические модели в инженерных задачах. М.: Мир, 1969, 396 с.
Харман Г. Современный факторный анализ. – М.: Статистика, 1972, 486 с.
Холлендер М., Вульф Д. А. Непараметрические методы статистики. - М.: Финансы и статистика, 1983, 518 с.
Чжун К.Л., Аитсахлиа Ф. Элементарный курс теории вероятностей. М.: Бином, 2007, 455 с.
Шеффе Г. Дисперсионный анализ. М.: Наука, 1980, 512 с.
Lilliefors H.W. The Kolmogorov-Smirnov Test for Normality with Mean and Variance Unknown. J. Amer. Stat. Assn., 1967, v. 62, 399-402.
Sokal R.R., Rohlf F.J. 1995. Biometry. 3rd ed. N.Y.: W.H. Freeman & Co, 887 p.
Zar J.H. 1999. Biostatistical Analysis. 4th ed. Upper Saddle River, N.J.: Prentice-Hall, Inc., 998 p.
страница 1 ... страница 2страница 3страница 4страница 5
скачать
Другие похожие работы: