NetNado
  Найти на сайте:

Учащимся

Учителям



Анализ многомерных данных



Глава 3. Анализ многомерных данных

В предыдущей главе рассматривались методы статистического анализа данных, описываемых, в основном, одной переменной. Теперь мы рассмотрим методы, позволяющие анализировать данные, описываемые любым числом переменных, т.е. так называемые многомерные данные.

3.1 Классификация методов анализа многомерных данных

Несмотря на чрезвычайное разнообразие методов анализа многомерных данных, имеется четкая система представления как самих данных, так и результатов их анализа. Данные представляются в виде прямоугольной таблицы (матрицы), строки которой соответствуют различным ситуациям (наблюдениям), а столбцы - переменным, наблюдаемым в этих ситуациях. Результаты же представляются в виде функций, выражающих одни переменные (называемые зависимыми переменными, или откликами) через другие переменные (называемые независимыми переменными, или факторами). Такое представление исходных данных и результатов анализа чрезвычайно удобно, поскольку предлагает ясную схему для сбора данных, их обработки и интерпретации полученных результатов.

Предлагаемая ниже классификация методов анализа данных проведена по двум основаниям: отсутствию или наличию независимых переменных, а также по типу зависимых и независимых переменных, которые могут быть качественными или количественными. Схема этой классификации представлена на рис. 3.1. Основным служит деление на методы, предполагающие наличие независимых переменных (левая часть схемы) и не предполагающие их наличие (правая часть). Это деление определяет содержательную постановку задачи, тогда как дальнейшее деление методов по типу зависимых и независимых переменных носит скорее технический характер, детализируя математическую процедуру ее решения.

В случае априорного разделения переменных на зависимые и независимые (см. левую часть рис. 3.1) задача анализа состоит в получении описания зависимости Y от X. Выбор метода решения зависит прежде всего от того, являются ли качественными или количественными зависимые переменные Y. Окончательное решение о выборе метода анализа данных принимается в зависимости от типа независимых переменных X.

Наиболее часто на практике для установления связи между независимыми и зависимыми переменными применяют регрессионный анализ и дисперсионный анализ. В обоих случаях откликами служат количественные переменные, однако факторы в регрессионном анализе количественные, а в дисперсионном - качественные.

Рис 3.1. Классификация методов анализа данных

В регрессионном анализе наиболее явно виден функциональный характер модели анализа данных. Задача регрессионного анализа прямо формулируется как задача поиска функциональной зависимости Y от X, причем задача поиска формы связи не менее важна, чем вопросы статистической значимости полученных результатов. Наиболее широко применяется модель множественного линейного регрессионного анализа, позволяющая получать аналитически все стандартные статистические оценки. В более сложных ситуациях (например, при использовании пошаговых процедур) для получения статистических выводов приходится применять методы, основанные на стохастическом моделировании, такие как случайная пермутация или бут-стрэп.

Задачей дисперсионного анализа является установление связи между независимыми качественными переменными и зависимыми количественными. Однако поскольку функциональная структура связи очень проста - отклики представляются как линейные комбинации бинарных переменных - уровней факторов, то основное внимание в дисперсионном анализе уделяется вопросам статистической значимости влияния отдельных факторов.

Если отклики Y качественные, то для анализа используется группа методов, известная под общим названием распознавания образов. Наиболее используемым методом распознавания в случае количественных факторов является дискриминантный анализ. Примерами методов распознавания, ориентированных на случай качественных факторов, могут служить сегментационный анализ и метод обобщенного портрета.

Целью дискриминантного анализа является получение правила, позволяющего на основе наблюденных значений количественных независимых переменных X предсказывать значение качественной переменной Y, указывающей на принадлежность наблюдения к одному из заданных классов.

Сегментационный анализ состоит в последовательном разбиении совокупности наблюдений с целью получения, в конечном итоге, групп, максимально однородных по классовому составу.

Случай отсутствия зависимых переменных (правая часть рис. 3.1) предполагает, что все анализируемые переменные в некотором смысле равноправны, и мы принимаем их за отклики (для простоты будем считать их количественными), значения которых определяются какими-то нам неизвестными факторами. Примерами могут служить морфологические или генетические характеристики растений, животных или людей, принадлежащих определенному таксону или обитающих на определенной территории. Задача анализа состоит в поиске этих неизвестных факторов. Выбор метода решения зависит от того, считаем ли мы искомые факторы качественными или количественными.

Для поиска качественных факторов используется группа методов, известная под названием кластерный анализ, среди которых наиболее часто используется так называемый агломеративно-иерархический метод, основанный на последовательном объединении многомерных наблюдений сначала в мелкие, а затем во все более и более крупные группы. Результатом кластерного анализа является разбиение всей совокупности наблюдений на классы. Полученной классификации соответствует качественная переменная (или несколько переменных, если используются несколько классификаций разной степени дробности или пересекающиеся классификации), категориями которой служат номера классов. Именно эта переменная (или переменные) и будет искомым качественным фактором. Найдя такой фактор (классифицирующую переменную), мы получаем возможность объяснять сходство или различие в значениях откликов для разных наблюдений принадлежностью их к одному или к разным классам.

Если же неизвестные факторы ищутся в форме количественных переменных, то используются методы факторного анализа. В этом случае задача состоит в представлении имеющихся откликов, Y, в виде линейных комбинаций неизвестных количественных факторов, X . С практической точки зрения применение этого метода оправдано, если удается с достаточной степенью приближения выразить большое количество откликов через малое число факторов. Одним из наиболее часто используемых методов этого класса является метод главных компонент, основанный на ортогональном проектировании исходного многомерного пространства в пространство меньшей размерности, в котором точки-наблюдения имеют наибольший разброс. Метод позволяет записать исходные данные в более компактном виде с сохранением максимума содержащейся в них информации и даже представить их графически на плоскости для случая двух факторов.

Следует еще раз подчеркнуть, что основным является деление методов анализа на те, в которых переменные делятся на зависимые и независимые (анализ связи), и те, в которых такого деления нет (анализ факторов). Дальнейшее деление методов по типу откликов и факторов довольно относительно. Дело в том, что уровни качественных факторов можно рассматривать как бинарные переменные, которые, в свою очередь, можно считать количественными переменными со значениями 0 и 1. С другой стороны, непрерывную шкалу значений количественной переменной можно категоризовать и рассматривать эту переменную как качественную. Во всяком случае, такого рода преобразования приходится делать вынужденно, когда по типу различаются не только факторы и отклики, но и разные переменные среди факторов или среди откликов.

3.2 Матричная алгебра

Адекватным математическим аппаратом для описания методов статистического анализа многомерных данных является матричная алгебра. Напомним ее основные понятия.

Матрицей порядка n×m (или n×m-матрицей) называется любая таблица из n строк и m столбцов. Если n=m, то матрица называется квадратной, а число n=m – ее порядком. Например, матрицей является таблица многомерных статистических данных, содержащая значения m переменных для n наблюдений

Другой пример – матрица выборочных корреляций, вычисленная для этих данных, которая имеет порядок m?m

Матрица из одного столбца называется также вектором-столбцом, или просто вектором. Например, совокупность наблюдений зависимой переменной Y можно представить в виде вектора-столбца

Для матриц одного порядка определена операция сложения – элементы матрицы суммы равны сумме соответствующих элементов матриц-слагаемых

Умножение матрицы на число определяется как умножение каждого элемента матрицы на это число

Если число столбцов одной матрицы равно числу строк другой (такие матрицы называются соответственными), то для них определена операция умножения матриц по правилу «строка на столбец»

Мы видим, что умножение матрицы т?m порядка на матрицу порядка m?k дает матрицу порядка n?k.

Операция транспонирования матрицы состоит в том, что строки исходной матрицы становятся столбцами транспонированной

Квадратная матрица может иметь обратную матрицу. Матрица называется обратной к квадратной матрице порядка n?n, если , где - единичная матрица, т.е. матрица, диагональные элементы которой единицы, а внедиагональные – нули. Единичная матрица обладает тем свойством, что умножение любой квадратной матрицы на единичную матрицу того же порядка не меняет , т.е. . Обратная матрица для единичной матрицы является также единичной матрицей, т.е. .

Обратная матрица может быть вычислена по формуле

где – так называемая присоединенная матрица для , а – ее определитель, часто обозначаемый также как . Определитель матрицы – это связанное с ней числовое значение, определяемое выражением

в котором суммирование ведется по всем n! перестановкам индексов 1, 2, …, n, а r – число парных инверсий, необходимых для получения перестановки k1, k2, …, kn из исходного упорядочения 1, 2, …, n. Например для определителя квадратной матрицы 2?2

получаем следующий результат

Определитель матрицы порядка 1?1 равен значению ее единственного элемента.

Квадратная матрица называется ортогональной, если , т.е. если обратная матрица может быть получена из исходной просто путем ее транспонирования .

Очевидно, если определитель матрицы равен нулю (в этом случае она называется вырожденной), то для нее не существует обратной матрицы (т.к. в формуле для вычисления обратной матрицы определитель находится в знаменателе). В частности, если элементы какой-либо строки или столбца матрицы пропорциональны другой строке или столбцу (т.е. получены путем умножения их элементов на одно и то же число), то определитель будет равен нулю, и такая матрица не будет иметь обратной. Например,

Вообще, определитель будет равен нулю в случае, если какая-либо строка или столбец матрицы является линейной комбинацией других ее строк или столбцов.

С любой квадратной матрицей порядка n?n связан также набор ее собственных значений ?1, ?2, …, ?n – решений уравнения n–ой степени

В свою очередь, каждому собственному значению ?i соответствует собственный вектор , удовлетворяющий уравнению

которое означает, что умножение слева собственного вектора на матрицу сводится к умножению его на скаляр – собственное значение ?i. Отсюда следует, что если из n собственных векторов-столбцов составить квадратную матрицу , то будет выполняться соотношение


( - матрица, главная диагональ которой образована собственными значениями ?1, ?2, …, ?n, а вне диагональные элементы – нули). Можно показать, что если все собственные значения матрицы различны, то она не вырождена и имеет обратную матрицу . В этом случае, умножая полученное соотношение слева на , получаем

т.е. умножая слева на , а справа на , мы приводим ее к диагональному виду.

3.3 Регрессионный анализ

Выше уже отмечалось, что одними из самых распространенных методов анализа связи между количественными переменными являются методы регрессионного анализа. Пусть в эксперименте наблюдаются значения переменной . Рассмотрим матрицу экспериментальных данных

где и — значения переменных и , соответственно, в i-м эксперименте.

В регрессионном анализе (regression analysis) рассматривается связь между переменной , называемой зависимой переменной (dependent variable), и переменными , называемыми независимыми переменными (independent variables) (слово «независимые» здесь применяется не в вероятностном смысле). Эта связь описывается некоторой математической моделью, выражаемой функцией

где — неизвестные параметры, а — ошибка предсказания посредством функции регрессии .

Если функция регрессии линейна по параметрам (но не обязательно линейна по независимым переменным), то эта модель называется моделью линейного регрессионного анализа. Рассмотрим более подробно эту модель. Во многих реальных задачах экспериментальных исследований более подходящей является модель нелинейного регрессионного анализа (функция регрессии нелинейна по параметрам). Но модель линейного регрессионного анализа часто бывает удовлетворительной в малой области изменения независимых переменных, а также как первое приближение к модели нелинейного регрессионного анализа. В практических исследованиях описание зависимости между переменными с помощью функции регрессии помогает установить наличие возможных причинных связей. Это часто привлекает исследователей к использованию методов регрессионного анализа. Другая причина частого использования методов регрессионного анализа состоит в том, что в ситуации, когда прямые измерения зависимой переменной затруднены, уравнение регрессии позволяет предсказать ее значения по значениям независимых переменных.

Матрицу экспериментальных данных можно получить одним из двух способов. При первом способе значения независимых переменных надлежащим образом выбираются и устанавливаются без погрешностей экспериментатором в каждом опыте, и при этих значениях измеряется с ошибками значение зависимой переменной . Такой эксперимент называется активным. Например, при изучении влияния температуры водной среды на скорость дыхания гидробионтов экспериментатор выбирает определенные значения температур: 5°, 10° и т. д. Затем для этих значений температуры определяется скорость дыхания гидробионтов. При таком подходе только будет случайной величиной. При втором способе одновременно наблюдаются значения всех переменных , причем все эти переменные случайны, т. е. матрица экспериментальных данных в этом случае есть случайная выборка значений многомерной случайной величины . Такой эксперимент называется пассивным. Например, в случайно выбранной пробе воды регистрируется число бактерий на 1 мл , температура водной среды , соленость и изучается влияние независимых переменных на численность бактерий в водоеме .

Второй способ позволяет проводить так называемый корреляционный анализ, т. е. делать статистические выводы (оценивание, проверка гипотез) о мерах линейной зависимости между переменными. К мерам линейной зависимости относятся коэффициент корреляции, множественный коэффициент корреляции и частный коэффициент корреляции.

К статистическим проблемам регрессионного анализа относятся: проверка выполнения предположений, лежащих в основе регрессионного анализа, нахождение оценок неизвестных параметров регрессии, построение доверительных интервалов для неизвестных параметров регрессии, проверка гипотез относительно этих параметров, проверка адекватности регрессионной модели.
3.3.1 Множественная линейная регрессия

Пусть зависимая, а независимые переменные. Рассмотрим ситуацию активного эксперимента. Модель множественной линейной регрессии записывается в виде

(3.1)

где - неизвестные параметры регрессии, а - независимые случайные ошибки, распределенные по нормальному закону со средним 0 и одинаковой дисперсией : .
3.3.1.1 Оценивание параметров линейной регрессии

При построении оценок неизвестных параметров регрессии можно отказаться от предположения о нормальности, а предположение о независимости заменить на предположение о некоррелируемости.

В случае, когда , модель множественной линейной регрессии (3.1) записывается в виде

,

и называется простой линейной регрессией (заметим, что через обозначено значение в -м эксперименте единственной независимой переменной).

Оценки неизвестных параметров регрессии получаются с помощью метода наименьших квадратов (мнк). Обозначим через мнк-оценки неизвестных параметров ( называется свободным членом или константой регрессии, a коэффициентами регрессии), т.е. оценки, обеспечивающие минимум суммы квадратов отклонений значений зависимой переменной от регрессии

3.2)

которая является мерой ошибки предсказания зависимой переменной с помощью модели множественной линейной регрессии по независимым переменным . Оценкой функции регрессии (или прямой наименьших квадратов в случае простой линейной регрессии) будет зависимость

На рис. 3.2, иллюстрирующем метод наименьших квадратов в случае простой линейной регрессии, изображена прямая наименьших квадратов и модули остатков

где - предсказанные по регрессионной модели значения зависимой переменной, которые в случае простой регрессии равны

а в случае множественной линейной регрессии -
Рис.3.2. Прямая наименьших квадратов простой линейной регрессии. Графическая иллюстрация к определению сумм квадратов таблицы дисперсионного анализа
Можно доказать, что оценки , получаемые по методу наименьших квадратов, линейно зависят от наблюдений зависимой переменной .

Приведем здесь формулы для вычисления мнк-оценок для случая простой линейной регрессии, т.е для случая

и

где

и .

Программы множественной линейной регрессии всех пакетов статистических программ вычисляют оценки . Кроме того, вычисляется таблица дисперсионного анализа для модели множественной линейной регрессии (табл. 3.1), на основании которой мы судим о качестве «подгонки» модели. В табл. 3.1 через обозначается обусловленная регрессией сумма квадратов, - сумма квадратов отклонений от линии регрессии или остаточная сумма квадратов (сумма квадратов остатков), - полная сумма квадратов. На рис. 3.2 дана графическая иллюстрация слагаемых сумм квадратов в случае простой линейной регрессии. Если то все экспериментальные точки лежат на линии регрессии - прямой наименьших квадратов , а если , то наилучшее предсказание осуществляется моделью .

Таблица 3.1. Таблица дисперсионного анализа для модели множественной линейной регрессии


Источник дисперсии

Источник дисперсии

Степени свободы

Средний квадрат

F-отношение

р-значение

Регрессия
















Отклонение от регрессии (остатки)
















Полная

















Можно показать, что - несмещенная и состоятельная оценка для дисперсии ошибки измерения зависимой переменной. Величину называют стандартной ошибкой оценки зависимой переменной (standard error of estimate).

Верно замечательное свойство таблицы дисперсионного анализа

Отношение есть доля вариации , объясняемой регрессией по . Это отношение называется коэффициентом детерминации. Коэффициент детерминации является мерой качества предсказаний значений зависимой переменной моделью множественной линейной регрессии. Если он равен 1 (т. е. ), то экспериментальные точки в точности лежат на линии регрессии. А если коэффициент детерминации равен 0 (т. е. , a ), то наилучшее предсказание осуществляется моделью , т. е. «не зависит» от .

Можно показать в случае множественной линейной регрессии, что

а в случае простой линейной регрессии

,

где есть выборочный множественный коэффициент корреляции между и (определение множественного коэффициента корреляции дается ниже), а — выборочный коэффициент корреляции между и .

Модель множественной линейной регрессии удобно записывать в матричной форме. Обозначим через вектор-столбец неизвестных параметров регрессии, — вектор-столбец мнк-оценок, — вектор-столбец наблюденных значений зависимой переменной , — вектор-столбец ошибок, а также

.

Тогда матричная модель множественной линейной регрессии (3.1) записывается в виде

где — случайная величина, распределенная по многомерному нормальному закону ( — единичная диагональная матрица).

Можно показать, что вектор мнк-оценок является решением системы так называемых нормальных уравнений

и равен

а ковариационная матрица вектора мнк-оценок равна


3.3.1.2 Доверительные интервалы

Большинство программ множественной линейной регрессии вычисляют среднеквадратичные отклонения мнк-оценок коэффициентов регрессии, обычно называемые их стандартными ошибками (standard error of regression coefficients), которые будем обозначать через , где . Можно показать, что -ный доверительный интервал для неизвестного коэффициента регрессии равен

,

где - квантиль распределения Стьюдента с степенью свободы порядка .

Для случая простой линейной регрессии выражения для стандартной ошибки свободного члена регрессии и углового коэффициента регрессии имеют вид

Построим теперь доверительный интервал для неизвестного значения . Предсказанное значение можно интерпретировать двумя способами, поэтому, соответственно способу интерпретации, можно построить два доверительных интервала. При первом способе, - наилучшая оценка измерения , соответствующего значениям независимых переменных . При втором способе, - наилучшая оценка математического ожидания измерения , соответствующего значениям независимых переменных .

Обозначим через вектор-столбец, где , а через квадратную матрицу с элементами . Тогда нижняя и верхняя границы -ного доверительного интервала для измерения при заданных определяются выражением

(3.3)

а нижняя и верхняя границы -ного доверительного интервала для математического ожидания измерения при заданных определяются выражением

(3.4)

где — квантиль распределения Стьюдента с степенями свободы порядка .

В случае простой линейной регрессии доверительные интервалы (3.3) и (3.4) вычисляются более просто:

и


Заметим, что чем дальше от среднего значения, тем больше доверительный интервал. Многие программы простой линейной регрессии рисуют эти доверительные интервалы в виде кривых вокруг прямой наименьших квадратов. Выбор типа доверительного интервала зависит от того, как интерпретирует предсказанное значение исследователь.
3.3.1.3 Проверка гипотез о коэффициентах линейной регрессии

Рассмотрим проверку гипотезы о том, что вычисленные коэффициенты регрессии значимо не отличаются от нуля. Это равносильно гипотезе о том, что независимые переменные значимо не улучшают предсказания по сравнению с моделью . Таким образом, рассмотрим нулевую гипотезу

при альтернативной гипотезе не все равны нулю, (альтернативная гипотеза состоит в том, что некоторые из независимых переменных значимо улучшают предсказание по сравнению с моделью ).

Зададимся уровнем значимости критерия . Статистика критерия

(3.5)

при условии, что верна гипотеза , имеет -распределение с и степенями свободы. Эта статистика вычисляется программами множественной линейной регрессии в таблице дисперсионного анализа для модели множественной линейной регрессии (табл. 3.1) вместе с соответствующим p-значением, по которому мы, не пользуясь таблицами квантилей (в данном случае -распределения), можем судить о том, согласуется (p-значение ) или не согласуется (p-значение ) гипотеза с экспериментальными данными.

При отсутствии программы надо построить множество принятия нулевой гипотезы, которое в данном случае имеет вид , где - квантиль -распределения с и степенями свободы порядка . И если вычисленное по выборке значение статистики критерия (3.5) примет значение из множества принятия нулевой гипотезы, то мы считаем, что гипотеза согласуется с экспериментальными данными. В противном случае гипотеза не согласуется с экспериментальными данными и отвергается на уровне значимости .

Рассмотрим теперь проверку гипотезы о том, что -й коэффициент регрессии значимо не отличается от нуля. Это равносильно гипотезе о том, что независимая переменная значимо не улучшает предсказание . Таким образом, рассмотрим следующую нулевую и альтернативную гипотезы

Зададимся уровнем значимости критерия . При проверке данной гипотезы обычно рассматривают одну из двух эквивалентных статистик:

и . (3.6)

При условии, что верна гипотеза , первая из статистик (3.6) имеет -распределение с 1 и степенями свободы, а вторая – распределение Стьюдента с степенями свободы. Эти статистики вычисляются программами множественной линейной регрессии вместе с соответствующими p-значениями.

При отсутствии программы надо построить множество принятия нулевой гипотезы, которое для первой статистики имеет вид , а для второй где - квантиль -распределения с 1 и степенями свободы порядка , a - квантиль распределения Стьюдента с степенями свободы порядка .

Заметим, что для проверки гипотезы , где — некоторое известное число при двусторонней альтернативе используется статистика

,

которая, при условии что верна гипотеза , распределена по закону Стьюдента с степенями свободы.

Предположения регрессионного анализа и проверка адекватности регрессионной модели исследуются при рассмотрении остатков . Графики остатков выводятся на печать большинством программ множественной и простой линейной регрессии. В некоторых программах для проверки коррелируемости ошибок вычисляется статистика Дурбина — Ватсона.
3.3.2 Множественный и частный коэффициенты корреляции

Пусть - зависимая, а - независимые переменные. Рассмотрим ситуацию пассивного эксперимента, т. е. предположим, что матрица экспериментальных данных является случайной выборкой значений многомерной случайной величины .

Определения. Множественным коэффициентом корреляции (multiple correlation coefficient) между и называется число , равное максимальному значению коэффициента корреляции между и любой невырожденной линейной комбинацией .

Частным коэффициентом корреляции (partial correlation) между и при фиксированных значениях переменных (список не содержит переменную ) называется число

,

где , , а и , соответственно, средние условных распределений и при фиксированных значениях .

Множественный коэффициент корреляции служит мерой линейности зависимости между и набором переменных , a частный коэффициент корреляции - мерой линейности зависимости между и , когда фиксированы.

Предположим теперь, что — многомерная нормально распределенная случайная величина. Обозначим через и средние и дисперсии случайных величин , а через и — коэффициенты ковариации с и с соответственно. Тогда можно доказать, что условное распределение для данных значений независимых переменных является нормальным с параметрами

и (3.8)

где - функции дисперсий и ковариаций случайных величин , a . Причем случайная величина нормально распределена с параметрами 0 и . Поэтому можно записать

где . Таким образом, мы пришли к модели множественной линейной регрессии (3.1), поэтому изложенные ранее результаты, относящиеся к активному эксперименту, применимы и в случае пассивного эксперимента. Заметим также, что из (3.8) следует, что квадрат множественного коэффициента корреляции равен доле дисперсии , «объясненной» линейной регрессионной зависимостью от

Аналогично можно показать, что квадрат частного коэффициента корреляции можно понимать как долю остаточной дисперсии , «объясненной» добавлением к набору .
3.3.3 Пошаговая регрессия

До сих пор мы рассматривали множественную линейную регрессию зависимой переменной от всех независимых переменных . Но часто перед исследователем стоит задача сначала выбрать из этого множества независимых переменных некоторое подмножество (называемое наилучшим подмножеством переменных для предсказания ), такое что этому подмножеству соответствует наибольший коэффициент множественной корреляции с зависимой переменной среди всех подмножеств той же длины, а затем провести множественный линейный регрессионный анализ, описанный в предыдущем параграфе, считая независимыми переменные из наилучшего подмножества переменных.

Обычно для выбора подмножества переменных применяется пошаговая регрессия (step-wise regression), когда независимые переменные включаются в наилучшее подмножество последовательно одна за другой на основании некоторого критерия включения переменной. В некоторый момент на основании правила остановки пошаговая процедура прекращает включение новых переменных, поскольку добавление новых не улучшает значимо предсказание переменной . При этом на каждом шаге процедуры некоторая переменная, уже включенная в наилучшее подмножество переменных, на основании некоторого критерия удаления переменных может быть удалена из подмножества переменных. Таким образом, метод пошаговой регрессии состоит из построения на каждом шаге множественной линейной регрессии, описанной в предыдущем параграфе и вычисления критериев включения и исключения переменных и остановки.

Рассмотрим стандартную пошаговую процедуру (-метод), которая реализуется во всех программах пошаговой регрессии.

Критерий включения переменной основывается на статистике -включения. На очередном шаге процедуры включается та переменная, для которой значение статистики -включения наибольшее, при условии, что оно превосходит некоторый установленный минимум, задаваемый правилом остановки.

Критерий исключения переменной основывается на статистике -удаления. На очередном шаге процедуры исключается та переменная, для которой значение статистики -исключения наименьшее, при условии, что оно меньше некоторого установленного минимума, задаваемого правилом остановки.

Рассмотрим более подробно статистики -включения и -исключения. Предположим, что в набор переменных для предсказания уже включено переменных (без потери общности можно считать, что это первые переменных исходного набора переменных ). Тогда значение статистики -включения для переменной равно

(3.9)

где - квадрат выборочного частного коэффициента корреляции между и при фиксированных значениях переменных Статистика (3.9) служит для проверки гипотезы , т. е. для проверки гипотезы о том, что включение в набор переменных значимо не улучшает предсказание . При условии, что гипотеза верна, статистика (3.9) распределена по -закону с 1 и степенями свободы.

Значение статистики -исключения для переменной равно

(3.10)

где - квадрат выборочного частного коэффициента корреляции между и при фиксированных значениях переменных . Статистика (3.10) служит для проверки нулевой гипотезы

т. е. для проверки гипотезы о том, что исключение переменной из набора переменных значимо не ухудшает предсказание . При условии, что гипотеза верна, статистика (3.10) распределена по -закону с одной и степенями свободы.

Более подробно с пошаговыми процедурами можно познакомиться в книге Афифи и Эйзена (1982).
3.3.4 Нелинейная регрессия
Описанная выше модель множественной линейной регрессии (3.1) наиболее часто применяется в анализе данных в силу простоты ее интерпретации, наличия быстрых и эффективных алгоритмов оценивания параметров и вычисления доверительных интервалов и статистик для проверки гипотез, а также целесообразности выбора наиболее простых моделей в условиях сильной зашумленности данных. Следует подчеркнуть, что важна линейность по параметрам, а по независимым переменным зависимость может быть нелинейной. Модель (3.1) может быть записана, оставаясь линейной, в более общей форме

где - произвольные функции от независимых переменных, а число слагаемых в правой части может любым. В частности, полиномиальная модель любого порядка от любого числа переменных будет линейной. Например, в случае одной переменной полиномиальная модель

сводится к линейной путем введения новых независимых переменных

В некоторых случаях к линейной может быть сведена даже модель нелинейная по параметрам. Например, экспоненциальная модель вида

путем логарифмирования обеих частей уравнения и замены зависимой переменной на ее логарифм сводится к линейной модели

, где

Однако сведение нелинейной по параметрам модели к линейной часто невозможно. Например, нельзя свести к линейной двойную экспоненциальную модель

В таких случаях, когда модель существенно нелинейна, применяют метод нелинейного регрессионного анализа.

Принципиально, подход к оцениванию параметров нелинейной регрессионной модели не отличается от рассмотренного выше линейного регрессионного анализа. В частности, для оценивания может применен метод наименьших квадратов. Однако технически задача нелинейной оптимизации может часто оказаться очень сложной из-за наличия большого числа локальных минимумов суммы квадратов.
3.3.5 Логистическая регрессия

Логистическая регрессия предназначена для анализа данных, в которых независимые переменные количественные, а зависимая – качественная, точнее, бинарная. Наример, условия эксперимента заданы набором количественных переменных, а его результат – успех (семя проросло) или неудача (семя не проросло) описывается бинарной переменной со значениями 1 (успех) или 0 (неудача). В принципе, классификации п. 3.1, это типичная задача дискриминантного анализа. Однако в силу некоторой специфичности ее постановки, состоящей, в частности, в том, что акцент ставится не на классификацию, а на оценку вероятности, логистическая задача считается регрессионной.

Вероятность «успеха» в данной постановке задачи описывается следующим нелинейным логистическим регрессионным уравнением

обеспечивающим нахождение оцененного по нему значения зависимой переменной в пределах от 0 до 1 (функция называется логистической) .

Оценки коэффициентов уравнения находятся с помощью метода максимума правдоподобия. Для их получения необходимо максимизировать логарифм функции правдоподобия, который в данном случае имеет вид

Смысл выражения в правой части уравнения легко понять, если заметить, что слагаемые первой суммы отличны от нуля только для , а второй – только для , и что выражение под логарифмом в первой сумме содержит оценку вероятности появления 1, а во второй - оценку вероятности появления 0, т.е. это, действительно, логарифм вероятности появления наблюдаемого набора значений зависимой переменной при заданном наборе значений независимых переменных и заданных значениях оцениваемых параметров уравнения, как это и требуется в методе максимального правдоподобия.

3.4 Дисперсионный анализ

Метод дисперсионного анализа (Analysis of Variance, ANOVA), разработанный Р.Фишером, используется для анализа связи между количественной зависимой переменной Y и качественными независимыми переменными X1, ..., Xs, или факторами, такими как пол животного, вид растения или животного, тип почвы или удобрений, которые не допускают количественного описания и потому называются качественными переменными. Конкретные значения фактора называют его уровнями. В общем случае рассматривается влияние нескольких факторов, каждый из которых имеет не менее двух уровней.

Дисперсионный анализ основан на разложении (анализе) общей дисперсии зависимой переменной Y на компоненты, каждая из которых соответствует определенному источнику изменчивости измеряемой переменной Y. Это и объясняет название метода - дисперсионный анализ. Аббревиатура ANOVA, которая используется наряду с полным названием метода, была введена Тьюки (J.W. Tukey).

В основе каждой задачи дисперсионного анализа лежит план эксперимента. Планом эксперимента называют совокупность комбинаций уровней факторов (или ячеек, как их принято называть) и число наблюдений для каждой из комбинаций. Если в каждой из возможных ячеек проводится хотя бы одно наблюдение, то такой план называют полным факторным планом. В противном случае - неполным факторным планом. План с равным числом наблюдений в ячейках называют сбалансированным, в противном случае - несбалансированным.

В зависимости от математической природы факторов различают три типа моделей. Если рассматривается влияние конкретных уровней каждого фактора, используется модель с постоянными факторами (модель I). Если же уровни фактора случайно выбираются из практически бесконечного множества уровней, используется модель со случайными факторами (модель II). И наконец, если уровни одних факторов являются постоянными, а уровни других факторов - случайными, такая модель называется смешанной моделью (мо­дель III). Задачи дисперсионного анализа различают также по числу анализируемых факторов - дисперсионный анализ может быть однофакторным, двухфакторным и т.д.

Все конкретные модели дисперсионного анализа, которые мы будем далее рассматривать, можно записать в виде линейной модели. Для построения оценок неизвестных параметров, как и в регрессионном анализе, используется метод наименьших квадратов. Мнк-оценки неизвестных параметров являются несмещенными, линейно зависящими от наблюдений оценками с наименьшей дисперсией среди всех несмещенных линейных оценок.

Дисперсионный анализ опирается на предположение нормальности распределения ошибок исходных данных. Отметим, что нормальность нужна только для проверки гипотез и построения интервальных оценок. Само построение оценок и их оптимальные свойства не опираются на предположения нормальности ошибок наблюдений. Критерии проверки гипотез в модели I будут относительно устойчивы при нарушении нормальности, но это не так для модели II. Заметим также, что при планировании эксперимента надо, где это возможно, использовать равные числа наблюдений в ячейках для обеспечения свойств устойчивости к нарушению предпосылок.

      1. Однофакторный дисперсионный анализ

Однофакторный дисперсионный анализ используется для исследования влияния одного фактора на количественную переменную. Такие задачи возникают, например, при сравнении урожайности нескольких сортов пшеницы, эффективности действия различных лекарств и т. п. Если исследователя интересует урожайность определенных сортов пшеницы, то сорт является постоянным фактором, и для представления результатов эксперимента используется модель I. И наоборот, сорт является случайным фактором, если рассматриваемые сорта были выбраны случайно из большого (практически бесконечного) числа сортов. В этом случае используется модель II.

3.4.1.1 Модель с постоянными уровнями фактора

Пусть фактор А варьируется в эксперименте на заранее выбранных I уровнях, а - результаты ni наблюдений, соответствующих i-ому уровню фактора, которые являются одной из I независимых выборок из генеральной совокупности с математическими ожиданиями (генеральными средними) μi, i=1,…, I. Фактически фактор A является основанием для классификации всей совокупности наблюдений, поэтому однофакторный дисперсионный анализ называют еще однофакторной классификацией.

Математическая модель однофакторного дисперсионного анализа имеет вид

yij = μi + εij, i=1,…, I; j=1,…, ni, (3.11)

где εij - ошибки наблюдений, независимые нормально распределенные случайные величины с нулевым математическим ожиданием и одинаковой дисперсией σ2, εij~N(0,σ2). Введем принятые в дисперсионном анализе обозначения: - общее (генеральное) среднее, - общее число наблюдений, αi = μi- μ - эффект, обусловленный влиянием i-ого уровня фактора. Заметим, что для моделей с постоянными уровнями факторов эффекты уровней обозначаются греческими буквами.

Используя эти обозначения, модель (3.11) можно переписать в виде

yij = μ + αi + εij, i=1,…, I, j=1,…, ni. (3.12)

Неизвестными параметрами в (3.11) и (3.12) являются μi, αi и μ. М.н.к-оценки этих параметров при дополнительных ограничениях , которые обеспечивают их единственность, находятся по формулам:

, , , , (3.13)

где точкой обозначены результаты усреднений yij по соответствующим индексам

, .

На следующем этапе анализа проверяется гипотеза Н0: μ1 = μ2 =... = μI = μ (или α1 = α2 =…= αI =0) о том, что фактор A не влияет на зависимую переменную Y при альтернативе, что, по крайней мере, одно из средних отличается от общего среднего: μkμ (или αk≠0). Критерий для проверки гипотезы Н0 строится на основе следующего тождества – разложения суммы квадратов отклонений результатов наблюдений от общего среднего, SST, на две компоненты, два источника дисперсии, – SSA и SSR:

Слагаемое SSA характеризует степень разброса наблюдений между уровнями фактора и обусловлено их влиянием. Слагаемое SSR, называемое остаточной суммой квадратов, характеризует степень разброса наблюдений внутри уровней фактора и является следствием случайных причин и неучтенных факторов. Результаты проверки гипотезы Н0 принято заносить в таблицу однофакторного дисперсионного анализа, табл. 3.2.

Таблица 3.2. Однофакторный дисперсионный анализ.



Источник дисперсии

Сумма квадратов


Число степеней свободы


Средний квадрат



F-отношение






Фактор A













Остаток

(ошибка)














Полная











страница 1страница 2 ... страница 4страница 5


скачать

Другие похожие работы:






Создание таблиц баз данных

Лабораторная работа: 1 стр.