Учебное пособие по курсу «Математика»
2.2.1. Точечные оценки параметров
Пусть перед нами стоит задача изучения некоторого количественного признака Х в генеральной совокупности. Допустим, что каким-то образом нам удалось установить, какое именно распределение имеет изучаемый признак в генеральной совокупности. Возникает задача оценки (нахождения некоторых приближенных значений) неизвестных параметров этого распределения. Этими параметрами могут быть, например, и нормального распределения, или параметр распределения Пуассона. На практике о величине неизвестного параметра можно судить по выборке объема n, извлеченной из генеральной совокупности, т.е. .
Оценкой параметра называется любая функция от значений выборки , т.е. статистика.
Заметим, что под самим параметром понимается его истинное значение в генеральной совокупности, являющееся постоянным (неслучайным) числом. Статистику можно рассматривать как функцию от случайных величин таких, что значение есть реализация случайной величины :
Очевидно, что статистику следует выбирать таким образом, чтобы ее значения как можно точнее оценивали значение неизвестного параметра .
Несмещенной называется оценка параметра , если ее математическое ожидание равно значению этого параметра, т.е.:
Если это требование не выполняется, то оценка будет давать значение параметра с некоторым отклонением в ту или другую сторону. Для несмещенных оценок устраняется возможность появления систематических ошибок при оценке параметра .
Эффективной называется оценка , которая при заданном объеме выборки имеет наименьшую возможную дисперсию:
Состоятельной называется оценка , которая при неограниченном увеличении объема выборки стремится по вероятности к оцениваемому параметру , т.е. для любого выполняется:
Оценки называются точечными, т.к. они дают одно числовое значение параметра (точку).
Пусть из генеральной совокупности Х извлечена повторная выборка со значениями признака . В качестве оценок для генеральной средней и генеральной дисперсии рассмотрим выборочную среднюю и выборочную дисперсию .
Можно показать, что оценка для генеральной средней является несмещенной, эффективной и состоятельной, а ее дисперсия равна:
В то же время, оценка для генеральной дисперсии является состоятельной, но смещенной. Поэтому на практике часто пользуются исправленной выборочной дисперсией , которая является несмещенной оценкой генеральной дисперсии и вычисляется по формуле:
Для бесповторной выборки оценки и также являются несмещенными и состоятельными, а дисперсия равна:
,
где объем генеральной совокупности. При неограниченном увеличении объема генеральной совокупности бесповторная выборка неотличима от повторной выборки.
Пусть генеральная совокупность содержит М элементов, обладающих некоторым признаком А.
Генеральной долей признака А называется величина , где объем генеральной совокупности.
Для генеральной доли р несмещенной и состоятельной оценкой будет являться выборочная доля , где число элементов выборки, обладающих признаком А.
Дисперсия выборочной доли в случае повторной выборки определяется по формуле:
,
а в случае бесповторной выборки – по формуле:
,
где: . Если , то повторная выборка практически не отличается от бесповторной, и приведенные формулы для дисперсии выборочной доли дают одинаковый результат.
В случае, когда р неизвестно, его заменяют выборочным значением .
ПРИМЕРЫ:
1. Из 1500 деталей отобрано 250, распределение которых по размеру задано таблицей:
Размер детали | 7,8-8,0 | 8,0-8,2 | 8,2-8,4 | 8,4-8,6 | 8,6-8,8 | 8,8-9,0 |
Количество | 5 | 20 | 80 | 95 | 40 | 10 |
Найти оценки и для среднего и дисперсии, а также дисперсию оценки для повторного и бесповторного отбора.
Используя соответствующие формулы, последовательно найдем:
Далее, для повторной выборки найдем:
а для бесповторной:
2. Выборочно обследовали партию кирпича, поступившего на стройку. Из 100 проб в 12 случаях кирпич оказался бракованным. Найти оценку доли бракованного кирпича и ее дисперсию.
По данным задачи имеем: . Далее найдем:
2.2.2. Основные законы распределения статистических оценок
Распределение статистических оценок в большинстве случаев достаточно точно описывается такими законами распределения, как: нормальный, «хи-квадрат», Стьюдента и Фишера-Снедекора. Поскольку нормальное распределение было достаточно подробно рассмотрено выше, рассмотрим другие распределения.
2.2.2.1. Распределение «хи-квадрат»
Пусть независимые нормально распределенные случайные величины с нулевым математическим ожиданием и средним квадратическим отклонением, равным единице. Тогда закон распределения суммы квадратов этих случайных величин, т.е. случайной величины: , называется законом «хи-квадрат» с n степенями свободы. Если же эти величины связаны одним линейным соотношением, например, , то число степеней свободы уменьшается на единицу и становится равным .
Распределение «хи-квадрат» определяется только одним параметром – числом степеней свободы k. С увеличением числа степеней свободы это распределение медленно приближается к нормальному распределению.
2.2.2.2. Распределение Стьюдента
Пусть совокупность независимых нормально распределенных случайных величин, имеющих нулевые математические ожидания и средние квадратические отклонения, равные единице. Тогда случайная величина:
имеет распределение Стьюдента, или T-распределение, с степенями свободы (Стьюдент – псевдоним английского статистика В. Госсета).
Для решения практических задач часто используется случайная величина, определяемая формулой:
,
также имеющая распределение Стьюдента, но уже с степенями свободы.
Это распределение определяется только одним параметром – числом степеней свободы k. С возрастанием числа степеней свободы распределение Стьюдента довольно быстро приближается к нормальному распределению.
2.2.2.3. Распределение Фишера-Снедекора
Пусть и совокупности независимых нормально распределенных случайных величин, имеющих нулевые математические ожидания и средние квадратические отклонения, равные единице. Тогда случайная величина:
имеет распределение Фишера-Снедекора с n и m степенями свободы.
Распределение Фишера-Снедекора определяется только двумя параметрами – числами степеней свободы n и m.
Если случайные величины X и Y связаны, например, с помощью выборочных средних, то случайная величина:
также имеет распределение Фишера-Снедекора с числами степеней свободы и , соответственно.
2.2.3. Интервальные оценки параметров
Точечная оценка параметра дает лишь некоторое приближенное значение его. Чтобы получить представление о точности и надежности оценки, используют интервальную оценку параметра.
Интервальной оценкой параметра называется интервал , который с заданной вероятностью накрывает неизвестное значение параметра . При этом интервал называется доверительным интервалом, а вероятность называется доверительной вероятностью или уровнем надежности.
Обычно доверительный интервал имеет вид и определяется формулой:
,
где отклонение выборочного значения параметра от его истинного значения называется предельной ошибкой выборки.
Пусть выборка из генеральной совокупности объема , выборочная средняя, исправленная выборочная дисперсия, выборочное среднее квадратическое отклонение и выборочная доля признака.
Доверительный интервал уровня надежности для генеральной средней имеет вид: , где Δ – предельная ошибка выборки, зависящая от .
При n > 30 для повторной выборки:
,
а для бесповторной выборки:
.
Причем определяется из условия: , где интегральная функция Лапласа.
Если (выборка малого объема), то доверительный интервал для генеральной средней строится только для нормальной генеральной совокупности. При этом для повторной выборки:
,
а для бесповторной выборки:
,
где значение находится по таблицам распределения Стьюдента по заданным значениям и .
Доверительный интервал для генеральной доли р имеет вид: , где при для повторной выборки:
,
а для бесповторной выборки:
,
где определяется условием .
При рассматриваются только выборки из нормальной генеральной совокупности, а предельные ошибки выборки определяются по тем же формулам.
ПРИМЕРЫ:
1. Из партии в 5000 электрических ламп отобрано 300 по схеме бесповторной выборки. Средняя продолжительность горения ламп в выборке оказалась равной 1450 часам, а дисперсия – 4000. Найти доверительный интервал для среднего срока горения лампы с надежностью 0,9996.
Для по таблицам находим . При для бесповторной выборки найдем:
Следовательно, искомый доверительный интервал: .
2. В партии, содержащей 5000 изделий, проверено 400. Среди них оказалось 300 изделий высшего сорта. Найти с надежностью 0,95 доверительный интервал для доли изделий высшего сорта в случаях повторной и бесповторной выборок.
Для по таблицам находим . При , найдем выборочную долю . Для случая повторной выборки предельная ошибка будет равна:
,
а доверительный интервал будет иметь вид: .
Для бесповторной выборки:
,
а доверительный интервал: .
Рекомендуемая литература по теме 2.2: [2, 4, 11].
ВОПРОСЫ:
Будет ли выборочная средняя несмещенной и состоятельной оценкой для математического ожидания?
Какая из оценок дисперсии: выборочная или исправленная выборочная является несмещенной для генеральной дисперсии?
Какими свойствами обладает выборочная доля в качестве оценки генеральной доли?
Какая связь между доверительным интервалом и истинным значением оцениваемого параметра?
Как предельная ошибка выборки связана с доверительным интервалом?
Как отличаются предельные ошибки для повторной и бесповторной выборок при интервальной оценке генеральной средней?
ТЕМА 2.3. Проверка статистических гипотез
2.3.1. Основные понятия и определения
Статистической гипотезой называется любое предположение либо о виде неизвестного распределения, либо о параметрах известного распределения.
Нулевой или основной называется выдвигаемая гипотеза, которая и подлежит проверке, ее обозначают: .
Конкурирующей или альтернативной называется гипотеза, противоречащая нулевой гипотезе, ее обозначают: .
Простой называется гипотеза, содержащая только одно предположение.
Сложной называется гипотеза, которая состоит из конечного или бесконечного числа простых гипотез.
ПРИМЕРЫ: Если параметр показательного распределения, то нулевая гипотеза будет простой, а конкурирующая гипотеза будет сложной.
Обычно нулевая гипотеза является простой, в то время как конкурирующая гипотеза может быть как простой, так и сложной.
Проверку верности (правильности) нулевой гипотезы проводят статистическими методами с учетом конкурирующей гипотезы. В результате проверки может быть принято правильное или неправильное решение, т.е. может быть совершена ошибка.
Ошибка первого рода состоит в том, что в результате проверки отвергается верная нулевая гипотеза (т.е. принимается неверная конкурирующая гипотеза). Вероятность совершить ошибку первого рода называется уровнем значимости и обозначается .
При этом величина будет равна вероятности принятия верной нулевой гипотезы и называется уровнем доверия.
Ошибка второго рода состоит в том, что в результате проверки принимается неверная нулевая гипотеза (т.е. не принимается верная конкурирующая гипотеза). Вероятность совершить ошибку второго рода обозначается .
При этом величина будет равна вероятности принятия верной конкурирующей гипотезы и называется мощностью критерия.
Критерием называется случайная величина К, которая служит для статистической проверки нулевой гипотезы. В качестве критерия обычно используют специально подобранную случайную величину с хорошо известным распределением, не зависящим от данных выборки.
Наблюдаемым значением критерия называется значение критерия, найденное по данным выборки.
После выбора критерия множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза принимается, а другое – при которых она отвергается.
Критической областью называется совокупность значений критерия, при которых нулевую гипотезу отвергают.
Областью принятия (нулевой) гипотезы называется совокупность значений критерия, при которых нулевую гипотезу принимают.
Основной принцип проверки нулевой гипотезы: если наблюдаемое значение критерия принадлежит к критической области, то нулевую гипотезу отвергают, если же наблюдаемое значение критерия принадлежит области принятия гипотезы, то нулевую гипотезу принимают.
Критическими точками называются значения критерия К, которые отделяют критическую область от области принятия гипотезы.
В зависимости от вида конкурирующей гипотезы выбирают правостороннюю, левостороннюю или двустороннюю критическую область.
Правосторонняя критическая область определяется неравенством . При этом критическая точка ищется по таблице значений выбранного критерия К, исходя из условия, что при справедливости нулевой гипотезы должно выполняться равенство: , где уровень значимости. В этом случае проверка нулевой гипотезы сводится к сравнению наблюдаемого значения критерия и критической точки. Если наблюдаемое значение лежит справа от критической точки, то нулевую гипотезу отвергают, если же слева – принимают.
Левосторонняя критическая область определяется неравенством . В этом случае критическая точка ищется аналогично с тем лишь отличием, что при справедливости нулевой гипотезы должно выполняться равенство: , где уровень значимости, а процесс проверки нулевой гипотезы также сводится к сравнению наблюдаемого и критического значений критерия. Если наблюдаемое значение лежит слева от критической точки, то нулевую гипотезу отвергают, если же справа – принимают.
Для двусторонней критической области две критические точки ищутся из условия . При этом, если наблюдаемое значение критерия лежит между критическими точками, то нулевую гипотезу принимают, если оно окажется слева от первой критической точки, или справа – от второй – отвергают.
Следует иметь в виду, что проверка нулевой гипотезы не может дать точного суждения о верности или неверности этой гипотезы, поскольку принятие гипотезы всегда происходит на некотором принятом уровне надежности и основывается на значениях конечной выборки. Поэтому принятие нулевой гипотезы означает, что на принятом уровне надежности данная гипотеза не противоречит имеющимся выборочным данным.
2.3.2. Проверка гипотезы о равенстве средних значений
На практике часто встречаются ситуации, когда среднее значение данных одного эксперимента отличается от среднего значения данных другого, хотя условия эксперимента являются схожими. Тогда возникает вопрос, можно ли считать это расхождение незначимым, т.е. чисто случайным, или оно вызвано существенным различием двух генеральных совокупностей.
Пусть генеральные совокупности Х и Y распределены нормально, причем дисперсии их неизвестны, но есть веские основания полагать, что они равны, и требуется проверить нулевую гипотезу при конкурирующей гипотезе , по данным малых независимых выборок и , извлеченных из этих совокупностей.
В рассматриваемом случае в качестве критерия принимается случайную величину:
,
где и - выборочные средние, а и - исправленные выборочные дисперсии. Доказано, что эта случайная величина при справедливости нулевой гипотезы имеет распределение Стьюдента с степенями свободы.
Исходя из вида конкурирующей гипотезы, будем строить двустороннюю критическую область. Поскольку распределение Стьюдента симметрично относительно нуля, нам достаточно найти правую критическую точку исходя из условия . Для ее отыскания пользуются таблицами критических точек распределения Стьюдента и данными по уровню значимости и числу степеней свободы .
По приведенной выше формуле рассчитывают наблюдаемое значение критерия и сравнивают его с найденной критической точкой. Если , то опытные данные не дают оснований отвергнуть нулевую гипотезу, если же , то нулевую гипотезу отвергают.
ПРИМЕР: По двум независимым малым выборкам с объемами и , соответственно, извлеченным из нормальных генеральных совокупностей Х и Y, найдены выборочные средние и исправленные выборочные дисперсии . При уровне значимости проверить нулевую гипотезу при конкурирующей гипотезе , если известно, что генеральные дисперсии в обеих совокупностях одинаковы.
Вычислим наблюдаемое значение критерия, подставив в формулу для него исходные данные задачи:
.
Исходя из вида конкурирующей гипотезы, выбираем двустороннюю критическую область и по таблицам критических точек распределения Стьюдента для уровня значимости 0,05 и числу степеней свободы 9 находим правую критическую точку: . Поскольку , нулевую гипотезу о равенстве генеральных средних отвергаем. Другими словами, выборочные средние различаются значимо.
2.3.3. Проверка гипотезы о равенстве генеральных дисперсий
На практике задача сравнения дисперсий возникает, когда требуется сравнить между собой точности приборов, инструментов, самих методов измерений и т.д. Очевидно, что предпочтительнее тот прибор, инструмент или метод, который обеспечивает наименьшее рассеяние результатов измерений, т.е. наименьшую дисперсию.
Пусть генеральные совокупности Х и Y распределены нормально. По независимым выборкам с объемами, соответственно равными и , извлеченными из этих совокупностей, найдены исправленные выборочные дисперсии и . Требуется при заданном уровне значимости проверить нулевую гипотезу о равенстве генеральных дисперсий при конкурирующей гипотезе .
В качестве критерия проверки нулевой гипотезы обычно выбирается случайная величина, равная отношению большей дисперсии к меньшей, т.е.:
,
которая при справедливости нулевой гипотезы имеет распределение Фишера-Снедекора со степенями свободы и , где объем выборки, по которой найдена большая дисперсия, а объем выборки, по которой найдена меньшая дисперсия.
Исходя из вида конкурирующей гипотезы, строят правостороннюю критическую область. Критическую точку находят по таблицам критических точек распределения Фишера-Снедекора по данным , т.е. . Находят наблюдаемое значение критерия и сравнивают его с критическим значением. Если , то нет оснований отвергнуть нулевую гипотезу, если же , то нулевую гипотезу отвергают.
ПРИМЕР: По двум независимым выборкам объемом и , извлеченным из нормальных генеральных совокупностей Х и Y, найдены исправленные выборочные дисперсии и . При уровне значимости проверить нулевую гипотезу , если конкурирующая гипотеза имеет вид: .
Найдем отношение большей исправленной дисперсии к меньшей, что и будет являться наблюдаемым значением критерия:
.
По таблицам критических точек распределения Фишера-Снедекора по уровню значимости и числам степеней свободы и найдем критическую точку для правосторонней критической области: . Поскольку , у нас нет оснований отвергнуть нулевую гипотезу.
2.3.4. Проверка гипотезы о распределении генеральной совокупности. Критерии согласия
Если закон распределения генеральной совокупности неизвестен, но есть веские основания для предположения о том, что он имеет определенный вид (назовем его А), то проверяют нулевую гипотезу: генеральная совокупность распределена по закону А.
Проверка гипотезы о предполагаемом законе неизвестного распределения проводится при помощи специально подобранной случайной величины, которая называется критерием согласия.
Рассмотрим наиболее часто применяемый в статистической практике критерий согласия Пирсона.
Пусть выборка из генеральной совокупности Х, а предполагаемая функция теоретического распределения. Пусть также по данным выборки построен интервальный вариационный ряд , где число элементов выборки, попавших в интервал . Для каждого интервала вычислим теоретические вероятности попадания случайной величины Х в этот интервал:
.
Числа и называются эмпирическими и теоретическими частотами. Доказано, что при статистика:
имеет распределение (хи – квадрат) с степенями свободы, где число интервалов вариационного ряда, а число параметров, которыми определяется теоретическое распределение.
Нулевая гипотеза в данном случае состоит в том, что функцией распределения случайной величины Х (в генеральной совокупности) является выбранная теоретическая функция.
Для заданного уровня значимости и найденного количества степеней свободы по таблицам критических точек распределения находим значение , а по приведенной выше формуле находим наблюдаемое значение критерия .
Нулевая гипотеза принимается, если , В противном случае говорят, что данные наблюдений дают основание отвергнуть нулевую гипотезу.
Заметим, что критерий Пирсона следует применять только при достаточно больших объемах выборки: .
ПРИМЕР: Пользуясь критерием Пирсона, при проверить нулевую гипотезу о нормальности распределения генеральной совокупности, если по выборке объемом 50 получен интервальный вариационный ряд представленный в таблице:
| [-2,0; -1,2) | [-1,2; -0,4) | [-0,4; 0,4) | [0,4; 1,2) | [1,2; 2,0) |
| 6 | 11 | 21 | 7 | 5 |
Построим гистограмму выборочного распределения (рис. 2.7). По ее виду можно предположить, что случайная величина распределена по нормальному закону.
Вычислим выборочные среднюю и дисперсию:
.
Затем найдем теоретические частоты попадания в интервалы по формуле:
.
Для удобства вычислений составим таблицу, где: .
| | | | | | | |
1 2 3 4 5 6 | -2,0 -1,2 -0,4 0,4 1,2 2,0 | -2,13 -1,23 -0,34 0,55 1,45 2,34 | -0,4834 -0,3907 -0,1331 0,2088 0,4265 0,4904 | [-2; -1,2) [-1,2; -0,4) [-0,4; 0,4) [0,4; 1,2) [1,2; 2,0) | 6 11 21 7 5 | 4,64 12,88 17,10 10,88 3,20 | 0,399 0,274 0,889 1,384 1,012 |
| 50 | 48,7 | 3,958 |
В последней строке последнего столбца таблицы располагается наблюдаемое значение критерия Пирсона . По таблице критических точек для уровня значимости и числа степеней свободы находим критическую точку . Поскольку , данные наблюдений не дают оснований отвергнуть нулевую гипотезу. Следовательно, с уровнем доверия 0,95 можно считать, что генеральная совокупность имеет нормальное распределение.
Рекомендуемая литература по теме 2.3: [2, 4, 8].
ВОПРОСЫ:
Как связаны вероятность ошибки первого рода и уровень доверия?
Как связаны вероятность ошибки второго рода и мощность критерия?
В какие области попадает наблюдаемое значение критерия при принятии и непринятии нулевой гипотезы?
Какого вида бывают критические области?
Какой критерий используется для проверки гипотезы о равенстве генеральных средних?
Какой критерий используется для проверки гипотезы о равенстве генеральных дисперсий?
Какой критерий используется для проверки гипотезы о законе распределения генеральной совокупности?
страница 1 ... страница 4страница 5страница 6страница 7страница 8 ... страница 12страница 13
скачать
Другие похожие работы: