Мы познакомимся с элементами статистической проверки гипотез, т. е. с процедурой построения некоторых правил, позволяющих по результатам эксперимента высказывать суждение о природе явлений, обусловливающих изучаемый эксперимент.
Статистическая проверка гипотез
Пусть высказано некоторое предположение (гипотеза) Н о природе явления, которое мы наблюдаем в эксперименте. Чтобы проверить справедливость Н, следует либо изучить всю совокупность следствий, которые должны иметь место, если гипотеза Н верна, либо указать некоторое событие S, невозможное при верной гипотезе Н. В первом случае (если все эти следствия наблюдаются) гипотезу Н можно считать верной, во втором (если событие наблюдается в эксперименте) гипотеза Н неверна. Это самая простая ситуация и рассуждения здесь проводятся по следующей схеме: гипотеза Н эквивалентна полному набору следствий, поэтому
или: если Н верна, то событие S невозможно; поэтому
Проверка гипотез подобного рода не представляет для исследователя никаких затруднений, но на практике такая ситуация встречается редко.
Первая сложность, с которой приходится сталкиваться, состоит в том, что в большинстве действительно интересных для исследователя случаев проверить все следствия из гипотезы Н не представляется возможным и приходится ограничиваться проверкой только части следствий. Но заключение о справедливости гипотезы, сделанное по неполному набору следствий из нее по схеме (1), уже не является достоверным. В то же время заключение о несправедливости гипотезы Н, сделанное по схеме (2), все еще достоверно. Поэтому, находясь в указанной выше ситуации, можно только отвергнуть гипотезу по схеме (2), наблюдая событие S, невозможное в случае ее справедливости, но нельзя гипотезу подтвердить. Можно лишь высказать суждение о правдоподобии гипотезы. Причем степень нашей уверенности в справедливости высказанного суждения будет тем выше, чем больший набор следствий из гипотезы Н удалось проверить.
Классическим примером подобных гипотез являются естественно-научные гипотезы, которые всегда подвергаются указанной выше проверке и либо становятся теориями (если нет противоречащих рассматриваемой гипотезе явлений), либо отвергаются (если таковые есть).
Хотелось бы подчеркнуть вот какое обстоятельство: до тех пор, пока не обнаружено явление, противоречащее проверяемой гипотезе, ее отвергнуть нельзя. Поэтому если мы располагаем двумя гипотезами, одинаково подтверждающимися в эксперименте, то у нас нет никаких оснований для предпочтения одной из гипотез другой, и в то же время мы не в состоянии (поскольку располагаем неполным набором следствий) утверждать, что обе гипотезы справедливы!
Дальнейшее усложнение связано с тем, что в основе изучаемых нами явлений могут лежать случайные воздействия, и мало того, что мы располагаем неполным набором следствий и не можем достоверно подтвердить гипотезу, мы теперь не можем ее и отвергнуть, ибо довольно трудно указать событие S, невозможное в случае справедливости гипотезы Н. Можно лишь указать событие S такое, которое происходит редко, если гипотеза Н верна. Схема (2) в этом случае уже неприменима, ибо из того, что гипотеза Н верна, мы можем сделать заключение лишь о редкости события S, но не о его возможности. Поэтому наблюдение события S в эксперименте гипотезу Н не опровергает.
Рассмотрим пример. Пусть производится контроль качества партии продукции, причем характер продукции таков, что сплошной контроль невозможен или нерационален Для решения вопроса о качестве всей партии, содержащей N изделий, отберем n < N изделий и тщательно исследуем их качество. Пусть в выборке оказалось дефектных изделий. Какое заключение можно сделать по этой выборке о качестве всей исследуемой партии? Видимо, единственное, что можно сказать наверняка, так это то, что исследуемая партия содержит не менее, чем , и не более, чем , дефектных изделий. Результаты произведенного исследования выборки, однако, позволяют надеяться, что доля дефектных изделий в партии близка к . Утверждать же это наверняка нельзя, ибо совершенно ясно, что и любое другое допустимое (не меньшее и не большее ) количество дефектных изделий в партии может привести к полученной нами выборке. Пусть гипотеза состоит в том, что исследуемая партия содержит долю дефектных изделий. Для проверки этой гипотезы рассмотрим еще одну выборку из совокупности в N изделий. Пусть доля дефектных изделий в этой выборке оказалась равной . Если разница между не очень велика, то отсюда еще не следует, что проверяемая гипотеза верна, хотя можно ожидать, что в большинстве случаев так оно и будет. Точно также, значительное различие не обусловливает неверности гипотезы , но приводит нас к мысли, что гипотеза все же малоправдоподобна. Это связано с тем, что при верной гипотезе мы должны чаще получать выборки, доля дефектных изделий в которых близка к qo, нежели выборки, доля дефектных изделий в которых значительно отличается от .
Возвращаясь к обсуждению общей ситуации, несколько видоизменим правила (1) и (2) принятия решений, предварительно формализовав рассматриваемые понятия.
Пусть в эксперименте наблюдается случайная величина (или несколько случайных величин ).
Любой непротиворечивый набор суждений о законе распределения случайной величины (или совокупности ) будем называть гипотезой. Гипотезу будем называть простой, если она однозначно указывает закон распределения случайной величины (или совокупности )- В противном случае гипотеза называется сложной.
Пример:
Пусть случайная величина — количество дефектных изделий в партии. Гипотеза состоит в том, что доля дефектных изделий в партии равна . Это простая гипотеза. Примером сложной гипотезы в данной ситуации может служить гипотеза о том, что доля брака в партии не превышает .
Пример:
По выборке получена оценка неизвестного математического ожидания случайной величины . Гипотеза о равенстве некоторому числу а является простой.
Пример:
Пусть в эксперименте рассматривается пара независимых случайных величин. Гипотеза о равенстве их математических ожиданий является сложной.
Пример:
Пусть закон распределения случайной величины известен, но неизвестны значения параметров, его определяющих, . Тогда гипотеза о том, что параметры принимают известные значения
является простой. Гипотеза же, указывающая только возможную область значений параметров
будет сложной.
Критерием проверки гипотезы будем называть любое правило, позволяющее по выборке делать заключение о справедливости или несправедливости проверяемой гипотезы.
Как уже было отмечено выше, мы не можем построить логически безупречного критерия в случае гипотезы, связанной с законом распределения случайной величины. Поступать в этом случае будем следующим образом: пусть М — множество событий наблюдаемого эксперимента. Выделим в М множество S событий, происходящих редко в случае справедливости проверяемой гипотезы Н. Пусть — результат эксперимента. Тогда
Множество S называется критическим множеством критерия. Здесь возможны четыре случая.
I. Гипотеза Н верна и признана согласно критерию правдоподобной.
II. Гипотеза Н неверна и признана согласно критерию неправдоподобной.
III. Гипотеза Н верна, но согласно критерию признана неправдоподобной.
IV. Гипотеза Н неверна, но согласно критерию признана правдоподобной.
Случаи III и IV описывают ошибки, возможные при проверке гипотезы статистическими критериями. Они носят название соответственно ошибок 1 и 2-го рода.
Хотелось бы, чтобы применяемые нами критерии как можно чаще приводили к случаям I или II и как можно реже к ошибкам (случаи III и IV). Поэтому критическое множество S обычно выбирают так, чтобы при правильной гипотезе Н вероятность получения в эксперименте исхода была как можно меньше. Эта вероятность (вероятность ошибки 1-го рода) носит название уровня значимости критерия. Как следует из вышеизложенного, мы не можем указать множество S, соответствующее нулевому уровню значимости. Поэтому будем довольствоваться критическими множествами, соответствующими хоть и не нулевому, но довольно близкому к нулю уровню значимости. Обычно в качестве уровня значимости берут значения 0,05; 0,01; 0,001, хотя в зависимости от конкретной ситуации могут употребляться и другие близкие к нулю вероятности.
Для того чтобы свести к минимуму ошибки 2-го рода, следует, наряду с исследуемой гипотезой Н, рассмотреть конкурирующие с ней гипотезы. Действительно, пусть верна какая-либо из альтернативных простых гипотез . Тогда неверная гипотеза Н будет признана верной в том случае, когда множество событий, имеющих место в случае справедливости гипотезы , пересекается с множеством событий, частых в случае справедливости проверяемой гипотезы Н.
Вероятность принять гипотезу Н в случае, когда верна гипотеза , называется оперативной характеристикой критерия относительно гипотезы .
Вероятность отвергнуть гипотезу Н в случае, когда верна гипотеза , называется мощностью критерия относительно гипотезы .
Таким образом, выбор критической области S диктуется минимизацией вероятностей ошибок первого и второго рода. Если удается построить критическую область так, что мощность критерия принимает наибольшее значение для данной простой альтернативной гипотезы , то соответствующий критерий называется наиболее мощным при данном уровне значимости.
Равномерно наиболее мощным критерием называется критерий, наиболее мощный относительно всех допустимых альтернативных гипотез при данном уровне значимости.
Рассмотрим пример, иллюстрирующий введенные выше понятия.
Пусть — случайная величина, описывающая число появлений герба в n последовательных независимых испытаниях, вероятность появления герба в каждом из которых неизменна. Гипотеза, которую мы хотим проверить, состоит в том, что вероятность появления герба в отдельном испытании равна 0,5. Альтернативные гипотезы — вероятность выпадения герба в отдельном испытании равна . Легко видеть, что как проверяемая, так и альтернативные гипотезы являются простыми. Для проверки гипотезы проведено n экспериментов и отмечено, что герб появился раз. Множество М исходов эксперимента состоит из всех возможных наборов , описывающих число появления герба Критическое множество S, определяющее критерий, будет подмножеством множества исходов М. Зададим уровень значимости и определим S так, что если гипотеза верна, то
или
Суммирование ведется здесь по всем k таким, что значение принадлежит критическому множеству S. Легко видеть, что при заданном уровне значимости можно указать довольно много различных множеств S, удовлетворяющих соотношению (3). Каждое из этих множеств будет определять критерий для проверки нашей гипотезы. Возьмем, к примеру, в качестве S множество , где однозначно определяется из соотношения
как наибольшее из возможных . Критерий , построенный на основании , будет признавать гипотезу неверной, если , и верной в противном случае. Ясно, что это должен быть не очень хороший критерий. Критерий построим на основании множества . Этот критерий будет признавать гипотезу верной, если , и неверной в противном случае. Он уже кажется лучшим, чем .
Действительно, рассмотрим мощности критериев относительно какой-либо из альтернативных гипотез Пусть верна гипотеза . Мощность критерия относительно гипотезы
Для критерия
В этом равенстве определяется из соотношения
как наибольшее из возможных .
Зависимость мощности (5) и (6) критериев соответственно от альтернативной гипотезы схематично представлена на рис. 1. Отсюда легко усмотреть, что критерий будет неплох, если альтернативная гипотеза такова, что р < 0,5. Если же р > 0,5, то согласно критерию мы будем почти всегда проверяемую гипотезу считать верной. Впрочем, это было очевидно с самого начала: выбранная нами критическая область совершенно нечувствительна к отклонениям числа появившихся в эксперименте гербов В сторону чисел, больших 0,5n. Критерий же строился на основании отклонений как в ту, так и в другую сторону от наиболее вероятного при верной гипотезе числа 0,5n и потому оказался чувствительным ко всем альтернативным гипотезам. Однако и он не лишен недостатков. Его чувствительность падает с приближением р к 0,5 (см. рис. 1). Но (ясно из постановки задачи) это вполне естественно, и ничего лучшего в данной ситуации предложить нельзя.
Легко проверить, что критерий будет более мощным, чем критерий , для любой альтернативной гипотезы такой, что р > 0,5.
В дальнейшем мы не будем останавливаться на исследовании мощности того или иного критерия, ибо сама постановка задачи обычно определяет, какая из возможных при данном уровне значимости критических областей S будет наилучшей.
В заключение отметим важное обстоятельство: проверяемая нами при помощи статистических критериев гипотеза не подлежит вероятностной оценке. Поскольку она описывает некоторые объективные стороны исследуемого процесса, то может быть либо верной, либо неверной, и высказывание типа: «Гипотеза верна с вероятностью такой-то» бессмысленно. В связи с этим полезно иметь в виду, что уровень значимости критерия, мощность критерия, оперативная характеристика критерия не являются условными вероятностями описанных выше событий «при условии, что верна гипотеза ». Эти характеристики критерия описывают вероятность встретить в эксперименте ту или иную выборку в предположении, что истинная природа явлений, наблюдаемых нами, описывается гипотезой или какой-нибудь альтернативной гипотезой Н. Мы не можем говорить об условной вероятности , так как не в состоянии осмысленно приписать какую-либо вероятность гипотезе .
Параметрические гипотезы.
Лемма Неймана—Пирсона
Пусть случайная величина имеет распределение , известное с точностью до вектора параметров . Назовем гипотезу параметрической, если она состоит в предположении, что вектор р принимает значения из некоторого множества W,
При построении критериев проверки параметрических гипотез важную роль играет принцип отношения правдоподобия, позволяющий в подавляющем большинстве важных для приложений ситуаций строить критические области критериев.
Для упрощения дальнейшего изложения будем считать непрерывной с плотностью .
Напомним, что процедура проверки подобной гипотезы против альтернативы Н: требует указания критического множества S такого, что если — гипотеза принимается, в противном же случае — отвергается.
Положим
где — функция правдоподобия выборки , и рассмотрим отношение
которое называется отношением правдоподобия. Ясно, что находится в пределах от 0 до 1. Далее заметим, что при фиксированной_выборке предпочтительными являются те значения параметров , для которых больше; поэтому чем ближе величина к единице, тем «более правдоподобно», что гипотеза верна, если же значения — маленькие, то скорее всего гипотеза неверна, так как более «весомой» представляется одна из альтернативных гипотез, значительно увеличивающая знаменатель отношения правдоподобия в сравнении с числителем.
Приведенные выше интуитивные соображения удается аккуратно формализовать в виде следующего утверждения.
Теорема:
Принцип отношения правдоподобия Неймана—Пирсона. Для любого 0 < а < 1 критическое множество S критерия проверки параметрической гипотезы с уровнем значимости а дается соотношением
где — постоянная, определяемая условием
Можно доказать, что так построенный критерий обладает определенными оптимальными свойствами, в частности, если гипотеза — простая и строится критерий проверки против гипотезы Н — также простой, то критерий отношения правдоподобия оказывается равномерно наиболее мощным критерием.
В качестве примера использования сформулированного выше принципа рассмотрим процедуры построения критического множества S для проверки различных, часто встречающихся гипотез.
Проверка гипотезы о равенстве математического ожидания нормальной случайной величины числу
Постановка задачи. В эксперименте наблюдается случайная величина , распределенная по нормальному закону с неизвестными параметрами Получена выборка из распределения случайной величины . Требуется выяснить, справедлива ли гипотеза о равенстве
Вектор параметров в этой задаче двумерен
нулевая гипотеза состоит в том, что — полупрямая на полуплоскости . Функция правдоподобия выборки будет иметь вид
Для и получим соответственно
Несложные выкладки по нахождению экстремумов (11) приводят к формулам
Отношение правдоподобия (7) принимает вид
Заметим, что так как
то
Отсюда, разделив последнее соотношение на его левую часть, получим
где — случайная величина, имеющая распределение Стьюдента с n — 1 степенью свободы.
Поэтому критическая область (8) в рассматриваемом случае имеет вид
где значение дается соотношением
Мы пришли к хорошо известному критерию Стьюдента проверки рассматриваемой гипотезы, который, впрочем, легко мог бы быть получен прямыми рассуждениями, не связанными с использованием, отношения правдоподобия.
Действительно, по выборке, полученной в результате эксперимента, мы можем построить точечную оценку неизвестного параметра
Результаты предыдущей главы позволяют утверждать, что оценка (13) похожа на истинное значение , но не обязательно с ним совпадает. Поэтому из того, что мы еще не можем сделать заключения, что Если вспомнить аналогию с пещерным человеком Платона, то — это наблюдаемая нами «тень» и мы должны, сравнивая «тень» и известное нам число а, высказать суждение, верна гипотеза или неверна.
Если принять, что гипотеза верна, то величина
оказывается распределенной по закону Стьюдента с n — 1 степенью свободы.
Зададим некоторый уровень значимости а и определим критическое множество S как множество таких отклонений от а, вероятность встретить которые в эксперименте (в случае справедливости гипотезы ) не превышает . Здесь заложена следующая идея: если гипотеза верна, то отклонения чаще будут малыми, а реже большими. Поэтому малыми считаем те отклонения, которые встречаются часто!
Поскольку
где — функция распределения Стьюдента с n — 1 степенью свободы, то пограничная величина может быть определена из соотношения
Для проверки гипотезы по конкретному набору , полученному в эксперименте, вычислим оценку и найдем отклонение Если оно попадает во множество S, то гипотеза о равенстве считается несогласующейся с экспериментом и отвергается на уровне значимости а, в противном случае гипотеза принимается на уровне значимости а.
Пример:
Станок настроен на выпуск деталей размером d. Размеры деталей, изготавливаемых на данном станке, не будут в точности равны d, а будут иметь размер
где можно считать нормальной случайной величиной с математическим ожиданием 0 и некоторой дисперсией . Деталь считается бездефектной, если отклонение ее размера от заданного заключены в пределах
Таким образом, хорошо настроенный станок будет в среднем давать долю q бездефектных изделий, где
В процессе изготовления деталей станок может разладиться — центр настройки d может сместиться, при этом размер детали будет выражаться соотношением
Здесь а — смещение центра настройки станка. Отклонение размера детали от заданного будет в этом случае случайной величиной с нормальным законом распределения и с математическим ожиданием . Доля бездефектных изделий, изготовленных на станке, при этом уменьшится
т. е. увеличится доля брака (рис. 2). Важная задача —
своевременно установить момент смещения центра настройки.
Берется некоторое количество деталей (обычно 3-4) и находится средний размер, а затем отклонение этого среднего размера от предполагаемого d. Сравнив полученное отклонение с границами для отклонения, которые должны иметь место в случае, если смещение центра настройки не произошло, можно выяснить, справедлива ли гипотеза о смещении центра настройки станка.
Проверка гипотезы о равенстве дисперсии нормальной случайной величины числу
Постановка задачи. В эксперименте наблюдается случайная величина , распределенная по нормальному закону с параметрами , которые неизвестны. Получена выборка из распределения случайной величины . Требуется выяснить, равно ли число некоторому наперед заданному числу b?
Аналогично тому, как это было сделано в предыдущем пункте, можно показать, что принцип отношения правдоподобия приводит к критическому множеству S, определяемому статистикой
где — несмещенная оценка дисперсии. А именно, если гипотеза справедлива, то величина (15) имеет распределения с n — 1 степенью свободы и для у значимости а критическое множество S может быть определено как множество таких значений , вероятность встретить которые в эксперименте не больше а,
В силу несимметричности распределения мы используем для построения области S несимметричные доверительные границы.
Получаем
Здесь — функция -распределения с n — 1 степенью свободы.
Решая уравнения
находим числа такие, что
откуда критическое множество S имеет вид
Для проверки гипотезы по конкретному набору значений случайной величины , полученному в эксперименте, вычислим оценку дисперсии. Если полученное число попадает в критическую область S, гипотеза отвергается на уровне значимости а, в противном случае гипотеза принимается.
Пример:
Станок настроен на выпуск деталей некоторого наперед заданного размера d, причем точность работы станка описывается дисперсией случайной величины — отклонения размера детали от заданного среднего d:
где — нормально распределенная случайная величина с . Деталь считается бездефектной, если отклонение удовлетворяет условию
Если смещение центра настройки не наблюдается, то в среднем мы будем получать долю q бездефектных изделий
В процессе изготовления деталей точность может снизиться, т. е. может увеличиться дисперсия наблюдаемых отклонений от заданного размера d. Если смещение центра при этом не произошло, то отклонение будет описываться случайной величиной , дисперсия которой . Доля дефектных изделий при этом увеличится (рис. 3).
Для того чтобы вовремя обнаружить разладки станка, возьмем некоторое количество деталей (3-4) и найдем оценку . Сравнив полученную оценку с границами, которые должны иметь место, если разладки нет, мы сможем выяснить справедливость наших подозрений относительно снижения точности изготовления деталей на данном станке.
В заключение этого пункта отметим, что при проверке гипотезы о равенстве дисперсии пары независимых нормальных случайных величин по независимым выборкам объемов n и m соответственно, принцип отношения правдоподобия в качестве статистики для построения критической области дает величину Z — отношение Фишера—Снедекера
имеющую, в случае справедливости гипотезы о равенстве дисперсий, распределение Фишера с (n — 1, m — 1) степенями свободы.
Зададим уровень значимости а и определим критическое множество S как множество таких значений , вероятность встретить которые в эксперименте не больше а,
Напомним, что распределение Фишера асимметрично и при n > 2 унимодально.
Если наша гипотеза справедлива, то в большинстве случаев отношение должно быть близко к единице, т. е. отношение (17) должно быть близко к (n — 1)/(m — 1). Учитывая асимметрию, выберем числа так, чтобы
Если — функция распределения случайной величины Z, то числа являются решениями уравнений
Для проверки гипотезы по выборкам, полученным в результате эксперимента, находим отношение . Если оно попадает в критическую область, гипотеза о равенстве дисперсий считается несогласующейся с опытными данными на уровне значимости а, в противном случае гипотеза принимается.
Проверка гипотезы о равенстве средних нормальных случайных величин
Постановка задачи. Рассмотрим пару независимых нормально распределенных случайных величин с параметрами соответственно. В результате эксперимента получены две независимые выборки из распределения случайных величин
Требуется выяснить, совпадают ли математические ожидания
1. По выборкам строим оценки дисперсий и, как это указано в предыдущем пункте, проверяем гипотезу о равенстве . Пусть гипотеза о равенстве дисперсии согласуется с экспериментальными данными:
Лемма:
Случайная величина
является несмещенной оценкой общей неизвестной дисперсии случайных величин
◄ Заметим, что
Поэтому
Но — несмещенные оценки , а потому , откуда
что и требовалось доказать. ►
Теорема:
Случайная величин
имеет распределение Стьюдента с n + m- 2 степенями свободы, если только верна гипотеза о том, что
Здесь — несмещенная оценка (18) общей дисперсии
◄ Поскольку выборки из нормальных законов, то разность распределена по нормальному закону с (в случае верной гипотезы ). Поэтому величина распределена нормально с параметрами 0 и Случайные величины независят от и распределены каждая по закону с n — 1 и m — 1 степенями свободы соответственно. Поэтому величина
имеет распределение с n + m -2 степенями свободы и не зависит от . Отсюда отношение
имеет распределение Стьюдента с n + m — 2 степенями свободы. ►
Как и выше, можно показать, что принцип отношения правдоподобия приводит к критической области, определяемой статистикой (19) (для фиксированного уровня значимости а область S определяется из условия
2. Если же гипотеза о равенстве дисперсий не подтверждается, то случайную величину, описывающую отклонения х и у, закон распределения которой не зависит от параметров распределения случайных величин , построить уже не удается.
Проверку гипотезы о равенстве средних двух независимых нормальных совокупностей проводят в этом случае следующим образом: рассматривается случайная величина
которая имеет нормальное распределение с параметрами 0 и 1. Если п и т достаточно велики, то замена точных значений их оценками не очень нарушает распределения случайной величины и можно считать, что случайная величина
имеет приблизительно нормальное распределение с параметрами 0 и 1 (при верной гипотезе . Этим удобно воспользоваться при построении критической области S, описывающей редкие отклонения
Критерии согласия
Другую важную группу гипотез образуют непараметрические гипотезы, из которых мы остановимся здесь на гипотезах о законах распределения.
Очень часто из тех или иных соображений может быть высказана гипотеза о характере закона распределения наблюдаемой случайной величины. К примеру, если случайная величина обусловлена суммарным воздействием большого числа приблизительно одинаковых факторов, то, руководствуясь центральной предельной теоремой, разумно предполагать, что имеет нормальное распределение.
Как мы уже знаем, представление об истинной функции распределения случайной величины можно составить по эмпирической функции распределения. Поэтому если высказана гипотеза о том, что истинная функция распределения случайной величины есть , то естественно изучать поведение отклонения предполагаемой функции от наблюдаемой эмпирической . Если отклонение от окажется значительным, то не может быть функцией распределения случайной величины . Причем значительными будем считать такие отклонения, вероятность наблюдения которых в эксперименте при верной гипотезе очень мала.
Построим случайную величину , описывающую различие между гипотетической функцией и наблюдаемой . Задавая уровень значимости , определяем число такое, что
Тогда гипотеза о виде закона распределения считается согласующейся с экспериментальными данными, если . В противном случае гипотеза считается плохо согласующейся с экспериментом и отвергается на уровне значимости .
Выбирая ту ил и иную меру отличия , будем получать для проверки изучаемой гипотезы различные критерии.
Критерий Колмогорова-Смирнова
Пусть в качестве d взята величина
Теорема Гливенко—Кантелли утверждает, что , если объем выборки неограниченно возрастает. Рассмотрим
Имеет место следующая
Теорема:
Пусть гипотетическая функция непрерывна. Тогда функция распределения случайной величины не зависит от вида.
◄ Пусть — выборка объема п из закона распределения случайной величины . Рассмотрим набор случайных величин
Лемма:
Если — случайная величина с законом распределения , причем непрерывна, то случайная величина равномерно распределена на [0,1], т. е.
Так как функция распределения монотонно возрастает и , то
На отрезке
На основании леммы, набор случайных величин образует выборку объема n из равномерного распределения. Пусть — функция равномерного распределения, — эмпирическая функция равномерного распределения, построенная на выборке
и х таково, что . Рассмотрим
Вследствие монотонности функции
Учитывая это, получаем
Отсюда
Но левая часть последнего соотношения не зависит от вида функции , следовательно, не зависит и правая. ►
Таким образом, введенная нами мера , описывающая различия эмпирической и гипотетической функций распределения, не зависит от вида гипотетической функции распределения, а определяется лишь объемом выборки n.
Если объем выборки неограниченно возрастает, то функция распределения случайной величины мало отличается от некоторой фиксированной функции. А именно, имеет место теорема Колмогорова
Независимость предельного распределения от гипотетической функции позволяет построить критерий для проверки гипотезы о согласованности эмпирических данных с гипотетическим распределением.
Пусть гипотеза верна, тогда (если n достаточно велико, )
Задавая уровень значимости а, определяем из уравнения
В соответствии с общей установкой гипотезу считаем согласующейся с эмпирическими данными, если полученное по конкретным данным значение
не превышает , в противном случае гипотезу отвергаем.
Критерий X2 Пирсона
Критерий Пирсона
Одним из наиболее часто употребляемых на практике критериев согласия является критерий Пирсона. В качестве меры несогласованности гипотетического и эмпирического распределений рассмотрим следующую величину.
Пусть — выборка из закона распределения случайной величины .
Разобьем числовую прямую на s разрядов и найдем частоту попадания случайной величины в і-й разряд разбиения
Пусть — гипотетическое распределение случайной величины . Тогда вероятность того, что случайная величина принимает значения в i-м разряде разбиения , равна
Здесь — концы i-го разряда разбиения (рис. 4).
Рассмотрим величину
Если наша гипотеза верна, то отклонения в большинстве случаев должны быть малы, поэтому в качестве меры различия эмпирического и теоретического законов распределения целесообразно взять величину (21).
Имеет место теорема о независимости предельного распределения для от вида гипотетической функции распределения.
Теорема Пирсона
Здесь распределение с s — 1 степенью свободы.
При достаточно большом числе наблюдений эта теорема может быть использована для построения критерия согласия. Пусть а — уровень значимости. Решив уравнение
найдем пограничное значение сравнивая с которым экспериментальное значение (21), будем делать заключение о согласованности или несогласованности нашей гипотезы с экспериментом.
Остановимся на чувствительности критерия несколько подробнее. Пусть наша гипотеза ошибочна и истинные значения вероятностей попадания в i-й разряд разбиения отличны от найденных нами вероятностей . Тогда случайная величина (21) уже не будет следовать распределению с s — 1 степенью свободы и для математического ожидания величины (21) получим
Но , и поскольку хотя бы одна из вероятностей Поэтому
Тем самым, с ростом объема выборки указанная величина неограниченно возрастает, если только наша гипотеза неверна. Таким образом, на практике, если число наблюдений достаточно велико, неверная гипотеза будет отвергнута.
Практические рекомендации к применению критерия Пирсона следующие: желательно, чтобы разбиения на разряды проводились таким образом, чтобы . Число разрядов разбиения при этом должно быть не менее 7 — 8. Если же эмпирических данных очень много (скажем, число разрядов превышает s — 30), то целесообразно
2 воспользоваться для построения критерия не распределением , а предельным для него при нормальным.
Сравнивая критерий Колмогорова и критерий Пирсона, заметим, что первый более точен и приводит на практике к менее громоздким вычислениям, чем второй.
Следует, однако, отметить, что в практической ситуации гипотетический закон распределения может быть точно указан крайне редко. Более реальной является такая ситуация, когда можно лишь высказать предположение о целой группе гипотетических законов , каждый из которых определяется фиксированным набором параметров . В этом случае гипотеза выглядит следующим образом:
распределение случайной величины описывается законом при некотором наборе параметров
При замене неизвестных параметров их оценками, найденными по выборке, следует иметь в виду, что для одного и того же параметра можно указать очень много различных оценок. Поэтому, заменяя истинные значения неизвестных параметров их оценками, мы портим предельные распределения рассмотренных нами мер отличия — основные теоремы предыдущего и настоящего параграфов становятся неверными.
В этом случае описанными критериями пользоваться, вообще говоря, уже нельзя. Так, например, применение в указанной ситуации критерия Колмогорова приводит к тому, что чем больше параметров мы оценили по выборке, тем лучшее согласие он покажет даже при неверной гипотезе, тогда как критерий Пирсона допускает некоторое видоизменение таким образом, что он остается пригодным и в описанной выше ситуации.
Теорема:
Пусть — оценки максимального правдоподобия или оценки, полученные по методу моментов. Тогда случайная величина (21) имеет распределение с s — k — 1 степенями свободы, т. е. число степеней свободы распределения случайной величины (21) уменьшается на число оцениваемых по выборке параметров.
Пример:
Пусть в эксперименте получена выборка объема nиз распределения случайной величины
и высказана гипотеза о нормальности распределения случайной величины
Применим критерий . Производя разбиение числовой прямой на разряды, вычисляем значения эмпирических частот попадания случайной величины в i-й разряд разбиения. Для подсчета теоретических вероятностей попадания в г-й разряд разбиения необходимо знать параметры m и нормального распределения. Заменим их оценками
и вычислим вероятности
Находим
Для того чтобы определить пограничное значение заметим, что число степеней свободы случайной величины равно s — 3, так как мы оценили по выборке два неизвестных параметра распределения: m и . Поэтому ищем из уравнения
Здесь -распределение с s — 3 степенями свободы.
В заключение отметим, что если по выборке оценено значительное количество неизвестных параметров, то тем самым гипотетическая функция распределения искусственно приближена к эмпирической и критерий в этих случаях дает неоправданно высокую степень согласованности. Поэтому, если число степеней свободы оказывается малым (3-4 и меньше), то для повышения уровня достоверности допускаемых нами выводов наряду с критерием следует использовать и другие критерии и оценки.
Дополнение к проверке статистических гипотез
Смотрите также:
- Решение задач по статистике
Если вам потребуется заказать статистику вы всегда можете написать мне в whatsapp.
Проверка статистических гипотез
В этой главе мы обратимся ко второму направлению в математической статистике — проверке статистических гипотез. Сначала определим понятия статистической гипотезы и критерия, а затем рассмотрим некоторые наиболее часто встречающиеся на практике гипотезы и приведены критерии для их проверки.
Статистическая гипотеза и критерий
Снова предположим, что в результате эксперимента мы получили выборку из генеральной совокупности с неизвестной теоретической функцией распределения F(x). Статистической гипотезой (в дальнейшем для краткости вместо «статистическая гипотеза» будем говорить просто «гипотеза») назовем любое предположение о виде теоретической функции распределения F(x). Так, в схеме Бернулли гипотезами будут являться следующие предположения: «вероятность успеха равна 1/2»; «вероятность успеха больше 1/3»; «вероятность успеха заключена между 0,4 и 0,7» и т. д. С нормальным распределением можно связать такие гипотезы: «теоретическая функция распределения нормальна со средним, равным нулю»; «теоретическая функция распределения нормальна с дисперсией, не превосходящей квадрата среднего значения», и т.д. Все перечисленные выше гипотезы являются параметрическими, поскольку в них предположения делаются относительно области изменения неизвестного параметра (или нескольких параметров) для заданных параметрических семейств функций распределения. Примерами непараметрических гипотез служат высказывания: «теоретическая функция распределения является нормальной»; «теоретическая функция распределения не является нормальной»; «теоретическая функция распределения имеет положительное математическое ожидание». Гипотезы будем обозначать буквой Н, снабжая при необходимости индексами.
Всюду в дальнейшем будем предполагать, что у нас имеются две непересекающиеся гипотезы: Гипотезу будем называть основной, а гипотезу — конкурирующей или альтернативной. Выбор названия условен, но, как правило, удобно основной гипотезой называть более конкретное предположение о виде теоретической функции распределения или предположение, влекущее за собой более важные практические последствия. Задача проверки статистических гипотез состоит в том, чтобы на основе выборки принять (т. е. считать справедливой) либо основную гипотезу либо конкурирующую гипотезу
Различают простую и сложную гипотезы. Простая гипотеза полностью определяет теоретическую функцию распределения F(x). Так, простыми будут гипотезы: «вероятность успеха в схеме Бернулли равна 1/2»; «теоретическая функция распределения является нормальной с нулевым средним и единичной дисперсией». Гипотеза, не являющаяся простой, носит название сложной. Примерами сложных гипотез будут: «вероятность успеха в схеме Бернулли заключена между 0,4 и 0,7»; «теоретическая функция распределения является нормальной с нулевым средним, но произвольной дисперсией»; «теоретическая функция распределения не является нормальной». Сложная гипотеза среди возможных функций распределения выделяет некоторое подмножество содержащее более одной функции распределения. При этом если мы имеем сложную параметрическую гипотезу, то заранее в силу каких-то уже проверенных соображений ограничиваемся рассмотрением некоторого параметрического семейства функций распределения с неизвестным параметром (или параметрами) сама гипотеза выделяет среди всех функций распределения данного семейства те, у которых в свою очередь — некоторое подмножество области всех возможных значений неизвестного параметра
Статистическим критерием (или просто критерием) называется правило, позволяющее, основываясь только на выборке принять либо основную гипотезу либо конкурирующую Каждый критерий характеризуется допустимой областью т. е. областью в n-мерном пространстве попадание в которую выборки влечет за собой принятие основной гипотезы Дополнительная область попадание в которую выборки приводит к принятию конкурирующей гипотезы носит название критической области.
Предположим теперь, что у нас имеется две гипотезы т.е. в множестве всех функций распределения выделены два непересекающихся подмножества при этом основная гипотеза заключается в том, что выборка произведена из генеральной совокупности с теоретической функцией распределения F(x), принадлежащей подмножеству а конкурирующая гипотеза — с теоретической функцией распределения F(x), принадлежащей подмножеству Пусть также задан критерий для проверки этих гипотез, т.е. разбиение n-мерного пространства на две области: допустимую и критическую В силу случайности выборки какой бы критерий мы не взяли, обязательно возможно появление ошибок двух родов.
Ошибка первого рода возникает тогда, когда имеет место основная гипотеза но выборка попадает в критическую область и мы принимаем конкурирующую гипотезу Вероятность а ошибки первого рода называется уровнем значимости критерия и определяется формулой
в дискретном случае и
в непрерывном, где Р(х) или р(х) — ряд распределения или плотность распределения наблюдаемой случайной величины X при условии справедливости основной гипотезы а суммирование или интегрирование, как обычно, ведется по всем точкам (в дискретном случае каждое может принимать только значения В случае, когда гипотеза сложная, уровень значимости естественно, будет зависеть от реальной теоретической функции распределения F(x) из подмножества Кроме того, если гипотеза параметрическая, т. е. подмножество представляет собой параметрическое семейство функций распределения зависящее от неизвестного параметра с областью изменения являющейся подобластью области всех возможных значений параметра то будем вместо записи употреблять запись предполагая при этом, что
Пусть теперь справедлива конкурирующая гипотеза но выборка попала в допустимую область и мы приняли основную гипотезу Тогда мы имеем дело с ошибкой второго рода. Вероятность ошибки второго рода носит название оперативной характеристики критерия. Однако обычно в статистике предпочитают иметь дело с мощностью критерия (т. е. вероятностью того, что при справедливой конкурирующей гипотезе мы ее примем), задаваемой формулой
в дискретном случае и
в непрерывном, где так же, как и при определении уровня значимости, суммирование или интегрирование ведется по всем однако ряд распределения Р(x) или плотность распределения р(x) берутся при условии справедливости конкурирующей гипотезы Разумеется, в случае сложной гипотезы мощность будет зависеть от реального теоретического распределения F(x) из подмножества Если конкурирующая гипотеза параметрическая, то вместо будем писать считая при этом, что где — область изменения неизвестного параметра при условии справедливости гипотезы
Таким образом, и уровень значимости, и мощность критерия задаются одной и той же формулой и их различие состоит в том, что уровень значимости определяется только для теоретических функций распределения F(x), принадлежащих подмножеству а мощность — подмножеству Впрочем, иногда эти два понятия объединяют в одно, называя функцией мощности критерия величину, равную уровню значимости при и мощности Отметим, что уровень значимости и оперативная характеристика критерия могут иметь совершенно разную физическую природу. Так, пропуск партии бракованных изделий влечет за собой, как правило, более тяжелые последствия, чем выбраковка партии годных изделий.
Естественное желание каждого исследователя состоит в предоставлении ему такого критерия, который позволил бы как можно реже делать ошибки и первого и второго рода (в идеале — совсем не ошибаться!), т. е. минимизировал бы и уровень значимости и оперативную характеристику Но такое желание невыполнимо, поскольку требование делать реже ошибку первого рода влечет за собой увеличение допустимой области в то время как требование реже делать ошибку второго рода предписывает увеличить критическую область Поэтому обычно поступают следующим образом: фиксируют уровень значимости (как более важный с практической точки зрения) и среди нескольких критериев, имеющих заданный уровень значимости, предпочтение отдают более мощному.
Остановимся на этом несколько подробнее. Назовем размером критерия максимальное значение вероятности ошибки первого рода при использовании данного критерия, т.е.
Отметим, что в дальнейшем нам довольно часто будут встречаться критерии, уровень значимости которых не зависит от конкретной функции распределения F(x) (из подмножества и, естественно, совпадает с размером критерия В таких случаях мы будем говорить просто об уровне значимости, не связывая его с конкретным распределением F(x), а в скобках писать «размер».
Равномерно наиболее мощным критерием заданного размера будем называть критерий, имеющий среди всех критериев размера наибольшую мощность при любом распределении Равномерно наиболее мощные критерии существуют в крайне редких случаях, наиболее известными из которых являются случай простых гипотез и случай односторонней и двусторонней параметрических гипотез для некоторых однопараметрических семейств (см. параграфы 2 и 3 данной главы).
В ряде задач, хотя и не существует равномерно наиболее мощный критерий, можно построить равномерно наиболее мощный несмещенный критерий. Критерий называется несмещенным, если его уровень значимости ни в коем случае не превосходит мощности, т.е. для любых (невыполнение требования несмещенности ведет к парадоксальной ситуации: в некоторых случаях мы будем чаще браковать партии годных изделий, чем негодных). Критерий, имеющий при любом наибольшую мощность среди всех несмещенных критериев размера носит название равномерно наиболее мощного несмещенного критерия размера Естественно, равномерно наиболее мощный критерий является также равномерно наиболее мощным несмещенным, что вытекает из сравнения его с тривиальным рандомизированным критерием (о понятии рандомизированного критерия см. ниже), который независимо от выборки предписывает случайным образом с вероятностью принять конкурирующую гипотезу очевидно, и мощность, и уровень значимости такого критерия тождественно равны
Наконец, еще один класс критериев представляют так называемые инвариантные критерии. Критерий называется инвариантным относительно группы преобразований G выборки если он не зависит от преобразований из этой группы. В частности, от любых критериев, проверяющих гипотезы о теоретической функции распределения F(x), разумно потребовать инвариантность относительно всех перестановок элементов выборки иначе сам критерий зависел бы от того, в каком порядке проводились наблюдения. Обычно группа преобразований G естественным образом определяется рассматриваемыми гипотезами и поэтому говорят просто об инвариантных критериях. Критерий, имеющий при заданном размере наибольшую мощность среди всех инвариантных критериев, называется равномерно наиболее мощным инвариантным критерием. Поскольку понятие инвариантного критерия является сложным, мы в дальнейшем в основном тексте не будем его использовать, отсылая читателя к специальной литературе (например, [11, 12]), хотя это понятие и прояснило бы смысл построения некоторых критериев.
В общем случае, когда не существует ни равномерно наиболее мощного, ни даже равномерно наиболее мощного несмещенного или равномерно наиболее мощного инвариантного критерия, критерии обычно строят, опираясь на интуитивные соображения разумности. К таким соображениям относятся: простота и наглядность критерия, независимость уровня значимости критерия от вида теоретической функции распределения, асимптотическая эффективность критерия и т.д.
Как правило, критерии строят, основываясь на статистике критерия. Пусть — произвольная (одномерная) статистика. Тогда неравенство определяет критерий, критическая область которого состоит из всех точек п-мерного пространства для которых
Заставляя критическое значение пробегать все числа от получим семейство критериев, имеющих различные уровни значимости и мощности. Теперь, если, например, мы хотим получить критерий заданного размера то должны выбрать такое значение С, которое давало бы нам критерий требуемого размера Обычно критерии строят таким образом, чтобы статистика S при условии справедливости основной гипотезы имела (хотя бы асимптотически при одно из распределений, описанных в параграфе 4 гл. 1. Тогда критическое значение С определяется как -квантиль соответствующего распределения. Разумеется, как уже говорилось ранее, статистика S должна по возможности обеспечивать меньший уровень значимости и большую мощность построенного на ее основе критерия.
В заключение этого параграфа скажем несколько слов о рандомизированных критериях. Рандомизированные критерии возникают (обычно в случае дискретной наблюдаемой случайной величины X) тогда, когда критерий, определяемый неравенством
имеет размер больше требуемого, а неравенством
— уже меньше требуемого. В этом случае наряду с критической и допустимой областями вводят область рандомизации при попадании выборки в область производят дополнительное испытание типа подбрасывания несимметричной монеты и по его исходу принимают либо основную гипотезу либо конкурирующую Здесь в основном тексте мы не будем рассматривать рандомизированные критерии.
Простые гипотезы
Изучение статистических критериев начнем со случая двух простых гипотез. Пусть выборка произведена из генеральной совокупности с теоретической функцией распределения F(x), относительно которой имеются две простые гипотезы: основная и конкурирующая — известные функции распределения. Поскольку гипотезы простые, уровень значимости и мощность каждого критерия для проверки этих гипотез будут представлять собой два числа: Оказывается, в данном случае существует наиболее мощный критерий (при двух простых гипотезах вместо «равномерно наиболее мощный критерий» говорят просто «наиболее мощный критерий»), т.е. критерий, имеющий при заданном уровне значимости а наибольшую мощность Этот критерий называется критерием отношения правдоподобия и описывается следующим образом.
Введем статистику
где
в случае дискретной наблюдаемой величины X и
в случае непрерывной X представляет собой функцию правдоподобия при условии справедливости гипотезы а
в дискретном случае и
в непрерывном — ту же самую функцию правдоподобия, но при условии справедливости гипотезы Статистика носит название отношения правдоподобия и является отношением вероятностей (или плотностей распределения) получить выборку при условиях справедливости гипотез Естественно предположить (и это подтверждается леммой Неймана-Пирсона, которую мы докажем ниже), что чем больше отношение правдоподобия, тем большее предпочтение мы должны оказать гипотезе Таким образом, критическая область критерия отношения правдоподобия состоит из всех тех точек для которых больше критического значения С. Критерий отношения правдоподобия подобен рачительной хозяйке, которая всегда на имеющиеся деньги старается купить как можно больше товаров.
Теорема:
Лемма Неймана-Пирсона. Среди всех критериев заданного уровня значимости а, проверяющих две простые гипотезы критерий отношения правдоподобия является наиболее мощным.
Доказательство:
Пусть критерий отношения правдоподобия уровня значимости а для проверки задается критической областью Рассмотрим любой другой критерий того же уровня значимости для проверки тех же гипотез и обозначим через его критическую область. Тогда при попадании выборки в область мы должны принять гипотезу по критерию отношения правдоподобия, но отвергнуть в соответствии со вторым критерием, а при попадании в область — наоборот, отвергнуть по критерию отношения правдоподобия, но принять в соответствии со вторым критерием (рис. 1). Тогда, поскольку оба критерия имеют одинаковый уровень значимости,
то вероятности попадания выборки в области при условии справедливости основной гипотезы равны, т.е.
Далее, мощность критерия отношения правдоподобия задается как суммарная вероятность попадания выборки в пересечение областей и область при условии справедливости конкурирующей гипотезы
Аналогично определяется мощность второго критерия:
Вспоминая теперь, что по построению критерия отношения правдоподобия отношение правдоподобия
в области V больше С, а в области не превосходит С, получаем из (1)-(3):
Значит, мощность второго критерия не больше мощности критерия отношения правдоподобия.
Замечание:
Нетрудно видеть, что мощности критерия отношения правдоподобия и второго критерия совпадают тогда и только тогда, когда т. е. вероятности попадания в области при условии справедливости как основной, так и конкурирующей гипотез равны нулю. Поэтому критерий отношения правдоподобия единственен (с точностью до множества, вероятность попадания в которое равна нулю).
Замечание:
Мы рассмотрели критерий отношения правдоподобия, критическая область которого задается неравенством Аналогично можно было бы ввести критерий отношения правдоподобия с критической областью имеющий то же самое свойство оптимальности.
Пусть нам теперь нужно построить наиболее мощный критерий заданного уровня значимости а. Может случиться так, что, определив критическое значение С, мы придем к следующей ситуации: критерий, задаваемый неравенством будет иметь уровень значимости меньше а задаваемый неравенством — уровень значимости уже больше
Возможный способ устранить возникшее затруднение — добавить к критической области задаваемой неравенством некоторую «лишнюю» подобласть области определяемой равенством с таким расчетом, чтобы вероятность попадания в при справедливой равнялась Нетрудно видеть, что если это удастся сделать, то построенный критерий будет наиболее мощным критерием уровня значимости а.
Но, с одной стороны, подобласть вообще говоря, можно выбрать не единственным способом, поэтому могут появляться различные наиболее мощные критерии, отличающиеся друг от друга только при попадании в область С другой стороны, в дискретном случае этого, как правило, вообще нельзя сделать, поскольку область состоит из конечного числа точек. Поэтому обычно идут более простым путем: при попадании выборки в область которую называют областью рандомизации, проводят дополнительный независимый эксперимент с двумя исходами типа подбрасывания несимметричной монеты с вероятностью выпадения «цифры» При этом если выпадает «герб», то принимают гипотезу «цифра» — гипотезу Такой критерий называется рандомизированным. В соответствии с формулой полной вероятности уровень значимости рандомизированного критерия равен Очевидно также, что рандомизированный критерий отношения правдоподобия будет наиболее мощным. Естественно, в наше время при дополнительном эксперименте не бросают монету, а моделируют на ЭВМ псевдослучайное число.
В дальнейшем, как уже говорилось, мы не будем рассматривать рандомизированные критерии, хотя это и вызовет у нас определенные трудности при формулировке и доказательстве некоторых результатов.
При практической реализации критерия отношения правдоподобия обычно удобно пользоваться не отношением правдоподобия а его логарифмом В этом случае мы должны принять гипотезу если и отвергнуть ее (принять гипотезу если В соответствии с общим правилом уровень значимости а и мощность критерия отношения правдоподобия в зависимости от критического значения с определяются формулами
в дискретном случае, где сумма берется по всем значениям принадлежащим множеству и удовлетворяющим условию и
в непрерывном. В этих формулах запись обозначает вероятность статистике принять значение больше С при условии справедливости гипотезы
Если задан уровень значимости а, то критическое значение с определяется из решения относительно с уравнения
Аналогично поступают и в том случае, когда задана мощность
Наконец, встречаются задачи, в которых одновременно заданы и уровень значимости а, и мощность а требуется определить минимальный объем выборки п, при котором можно разделить гипотезы с такими значениями В этом случае заметим, что функции зависят, разумеется, и от объема выборки п. Необходимый объем выборки определяется как минимальное значение п, при котором существуют решения неравенств и
Пример:
Пусть выборка произведена из нормальной генеральной совокупности с известной дисперсией и неизвестным средним относительно которого имеются две гипотезы: основная конкурирующая (для определенности пусть
Построим критерий отношения правдоподобия для проверки гипотез Для этого выпишем функции правдоподобия и
и определим логарифм отношения правдоподобия
Таким образом, мы должны принять гипотезу если
или, вводя обозначение
если и отвергнуть в противном случае.
Для того чтобы при заданном найти уровень значимости критерия а, заметим, что при условии справедливости гипотезы статистика распределена по нормальному закону с параметрами Поэтому
где, как обычно, Ф(x) — функция стандартного нормального распределения. Аналогично определяется мощность критерия
Если задан уровень значимости а, то критическое значение определяется формулой
где — a-квантиль стандартного нормального закона.
Наконец, если заданы уровень значимости а и мощность и требуется найти минимальный объем выборки п, позволяющий разделить гипотезы с такими должно удовлетворять двум равенствам:
Вычитая второе равенство из первого, получаем
Разумеется, реальный объем выборки должен быть ближайшим к п сверху целым числом.
Зададим вопрос: а можно ли для проверки двух простых гипотез построить критерий с заданным уровнем значимости а и мощностью который потребовал бы меньшего объема выборки, чем критерий отношения правдоподобия? Очевидно, среди критериев с фиксированным объемом выборки такого нет. Однако можно рассматривать последовательные критерии, в которых испытания проводятся последовательно, и после каждого испытания мы вправе либо прекратить испытания и принять одну из гипотез либо продолжить наблюдения. При последовательном проведении испытаний после первого же испытания могут появиться столь серьезные основания в пользу той или иной гипотезы, что дальнейшие наблюдения становятся просто бессмысленными. Так, хороший врач по одному ярко выраженному признаку может поставить точный диагноз пациенту. Ясно, что у последовательного критерия число наблюдений случайно и поэтому вместо объема выборки следует оперировать средним числом наблюдений, которое, естественно, будет различным при условиях справедливости гипотез Оказывается, среди последовательных критериев также существует наилучший, который мы сейчас и опишем.
Последовательный критерий отношения правдоподобия (критерий Вальда) строят, опираясь на логарифм отношения правдоподобия (и это естественно, поскольку отношение правдоподобия — наиболее объективная мера различия гипотез). Сама процедура принятия решения реализуется следующим образом. Задаются критические значения Проводят первое испытание и по его результату определяют логарифм отношения правдоподобия
в дискретном случае или
в непрерывном. Если то принимают гипотезу если — гипотезу если же то проводят второе испытание. Снова определяют логарифм отношения правдоподобия
и сравнивают его с Если то принимают гипотезу если — гипотезу если то переходят к третьему испытанию, по результатам которого определяют
и т.д. Графическая схема проведения испытаний приведена на рис.2. Нахождение уровня значимости а и мощности последовательного
критерия отношения правдоподобия представляет собой весьма сложную задачу (задача выхода случайного блуждания из полосы), все имеющиеся решения которой (за исключением некоторых частных случаев) нужно признать неудовлетворительными в смысле методов вычисления. Обычно используют следующие приближенные оценки:
точность которых, как правило, увеличивается с ростом и уменьшением Из этих оценок можно при заданных найти приближенные выражения для критических значений
Другими важными характеристиками последовательного критерия отношения правдоподобия являются средние числа наблюдений при условиях справедливости гипотез которые можно приближенно вычислить по формулам
где
в дискретном случае и
в непрерывном.
Оптимальные свойства последовательного критерия отношения правдоподобия задаются следующей теоремой.
Теорема Вальда:
Среди всех критериев (последовательных или нет) с заданными уровнем значимости а и мощностью и конечными средними числами наблюдений при условии справедливости гипотезы при условии справедливости гипотезы последовательный критерий отношения правдоподобия минимизирует как так и
Доказательство теоремы наиболее просто получается с использованием байесовского подхода. Пусть гипотезы появляются случайным образом с известными вероятностями появления гипотезы гипотезы Пусть также задана стоимость d каждого наблюдения и при неправильном отклонении гипотезы мы несем потери Тогда для любого (в том числе последовательного) критерия К общий байесовский риск (общие средние потери) определяются формулой
где — вероятность неправильного отклонения гипотезы а — среднее число наблюдений при условии справедливости гипотезы
Доказательство состоит из двух основных частей. Первая часть, представленная леммой 2.1, определяет байесовскую процедуру, минимизирующую (4). Отметим, что интерпретация (4) как байесовского риска помогает лучше понять доказательство и приводит к задачам, представляющим самостоятельный интерес.
Прежде чем сформулировать лемму 2.1, произведем некоторые дополнительные рассмотрения. Обозначим через минимальный байесовский риск для всех критериев, требующих хотя бы одного наблюдения (класс таких критериев обозначим через Тогда в силу линейности байесовского риска и любого справедливо соотношение
Следовательно, — выпуклая (вверх) функция (рис. 3).
Рассмотрим критерий отвергающий без проведения испытаний. Имеем
Если
то определим из решения следующих уравнений (см. рис. 3):
в противном случае положим
В силу свойств выпуклости и положительности функции числа удовлетворяющие уравнениям (5) или (6), определяются единственным образом.
Лемма:
Если то при всех байесовский риск (4) минимизирует последовательный критерий отношения правдоподобия с критическими значениями
Доказательство леммы 2.1. Заметим прежде всего, что если или то вообще не имеет смысла проводить испытания. Поэтому оптимальный критерий состоит в следующем поведении на первом шаге: мы принимаем гипотезу если отвергаем, если и производим первое наблюдение, если
Доказательство леммы 2.1 завершается теперь по индукции. Действительно, если уже сделано п наблюдений то мы попадаем в ту же ситуацию, что и перед первым наблюдением: либо не производить дополнительные наблюдения и принять с потерями в случае неправильного решения, либо произвести наблюдение. Наличие предыдущих наблюдений в силу аддитивности потерь никак не влияет на решение задачи, поскольку их вклад в общие потери последующими испытаниями уже нельзя ни увеличить, ни уменьшить. Итак, процедура принятия решения прежняя: если то испытания прекращаются и принимается а если то производится дополнительное наблюдение. Однако при этом мы должны оперировать уже не априорной вероятностью а апостериорной вероятностью справедливости гипотезы при условии выборки определяемой формулой Байеса
Оптимальный байесовский критерий, таким образом, требует продолжения наблюдений только в случае или после проведения элементарных преобразований в случае
Вторая часть доказательства теоремы 2 устанавливает связь между параметрами основной и байесовской задач и состоит в доказательстве следующей леммы.
Лемма:
Для любых найдутся числа такие, что решение байесовской задачи с потерями стоимостью одного испытания d и априорной вероятностью появления гипотезы задается последовательным критерием отношения правдоподобия с границами
Доказательство леммы 2.2 представляет, по сути дела, доказательство существования обратного отображения для двумерного вектора как функции от Оно носит чисто аналитический характер и основывается на таких почти очевидных свойствах как монотонность, непрерывность и т.д. Поэтому мы его здесь не приводим, отправляя заинтересованного читателя к [12]. Отметим, что требование леммы нисколько не ограничивает общности задачи, поскольку этого всегда можно добиться линейной заменой «масштаба цен» («денежной реформой»),
Для окончания доказательства теоремы 2 рассмотрим последовательный критерий отношения правдоподобия с границами Для любого числа положим
Эти значения удовлетворяют равенствам (7) и неравенствам Поэтому, по леммам 2.1 и 2.2, найдутся такие что рассматриваемый критерий будет являться решением байесовской задачи с априорной вероятностью потерями и стоимостью одного наблюдения d. Обозначим через вероятности ошибок и средние числа наблюдений данного последовательного критерия отношения правдоподобия. Кроме того, рассмотрим любой другой критерий для проверки гипотез с вероятностями ошибок и средними числами наблюдений Поскольку последовательный критерий отношения правдоподобия минимизирует байесовский риск, то применяя к байесовской задаче и второй критерий, имеем
откуда получаем
Из справедливости последнего неравенства при всех вытекают, в частности, соотношения что и доказывает теорему.
Замечание к теореме 2. Анализируя доказательство леммы 2.1, нетрудно заметить, что если на первом шаге то у нас имеются две (а с учетом рандомизации и больше) идентичные с точки зрения байесовского риска возможности: принять или продолжить испытания; такая же ситуация может возникнуть и после любого наблюдения. В том случае, когда отношение правдоподобия
может равняться только с нулевой вероятностью, последнее обстоятельство не влияет на последовательный критерий отношения правдоподобия. Если же эта вероятность не равна нулю, то можно предложить, по крайней мере, две модификации критерия, одна из которых будет предписывать прекращение испытаний при равенстве отношения правдоподобия соответствующей константе, а другая, наоборот, продолжение наблюдений. Обе эти модификации, как уже говорилось, имеют одинаковый байесовский риск. Однако другие характеристики для них будут различными; в частности, вторая модификация требует большего числа наблюдений. Впрочем, никакого противоречия с изложенной теорией здесь нет, поскольку увеличение количества наблюдений компенсируется уменьшением уровня значимости и увеличением мощности. Поэтому для построения последовательного критерия отношения правдоподобия, имеющего заданные уровень значимости и мощность, необходимо, вообще говоря, привлекать рандомизацию. Подробнее на этом мы останавливаться не будем.
Пример:
Пусть наблюдается нормально распределенная случайная величина X с известной дисперсией и неизвестным средним относительно которого имеются две простые гипотезы: Как показано в примере 1, отношение правдоподобия имеет вид
При применении последовательного критерия отношения правдоподобия наблюдения продолжаются, пока в противном случае принимается либо гипотеза (если либо гипотеза (если
Вычислим Поскольку а то
Предположим теперь, что заданы конкретные значения: Тогда откуда определяем средние числа наблюдений Для сравнения, подставив в примере 1 значения находим, что при использовании обычного критерия отношения правдоподобия для разделения гипотез с уровнем значимости и мощностью необходимо иметь выборку объема п = 9. Значит, применение последовательного критерия отношения правдоподобия в случае справедливости гипотезы позволяет в среднем сократить число наблюдений более чем в 2 раза, а в случае справедливости гипотезы — почти в 2 раза.
У последовательного критерия отношения правдоподобия можно отметить два основных недостатка.
Первым является невозможность одновременного проведения нескольких испытаний.
Второй связан с тем, что если произошла ошибка в определении гипотез и истинная теоретическая функция распределения F(x) заключена между гипотетическими то потребуется очень большое число наблюдений, поскольку логарифм отношения правдоподобия будет колебаться вокруг нуля, не выходя ни на одну из границ или Для того чтобы компенсировать этот второй недостаток, на практике часто принудительно ограничивают число наблюдений.
Однопараметрические гипотезы. Равномерно наилучшие критерии
Пусть выборка извлечена из генеральной совокупности с теоретической функцией распределения F(x), принадлежащей одно-параметрическому семейству с неизвестным параметром область возможных значений которого будем обозначать через (обычно представляет собой либо всю прямую либо полупрямую либо отрезок Предположим, что в выделено некоторое подмножество дополнение к нему в обозначим через Относительно неизвестного параметра имеются две гипотезы: основная и конкурирующая Задача состоит в построении критерия для проверки двух (вообще говоря, сложных) однопараметрических гипотез Отметим, что если подмножество состоит всего из одной точки критерии для проверки гипотез называют обычно критериями значимости. В этом параграфе мы рассмотрим те случаи, в которых существуют равномерно наиболее мощные несмещенные критерии. Построение критериев в остальных случаях можно проводить по общему рецепту, приведенному для (много) параметрических гипотез в следующем параграфе.
Односторонние гипотезы
Пусть подмножество состоит из всех соответственно подмножество будет содержать все Таким образом, мы имеем две односторонние гипотезы: основную и конкурирующую Возьмем произвольные и составим отношение правдоподобия
где
в дискретном случае и
в непрерывном — функция правдоподобия.
Теорема:
Односторонние гипотезы. Предположим, что существует (одномерная) статистика такая, что для любых отношение правдоподобия можно представить в виде
причем — неубывающая функция от S. Тогда существует равномерно наиболее мощный критерий для проверки гипотез критическая область которого состоит из всех точек удовлетворяющих неравенству а уровень значимости и мощность являются неубывающими функциями от и как обычно, определяются формулами
в дискретном случае и
в непрерывном. Здесь — вероятность статистике принять значение больше С при условии, что истинное значение неизвестного параметра равно
Доказательство. Используем тот факт, что предложенный критерий является наиболее мощным для проверки простых гипотез при всех Действительно, для гипотез критерий отношения правдоподобия определяется неравенством
или, что в силу предположений теоремы то же самое, неравенством
где — обратная к функция, причем поскольку критерий отношения правдоподобия является несмещенным, то уровень значимости и мощность для этого критерия удовлетворяют неравенству — функция мощности (т.е. обобщенная запись см. параграф 1). Таким образом, мы доказали, что являются неубывающими функциями от откуда, в частности, следует:
Далее, из сказанного также вытекает, что рассматриваемый критерий является наиболее мощным уровня значимости Для проверки простых гипотез — любое число, большее Но тогда он является равномерно наиболее мощным критерием размера для проверки изначальных гипотез Действительно, любой другой критерий размера должен в точке (как и в любой другой точке иметь уровень значимости Значит, и мощность этого другого критерия при любом не должна превосходить мощности наиболее мощного критерия уровня значимости со для проверки простых гипотез т.е. должна удовлетворять неравенству Последнее неравенство и доказывает теорему.
Замечание:
Как обычно, чтобы соблюсти необходимую строгость приведенного доказательства, нужно привлекать рандомизацию. Кроме того, если потребовать, чтобы функции распределения были различными для разных то утверждение теоремы о монотонности функций можно усилить до строгой монотонности. Наконец, заметим, что семейство распределений с указанным в условиях теоремы свойством называют обычно семейством с монотонным отношением правдоподобия.
Замечание:
Нетрудно видеть, что при заданном размере рассматриваемый критерий наряду с максимизацией мощности при каждом минимизирует также уровень значимости при любом Поэтому обращенный критерий используемый для проверки основной гипотезы до против конкурирующей гипотезы будет также равномерно наиболее мощным.
Пример:
Пусть выборка произведена из нормальной генеральной совокупности с известной дисперсией и неизвестным средним относительно которого имеются две гипотезы: основная и конкурирующая Определим отношение правдоподобия
Вводя статистику
видим,что
причем при функция является неубывающей по S. Значит, существует равномерно наиболее мощный критерий для проверки гипотез критическая область которого задается неравенством
Для того чтобы определить уровень значимости и мощность этого критерия, заметим, что статистика распределена по нормальному закону с параметрами Тогда
Поскольку — возрастающая функция от то размер критерия
Теперь, если, наоборот, нужно построить критерий заданного размера то критическое значение С определяется выражением
где — а-квантиль стандартного нормального закона.
Двусторонняя основная гипотеза
Рассмотрим двустороннюю основную гипотезу Соответственно конкурирующая гипотеза имеет вид: Пусть существуют возрастающая функция и функции такие что плотность распределения любой функции распределения из семейства (чтобы не рассматривать рандомизированные критерии, мы ограничимся здесь только непрерывным случаем) представима в виде
(принадлежит экспоненциальному семейству, см. гл.2, параграф 1). Введем статистику
Определим для любых двух чисел вероятности
Теорема:
Двусторонняя основная гипотеза. При сделанных предположениях существует равномерно наиболее мощный критерий размера для проверки гипотез критическая область которого задается неравенствами
где определяются из уравнения
Уровень значимости и мощность задаются формулами :
Доказательство:
Для доказательства теоремы нам понадобится следующая лемма.
Лемма:
Система уравнений (8) при любом имеет решение.
Доказательство леммы 4.1, как и доказательство леммы 2.2, носит аналитический характер, и мы его здесь не приводим (см. [11]).
Представим функцию правдоподобия в виде
где
Рассмотрим теперь следующую байесовскую постановку задачи. Пусть основная «смешанная» гипотеза состоит в том, что выборка произведена из генеральной совокупности с теоретической плотностью распределения появившейся с вероятностью q, или с теоретической плотностью распределения появившейся с вероятностью а конкурирующая гипотеза — из генеральной совокупности с теоретической плотностью распределения — произвольное, но фиксированное число, Соответственно гипотезы имеют априорные вероятности Нетрудно видеть, что мы фактически имеем дело с двумя простыми гипотезами, причем по формуле полной вероятности гипотеза приписывает выборке плотность распределения
а гипотеза — плотность распределения
Байесовский риск (вероятность принятия неправильной гипотезы) имеет вид
где — критическая и допустимая области принятия Можно показать, что по аналогии с критерием отношения правдоподобия оптимальный байесовский критерий предписывает принять при
и отвергнуть в противном случае. В силу (9) неравенство для попадания выборки в критическую область можно переписать в виде
Нетрудно видеть, что из-за монотонности левая часть этого неравенства — выпуклая вниз функция, неограниченно возрастающая при Поэтому его можно переписать в виде где
причем при существует обратное преобразование
В соответствии с леммой 4.1 для любого существует решение уравнения (8), а значит, найдутся такие при которых оптимальный байесовский критерий для проверки гипотез имеет при равные вероятности ошибки (уровни значимости)
Но этот же критерий можно применить и в небайесовекой модели для проверки основной сложной гипотезы против простой гипотезы Ясно, что полученный критерий представляет собой именно тот критерий, о котором говорится в утверждении теоремы. Покажем, что он является равномерно наиболее мощным размера для проверки гипотез Для этого рассмотрим любой другой критерий размера не больше и обозначим через его уровни значимости в точках и мощность соответственно. Тогда
Снова считая, что оба критерия (основной и только что введенный) являются байесовскими, вычислим для них байесовские риски
Вспоминая теперь, что при первый из этих критериев является оптимальным байесовским, получаем неравенство или с учетом (10)-(12)
В силу произвольности выбора предложенный критерий является равномерно наиболее мощным размера для проверки сложных гипотез
Совершенно аналогично показывается, что построенный критерий является при наиболее мощным для проверки гипотезы против гипотезы среди всех критериев, для которых
откуда, в частности, следует, что для любого Значит, размер построенного критерия в точности равен
Для окончания доказательства теоремы осталось заметить, что поскольку построенный критерий имеет размер при проверке изначальных гипотез и является равномерно наиболее мощным размера при замене основной гипотезы на «упрощенную» или то он (см. окончание доказательства теоремы 3) является также равномерно наиболее мощным для проверки гипотез
Замечание:
Вообще говоря, уравнение (8) имеет решение только в тех случаях, когда вероятности событий
где
при истинных значениях параметра равны нулю. В общем случае (в частности, при дискретных наблюдениях), как обычно, нужно использовать рандомизацию, т. е. выбирать наряду с вероятности принятия гипотезы при условиях
Замечание:
Фактически при доказательстве теоремы было показано больше, чем требовалось. А именно, рассматриваемый критерий минимизирует уровень значимости среди всех критериев, удовлетворяющих соотношениям
Это замечание нам понадобится при рассмотрении двусторонней конкурирующей гипотезы.
функция мощности строго возрастает, а при наоборот, строго убывает. В силу утверждения теоремы 4 любой другой критерий для проверки удовлетворяющий условию
будет иметь функцию мощности, задаваемую кривой типа 2, т. е. лежащей не ниже кривой 1 при и не выше кривой 1 при Наконец, если потребовать, чтобы просто размер критерия равнялся то для некоторых уровень значимости может оказаться меньше (кривая 3).
Пример:
Выборка произведена из нормальной генеральной совокупности с известной дисперсией и неизвестным средним относительно которого имеются две гипотезы: двусторонняя основная гипотеза и конкурирующая гипотеза
Полагая
видим, что плотность нормального распределения представима в виде
причем — возрастающая функция от Поскольку статистика
распределена по нормальному закону с параметрами то вероятности определяются выражениями:
Рассмотрим уравнение
относительно неизвестного С. Это уравнение численно можно решить, например, методом последовательных приближений. Полагая теперь
и вспоминая тождество убеждаемся, что удовлетворяют равенствам
Таким образом, равномерно наиболее мощный критерий размера предписывает нам отвергнуть гипотезу если и принять ее в противном случае. Уровень значимости и мощность критерия задаются формулами
Двусторонняя конкурирующая гипотеза
Пусть теперь двусторонней является конкурирующая гипотеза основная гипотеза имеет вид Предположим также, что все допущения относительно семейства функций распределения принятые при рассмотрении двусторонней основной гипотезы, остаются в силе. Таким образом, мы только поменяли местами основную и конкурирующую гипотезы. Казалось бы, от такой замены ничего не должно измениться и равномерно наиболее мощный критерий для проверки основной двусторонней гипотезы будет таковым и для проверки двусторонней конкурирующей гипотезы. Однако это не так. Более того, для двусторонней конкурирующей гипотезы вообще не существует равномерно наиболее мощного критерия. Причина такого «неравноправия» кроется в том, что в определение равномерно наиболее мощного критерия уровень значимости и мощность входят несимметрично: от уровня значимости требуется только, чтобы он при каждом не превосходил размера в то время как мощность при каждом должна быть максимальна. Тем не менее, имеет место следующая теорема.
Теорема:
Двусторонняя конкурирующая гипотеза. Пусть дополнительно к условиям теоремы 4 функция является непрерывной.
Тогда для проверки гипотез существует равномерно наиболее мощный несмещенный критерий, который в точности совпадает с равномерно наиболее мощным критерием для проверки двусторонней основной гипотезы, за исключением того, что меняются местами критическая и допустимая области.
Доказательство:
Можно показать, что из условия непрерывности следует непрерывность функции мощности любого критерия, которая в свою очередь для несмещенного критерия влечет за собой равенство уровня значимости в точках размеру Таким образом, равномерно наиболее мощный несмещенный критерий можно искать только среди критериев, для которых
С другой стороны, как вытекает из замечания 2 к теореме 4, «обращенный» критерий теоремы 5 является наиболее мощным для проверки основной гипотезы против конкурирующей гипотезы среди всех критериев, удовлетворяющих (13). Но из самого утверждения теоремы 4 следует, что рассматриваемый критерий при каждом имеет уровень значимости т.е. является несмещенным, а значит, он будет также равномерно наиболее мощным и среди всех несмещенных критериев для проверки гипотез поскольку, как уже показывалось при доказательстве теорем 3 и 4, наличие дополнительных ограничений может привести только к уменьшению мощности критерия.
На рис.5 (кривая 1) приведен типичный график функции мощности равномерно наиболее мощного несмещенного критерия размера для
проверки двусторонней конкурирующей гипотезы. Кривая 2 изображает функцию мощности другого критерия, имеющего тот же размер а при — мощность, большую, чем равномерно наиболее мощный несмещенный критерий. Однако этот другой критерий является смещенным, поскольку при его мощность меньше размера
Многопараметрические гипотезы
Пусть выборка произведена из генеральной совокупности с теоретической функцией распределения F(x), принадлежащей параметрическому семейству зависящему от неизвестного векторного параметра Множество возможных значений параметра будем обозначать через Не вдаваясь в подробное описание скажем только, что представляет собой либо все k-мерное пространство либо достаточно «большую» его часть (например, в случае двух неизвестных параметров множество в может быть полуплоскостью, полосой, прямоугольником и т.д.). Предположим теперь, что в множестве выделено некоторое подмножество Как обычно, дополнение к будем обозначать через Нам нужно проверить две сложные параметрические гипотезы: основную против конкурирующей
Основным методом для проверки таких гипотез является метод отношения правдоподобия, представляющий естественное обобщение критерия отношения правдоподобия (см. параграф 2). Этот метод заключается в следующем. Рассмотрим функцию правдоподобия
в дискретном случае или
в непрерывном и определим два ее максимальных значения как функции от аргументов
и
(очевидно, что не превосходит
Так же, как и в методе максимального правдоподобия (см. параграф 4 гл.2), для нахождения значений и доставляющих максимум функции правдоподобия подмножестве и множестве обычно используют систему уравнений правдоподобия
с соблюдением соответствующих ограничений. Определим теперь отношение правдоподобия
Интуитивно ясно, что если мало отличается от единицы, то это говорит в пользу основной гипотезы Полагая получим следующий критерий для проверки двух сложных параметрических гипотез: мы должны принять гипотезу если и отвергнуть в противном случае, где С — критическое значение критерия.
Хотя уровень значимости и мощность полученного критерия и определяются, как обычно, формулами
их нахождение для конкретных семейств представляет, как правило, сложную в вычислительном плане задачу. Поэтому ограничимся выписыванием приближенного значения уровня значимости справедливого при большом объеме выборки п.
Теорема:
Асимптотическое свойство метода отношения правдоподобия. Пусть есть m-мерное (не обязательно линейное) подпространство Тогда (при некоторых дополнительных предположениях относительно семейства статистика при условии, что истинное значение параметра асимптотически при имеет -распределение с степенями свободы.
Доказательство теоремы 6, которое мы здесь не приводим, в идейном плане состоит из двух частей. Первая часть устанавливает асимптотическую нормальность оценок во и является многомерным аналогом теоремы 7 гл. 2. Вторая часть заключается в подстановке полученных в первой части асимптотически нормальных оценок в квадратичную форму, приближенно описывающую отношение правдоподобия вблизи истинного значения параметра
Таким образом, уровень значимости критерия определяется приближенной формулой — случайная величина, имеющая -распределение с степенями свободы (см. [1, табл. 2.1а]), и, что следует отметить особо, уровень значимости при большом объеме выборки практически не зависит от истинного значения параметра Если же, наоборот, задан уровень значимости то критическое значение С приближенно совпадает с квантилью -распределения с степенями свободы [1, табл. 2.2а].
Пример:
Выборка произведена из нормальной генеральной совокупности с неизвестными средним и дисперсией Требуется построить критерий уровня значимости для проверки сложной основной гипотезы против сложной конкурирующей гипотезы В этом примере множество всех возможных значений параметров представляет полуплоскость а гипотеза Но выделяет в этой полуплоскости полупрямую Функция правдоподобия имеет вид
Для определения значения доставляющего максимум функции правдоподобия в множестве обратимся к примеру 25 из гл. 2. Тогда
где — выборочные среднее и дисперсия, и, значит, само максимальное значение
Найдем теперь максимизирующее функцию правдоподобия в подмножестве Для этого заметим, что поскольку то система уравнений правдоподобия превращается в одно уравнение
решая которое, получаем
Таким образом,
Отношение правдоподобия имеет вид
а сам критерий предписывает нам принять гипотезу если и отвергнуть ее, если Поскольку множество имеет размерность а подмножество — размерность то критическое значение где — а-квантиль -распределения с одной степенью свободы. Полученный критерий удобно записать в несколько ином виде. Действительно, производя элементарные преобразования, имеем
Используя теперь монотонность функции видим, что неравенство эквивалентно неравенству где или, что то же самое, неравенству Иными словами, мы пришли к естественному критерию: принять гипотезу если и отвергнуть в противном случае.
Поскольку статистика
имеет t-распределение (см. гл. 1, параграф 4), то критическое значение при размере критерия представляет собой -квантиль t-распределения с n-1 степенями свободы.
Отметим [12], что построенный критерий является равномерно наиболее мощным несмещенным для проверки гипотез
Пример:
Предположим, мы произвели опыт, состоящий из п испытаний, а результат каждого испытания характеризуется двумя случайными факторами (показателями), причем первый фактор может принимать значения (уровни действия фактора) а второй — Результаты опыта можно представить в виде табл. 1, где — число испытаний, в которых первый фактор подействовал на уровне i, а второй — на уровне j. Наша задача — проверить, действуют ли эти факторы независимо (гипотеза или между ними существует зависимость (гипотеза
Здесь мы имеем дело с так называемой двухфакторной -уровневой моделью. Опишем эту модель. Прежде всего, если не делать предположения о независимости факторов, то имеется неизвестных параметров — вероятностей того, что первый фактор подействует на уровне i, а второй — на уровне j. Значит, множество представляет собой -мерное подпространство пространства выделяемое соотношениями (в силу последнего равенства размерность пространства равна В свою очередь, в силу независимости факторов подмножество является -мерным подпространством пространства задаваемым ограничениями
Выпишем логарифм функции правдоподобия
Поскольку удовлетворяют уравнению связи то для вычисления максимального значения определим лагранжиан
и в соответствии с общими правилами нахождения максимума будем искать из системы уравнений
Несложные подсчеты показывают, что Таким образом,
Аналогично поступим, если Тогда
и, значит,
где суммарное число наблюдений, в которых первый фактор подействовал на уровне суммарное число наблюдений, в которых второй фактор подействовал на уровне j.
Выписывая отношение правдоподобия
получаем окончательно, что мы должны принять гипотезу если и отвергнуть в противном случае. Критическое значение С приближенно совпадает с -квантилью распределения с степенями свободы, где а — уровень значимости.
Отметим, что при практической реализации описанного критерия число наблюдений п должно быть существенно больше более того, достаточно большими должны быть все (обычно рекомендуется не менее 5).
Критерии согласия
Предположим, что выборка произведена из генеральной совокупности с неизвестной теоретической функцией распределения, относительно которой имеются две непараметрические гипотезы: простая основная и сложная конкурирующая — известная функция распределения. Иными словами, мы хотим проверить, согласуются эмпирические данные с нашим гипотетическим предположением относительно теоретической функции распределения или нет. Поэтому критерии для проверки гипотез носят название критериев согласия. Приведем три наиболее часто употребляемых критерия согласия.
Критерий Колмогорова
Уже говорилось (параграф 3 гл. 1), что в силу теоремы Гливенко-Кантелли эмпирическая функция распределения представляет собой состоятельную оценку теоретической функции распределения F(x). Поэтому можно сравнить эмпирическую функцию распределения с гипотетической и, если мера расхождения между ними мала, то считать справедливой гипотезу Наиболее естественной и простой из таких мер (будем предполагать, что — непрерывная функция) является равномерное расстояние
(рис.6 и параграф 5 гл.2). Однако при построении критерия Колмогорова более удобно пользоваться нормированным расстоянием
Итак, рассмотрим статистику
Критерий Колмогорова предписывает принять гипотезу если и отвергнуть в противном случае, где С — критическое значение критерия.
Если гипотеза справедлива, то распределение статистики р не зависит от гипотетической функции распределения (доказательство этого факта следует из инвариантности статистики критерия Колмогорова относительно монотонных преобразований, в частности преобразования — обратная к функция; преобразование приводит выборку к равномерно распределенной на отрезке (0,1)). Поэтому можно рассчитать таблицы,
которые по заданному объему выборки п и критическому значению С позволяют определить уровень значимости критерия а. Поскольку на практике обычно, наоборот, считают известными уровень значимости а и объем выборки n, а затем по ним определяют критическое значение С, то именно такая таблица приведена в [1, табл. 6.2].
При распределение статистики р сходится к распределению Колмогорова [1, табл. 6.1], и критическое значение С при большом объеме выборки практически совпадает с -квантилью распределения Колмогорова.
При практической реализации критерия Колмогорова сначала по выборке составляют вариационный ряд Затем находят и определяют значения статистики р по формуле
Наконец, сравнивают полученное значение р с критическим значением С для заданного уровня значимости а и принимают или отвергают гипотезу
Критерий Пусть — некоторая функция распределения, не совпадающая с Критерий Колмогорова хорошо разделяет выборки (имеет большую мощность) из генеральных совокупностей с теоретическими функциями распределения если достаточно велико хотя бы на малом интервале изменения х. Встречается и обратная ситуация, когда мало, но постоянно на достаточно большом интервале изменения х. В этом случае для разделения гипотез естественно пользоваться каким-либо интегральным расстоянием, например расстоянием (см. параграф 5 гл. 2).
Статистика критерия задается выражением
(мы предполагаем, что гипотетическая функция распределения имеет плотность распределения а критическая область состоит из всех тех точек для которых где С — критическое значение критерия. Используя вариационный ряд X,… ,Х, статистику можно записать в более удобном для практических расчетов виде
Распределение статистики при условии справедливости гипотезы также не зависит от гипотетической функции распределения (это доказывается точно так же, как и инвариантность распределения статистики критерия Колмогорова) и при увеличении объема выборки сходится к -распределению. Поэтому уровень значимости критерия а определяется по критическому значению С приближенной формулой
где А(х) — функция -распределения [1, табл. 6.4а]. Если же задан уровень значимости а критерия, то критическое значение С практически совпадает с (1 — а)-квантилью -распределения.
Практическая реализация критерия происходит в той же последовательности, что и критерия Колмогорова: сначала по выборке определяется вариационный ряд затем находятся и вычисляется значение статистики и, наконец, полученное значение сравнивается с критическим значением С и либо принимается, либо отвергается гипотеза
В литературе иногда критериями называют целое семейство критериев, основанных на интегральных расстояниях с различными весовыми функциями.
Критерий хи квадрат
Критерий (Пирсона). Критерий является аналогом критерия для дискретной наблюдаемой величины X, хотя и применяется как в дискретном, так и в непрерывном случае.
Начнем с дискретного случая. Пусть наблюдаемая случайная величина X может принимать только значения с неизвестными вероятностями Основная гипотеза выделяет среди всех распределений случайных величин, принимающих значения одно фиксированное распределение, для которого значения вероятностей известны и равны Обозначим через число тех элементов выборки которые приняли значение Поскольку в силу закона больших чисел наблюденная частота с ростом объема выборки п стремится к вероятности мы должны признать гипотезу справедливой, если все мало отличаются от Введем теперь статистику
С одной стороны, эта статистика является мерой равномерной близости всех с другой стороны, как говорилось в параграфе 4 гл. 1, она асимптотически при независимо от гипотетических вероятностей имеет -распределение с L-1 степенями свободы. Таким образом, критерий предписывает принять гипотезу если и отвергнуть, если где С — критическое значение критерия.
Из сказанного выше следует, что при заданном С уровень значимости а критерия определяется приближенной формулой
где Н(х) — функция -распределения с L — 1 степенями свободы [1, табл. 2.1а]. Наоборот, если задан уровень значимости а, то критическое значение С примерно совпадает с -квантилью -распределения [1, табл. 2.2а].
При практической реализации критерия нужно следить за тем, чтобы объем выборки был велик, иначе неправомочна аппроксимация -распределением распределения статистики Обычно считается, что достаточным условием для этого является выполнение неравенств при всех l, в противном случае маловероятные значения объединяются в одно или присоединяются к другим значениям, причем объединенному значению приписывается суммарная вероятность (разумеется, уменьшается число степеней свободы при определении уровня значимости или критического значения С).
Следует отметить, что при критерий асимптотически совпадает с параметрическим критерием для проверки основной гипотезы против сложной конкурирующей гипотезы построенным по методу отношения правдоподобия, хотя эти критерии и основаны на совершенно различных идеях.
В общем случае (не обязательно дискретной наблюдаемой величины X) поступают следующим образом. Сначала всю прямую разбивают на L непересекающихся интервалов Затем определяют гипотетические вероятности попадания в интервал и числа элементов выборки, попавших в эти интервалы. Наконец, вычисляют значение статистики
и сравнивают его с критическим значением С. Как и в дискретном случае, маловероятные интервалы объединяют. Разумеется, для того чтобы улучшить качество критерия (увеличить его мощность), необходимо уменьшать интервалы разбиения, однако этому препятствует ограничение на числа попавших в каждый интервал наблюдений.
При применении критерия удобно пользоваться полигоном частот или гистограммой (см. параграф 3 гл. 1).
Часто требуется проверить не совпадение теоретической функции распределения F(x) с известной функцией распределения а принадлежность F(x) заданному параметрическому семейству функций распределения, зависящему от k-мерного неизвестного параметра т.е. разделить сложные непараметрические гипотезы Для того чтобы воспользоваться вышеописанными критериями, нужно из семейства выделить ту функцию распределения с которой уже и будет производиться сравнение эмпирической функции распределения F(x) выборки
Поэтому сначала, предполагая, что верна основная гипотеза находят оценку неизвестного векторного параметра а затем, полагая с помощью выбранного критерия согласия проверяют простую основную гипотезу против сложной конкурирующей гипотезы Ясно, что в качестве оценки лучше всего брать такое значение параметра которое доставляло бы минимальное значение статистике соответствующего критерия (см. параграф 5 гл.2). Однако эти естественные оценки, как правило, весьма сложны в вычислительном плане, и поэтому обычно пользуются более простыми оценками (полученными методами моментов или максимального правдоподобия).
Скажем еще несколько слов об уровне значимости критериев согласия при проверке сложной гипотезы Вообще говоря, даже асимптотически при уровень значимости критерия будет зависеть и от семейства и от выбранной оценки и даже от истинного значения неизвестного параметра Обычно на практике для критериев Колмогорова и считают уровень значимости таким же, как и в случае простой гипотезы При использовании достаточно «хороших» оценок (например, оценки максимального правдоподобия) истинный уровень значимости, как правило, будет даже меньше подсчитанного таким образом. Что касается критерия то Для него при определении уровня значимости просто уменьшают число степеней свободы -распределения на число неизвестных параметров k. Здесь мы делаем обратную ошибку: объявляем уровень значимости меньшим, чем он есть на самом деле, правда, обычно несущественно.
Отметим, что в последнее время в специальной литературе появились работы, в которых выводятся асимптотические разложения уровней значимости (и даже мощностей при «близких» гипотезах) критериев по степеням причем для некоторых критериев и типов распределений вычисляются также значения первых коэффициентов этих разложений.
Пример:
Проверим с помощью критерия Колмогорова гипотезу том, что проекция X вектора скорости молекулы водорода на ось координат (см. пример 1 из гл. 1) распределена по нормальному закону. Проверку произведем для уровня значимости Параметры нормального закона не заданы, значит, мы имеем дело со сложной гипотезой и сначала должны оценить среднее дисперсию Поскольку мы будем пользоваться критерием Колмогорова, хотелось бы оценки неизвестных параметров выбрать таким образом, чтобы они доставляли минимальное значение статистики критерия Колмогорова
где — вариационный ряд выборки приведенный в табл. 3 гл. 1, а — функция распределения нормального закона с параметрами Однако искать минимум р как функции — весьма сложная в вычислительном плане задача, так как Ф(x) даже не выражается в элементарных функциях. Поэтому в качестве оценок используем оценки максимального правдоподобия (см. примеры 8 из гл. 1 и 15 из гл.2). Теперь с помощью критерия Колмогорова будем проверять простую гипотезу Вычислив сначала и воспользовавшись равенством последовательно находим затем значения (табл.2). Наконец, определяя значение статистики критерия Колмогорова
(максимальное значение равно 0.06) и сравнивая его с 0,95-квантилью распределения Колмогорова ([1], с. 346), видим, что Значит, мы должны принять гипотезу и считать распределение проекции вектора скорости молекулы водорода нормальным.
Пример:
Проверим ту же гипотезу о нормальности проекции вектора скорости молекулы водорода с тем же уровнем значимости но теперь для проверки воспользуемся критерием Поскольку и в этом случае мы будем пользоваться оценками максимального правдоподобия неизвестных среднего и дисперсии нормального закона, то все этапы вычислений, вплоть до нахождения для критериев Колмогорова и полностью совпадают. Остается только определить значение статистики (см. табл. 2):
и сравнить найденное значение с 0,95-квантилью -распределения Таким образом, критерий также подтверждает справедливость гипотезы
Пример:
Воспользовавшись выборкой из примера 2 гл. 1, проверим с уровнем значимости гипотезу о том, что число X регистрируемых ежесекундно счетчиком Гейгера частиц имеет распределение Пуассона. Случайная величина X, распределенная по закону Пуассона, принимает значения с вероятностями
где — математическое ожидание X (см. часть 1, гл.5, параграф 3). Ввиду дискретности случайной величины X для проверки гипотезы следует использовать критерий Поскольку значение параметра неизвестно, мы имеем дело со сложной гипотезой и должны сначала оценить Воспользовавшись методом моментов, получаем оценку
(читателю предоставляется возможность убедиться, что оценка максимального правдоподобия также будет совпадать с выборочным средним). В табл. 3 выписаны гипотетические вероятности
а также числа элементов выборки, принявших значение l, взятые из статистического ряда выборки (табл. 6 гл. 1). Из табл. 3 видно, что числа элементов выборки, принявших значения 0, 6, 7, 8 и т.д., меньше 5. Поэтому объединим
нулевой и первый столбцы, а шестой и последующие столбцы присоединим к пятому (табл. 4). Производя последовательно вычисления, представленные в табл. 4, определяем значение статистики
Так как число столбцов L = 5, а число неизвестных параметров k=1, то -распределение, используемое для приближенного нахождения критического значения С, имеет степени свободы. В [I, с. 167] находим 0,9-квантиль -распределения с тремя степенями свободы Сравнивая значение констатируем, что следует признать справедливость гипотезы о пуассоновости распределения регистрируемых счетчиком Гейгера частиц.
Пример:
Еще раз обратимся к проверке гипотезы о нормальности проекции X вектора скорости молекулы водорода (см. примеры 7 и 8). Воспользуемся критерием Для этого разобьем всю прямую на 8 интервалов: Однако поскольку в первые два интервала попало всего одно наблюдение (см. табл. 7 гл. 1), объединим их с третьим интервалом. Аналогично седьмой и восьмой интервалы присоединим к шестому. Окончательно получим 4 интервала с числами попавших в них наблюдений, приведенными в табл. 5. Поскольку оценки неизвестных среднего и дисперсии нами уже получены, найдем, воспользовавшись [1, с. 112-113], гипотетические вероятности попадания наблюдаемой величины X в рассматриваемые интервалы:
Теперь определим значение статистики
Число степеней свободы распределения равно единице (число интервалов наблюдения L = 4, число неизвестных параметров k= 2). Сравнивая полученное значение с 0,95-квантилью -распределения с одной степенью свободы [1, с. 167], видим, что и критерий подтверждает гипотезу
Критерии однородности двух выборок
В этом параграфе мы обратимся к постановке задачи, несколько отличной от изучавшихся ранее. А именно, будем рассматривать две выборки и проверять гипотезу о том, что эти выборки извлечены из одной и той же генеральной совокупности. Итак, пусть мы имеем независимые выборки: произведенную из генеральной совокупности с неизвестной теоретической функцией распределения произведенную из генеральной совокупности с неизвестной теоретической функцией распределения Проверяются две сложные непараметрические гипотезы: основная и конкурирующая Будем предполагать, что функции непрерывны. Поскольку справедливость гипотезы по сути дела, означает, что выборки произведены из одной и той же генеральной совокупности, критерии для проверки гипотез называются критериями однородности двух выборок. Приведем два таких критерия.
Критерий Смирнова
Критерий Смирнова использует ту же идею, что и критерий Колмогорова, но только если в критерии Колмогорова эмпирическая функция распределения сравнивается с гипотетической, то в критерии Смирнова между собой сравниваются две эмпирические функции распределения. Статистика критерия Смирнова задается выражением
где — эмпирические функции распределения, построенные по выборкам соответственно. Критерий Смирнова предписывает принять гипотезу если р < С, и отвергнуть в противном случае.
При условии справедливости гипотезы распределение статистики р (а значит, и уровень значимости а) не зависит от распределения (доказательство этого факта слово в слово повторяет доказательство инвариантности статистики критерия Колмогорова). При малых объемах выборок критические значения С для заданных уровней значимости (размеров) критерия приведены в табл. 6.5а [1]. При распределение статистики р сходится к распределению Колмогорова что позволяет приближенно вычислять уровень значимости критерия Смирнова по формуле (распределение Колмогорова приведено в табл. 6.1 [1]) и, наоборот, определять критическое значение С при заданном уровне значимости как (1 — )-квантиль распределения Колмогорова
Пример:
На двух реакторах были проведены сходные эксперименты, в результате которых возникли новые частицы. Для анализа экспериментальных данных были замерены энергии п = 631 частицы, полученной на первом реакторе, и m = 839 частиц, полученных на втором реакторе, и построены эмпирические функции распределения энергии частиц Когда сравнили, оказалось, что Проверим с помощью критерия Смирнова уровня значимости (размера) гипотезу о том, что на обоих реакторах возникали одни и те же частицы. Для этого вычислим значение статистики критерия
и сравним полученное значение р с 0,8-квантилью распределения Колмогорова Поскольку то у нас есть основания считать гипотезу справедливой.
Критерий Вилкоксона
Образуем из выборок и один общий вариационный ряд (табл.6) и отметим последовательные порядковые номера (ранги) элементов выборки в общем вариационном ряду (в табл.6 рангами
Образуем из выборок и один общий вариационный ряд (табл.6) и отметим последовательные порядковые номера (ранги) элементов выборки в общем вариационном ряду (в табл.6 рангами
Критерии, позволяющие только на основе рангов принимать или отвергать гипотезу называются ранговыми критериями. Их достоинством является чрезвычайная простота.
Поскольку при условии справедливости гипотезы все возможные комбинации рангов равновероятны (всего таких комбинаций уровень значимости (размер) рангового критерия не зависит от распределения
Обычно в качестве статистики рангового критерия используют сумму некоторая функция, определенная для всех Мы рассмотрим один тип ранговых критериев — критерий Вилкоксона.
Пусть — одна из возможных перестановок чисел (т.е. расположенные в произвольном порядке числа Положим (см. табл.6). Статистика критерия Вилкоксона задается формулой
Односторонний критерий Вилкоксона предписывает принять гипотезу если и отвергнуть, если где С — критическое значение одностороннего критерия Вилкоксона.
При использовании двустороннего критерия Вилкоксона мы должны принять гипотезу если и отвергнуть ее, если либо Нижнее и верхнее критические значения двустороннего критерия Вилкоксона связаны между собой соотношением
Выбор перестановки осуществляется до опыта таким образом, чтобы по возможности наилучшим образом разделить выборки при наименее благоприятном соотношении между теоретическими функциями или, иными словами, чтобы при заданном соотношении между мощность критерия была бы максимальна. Так, если к наиболее опасным последствиям ведет отождествление наблюдаемых величин X и Y в случае, когда У систематически меньше X (т.е. при всех x), то естественно положить и воспользоваться односторонним критерием Вилкоксона. Если же одинаково пагубными представляются и случай X систематически меньше Y, и случай Y систематически меньше X (т.е. одновременно для всех х либо либо то опять-таки нужно взять но использовать двусторонний критерий Вилкоксона. Или еще пример: из каких-то соображений стало известно, что наблюдаемые величины X и У в среднем приблизительно одинаковы и нужно проверить основную гипотезу разброс случайных величин X и Y одинаков против конкурирующей гипотезы разброс Y больше разброса X. При выполнении гипотезы наблюдаемые значения величины Y (выборка будут в основном сосредоточиваться в начале и в конце общего вариационного ряда и весьма разумным представляется выбор перестановки и т.д.
Если верна основная гипотеза то распределение статистики критерия Вилкоксона зависит лишь от объемов выборок п и т и не зависит от конкретно используемой перестановки Поэтому в соответствии с принципом классической вероятности уровень значимости (размер) а одностороннего критерия Вилкоксона для критического значения С определяется как число тех сочетаний элементов по т, для которых отнесенного к общему числу сочетаний Поскольку обычно, наоборот, по уровню значимости а определяют критическое значение С, то именно такая таблица приведена в [1] (табл. 6.8).
Уровень значимости двустороннего критерия Вилкоксона находится как удвоенный уровень значимости одностороннего критерия с Для вычисления критических значений двустороннего критерия с уровнем значимости а мы должны по табл. 6.8 определить критическое значение С одностороннего критерия с уровнем значимости а затем положить
Наконец, если объем хотя бы одной из выборок или велик, можно воспользоваться асимптотической нормальностью статистики Вилкоксона со средним и дисперсией в этом случае при заданном уровне значимости а следует положить для одностороннего критерия
а для двустороннего —
где — а-квантиль стандартного нормального закона ([1], табл. 1.3).
Пример:
Для сравнительного анализа надежности крепежных болтов, выпускаемых двумя заводами, были проверены на разрыв п=24 изделия первого завода и m= 20 изделий второго. Силы натяжения при которых произошли разрывы изделий первого и второго заводов, приведены в табл.7 и 8.
Проверим с помощью критерия Вилкоксона уровня значимости (размера) гипотезу о том, что надежность изделий обоих заводов одинакова. Для того чтобы воспользоваться критерием Вилкоксона, нужно сначала задать перестановку Анализируя условия задачи, видим, что наименее благоприятным будет случай, когда надежность болтов, выпускаемых одним заводом, систематически меньше надежности аналогичных изделий другого завода, и, значит, в качестве перестановки естественно выбрать перестановку (1,2,…,44), причем из-за отсутствия априорных предпосылок предпочесть изделия какого-либо завода мы должны воспользоваться двусторонним критерием Вилкоксона. Образуем теперь общий вариационный ряд выборок (табл. 9) и определим значение статистики w критерия Вилкоксона
Так как мы используем двусторонний критерий Вилкоксона, то нижнее критическое значение при уровне значимости а = 0,01 совпадает с критическим значением С = 341 одностороннего критерия Вилкоксона, имеющего уровень
значимости 0,005 [1, с. 360], а верхнее критическое значение определяется формулой
Сравнивая значение статистики с критическими значениями видим, что Таким образом, гипотезу об одинаковой надежности крепежных болтов, выпускаемых обоими заводами, нужно признать не соответствующей результатам проверки, а для практических потребностей рекомендовать изделия второго завода как более надежные.
Статистическая гипотеза и как её проверить
Пусть по выборке объема n получено эмпирическое распределение с равноотстоящими вариантами:
По данным наблюдения выдвигают гипотезу о законе распределения генеральной совокупности, например, предполагают, что генеральная совокупность распределена равномерно или нормально. Такие гипотезы называются статистическими. Затем для тех же объектов, которые попали в выборку, вычисляют частоты, уже исходя из теоретической гипотезы. В результате получаются частоты (их называют выравнивающими частотами), которые, вообще говоря, отличаются от наблюдавшихся. Как определить, правильно или нет выдвинута гипотеза, т. е. случайны ли расхождения наблюдавшихся и выравнивающих частот или эти расхождения являются следствием неправильности гипотезы? Для решения этого вопроса применяют критерии согласия эмпирических наблюдений к выдвинутой гипотезе. Имеется несколько критериев согласия: («хи-квадрат»)
Пирсона, критерий Колмогорова, критерий Смирнова и др. Мы познакомимся с критерием согласия («хи-квадрат») Пирсона.
Предположим, что на основе приведенного выше распределения выдвинута гипотеза Н: генеральная совокупность имеет нормальное распределение. Для вычисления выравнивающих частот поступают следующим образом:
1) находят значения
2) выравнивающие частоты , ищут по формуле
где n — сумма наблюдавшихся частот; h — разность между двумя соседними вариантами;
В результате получают множество выравнивающих частот:
Обозначим через сумму квадратов разностей между эмпирическими и выравнивающими частотами, деленных на соответствующие выравнивающие частоты:
(это обозначение и для распределения )
Для данной выборки по формуле (4.16) находим значение случайной величины . Обозначим его через Затем определяется число k = m — 3, называемое числом степеней свободы, где m — число различных вариант выборки.
Теперь проверка гипотезы Н проводится так. Задаются достаточно малой вероятностью р, называемой уровнем значимости (обычно в качестве р берут либо 0,05, либо 0,01, либо 0,001). Считается, что событие с такой вероятностью является практически невозможным. По таблице значений (приложение 6, здесь речь идет о так называемых критических точках распределения ) по заданному уровню значимости р и числу степеней свободы k находят значение Если окажется, что тo гипотеза Н отвергается на уровне значимости р, так как произошло событие, которое не должно было произойти при верной гипотезе Н; если же (р; k), то Н принимается на уровне значимости р.
Пример:
При уровне значимости 0,05 проверим гипотезу о нормальном распределении генеральной совокупности, если известны:
эмпирические частоты… 6 13 38 74 106 85 30 14
теоретические частоты… 3 14 42 82 99 76 37 13
Вычислим , Для чего составим расчетную таблицу:
Найдем число степеней свободы, учитывая, что число различных вариант m = 8. Имеем: k = 8-3 = 5. По уровню значимости р = 0,05 и числу степеней свободы k = 5 по таблице значений (приложение 6) находим: (0,05; 5) = 11,1. Так как (0,05; 5), нет оснований отвергнуть гипотезу H.
Расчет прямых регрессии
Пусть проведено n опытов, в результате которых получены следующие значения величин За приближенные значения М(Х), M(Y), D(X) и D(Y) принимают их выборочные значения:
Оценкой для ц служит величина
Заменяя в соотношениях (3.15), (3.17), (3.20) величины их выборочными значениями получим приближенные значения коэффициента корреляции и коэффициентов регрессии:
Подставляя в уравнения (3.18) и (3.19) вместо a, b, p(Y/X) и p(X/Y) их приближенные значения, получим выборочные уравнения прямых регрессий:
Пример:
Найдем выборочное уравнение прямой регрессии Y на X по данным n =10 наблюдений. Результаты наблюдений и результаты вычислений собраны в таблице (С =70 и С’= 9,0 — ложные нули).
Вычисляем:
Уравнение искомой прямой имеет вид
или
Решение заданий и задач по предметам:
- Теория вероятностей
- Математическая статистика
Дополнительные лекции по теории вероятностей:
- Случайные события и их вероятности
- Случайные величины
- Функции случайных величин
- Числовые характеристики случайных величин
- Законы больших чисел
- Статистические оценки
- Статистическое исследование зависимостей
- Теории игр
- Вероятность события
- Теорема умножения вероятностей
- Формула полной вероятности
- Теорема о повторении опытов
- Нормальный закон распределения
- Определение законов распределения случайных величин на основе опытных данных
- Системы случайных величин
- Нормальный закон распределения для системы случайных величин
- Вероятностное пространство
- Классическое определение вероятности
- Геометрическая вероятность
- Условная вероятность
- Схема Бернулли
- Многомерные случайные величины
- Предельные теоремы теории вероятностей
- Оценки неизвестных параметров
- Генеральная совокупность
Ошибки первого и второго рода
Выдвинутая гипотеза
может быть правильной или неправильной,
поэтому возникает необходимость её
проверки. Поскольку проверку производят
статистическими методами, её называют
статистической. В итоге статистической
проверки гипотезы в двух случаях может
быть принято неправильное решение, т.
е. могут быть допущены ошибки двух родов.
Ошибка первого
рода состоит в том, что будет отвергнута
правильная гипотеза.
Ошибка второго
рода состоит в том, что будет принята
неправильная гипотеза.
Подчеркнём, что
последствия этих ошибок могут оказаться
весьма различными. Например, если
отвергнуто правильное решение «продолжать
строительство жилого дома», то эта
ошибка первого рода повлечёт материальный
ущерб: если же принято неправильное
решение «продолжать строительство»,
несмотря на опасность обвала стройки,
то эта ошибка второго рода может повлечь
гибель людей. Можно привести примеры,
когда ошибка первого рода влечёт более
тяжёлые последствия, чем ошибка второго
рода.
Замечание 1.
Правильное решение может быть принято
также в двух случаях:
-
гипотеза принимается,
причём и в действительности она
правильная; -
гипотеза отвергается,
причём и в действительности она неверна.
Замечание 2.
Вероятность совершить ошибку первого
рода принято обозначать через
;
её называют уровнем значимости. Наиболее
часто уровень значимости принимают
равным 0,05 или 0,01. Если, например, принят
уровень значимости, равный 0,05, то это
означает, что в пяти случаях из ста
имеется риск допустить ошибку первого
рода (отвергнуть правильную гипотезу).
Статистический
критерий проверки нулевой гипотезы.
Наблюдаемое значение критерия
Для проверки
нулевой гипотезы используют специально
подобранную случайную величину, точное
или приближённое распределение которой
известно. Обозначим эту величину в целях
общности через
.
Статистическим
критерием
(или просто критерием) называют случайную
величину
,
которая служит для проверки нулевой
гипотезы.
Например, если
проверяют гипотезу о равенстве дисперсий
двух нормальных генеральных совокупностей,
то в качестве критерия
принимают отношение исправленных
выборочных дисперсий:.
Эта величина
случайная, потому что в различных опытах
дисперсии принимают различные, наперёд
неизвестные значения, и распределена
по закону Фишера – Снедекора.
Для проверки
гипотезы по данным выборок вычисляют
частные значения входящих в критерий
величин и таким образом получают частное
(наблюдаемое) значение критерия.
Наблюдаемым
значением
называют значение критерия, вычисленное
по выборкам. Например, если по двум
выборкам найдены исправленные выборочные
дисперсиии,
то наблюдаемое значение критерия.
Критическая
область. Область принятия гипотезы.
Критические точки
После выбора
определённого критерия множество всех
его возможных значений разбивают на
два непересекающихся подмножества:
одно из них содержит значения критерия,
при которых нулевая гипотеза отвергается,
а другая – при которых она принимается.
Критической
областью называют совокупность значений
критерия, при которых нулевую гипотезу
отвергают.
Областью принятия
гипотезы (областью допустимых значений)
называют совокупность значений критерия,
при которых гипотезу принимают.
Основной принцип
проверки статистических гипотез можно
сформулировать так: если наблюдаемое
значение критерия принадлежит критической
области – гипотезу отвергают, если
наблюдаемое значение критерия принадлежит
области принятия гипотезы – гипотезу
принимают.
Поскольку критерий
— одномерная случайная величина, все её
возможные значения принадлежат некоторому
интервалу. Поэтому критическая область
и область принятия гипотезы также
являются интервалами и, следовательно,
существуют точки, которые их разделяют.
Критическими
точками (границами)
называют точки, отделяющие критическую
область от области принятия гипотезы.
Различают
одностороннюю (правостороннюю или
левостороннюю) и двустороннюю критические
области.
Правосторонней
называют критическую область, определяемую
неравенством
>,
где— положительное число.
Левосторонней
называют критическую область, определяемую
неравенством
<,
где— отрицательное число.
Односторонней
называют правостороннюю или левостороннюю
критическую область.
Двусторонней
называют критическую область, определяемую
неравенствами
где.
В частности, если
критические точки симметричны относительно
нуля, двусторонняя критическая область
определяется неравенствами ( в
предположении, что
>0):
,
или равносильным неравенством
.
Отыскание
правосторонней критической области
Как найти критическую
область? Обоснованный ответ на этот
вопрос требует привлечения довольно
сложной теории. Ограничимся её элементами.
Для определённости начнём с нахождения
правосторонней критической области,
которая определяется неравенством
>,
где>0.
Видим, что для отыскания правосторонней
критической области достаточно найти
критическую точку. Следовательно,
возникает новый вопрос: как её найти?
Для её нахождения
задаются достаточной малой вероятностью
– уровнем значимости
.
Затем ищут критическую точку,
исходя из требования, чтобы при условии
справедливости нулевой гипотезы
вероятность того, критерийпримет значение, большее,
была равна принятому уровню значимости:
Р(>)=.
Для каждого критерия
имеются соответствующие таблицы, по
которым и находят критическую точку,
удовлетворяющую этому требованию.
Замечание 1.
Когда
критическая точка уже найдена, вычисляют
по данным выборок наблюдаемое значение
критерия и, если окажется, что
>,
то нулевую гипотезу отвергают; если же<,
то нет оснований, чтобы отвергнуть
нулевую гипотезу.
Пояснение. Почему
правосторонняя критическая область
была определена, исходя из требования,
чтобы при справедливости нулевой
гипотезы выполнялось соотношение
Р(>)=?
(*)
Поскольку вероятность
события
>мала (— малая вероятность), такое событие при
справедливости нулевой гипотезы, в силу
принципа практической невозможности
маловероятных событий, в единичном
испытании не должно наступить. Если всё
же оно произошло, т.е. наблюдаемое
значение критерия оказалось больше,
то это можно объяснить тем, что нулевая
гипотеза ложна и, следовательно, должна
быть отвергнута. Таким образом, требование
(*) определяет такие значения критерия,
при которых нулевая гипотеза отвергается,
а они и составляют правостороннюю
критическую область.
Замечание 2.
Наблюдаемое значение критерия может
оказаться большим
не потому, что нулевая гипотеза ложна,
а по другим причинам (малый объём выборки,
недостатки методики эксперимента и
др.). В этом случае, отвергнув правильную
нулевую гипотезу, совершают ошибку
первого рода. Вероятность этой ошибки
равна уровню значимости.
Итак, пользуясь требованием (*), мы с
вероятностьюрискуем совершить ошибку первого рода.
Замечание 3. Пусть
нулевая гипотеза принята; ошибочно
думать, что тем самым она доказана.
Действительно, известно, что один пример,
подтверждающий справедливость некоторого
общего утверждения, ещё не доказывает
его. Поэтому более правильно говорить,
«данные наблюдений согласуются с нулевой
гипотезой и, следовательно, не дают
оснований её отвергнуть».
На практике для
большей уверенности принятия гипотезы
её проверяют другими способами или
повторяют эксперимент, увеличив объём
выборки.
Отвергают гипотезу
более категорично, чем принимают.
Действительно, известно, что достаточно
привести один пример, противоречащий
некоторому общему утверждению, чтобы
это утверждение отвергнуть. Если
оказалось, что наблюдаемое значение
критерия принадлежит критической
области, то этот факт и служит примером,
противоречащим нулевой гипотезе, что
позволяет её отклонить.
Отыскание
левосторонней и двусторонней критических
областей***
Отыскание
левосторонней и двусторонней критических
областей сводится (так же, как и для
правосторонней) к нахождению соответствующих
критических точек. Левосторонняя
критическая область определяется
неравенством
<(<0).
Критическую точку находят, исходя из
требования, чтобы при справедливости
нулевой гипотезы вероятность того, что
критерий примет значение, меньшее,
была равна принятому уровню значимости:
Р(<)=.
Двусторонняя
критическая область определяется
неравенствами
Критические
точки находят, исходя из требования,
чтобы при справедливости нулевой
гипотезы сумма вероятностей того, что
критерий примет значение, меньшееили большее,
была равна принятому уровню значимости:
.
(*)
Ясно, что критические
точки могут быть выбраны бесчисленным
множеством способов. Если же распределение
критерия симметрично относительно нуля
и имеются основания (например, для
увеличения мощности) выбрать симметричные
относительно нуля точки (-
)и(>0),
то
Учитывая (*), получим
.
Это соотношение
и служит для отыскания критических
точек двусторонней критической области.
Критические точки находят по соответствующим
таблицам.
Дополнительные
сведения о выборе критической области.
Мощность критерия
Мы строили
критическую область, исходя из требования,
чтобы вероятность попадания в неё
критерия была равна
при условии, что нулевая гипотеза
справедлива. Оказывается целесообразным
ввести в рассмотрение вероятность
попадания критерия в критическую область
при условии, что нулевая гипотеза неверна
и, следовательно, справедлива конкурирующая.
Мощностью критерия
называют вероятность попадания критерия
в критическую область при условии, что
справедлива конкурирующая гипотеза.
Другими словами, мощность критерия есть
вероятность того, что нулевая гипотеза
будет отвергнута, если верна конкурирующая
гипотеза.
Пусть для проверки
гипотезы принят определённый уровень
значимости и выборка имеет фиксированный
объём. Остаётся произвол в выборе
критической области. Покажем, что её
целесообразно построить так, чтобы
мощность критерия была максимальной.
Предварительно убедимся, что если
вероятность ошибки второго рода (принять
неправильную гипотезу) равна
,
то мощность равна 1-.
Действительно, если— вероятность ошибки второго рода, т.е.
события «принята нулевая гипотеза,
причём справедливо конкурирующая», то
мощность критерия равна 1 —.
Пусть мощность 1
—
возрастает; следовательно, уменьшается
вероятностьсовершить ошибку второго рода. Таким
образом, чем мощность больше, тем
вероятность ошибки второго рода меньше.
Итак, если уровень
значимости уже выбран, то критическую
область следует строить так, чтобы
мощность критерия была максимальной.
Выполнение этого требования должно
обеспечить минимальную ошибку второго
рода, что, конечно, желательно.
Замечание 1.
Поскольку вероятность события «ошибка
второго рода допущена» равна
,
то вероятность противоположного события
«ошибка второго рода не допущена» равна
1 —,
т.е. мощности критерия. Отсюда следует,
что мощность критерия есть вероятность
того, что не будет допущена ошибка
второго рода.
Замечание 2. Ясно,
что чем меньше вероятности ошибок
первого и второго рода, тем критическая
область «лучше». Однако при заданном
объёме выборки уменьшить одновременно
иневозможно; если уменьшить,
тобудет возрастать. Например, если принять=0,
то будут приниматься все гипотезы, в
том числе и неправильные, т.е. возрастает
вероятностьошибки второго рода.
Как же выбрать
наиболее целесообразно? Ответ на этот
вопрос зависит от «тяжести последствий»
ошибок для каждой конкретной задачи.
Например, если ошибка первого рода
повлечёт большие потери, а второго рода
– малые, то следует принять возможно
меньшее.
Если
уже выбрано, то, пользуясь теоремой Ю.
Неймана и Э.Пирсона, можно построить
критическую область, для которойбудет минимальным и, следовательно,
мощность критерия максимальной.
Замечание 3.
Единственный способ одновременного
уменьшения вероятностей ошибок первого
и второго рода состоит в увеличении
объёма выборок.
Соседние файлы в папке Лекции 2 семестр
- #
- #
- #
- #
Ошибки, встроенные в систему: их роль в статистике
Время на прочтение
6 мин
Количество просмотров 13K
В прошлой статье я указал, как распространена проблема неправильного использования t-критерия в научных публикациях (и это возможно сделать только благодаря их открытости, а какой трэш творится при его использовании во всяких курсовых, отчетах, обучающих задачах и т.д. — неизвестно). Чтобы обсудить это, я рассказал об основах дисперсионного анализа и задаваемом самим исследователем уровне значимости α. Но для полного понимания всей картины статистического анализа необходимо подчеркнуть ряд важных вещей. И самая основная из них — понятие ошибки.
Ошибка и некорректное применение: в чем разница?
В любой физической системе содержится какая-либо ошибка, неточность. В самой разнообразной форме: так называемый допуск — отличие в размерах разных однотипных изделий; нелинейная характеристика — когда прибор или метод измеряют что-то по строго известному закону в определенных пределах, а дальше становятся неприменимыми; дискретность — когда мы чисто технически не можем обеспечить плавность выходной характеристики.
И в то же время существует чисто человеческая ошибка — некорректное использование устройств, приборов, математических законов. Между ошибкой, присущей системе, и ошибкой применения этой системы есть принципиальная разница. Важно различать и не путать между собой эти два понятия, называемые одним и тем же словом «ошибка». Я в данной статье предпочитаю использовать слово «ошибка» для обозначения свойства системы, а «некорректное применение» — для ошибочного ее использования.
То есть, ошибка линейки равна допуску оборудования, наносящего штрихи на ее полотно. А ошибкой в смысле некорректного применения было бы использовать ее при измерении деталей наручных часов. Ошибка безмена написана на нем и составляет что-то около 50 граммов, а неправильным использованием безмена было бы взвешивание на нем мешка в 25 кг, который растягивает пружину из области закона Гука в область пластических деформаций. Ошибка атомно-силового микроскопа происходит из его дискретности — нельзя «пощупать» его зондом предметы мельче, чем диаметром в один атом. Но способов неправильно использовать его или неправильно интерпретировать данные существует множество. И так далее.
Так, а что же за ошибка имеет место в статистических методах? А этой ошибкой как раз и является пресловутый уровень значимости α.
Ошибки первого и второго рода
Ошибкой в математическом аппарате статистики является сама ее Байесовская вероятностная сущность. В прошлой статье я уже упоминал, на чем стоят статистические методы: определение уровня значимости α как наибольшей допустимой вероятности неправомерно отвергнуть нулевую гипотезу, и самостоятельное задание исследователем этой величины перед исследователем.
Вы уже видите эту условность? На самом деле, в критериальных методах нету привычной математической строгости. Математика здесь оперирует вероятностными характеристиками.
И тут наступает еще один момент, где возможна неправильная трактовка одного слова в разном контексте. Необходимо различать само понятие вероятности и фактическую реализацию события, выражающуюся в распределении вероятности. Например, перед началом любого нашего эксперимента мы не знаем, какую именно величину мы получим в результате. Есть два возможных исхода: загадав некоторое значение результата, мы либо действительно его получим, либо не получим. Логично, что вероятность и того, и другого события равна 1/2. Но показанная в предыдущей статье Гауссова кривая показывает распределение вероятности того, что мы правильно угадаем совпадение.
Наглядно можно проиллюстрировать это примером. Пусть мы 600 раз бросаем два игральных кубика — обычный и шулерский. Получим следующие результаты:
До эксперимента для обоих кубиков выпадение любой грани будет равновероятно — 1/6. Однако после эксперимента проявляется сущность шулерского кубика, и мы можем сказать, что плотность вероятности выпадения на нем шестерки — 90%.
Другой пример, который знают химики, физики и все, кто интересуется квантовыми эффектами — атомные орбитали. Теоретически электрон может быть «размазан» в пространстве и находиться практически где угодно. Но на практике есть области, где он будет находиться в 90 и более процентах случаев. Эти области пространства, образованные поверхностью с плотностью вероятности нахождения там электрона 90%, и есть классические атомные орбитали, в виде сфер, гантелей и т.д.
Так вот, самостоятельно задавая уровень значимости, мы заведомо соглашаемся на описанную в его названии ошибку. Из-за этого ни один результат нельзя считать «стопроцентно достоверным» — всегда наши статистические выводы будут содержать некоторую вероятность сбоя.
Ошибка, формулируемая определением уровня значимости α, называется ошибкой первого рода. Ее можно определить, как «ложная тревога», или, более корректно, ложноположительный результат. В самом деле, что означают слова «ошибочно отвергнуть нулевую гипотезу»? Это значит, по ошибке принять наблюдаемые данные за значимые различия двух групп. Поставить ложный диагноз о наличии болезни, поспешить явить миру новое открытие, которого на самом деле нет — вот примеры ошибок первого рода.
Но ведь тогда должны быть и ложноотрицательные результаты? Совершенно верно, и они называются ошибками второго рода. Примеры — не поставленный вовремя диагноз или же разочарование в результате исследования, хотя на самом деле в нем есть важные данные. Ошибки второго рода обозначаются буквой, как ни странно, β. Но само это понятие не так важно для статистики, как число 1-β. Число 1-β называется мощностью критерия, и как нетрудно догадаться, оно характеризует способность критерия не упустить значимое событие.
Однако содержание в статистических методах ошибок первого и второго рода не является только лишь их ограничением. Само понятие этих ошибок может использоваться непосредственным образом в статистическом анализе. Как?
ROC-анализ
ROC-анализ (от receiver operating characteristic, рабочая характеристика приёмника) — это метод количественного определения применимости некоторого признака к бинарной классификации объектов. Говоря проще, мы можем придумать некоторый способ, как отличить больных людей от здоровых, кошек от собак, черное от белого, а затем проверить правомерность такого способа. Давайте снова обратимся к примеру.
Пусть вы — подающий надежды криминалист, и разрабатываете новый способ скрытно и однозначно определять, является ли человек преступником. Вы придумали количественный признак: оценивать преступные наклонности людей по частоте прослушивания ими Михаила Круга. Но будет ли давать адекватные результаты ваш признак? Давайте разбираться.
Вам понадобится две группы людей для валидации вашего критерия: обычные граждане и преступники. Положим, действительно, среднегодовое время прослушивания ими Михаила Круга различается (см. рисунок):
Здесь мы видим, что по количественному признаку времени прослушивания наши выборки пересекаются. Кто-то слушает Круга спонтанно по радио, не совершая преступлений, а кто-то нарушает закон, слушая другую музыку или даже будучи глухим. Какие у нас есть граничные условия? ROC-анализ вводит понятия селективности (чувствительности) и специфичности. Чувствительность определяется как способность выявлять все-все интересующие нас точки (в данном примере — преступников), а специфичность — не захватывать ничего ложноположительного (не ставить под подозрение простых обывателей). Мы можем задать некоторую критическую количественную черту, отделяющую одних от других (оранжевая), в пределах от максимальной чувствительности (зеленая) до максимальной специфичности (красная).
Посмотрим на следующую схему:
Смещая значение нашего признака, мы меняем соотношения ложноположительного и ложноотрицательного результатов (площади под кривыми). Точно так же мы можем дать определения Чувствительность = Полож. рез-т/(Полож. рез-т + ложноотриц. рез-т) и Специфичность = Отриц. рез-т/(Отриц. рез-т + ложноположит. рез-т).
Но главное, мы можем оценить соотношение положительных результатов к ложноположительным на всем отрезке значений нашего количественного признака, что и есть наша искомая ROC-кривая (см. рисунок):
А как нам понять из этого графика, насколько хорош наш признак? Очень просто, посчитать площадь под кривой (AUC, area under curve). Пунктирная линия (0,0; 1,1) означает полное совпадение двух выборок и совершенно бессмысленный критерий (площадь под кривой равна 0,5 от всего квадрата). А вот выпуклость ROC кривой как раз и говорит о совершенстве критерия. Если же нам удастся найти такой критерий, что выборки вообще не будут пересекаться, то площадь под кривой займет весь график. В целом же признак считается хорошим, позволяющим надежно отделить одну выборку от другой, если AUC > 0,75-0,8.
С помощью такого анализа вы можете решать самые разные задачи. Решив, что слишком много домохозяек оказались под подозрением из-за Михаила Круга, а кроме того упущены опасные рецидивисты, слушающие Ноггано, вы можете отвергнуть этот критерий и разработать другой.
Возникнув, как способ обработки радиосигналов и идентификации «свой-чужой» после атаки на Перл-Харбор (отсюда и пошло такое странное название про характеристику приемника), ROC-анализ нашел широкое применение в биомедицинской статистике для анализа, валидации, создания и характеристики панелей биомаркеров и т.д. Он гибок в использовании, если оно основано на грамотной логике. Например, вы можете разработать показания для медицинской диспансеризации пенсионеров-сердечников, применив высокоспецифичный критерий, повысив эффективность выявления болезней сердца и не перегружая врачей лишними пациентами. А во время опасной эпидемии ранее неизвестного вируса вы наоборот, можете придумать высокоселективный критерий, чтобы от вакцинации в прямом смысле не ускользнул ни один чих.
С ошибками обоих родов и их наглядностью в описании валидируемых критериев мы познакомились. Теперь же, двигаясь от этих логических основ, можно разрушить ряд ложных стереотипных описаний результатов. Некоторые неправильные формулировки захватывают наши умы, часто путаясь своими схожими словами и понятиями, а также из-за очень малого внимания, уделяемого неверной интерпретации. Об этом, пожалуй, нужно будет написать отдельно.
8 июля 2021 г.
При проверке гипотез нулевая гипотеза — это гипотеза по умолчанию, которая утверждает, что между переменными нет статистической значимости. Исследователь проверяет нулевую гипотезу, чтобы увидеть, достаточно ли статистической значимости, чтобы опровергнуть ее, и это иногда приводит к ошибке типа 1 или типа 2. Если вы занимаетесь проверкой гипотез как частью своей работы, важно понимать, как ошибки типа 1 и типа 2 могут повлиять на ваши результаты.
В этой статье мы объясним, что такое ошибки типа 1 и типа 2, рассмотрим, как они могут возникнуть, обсудим их важность в исследованиях и приведем примеры, которые помогут вам понять эти концепции.
Ошибки типа 1 и типа 2 относятся к неправильным определениям нулевой гипотезы, но они различаются тем, что исследователь считает верным или ложным в отношении гипотезы. Ошибка 1-го типа, также называемая ложноположительной, возникает, когда исследователь отвергает нулевую гипотезу, которая является истинной, и решает, что существует статистически значимое различие, которого не существует. Ошибка типа 2 является обратной ошибкой типа 1. Также известная как ложный отрицательный результат, она возникает, когда исследователь не отвергает нулевую гипотезу, когда альтернативная гипотеза верна.
Например, в судебном деле нулевая гипотеза будет заключаться в том, что обвиняемый невиновен, пока его вина не будет доказана, а альтернативная гипотеза будет состоять в том, что он виновен. Есть четыре возможных исхода в отношении истинного характера дела:
-
Истинно отрицательный: признан невиновным в суде и невиновен на самом деле.
-
Ложное срабатывание: признан виновным в суде, но на самом деле невиновен.
-
Ложноотрицательный: признан невиновным в суде, но на самом деле виновен.
-
Истинно положительный: признан виновным в суде и фактически виновен
В приведенном выше примере второй и третий результаты являются ошибками типа 1 и типа 2 соответственно. В случае ложного срабатывания присяжные ошибочно отвергают нулевую гипотезу, утверждающую, что подсудимый невиновен. В случае ложноотрицательного результата они ошибочно не отвергают нулевую гипотезу.
Почему возникают ошибки первого рода?
Есть два фактора, которые обычно способствуют возникновению ошибок 1-го рода:
Шанс
Проверка гипотез никогда не бывает стопроцентной, поэтому всегда есть возможность сделать неверные выводы на основе имеющихся данных. Как правило, данные поступают из выборочной совокупности, относительно небольшой выборки лиц, предназначенных для обозначения более широкой демографической группы. Иногда данные, генерируемые выборочными совокупностями, искажают выводы, которые не обязательно отражают интересы всего населения. Это переменная, которую исследователи не могут контролировать, но они могут помочь смягчить ее, выбрав более крупные выборки.
Злоупотребление служебным положением
Иногда ошибки 1-го рода возникают из-за неправильной исследовательской практики. Например, исследователи могут неосознанно исказить результаты теста, завершив его слишком рано. Им может показаться, что у них достаточно данных, хотя стандартная практика рекомендует продолжить тест. В качестве альтернативы они могут сделать вывод, несмотря на то, что им не удалось достичь соответствующего уровня статистической значимости. Исследователи могут избежать выводов типа 1, связанных с злоупотреблением служебным положением, если будут следовать протоколам исследований и обеспечивать надежность своей практики.
Почему возникают ошибки второго рода?
Основным фактором, способствующим возникновению ошибок 2-го рода, является размер выборки. Чем больше размер выборки, тем больше вероятность обнаружения различий в статистическом тесте. Например, если вы хотите проверить, относятся ли студенты колледжа положительно или отрицательно к определенному продукту, группа из трех человек может выразить только два к одному разнообразию или вообще ничего не сказать. Для сравнения, выборка из 1000 человек с большей вероятностью вызовет широкий спектр мнений и, таким образом, более точно отразит большую часть населения.
Какова важность ошибок типа 1 по сравнению с ошибками типа 2?
Ошибки типа 1 и типа 2 являются значительными из-за последствий, которые они имеют в реальных приложениях. Ошибки типа 1 обычно приводят к ненужному использованию ресурсов без какой-либо выгоды. Например, если исследователь-медик совершает ошибку 1-го рода в отношении эффективности нового лечения, он может подтвердить ошибочность исследований и методов, что может привести к созданию лекарства, не приносящего облегчения.
Ошибки 2-го типа важны тем, что могут помешать выделению ресурсов и выполнению необходимых действий. Например, при скрининге пациента на наличие заболевания ложноотрицательный результат может свидетельствовать о том, что пациент здоров, хотя на самом деле он нуждается в медицинском вмешательстве.
Примеры ошибок типа 1 и типа 2
Рассмотрим эти примеры ошибок типа 1 и типа 2, чтобы помочь вам понять, что они из себя представляют:
Пример ошибки 1 рода
Медицинский исследователь проверяет эффективность домашнего средства от головной боли. Нулевая гипотеза состоит в том, что домашнее средство не влияет на головную боль, в то время как альтернативная гипотеза состоит в том, что оно лечит головную боль. Исследователь набирает выборку из 20 пациентов с хроническими головными болями и назначает лекарство половине из них в течение одного месяца. Половина, не получающая лекарство, продолжает страдать от хронических головных болей, в то время как у шести человек из оставшейся половины головные боли прекратились.
На основании вышеизложенного исследователь отвергает нулевую гипотезу. Однако, учитывая небольшое количество тех, кто испытал облегчение, могут возникнуть сомнения относительно того, было ли это лекарство или посторонний фактор, который улучшил состояние шести участников. Если эти шесть участников использовали другие средства от головной боли вместе с тестируемым средством, вполне вероятно, что исследователь совершил ошибку 1-го типа.
Пример ошибки 2 рода
Интернет-магазин хочет знать, могут ли изменения дизайна его веб-сайта помочь увеличить продажи. Нулевая гипотеза состоит в том, что изменения дизайна не влияют на продажи, а альтернативная гипотеза говорит об обратном. Продавец проводит A/B-тестирование, в ходе которого сравниваются две версии сайта, существующая версия и обновленная версия. Три дня мониторят продажи на основе существующей версии. Затем в течение следующих трех дней они представляют новую версию и смотрят, как она повлияет на продажи. По истечении шести дней они не видят значительных изменений в показателях продаж.
Однако возможно, что увеличение периодов наблюдения для каждой версии сайта привело бы к статистически значимой разнице. Если бы розничный продавец отслеживал продажи в течение одного месяца каждый и заметил увеличение продаж во втором месяце, он совершил бы ошибку второго рода, ошибочно приняв нулевую гипотезу.
Сущность задачи проверки статистических гипотез
Статистическая гипотеза
—
представляет собой некоторое предположение о законе
распределения случайной величины или о параметрах этого закона,
формулируемое на основе выборки.
Примерами статистических гипотез являются предположения: генеральная
совокупность распределена по экспоненциальному закону; математические
ожидания двух экспоненциально распределенных выборок равны друг другу. В
первой из них высказано предположение о виде закона распределения, а во
второй – о параметрах двух распределений. Гипотезы, в основе которых
нет никаких допущений о конкретном виде закона распределения, называют непараметрическими, в противном случае – параметрическими.
Гипотезу, утверждающую, что различие между
сравниваемыми характеристиками отсутствует, а наблюдаемые отклонения
объясняются лишь случайными колебаниями в выборках, на основании которых
производится сравнение, называют нулевой (основной) гипотезой и обозначают Н0. Наряду с основной гипотезой рассматривают и альтернативную (конкурирующую, противоречащую) ей гипотезу Н1. И если нулевая гипотеза будет отвергнута, то будет иметь место альтернативная гипотеза.
Различают простые и сложные гипотезы. Гипотезу называют простой, если она однозначно характеризует параметр распределения случайной величины.
Например, если l
является параметром экспоненциального распределения, то гипотеза Н0 о равенстве l
=10 – простая гипотеза. Сложной называют гипотезу, которая состоит из конечного или бесконечного множества простых гипотез. Сложная гипотеза Н0 о неравенстве l
> 10 состоит из бесконечного множества простых гипотез Н0 о равенстве l
=bi , где bi – любое число, большее 10. Гипотеза Н0
о том, что математическое ожидание нормального распределения равно двум
при неизвестной дисперсии, тоже является сложной. Сложной гипотезой
будет предположение о распределении случайной величины Х по нормальному закону, если не фиксируются конкретные значения математического ожидания и дисперсии.
Проверка гипотезы основывается на вычислении
некоторой случайной величины – критерия, точное или приближенное
распределение которого известно. Обозначим эту величину через z, ее значение является функцией от элементов выборки z=z(x1, x2, …, xn).
Процедура проверки гипотезы предписывает каждому значению критерия одно
из двух решений – принять или отвергнуть гипотезу. Тем самым все
выборочное пространство и соответственно множество значений критерия
делятся на два непересекающихся подмножества S0 и S1. Если значение критерия z попадает в область S0, то гипотеза принимается, а если в область S1, – гипотеза отклоняется. Множество S0называется областью принятия гипотезы или областью допустимых значений, а множество S1 – областью отклонения гипотезы или критической областью.
Выбор одной области однозначно определяет и другую область.
Принятие или отклонение гипотезы Н0 по
случайной выборке соответствует истине с некоторой вероятностью и, соответственно,
возможны два рода ошибок.
Ошибка первого рода
—
возникает с вероятностью a тогда, когда отвергается верная гипотеза Н0 и принимается конкурирующая гипотеза Н1.
Ошибка второго рода
—
возникает с вероятностью b в том случае, когда принимается неверная гипотеза Н0, в то время как справедлива конкурирующая гипотеза Н1.
Доверительная вероятность – это вероятность не совершить ошибку первого рода и принять верную гипотезу Н0.
Вероятность отвергнуть ложную гипотезу Н0 называется мощностью критерия.
Следовательно, при проверке гипотезы возможны четыре варианта исходов, табл. 3.1.
Таблица 3.1.
Гипотеза Н0 | Решение | Вероятность | Примечание |
Верна | Принимается | 1–a | Доверительная вероятность |
Отвергается | a | Вероятность ошибки первого рода | |
Неверна | Принимается | b | Вероятность ошибки второго рода |
Отвергается | 1–b | Мощность критерия |
Например, рассмотрим случай, когда некоторая несмещенная оценка параметра q
вычислена по выборке объема n, и эта оценка имеет плотность распределения f(q
), рис. 3.1.
Рис. 3.1. Области и отклонения гипотезы
Предположим, что истинное значение оцениваемого параметра равно Т. Если рассматривать гипотезу Н0 о равенстве q
=Т, то насколько велико должно быть различие между q
и Т, чтобы эту гипотезу отвергнуть. Ответить на данный вопрос
можно в статистическом смысле, рассматривая вероятность достижения
некоторой заданной разности между q
и Т на основе выборочного распределения параметра q
.
Целесообразно полагать одинаковыми значения вероятности выхода параметра q
за нижний и верхний пределы интервала. Такое допущение во многих
случаях позволяет минимизировать доверительный интервал, т.е. повысить
мощность критерия проверки. Суммарная вероятность того, что параметр q
выйдет за пределы интервала с границами q
1–a
/2 и q
a
/2, составляет величину a
. Эту величину следует выбрать настолько
малой, чтобы выход за пределы интервала был маловероятен. Если оценка
параметра попала в заданный интервал, то в таком случае нет оснований
подвергать сомнению проверяемую гипотезу, следовательно, гипотезу
равенства q
=Т можно принять. Но если после получения
выборки окажется, что оценка выходит за установленные пределы, то в этом
случае есть серьезные основания отвергнуть гипотезу Н0. Отсюда следует, что вероятность допустить ошибку первого рода равна a
(равна уровню значимости критерия).
Если предположить, например, что истинное значение параметра в действительности равно Т+d, то согласно гипотезе Н0 о равенстве q
=Т – вероятность того, что оценка параметра q
попадет в область принятия гипотезы, составит b
, рис. 3.2.
При заданном объеме выборки вероятность совершения ошибки первого рода можно уменьшить, снижая уровень значимости a
. Однако при этом увеличивается вероятность ошибки второго рода b
(снижается мощность критерия). Аналогичные рассуждения можно провести для случая, когда истинное значение параметра равно Т – d.
Единственный способ уменьшить обе вероятности состоит
в увеличении объема выборки (плотность распределения оценки параметра
при этом становится более «узкой»). При выборе критической области
руководствуются правилом Неймана – Пирсона: следует так выбирать
критическую область, чтобы вероятность a
была мала, если гипотеза верна, и велика в противном случае. Однако выбор конкретного значения a
относительно произволен. Употребительные значения лежат в пределах от
0,001 до 0,2. В целях упрощения ручных расчетов составлены таблицы
интервалов с границами q
1–a
/2 и q
a
/2 для типовых значений a
и различных способов построения критерия.
При выборе уровня значимости необходимо учитывать
мощность критерия при альтернативной гипотезе. Иногда большая мощность
критерия оказывается существеннее малого уровня значимости, и его
значение выбирают относительно большим, например 0,2. Такой выбор
оправдан, если последствия ошибок второго рода более существенны, чем
ошибок первого рода. Например, если отвергнуто правильное решение
«продолжить работу пользователей с текущими паролями», то ошибка первого
рода приведет к некоторой задержке в нормальном функционировании
системы, связанной со сменой паролей. Если же принято решения не менять
пароли, несмотря на опасность несанкционированного доступа посторонних
лиц к информации, то эта ошибка повлечет более серьезные последствия.
В зависимости от сущности проверяемой гипотезы и
используемых мер расхождения оценки характеристики от ее теоретического
значения применяют различные критерии. К числу наиболее часто
применяемых критериев для проверки гипотез о законах распределения
относят критерии хи-квадрат Пирсона, Колмогорова, Мизеса, Вилкоксона, о
значениях параметров – критерии Фишера, Стьюдента.
3.2. Типовые распределения
При проверке гипотез широкое применение находит ряд
теоретических законов распределения. Наиболее важным из них является
нормальное распределение. С ним связаны распределения хи-квадрат,
Стьюдента, Фишера, а также интеграл вероятностей. Для указанных законов
функции распределения аналитически не представимы. Значения функций
определяются по таблицам или с использованием стандартных процедур
пакетов прикладных программ. Указанные таблицы обычно построены в целях
удобства проверки статистических гипотез в ущерб теории распределений –
они содержат не значения функций распределения, а критические значения
аргумента z(a
).
Для односторонней критической области z(a
) = z1–a
, т.е. критическое значение аргумента z(a
) соответствует квантили z1–a
уровня 1– a
, так как , рис. 3.3.
Для двусторонней критической области, с уровнем значимости a , размер левой области a 2, правой a 1 (a 1+a 2=a ), рис. 3.4. Значения z(a 2) и z(a 1) связаны с квантилями распределения соотношениями z(a 1)=z1–a 1, z(a 2)=za 2, так как , . Для симметричной функции плотности распределения f(z) критическую область выбирают из условия a 1=a 2=a /2 (обеспечивается наибольшая мощность критерия). В таком случае левая и правая границы будут равны |z(a /2)|.
Рис. 3.4. Двусторонняя критическая область
Нормальное распределение
Этот вид распределения является наиболее важным в
связи с центральной предельной теоремой теории вероятностей:
распределение суммы независимых случайных величин стремится к
нормальному с увеличением их количества при произвольном законе
распределения отдельных слагаемых, если слагаемые обладают конечной
дисперсией. Так как реальные физические явления часто представляют собой
результат суммарного воздействия многих факторов, то в таких случаях
нормальное распределение является хорошим приближением наблюдаемых
значений. Функция плотности нормального распределения
(3.1)
– унимодальная, симметричная, аргумент х может принимать любые действительные значения, рис. 3.5.
Рис. 3.5. Плотность нормального распределения
Функция плотности нормального распределения стандартизованной величины u имеет вид:
Вычисление значений функции распределения Ф(u) для стандартизованного неотрицательного аргумента u (u ³
0) можно произвести с помощью полинома наилучшего приближения [9, стр. 694]
Ф(u)= 1– 0,5(1 + 0,196854u + 0,115194u2 +
+ 0,000344u3 + 0,019527u4)– 4.(3.2)
Такая аппроксимация обеспечивает абсолютную ошибку не более 0,00025. Для вычисления Ф(u) в области отрицательных значений стандартизованного аргумента u (u<0) следует воспользоваться свойством симметрии нормального распределения Ф(u) = 1 –Ф(–u).
Иногда в справочниках вместо значений функции Ф(u) приводят значения интеграла вероятностей
, u > 0.(3.3)
Интеграл вероятностей связан с функцией нормального распределения соотношением Ф(u) = 0,5 + F(u).
Распределение хи-квадрат
Распределению хи-квадрат (c
2-распределению) с k степенями свободы соответствует распределение суммы квадратов n стандартизованных случайных величин ui, каждая из которых распределена по нормальному закону, причем k из них независимы, n ³
k. Функция плотности распределения хи-квадрат с k степенями свободы
, xі0,(3.4)
где х = c
2, Г(k/2) – гамма-функция.
Число степеней свободы k определяет количество независимых слагаемых в выражении для c
2. Функция плотности при k, равном одному или двум, – монотонная, а при k >2 – унимодальная, несимметричная, рис. 3.6.
Рис. 3.6. Плотность распределения хи-квадрат
Математическое ожидание и дисперсия величины c
2 равны соответственно k и 2k.
Распределение хи-квадрат является частным случаем более общего
гамма-распределения, а величина, равная корню квадратному из хи-квадрат с
двумя степенями свободы, подчиняется распределению Рэлея.
С увеличением числа степеней свободы (k >30) распределение хи-квадрат приближается к нормальному распределению с математическим ожиданием k и дисперсией 2k. В таких случаях критическое значение c 2(k; a ) » u1– a (k, 2k), где u1– a (k, 2k) – квантиль нормального распределения. Погрешность аппроксимации не превышает нескольких процентов.
Распределение Стьюдента
Распределение Стьюдента (t-распределение, предложено в 1908 г. английским статистиком В. Госсетом, публиковавшим научные труды под псевдонимом Student) характеризует распределение случайной величины , где u0, u1, …, uk взаимно независимые нормально распределенные случайные величины с нулевым средним и конечной дисперсией. Аргумент t не зависит от дисперсии слагаемых. Функция плотности распределения Стьюдента
(3.5)
Величина k
характеризует количество степеней свободы. Плотность распределения –
унимодальная и симметричная функция, похожая на нормальное
распределение, рис. 3.7.
Область изменения аргумента t от –Ґ
до Ґ
. Математическое ожидание и дисперсия равны 0 и k/(k–2) соответственно, при k>2.
По сравнению с нормальным распределение Стьюдента более пологое, оно
имеет меньшую дисперсию. Это отличие заметно при небольших значениях k,
что следует учитывать при проверке статистических гипотез (критические
значения аргумента распределения Стьюдента превышают аналогичные
показатели нормального распределения). Таблицы распределения содержат
значения для односторонней или двусторонней критической области.
Распределение Стьюдента применяется для описания ошибок выборки при k Ј 30. При k >100 данное распределение практически соответствует нормальному, для 30 < k < 100 различия между распределением Стьюдента и нормальным распределением составляют несколько процентов. Поэтому относительно оценки ошибок малыми считаются выборки объемом не более 30 единиц, большими – объемом более 100 единиц. При аппроксимации распределения Стьюдента нормальным распределением для односторонней критической области вероятность Р{t> t(k; a )} = u1– a (0, k/(k–2)), где u1– a (0, k/(k–2)) – квантиль нормального распределения. Аналогичное соотношение можно составить и для двусторонней критической области.
Распределение Фишера
Распределению Р.А. Фишера (F-распределению Фишера – Снедекора) подчиняется случайная величина х =[(y1/k1)/(y2/k2)],равная отношению двух случайных величин у1и у2, имеющих хи-квадрат распределение с k1 и k2 степенями свободы. Область изменения аргумента х от 0 до ¥
. Плотность распределения
.(3.6)
В этом выражении k1обозначает число степеней свободы величины y1 с большей дисперсией, k2– число степеней свободы величины y2 с меньшей дисперсией. Плотность распределения – унимодальная, несимметричная, рис. 3.8.
Рис. 3.8. Плотность распределения Фищера
Математическое ожидание случайной величины х равно k2/(k2–2) при k2>2, дисперсия т2 = [2 k22 (k1+k2–2)]/[k1(k2–2)2(k2–4)] при k2 > 4. При k1 > 30 и k2 > 30 величина х распределена приближенно нормально с центром (k1 – k2)/(2 k1 k2) и дисперсией (k1 + k2)/(2 k1 k2).
3.3. Проверка гипотез о законе распределения
Обычно сущность проверки гипотезы о законе распределения ЭД заключается в следующем. Имеется выборка ЭД фиксированного объема, выбран или известен вид закона распределения генеральной совокупности. Необходимо оценить по этой выборке параметры закона, определить степень согласованности ЭД и выбранного закона распределения, в котором параметры заменены их оценками. Пока не будем касаться способов нахождения оценок параметров распределения, а рассмотрим только вопрос проверки согласованности распределений с использованием наиболее употребительных критериев.
Критерий хи-квадрат К. Пирсона
Использование этого критерия основано на применении такой меры (статистики) расхождения между теоретическим F(x) и эмпирическим распределением Fп(x), которая приближенно подчиняется закону распределения c
2. Гипотеза Н0
о согласованности распределений проверяется путем анализа распределения
этой статистики. Применение критерия требует построения статистического
ряда.
Итак, пусть выборка представлена статистическим рядом с количеством разрядов y
. Наблюдаемая частота попаданий в i-й разряд ni. В соответствии с теоретическим законом распределения ожидаемая частота попаданий в i-й разряд составляет Fi. Разность между наблюдаемой и ожидаемой частотой составит величину (n i – Fi). Для нахождения общей степени расхождения между F(x) и Fп(x) необходимо подсчитать взвешенную сумму квадратов разностей по всем разрядам статистического ряда
.(3.7)
Величина c
2 при неограниченном увеличении n
имеет распределение хи-квадрат (асимптотически распределена как
хи-квадрат). Это распределение зависит от числа степеней свободы k, т.е. количества независимых значений слагаемых в выражении (3.7). Число степеней свободы равно числу y
минус число линейных связей, наложенных на выборку. Одна связь
существует в силу того, что любая частота может быть вычислена по
совокупности частот в оставшихся y
– 1 разрядах. Кроме того, если параметры распределения неизвестны
заранее, то имеется еще одно ограничение, обусловленное подгонкой
распределения к выборке. Если по выборке определяются f
параметров распределения, то число степеней свободы составит k=y
– f
–1.
Область принятия гипотезы Н0 определяется условием c
2£
c
2(k;a
), где c
2(k;a
) – критическая точка распределения хи-квадрат с уровнем значимости a
. Вероятность ошибки первого рода равна a
, вероятность ошибки второго рода четко определить нельзя, потому что
существует бесконечно большое множество различных способов несовпадения
распределений. Мощность критерия зависит от количества разрядов и объема
выборки. Критерий рекомендуется применять при n>200, допускается применение при n>40, именно при таких условиях критерий состоятелен (как правило, отвергает неверную нулевую гипотезу).
Пример 3.1. Проверить с помощью критерия
хи-квадрат гипотезу о нормальности распределения случайной величины,
представленной статистическим рядом в табл. 2.4 при уровне значимости a
= 0,05.
Решение. В примере 2.3 были вычислены значения оценок моментов: m
1=27,51, m
2 = 0,91, s
= 0,96. На основе табл. 2.4 построим табл. 3.2, иллюстрирующую расчеты.
Таблица 3.2
Номер интервала, i | 1 | 2 | 3 | 4 | 5 | 6 |
n i | 5 | 9 | 10 | 9 | 5 | 6 |
xi | 26,37 | 26,95 | 27,53 | 28,12 | 28,70 | ¥ |
F(xi) | 0,117 | 0,280 | 0,508 | 0,737 | 0,892 | 1 |
D Fi |
0,117 | 0,166 | 0,228 | 0,228 | 0,155 | 0,108 |
Fi | 5,148 | 7,304 | 10,032 | 10,032 | 6,820 | 4,752 |
(ni —Fi)2/Fi | 0,004 | 0,394 | 0,0001 | 0,1062 | 0,486 | 0,328 |
В этой таблице:
ni – частота попаданий элементов выборки в i-й интервал;
xi – верхняя граница i-го интервала;
F(xi) – значение функции нормального распределения;
D
Fi – теоретическое значение вероятности попадания случайной величины в i-й интервал
Fi = D
Fi*n – теоретическая частота попадания случайной величины в i-й интервал;
(n i – Fi)2/Fi – взвешенный квадрат отклонения.
Для нормального закона возможные значения случайной величины лежат в диапазоне от – ¥
до ¥
, поэтому при расчетах оценок вероятностей крайний левый и крайний правый интервалы расширяются до – ¥
и ¥
соответственно. Вычислить значения функции нормального распределения
можно, воспользовавшись стандартными функциями табличного процессора или
полиномом наилучшего приближения.
Сумма взвешенных квадратов отклонения c 2=1,32. Число степеней свободы k=6–1–2=3 (уклонения связаны линейным соотношением , кроме того, на уклонения наложены еще две связи, так как по выборке были определены два параметра распределения). Критическое значение c 2(3;0,05)= 7,815 определяется по табл. П.3 приложения. Поскольку соблюдается условие c 2 <c 2(3;0,05), то полученный результат нельзя считать значимым и гипотеза о нормальном распределении генеральной совокупности не противоречит ЭД.
Критерий А.Н. Колмогорова
Для применения критерия А.Н. Колмогорова ЭД требуется
представить в виде вариационного ряда (ЭД недопустимо объединять в
разряды). В качестве меры расхождения между теоретической F(x) и эмпирической Fn(x) функциями распределения непрерывной случайной величины Х используется модуль максимальной разностиdn = max|F(x) — Fn(x)|.
(3.8)
А.Н. Колмогоров доказал, что какова бы ни была функция распределения F(x) величины Х при неограниченном увеличении количества наблюдений n функция распределения случайной величины dn асимптотически приближается к функции распределения . Иначе говоря, критерий А.Н. Колмогорова характеризует вероятность того, что величина dn не будет превосходить параметр l для любой теоретической функции распределения. Уровень значимости a выбирается из условия , в силу предположения, что почти невозможно получить это равенство, когда существует соответствие между функциями F(x) и Fn(x). Критерий А.Н. Колмогорова позволяет проверить согласованность распределений по малым выборкам, он проще критерия хи-квадрат, поэтому его часто применяют на практике. Но требуется учитывать два обстоятельства.
Во-первых, в точном соответствии с условиями его применения необходимо пользоваться следующим соотношением
где
Во-вторых, условия применения критерия
предусматривают, что теоретическая функция распределения известна
полностью (известны вид функции и ее параметры). Но на практике
параметры обычно неизвестны и оцениваются по ЭД. Это приводит к
завышению значения вероятности соблюдения нулевой гипотезы, т.е.
повышается риск принять в качестве правдоподобной гипотезу, которая
плохо согласуется с ЭД (повышается вероятность совершить ошибку второго
рода). В качестве меры противодействия такому выводу следует увеличить
уровень значимости a
, приняв его равным 0,1 – 0,2, что приведет к уменьшению зоны допустимых отклонений.
Пример 3.2. Проверить с помощью критерия А.Н.
Колмогорова гипотезу о том, что ЭД, представленные в табл. 2.3,
подчиняются нормальному распределению при уровне значимости a
=0,1.
Решение. Исходные данные и результаты
вычислений сведены в табл. 3.3. Необходимые вычисления можно провести с
использованием табличного процессора: значение эмпирической функции
распределения Fn(xi)=i/44; значения теоретической функции F(xi) – это значение функции нормального распределения в точке xi.
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
xi | 25,79 | 25,98 | 25,98 | 26,12 | 26,13 | 26,49 | 26,52 | 26,60 | 26,66 | 26,69 | 26,74 |
Fn(xi) | 0,023 | 0,046 | 0,068 | 0,091 | 0,114 | 0,136 | 0,159 | 0,182 | 0,204 | 0,227 | 0,250 |
F(xi) | 0,036 | 0,055 | 0,055 | 0,073 | 0,075 | 0,144 | 0,151 | 0,170 | 0,188 | 0,196 | 0,211 |
dn+ | 0,014 | 0,009 | 0,013 | 0,018 | 0,038 | 0,008 | 0,008 | 0,012 | 0,016 | 0,032 | 0,039 |
dn— | 0,036 | 0,032 | 0,010 | 0,005 | 0,016 | 0,031 | 0,014 | 0,011 | 0,006 | 0,009 | 0,016 |
i | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 |
xi | 26,85 | 26,90 | 26,91 | 26,96 | 27,02 | 27,11 | 27,19 | 27,21 | 27,28 | 27,30 | 27,38 |
Fn(xi) | 0,273 | 0,296 | 0,318 | 0,341 | 0,364 | 0,386 | 0,409 | 0,432 | 0,455 | 0,477 | 0,500 |
F(xi) | 0,246 | 0,263 | 0,267 | 0,284 | 0,305 | 0,337 | 0,371 | 0,378 | 0,406 | 0,412 | 0,447 |
dn+ | 0,027 | 0,032 | 0,051 | 0,057 | 0,059 | 0,050 | 0,038 | 0,054 | 0,049 | 0,065 | 0,053 |
dn— | 0,004 | 0,010 | 0,028 | 0,034 | 0,036 | 0,027 | 0,015 | 0,031 | 0,026 | 0,042 | 0,031 |
i | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 |
xi | 27,40 | 27,49 | 27,64 | 27,66 | 27,71 | 27,78 | 27,89 | 27,89 | 28,01 | 28,10 | 28,11 |
Fn(xi) | 0,523 | 0,546 | 0,568 | 0,591 | 0,614 | 0,636 | 0,659 | 0,682 | 0,705 | 0,727 | 0,750 |
F(xi) | 0,456 | 0,492 | 0,555 | 0,561 | 0,583 | 0,610 | 0,656 | 0,656 | 0,701 | 0,731 | 0,735 |
dn+ | 0,067 | 0,053 | 0,013 | 0,030 | 0,031 | 0,026 | 0,003 | 0,026 | 0,003 | 0,004 | 0,015 |
dn— | 0,044 | 0,031 | 0,010 | 0,007 | 0,008 | 0,003 | 0,019 | 0,003 | 0,020 | 0,027 | 0,008 |
i | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 |
xi | 28,37 | 28,38 | 28,50 | 28,63 | 28,67 | 28,90 | 28,99 | 28,99 | 29,03 | 29,12 | 29,28 |
Fn(xi) | 0,773 | 0,795 | 0,818 | 0,841 | 0,864 | 0,886 | 0,909 | 0,932 | 0,955 | 0,977 | 1,000 |
F(xi) | 0,817 | 0,819 | 0,851 | 0,879 | 0,888 | 0,928 | 0,939 | 0,940 | 0,944 | 0,954 | 0,968 |
dn+ | 0,044 | 0,024 | 0,032 | 0,038 | 0,024 | 0,042 | 0,030 | 0,008 | 0,010 | 0,024 | 0,032 |
dn— | 0,067 | 0,046 | 0,055 | 0,061 | 0,047 | 0,064 | 0,053 | 0,031 | 0,013 | 0,001 | 0,009 |
В данном примере максимальные значения dn+ и dn–одинаковы и равны 0,067. Из табл. П.1 при a =0,1 найдем l =1,22. Для n=44 критическое значение 0,184. Поскольку величина max dn=0,067 меньше критического значения, гипотеза о принадлежности выборки нормальному закону не отвергается.
Критерий Мизеса
В качестве меры различия теоретической функции распределения F(x) и эмпирической Fn(x) по критерию Мизеса (критерию w
2) выступает средний квадрат отклонений по всем значениям аргумента x
(3.9)
Статистика критерия
(3.10)
При неограниченном увеличении n существует предельное распределение статистики nw
n2. Задав значение вероятности a
можно определить критические значения nw
n2(a
). Проверка гипотезы о законе распределения осуществляется обычным образом: если фактическое значение nw
n2окажется больше критического или равно ему, то согласно критерию Мизеса с уровнем значимости a
гипотеза Но о том, что закон распределения генеральной совокупности соответствует F(x), должна быть отвергнута.
Пример 3.3. Проверить с помощью критерия
Мизеса гипотезу о том, что ЭД, представленные вариационным рядом, табл.
2.3, подчиняются нормальному распределению при уровне значимости a
= 0,1.
Решение. Исходные данные и результаты вычислений представлены в табл. 3.4.
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
xi | 25,79 | 25,98 | 25,98 | 26,12 | 26,13 | 26,49 | 26,52 | 26,60 | 26,66 | 26,69 | 26,74 |
Fn(xi) | 0,011 | 0,034 | 0,057 | 0,080 | 0,102 | 0,125 | 0,148 | 0,171 | 0,193 | 0,216 | 0,237 |
F(xi) | 0,036 | 0,055 | 0,055 | 0,073 | 0,075 | 0,144 | 0,151 | 0,170 | 0,188 | 0,196 | 0,211 |
D i |
0,618 | 0,429 | 0,003 | 0,047 | 0,726 | 0,378 | 0,009 | 0,000 | 0,025 | 0,409 | 0,742 |
i | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 |
xi | 26,85 | 26,90 | 26,91 | 26,96 | 27,02 | 27,11 | 27,19 | 27,21 | 27,28 | 27,30 | 27,38 |
Fn(xi) | 0,261 | 0,284 | 0,307 | 0,330 | 0,352 | 0,375 | 0,398 | 0,421 | 0,443 | 0,466 | 0,489 |
F(xi) | 0,246 | 0,263 | 0,267 | 0,284 | 0,305 | 0,337 | 0,371 | 0,378 | 0,406 | 0,412 | 0,447 |
D i |
0,231 | 0,439 | 1,572 | 2,071 | 2,243 | 1,467 | 0,717 | 1,790 | 1,391 | 2,866 | 1,755 |
i | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 |
xi | 27,40 | 27,49 | 27,64 | 27,66 | 27,71 | 27,78 | 27,89 | 27,89 | 28,01 | 28,10 | 28,11 |
Fn(xi) | 0,511 | 0,534 | 0,557 | 0,580 | 0,602 | 0,625 | 0,648 | 0,671 | 0,693 | 0,716 | 0,739 |
F(xi) | 0,456 | 0,492 | 0,555 | 0,561 | 0,583 | 0,610 | 0,656 | 0,656 | 0,701 | 0,731 | 0,735 |
D i |
3,103 | 1,765 | 0,003 | 0,332 | 0,374 | 0,216 | 0,063 | 0,213 | 0,067 | 0,238 | 0,013 |
I | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 |
xi | 28,37 | 28,38 | 28,50 | 28,63 | 28,67 | 28,90 | 28,99 | 28,99 | 29,03 | 29,12 | 29,28 |
Fn(xi) | 0,761 | 0,784 | 0,807 | 0,830 | 0,852 | 0,875 | 0,898 | 0,921 | 0,943 | 0,966 | 0,989 |
F(xi) | 0,817 | 0,819 | 0,851 | 0,879 | 0,888 | 0,928 | 0,939 | 0,940 | 0,944 | 0,954 | 0,968 |
D i |
3,090 | 1,230 | 1,908 | 2,461 | 1,271 | 2,791 | 1,737 | 0,381 | 0,001 | 0,149 | 0,432 |
В этой таблице:
Fn(xi)=(i–0,5)/44 – значение эмпирической функции распределения;
F(xi) – значение теоретической функции распределения, соответствует значению функции нормального распределения в точке xi;
D
i =1000[Fn(xi) – F(xi)]2 .Здесь масштабный множитель 1000 введен для удобства отображения данных в таблице, при расчетах он не используется.
Критическое значение статистики критерия Мизеса при заданном уровне значимости равно 0,347, табл. П.2. Фактическое значение статистики , что меньше критического значения. Следовательно, гипотеза Н0 не противоречит имеющимся данным.
Достоинством критерия Мизеса является быстрая
сходимость к предельному закону, для этого достаточно не менее 40
наблюдений в области часто используемых на практике больших значений nw
n (а не несколько сот, как для критерия хи-квадрат).
Сопоставляя возможности различных критериев,
необходимо отметить следующие особенности. Критерий Пирсона устойчив к
отдельным случайным ошибкам в ЭД. Однако его применение требует
группирования данных по интервалам, выбор которых относительно
произволен и подвержен противоречивым рекомендациям. Критерий
Колмогорова слабо чувствителен к виду закона распределения и подвержен
влиянию помех в исходной выборке, но прост в применении. Критерий Мизеса
имеет ряд общих свойств с критерием Колмогорова: оба основаны
непосредственно на результатах наблюдения и не требуют построения
статистического ряда, что повышает объективность выводов; оба не
учитывают уменьшение числа степеней свободы при определении параметров
распределения по выборке, а это ведет к риску принятия ошибочной
гипотезы. Их предпочтительно применять в тех случаях, когда параметры
закона распределения известны априори, например, при проверке датчиков
случайных чисел.
При проверке гипотез о законе распределения следует
помнить, что слишком хорошее совпадение с выбранным законом
распределения может быть обусловлено некачественным экспериментом
(“подчистка” ЭД) или предвзятой предварительной обработкой результатов
(некоторые результаты отбрасываются или округляются).
Выбор критерия проверки гипотезы относительно
произволен. Разные критерии могут давать различные выводы о
справедливости гипотезы, окончательное заключение в таком случае
принимается на основе неформальных соображений. Точно также нет
однозначных рекомендаций по выбору уровня значимости.
Рассмотренный подход к проверке гипотез, основанный
на применении специальных таблиц критических точек распределения,
сложился в эпоху «ручной» обработки ЭД, когда наличие таких таблиц
существенно снижало трудоемкость вычислений. В настоящее время
математические пакеты включают процедуры вычисления стандартных функций
распределений, что позволяет отказаться от использования таблиц, но
может потребовать изменения правил проверки. Например, соблюдению
гипотезы Н0 соответствует такое значение функции распределения критерия, которое не превышает значение доверительной вероятности 1– a
(оценка статистики критерия соответствует доверительному интервалу). В
частности, для примера 3.1 значение статистики критерия хи-квадрат равно
1,318. А значение функции
распределения хи-квадрат для этого значения аргумента при трех степенях
свободы составляет 0,275, что меньше доверительной вероятности 0,95.
Следовательно, нет оснований отвергать нулевую гипотезу.