Ошибки регрессии имеют нулевое математическое ожидание

Сформулируем новый набор предпосылок, который будем называть предпосылками линейной модели со стохастическими регрессорами. Начнем с модели парной регрессии.

Предпосылки линейной модели со стохастическим регрессором (случай парной регрессии):

  1. Модель линейна по параметрам и правильно специфицирована:

(y_{i} = beta_{1} + beta_{2}x_{i} + varepsilon_{i}, i = 1,2,ldots, n.)

  1. Наблюдения ({left( x_{i},y_{i} right),text{~i} = 1,ldots,n}) независимы и одинаково распределены.

  2. (x_{i}) и (y_{i}) имеют ненулевые конечные четвертые моменты распределения (Eleft( x_{i}^{4} right) < infty,) (Eleft( y_{i}^{4} right) < infty).

  3. Случайные ошибки имеют нулевое условное математическое ожидание при заданном (x_{i}): (Eleft( varepsilon_{i} middle| x_{i} right) = 0).

Сравним предпосылки этой модели с предпосылками классической линейной модели парной регрессии (КЛМПР) из главы 2.

Первая предпосылка стандартна и остается без изменений.

Вторая предпосылка в КЛМПР требовала, чтобы регрессоры были неслучайными величинами. Теперь мы отказываемся от неё, допуская, что объясняющие переменные могут быть случайными. При этом мы требуем, чтобы наблюдения ({left( x_{i},y_{i} right),text{~i} = 1,ldots,n}) были независимыми и одинаково распределенными (independent and identically distributed, i.i.d.).

Это требование вовсе не означает, что (y_{i}) не зависит от (x_{i}) (ясно, что в этом случае анализировать модель их взаимосвязи было бы бессмысленно). Зато оно говорит о том, что векторы (left( x_{1},y_{1} right),left( x_{2},y_{2} right)), (left( x_{3},y_{3} right)ldots) независимы друг от друга в вероятностном смысле. Иными словами, отдельные наблюдения в нашей модели не влияют друг на друга.

Для пространственных данных эта предпосылка практически всегда выполняется1. В то же время следует помнить, что при работе с временными рядами эта предпосылка часто нарушается, так как для временных рядов естественно предполагать, что будущие значения переменных зависят от прошлых2. Поскольку пока мы в основном концентрируемся на пространственных данных, для нас она остается весьма реалистичной.

Лирическое отступление о неслучайных и случайных регрессорах

Отвлечемся ненадолго от технических деталей и обратимся к вопросу: как следует думать об объясняющих переменных с содержательной точки зрения? Следует ли считать их скорее детерминированными величинами или скорее случайными?

Ответ, разумеется, зависит от того, с какими данными вы работаете, и какова процедура их сбора.

Представим, например, что вы анализируете зависимость логарифма реального ВВП от номера года. То есть оцениваете параметры линии тренда для временного ряда:

({ln y}_{t} = beta_{1} + beta_{2}*t + varepsilon_{t})

Здесь (y_{t}) — ВВП в год t. В данном примере регрессор (номер года t) вполне естественно считать неслучайным (детерминированным). Действительно, мы точно знаем, что в принятой нами системе летоисчисления за 2020-ым годом последует 2021-ый, а затем наступит 2022-ой. Никакой случайности тут нет.

Теперь представим, что вас интересуют параметры следующей модели для инфляции:

(pi_{t} = beta_{1} + beta_{2}pi_{t — 1} + beta_{2}x_{t} + varepsilon_{t})

(pi_{t}) — это уровень инфляции в год t, а (x_{t}) — это, например, отклонение фактического ВВП от потенциального ВВП в год t 3. Обратите внимание: здесь предполагается, что инфляция в текущем периоде зависит от инфляции в прошлом периоде. Однако инфляция прошлого периода (pi_{t — 1}), в свою очередь, зависит от (varepsilon_{t — 1}), а значит уж точно является случайной величиной. Следовательно, в данном примере по крайней мере один из регрессоров (переменная (pi_{t — 1})) заведомо является случайным (стохастическим).

В двух приведенных примерах детерминированная или стохастическая природа объясняющих переменных может быть определена однозначно из соображений здравого смысла. В то же время, во многих ситуациях решение о том, как воспринимать регрессоры — как неслучайные величины или как случайные — это исключительно вопрос технического удобства. В частности, при использовании асимптотического подхода второй вариант более удобен, поэтому в современных эконометрических приложениях по умолчанию используют его.

Третья предпосылка выглядит достаточно устрашающе. Однако в действительности никак не ограничивает исследователя. По существу, она означает, что очень большие выбросы в данных маловероятны. Это техническая предпосылка, которая, как мы увидим в дальнейшем, позволяет гарантировать асимптотическую нормальность оценок коэффициентов. Это даст нам возможность тестировать гипотезы и строить доверительные интервалы.

Проверить эту предпосылку сложно, однако она достаточно слабая, и потому на практике обычно считают, что она выполнена. Во всяком случае, легко согласиться с тем, что она выполняется гораздо чаще, чем предпосылка КЛМПР №6 о нормальности случайных ошибок. А ведь именно её она, в сущности, заменяет.

Четвертая предпосылка играет ключевую роль в получении корректных результатов эконометрического моделирования. В последующих параграфах и главах мы увидим, что именно вопрос о выполнении или нарушении этой предпосылки оказывается в центре дискуссии об уместности применения тех или иных методов и спецификаций моделей в различных ситуациях.

Содержательно эта предпосылка говорит о том, что «прочие факторы», которые «спрятаны» в случайной ошибке (varepsilon_{i}), никак не связаны с регрессором. Поэтому знание (x_{i}) никак не влияет на ожидания по поводу случайной величины (varepsilon_{i}).

Чтобы на конкретных числах «пощупать» эту предпосылку, а заодно вспомнить, что такое условное математическое ожидание и как его считать, рассмотрим следующий простой пример.

Пример 6.3. Об условном математическом ожидании

Пусть известен совместный закон распределения случайных величин (x_{i}) и (varepsilon_{i}).

  (varepsilon_{i} = — 1) (varepsilon_{i} = 0) (varepsilon_{i} = 1)
(x_{i} = 0) 0,2 0,1 0,2
(x_{i} = 1) 0,1 0,3 0,1

(а) Проверьте, выполняется ли в данном случае предпосылка №4 об условном математическом ожидании случайной ошибки?

(б) Вычислите безусловное математическое ожидание случайной ошибки.

(в) Вычислите (text{cov}left( varepsilon_{i},x_{i} right)).

Решение:

(а) Напомним, что по определению условным математическим ожиданием случайной величины (varepsilon_{i}) при условии (x_{i}) называется математическое ожидание условного распределения случайной величины (varepsilon_{i}) при условии (x_{i}).

Запишем закон условного распределения (varepsilon_{i}) при условии, что (x_{i} = 0). Для этого отметим, что вероятность события (x_{i} = 0) в нашем примере составляет 0,2+0,1+0,2=0,5.

  (varepsilon_{i} = — 1) (varepsilon_{i} = 0) (varepsilon_{i} = 1)
(Pleft( varepsilon_{i}|x_{i} = 0 right)) (frac{0,2}{0,5}) (frac{0,1}{0,5}) (frac{0,2}{0,5})

Зная этот закон распределения, легко посчитать математическое ожидание:

(Eleft( varepsilon_{i}|x_{i} = 0 right) = — 1*frac{0,2}{0,5} + 0*frac{0,1}{0,5} + 1*frac{0,2}{0,5} = 0)

Аналогично получаем условное математическое ожидание (varepsilon_{i}) при условии, что (x_{i} = 1).

  (varepsilon_{i} = — 1) (varepsilon_{i} = 0) (varepsilon_{i} = 1)
(Pleft( varepsilon_{i}|x_{i} = 1 right)) (frac{0,1}{0,5}) (frac{0,3}{0,5}) (frac{0,1}{0,5})

(Eleft( varepsilon_{i}|x_{i} = 1 right) = — 1*frac{0,1}{0,5} + 0*frac{0,3}{0,5} + 1*frac{0,1}{0,5} = 0)

Таким образом, для любого возможного значения (x_{i}) условие (Eleft( varepsilon_{i}|x_{i} right) = 0) соблюдается. То есть предпосылка выполнена.

(б) (Eleft( varepsilon_{i} right) = Pleft( varepsilon_{i} = — 1 right)*( — 1) + Pleft( varepsilon_{i} = 0 right)*0 + Pleft( varepsilon_{i} = 1 right)*(1) =)

(= 0,3*( — 1) + 0,4*0 + 0,3*1 = 0)

Следовательно, безусловное математическое ожидание случайной ошибки тоже равно нулю.

(в) (text{cov}left( varepsilon_{i},x_{i} right) = Eleft( varepsilon_{i}x_{i} right) — Eleft( varepsilon_{i} right)*Eleft( x_{i} right) = Eleft( varepsilon_{i}x_{i} right) — 0*Eleft( x_{i} right) = Eleft( varepsilon_{i}x_{i} right))

(Eleft( varepsilon_{i}x_{i} right) = 0,2*( — 1)*0 + 0,1*0*0 + 0,2*1*0 +)

(+ 0,1*( — 1)*1 + 0,3*0*1 + 0,1*1*1 = 0)

В нашем примере оказалось, что предпосылке №4 соответствует выполнение условий (Eleft( varepsilon_{i} right) = 0) и (text{cov}left( varepsilon_{i},x_{i} right) = 0). На самом деле это не случайный результат. Его можно обобщить, доказав два важных следствия из предпосылки №4.

Следствие 1. Если случайные ошибки имеют нулевое условное математическое ожидание при заданном (x_{i}): (Eleft( varepsilon_{i} middle| x_{i} right) = 0), то они имеют нулевое безусловное математическое ожидание: (Eleft( varepsilon_{i} right) = 0)

Доказательство этого следствия является хорошим примером применения закона повторного математического ожидания.

Напомним формулировку закона повторного математического ожидания:

(E(xi) = Eleft( Eleft( xi middle| eta right) right))

В нашем случае в соответствии с этим законом:

(Eleft( varepsilon_{i} right) = Eleft( Eleft( varepsilon_{i} middle| x_{i} right) right) = E(0) = 0.)

Поэтому, сформулировав предпосылку №4, мы не нуждаемся в том, чтобы отдельно формулировать предположение по поводу безусловного математического ожидания случайной ошибки, которое мы делаем в КЛМПР.

Подчеркнем, что обратное утверждение, вообще говоря, неверно. Вполне возможна ситуация, когда безусловное математическое ожидание случайной ошибки равно нулю, а её условное математическое ожидание при условии (x_{i}) — нет. См. пример 6.4 далее.

Следствие 2. Если случайные ошибки имеют нулевое условное математическое ожидание при любом заданном (x_{i}): (Eleft( varepsilon_{i} middle| x_{i} right) = 0), то регрессор и случайная ошибка не коррелированы друг с другом: (text{cov}left( varepsilon_{i},x_{i} right) = 0).

Для доказательства сначала отметим, что по свойству теоретической ковариации:

(text{cov}left( varepsilon_{i},x_{i} right) = Eleft( varepsilon_{i}x_{i} right) — Eleft( varepsilon_{i} right)Eleft( x_{i} right) = Eleft( varepsilon_{i}x_{i} right) — 0*Eleft( x_{i} right) = Eleft( varepsilon_{i}x_{i} right).)

А затем снова воспользуемся законом повторного математического ожидания:

(Eleft( varepsilon_{i}x_{i} right) = Eleft( Eleft( varepsilon_{i}x_{i} middle| x_{i} right) right) = Eleft( x_{i}Eleft( varepsilon_{i} middle| x_{i} right) right) = Eleft( x_{i}*0 right) = E(0) = 0)

Регрессор, который не коррелирован со случайной ошибкой модели, обычно называют экзогенным регрессором. Таким образом, предпосылку №4 иногда называют предпосылкой об экзогенности регрессора.

Если же объясняющая переменная в модели, наоборот, коррелирована со случайной ошибкой (text{cov}left( varepsilon_{i},x_{i} right) neq 0), то её называют эндогенным регрессором.

Пример 6.4. Об условном математическом ожидании (продолжение)

Пусть теперь совместный закон распределения (x_{i}) и (varepsilon_{i}) имеет такой вид:

  (varepsilon_{i} = — 1) (varepsilon_{i} = 0) (varepsilon_{i} = 1)
(x_{i} = 0) 0,3 0,1 0,1
(x_{i} = 1) 0,1 0,1 0,3

Покажите, что в этом случае условие (Eleft( varepsilon_{i} right) = 0) выполнено, а условие (Eleft( varepsilon_{i} middle| x_{i} right) = 0) нарушается.

Решение:

(Eleft( varepsilon_{i} right) = Pleft( varepsilon_{i} = — 1 right)*( — 1) + Pleft( varepsilon_{i} = 0 right)*0 + Pleft( varepsilon_{i} = 1 right)*(1) =)

(= 0,4*( — 1) + 0,2*0 + 0,4*1 = 0)

Чтобы показать, что предпосылка (Eleft( varepsilon_{i}|x_{i} right) = 0) не выполняется, достаточно привести любое значение (x_{i}), для которого указанное равенство нарушено. Рассмотрим, например, случай (x_{i} = 0).

(Eleft( varepsilon_{i}|x_{i} = 0 right) = — 1*frac{0,3}{0,5} + 0*frac{0,1}{0,5} + 1*frac{0,1}{0,5} = — 0,4)

Следовательно, предпосылка (Eleft( varepsilon_{i}|x_{i} right) = 0) не выполняется: регрессор в модели является эндогенным.

***

Выполнение четырех предпосылок линейной модели со стохастическими регрессорами (случай парной регрессии) гарантирует, что применение МНК будет приводить к хорошим результатам. Говоря более строго, эти гарантии можно сформулировать в виде следующей теоремы:

Теорема о состоятельности и асимптотической нормальности МНК-оценок в парной регрессии. Если предпосылки №1–4 выполнены, то МНК-оценки коэффициентов (beta_{1}) и (beta_{2}) состоятельны и асимптотически нормальны.

Доказательство этой теоремы приводится в параграфах 6.3 и 6.4. В первом из них доказывается состоятельность, а во втором — асимптотическая нормальность. Однако прежде, чем переходить к доказательству, обсудим значение теоремы для прикладных исследований. Забегая вперед, отметим, что оно велико.

Первый из результатов — состоятельность — даёт нам уверенность, что при достаточно слабых предположениях МНК будет обеспечивать верные ответы на интересующие нас вопросы о мире. Для получения этих ответов нужно лишь собрать достаточно много данных, чтобы асимптотические свойства были применимы. В практических исследованиях вполне хватает нескольких сотен точек (хотя, конечно, когда речь идет об асимптотических методах, то чем больше, тем лучше).

Второй результат — асимптотическая нормальность — позволяет нам легко тестировать гипотезы и строить доверительные интервалы, не делая жестких предположений о распределении отдельных случайных ошибок и отдельных переменных. Детали см. в параграфе 6.5. Это ценно потому, что на практике обычно нет никакой уверенности в том, что случайные ошибки модели распределены нормально. А ведь в рамках КЛМПР, как вы помните, мы были вынуждены делать такую предпосылку.

Отметим также, что в рамках нашей новой модели, в отличие от КЛМПР, мы не требуем гомоскедастичности. Действительно, мы сделали предположение по поводу того, что константой должно быть условное математическое ожидание случайной ошибки (Eleft( varepsilon_{i} middle| x_{i} right)), однако по поводу условной дисперсии случайной ошибки (text{var}(varepsilon_{i}|x_{i})) мы никаких предпосылок не делали. Следовательно, эта величина может меняться при изменении (x_{i}), то есть в модели может наблюдаться гетероскедастичность (в таком случае её также называют условной гетероскедастичностью).

Аналогичный набор предпосылок и аналогичная теорема могут быть, разумеется, сформулированы и для множественной регрессии:

Предпосылки линейной модели со стохастическими регрессорами (случай множественной регрессии):

  1. Модель линейна по параметрам:

(y_{i} = beta_{1} + beta_{2}*x_{i}^{(2)} + beta_{3}*x_{i}^{(3)} + ldots + beta_{k}*x_{i}^{(k)} + varepsilon_{i}, i = 1,2,ldots, n.)

  1. Наблюдения (left{ left( x_{i}^{(2)},ldots,x_{i}^{(k)},y_{i} right),text{~i} = 1,ldots,n right}) независимы и одинаково распределены.

  2. (x_{i}^{(2)},ldots,x_{i}^{(k)},y_{i}) имеют ненулевые конечные четвертые моменты.

  3. Случайные ошибки имеют нулевое условное математическое ожидание при заданных значениях регрессоров:

(Eleft( varepsilon_{i} middle| x_{i}^{(2)},ldots,x_{i}^{(k)} right) = 0, i = 1,ldots,n)

  1. В модели с вероятностью единица отсутствует чистая мультиколлинеарность.

Теорема о состоятельности и асимптотической нормальности МНК-оценок (случай множественной регрессии). Если предпосылки №1–5 выполнены, то МНК-оценки коэффициентов модели множественной регрессии состоятельны и асимптотически нормальны.

Легко видеть, что набор предпосылок полностью идентичен случаю парной регрессии за одним исключением: нам пришлось добавить требование отсутствия мультиколлинеарности. Как мы знаем, при его нарушении МНК-оценки в модели множественной регрессии в принципе невозможно определить однозначно. Упоминание вероятности в формулировке предпосылки связано с тем, что теперь регрессоры являются стохастическими, то есть при каждой реализации их набор может отличаться.

Таблица 6.1. Сопоставление различных регрессионных моделей

Название модели Классическая линейная модель множественной регрессии Обобщенная линейная модель множественной регрессии Линейная модель со стохастическими регрессорами
Где эта модель описана

В параграфе 3.2

(а также для случая парной регрессии в параграфе 2.3)

В параграфе 5.5 В параграфе 6.2
Предположение о детерминированности (неслучайности) регрессоров Требуется Требуется Не требуется
Предположение о нормальности случайных ошибок Требуется для тестирования гипотез Требуется для тестирования гипотез Не требуется
Предположение об отсутствии гетероскедастичности Требуется Не требуется Не требуется

В таблице 6.1 содержится сопоставление предпосылок трёх основных моделей, в условиях которых мы исследуем свойства МНК-оценок. Из неё легко видеть, что предпосылки нашей новой модели, действительно, являются сравнительно более мягкими, что делает её максимально реалистичной моделью для практической работы с пространственными данными.


  1. Исключение составляет специфический класс моделей пространственной автокорреляции, которые обычно рассматриваются отдельно.↩︎

  2. Пример такой ситуации приведен далее в лирическом отступлении о неслучайных и случайных регрессорах.↩︎

  3. Макроэкономист узнает в такой спецификации одну из возможных версий современной кривой Филлипса с адаптивными инфляционными ожиданиями. Однако даже человек, незнакомый с макроэкономическими моделями, наверняка согласится с тем, что если инфляция была высока в прошлом месяце, то и в этом она тоже наверняка будет высокой. Иными словами, текущая инфляция зависит от своих прошлых значений, что и отражено в данной модели.↩︎

Содержание:

Регрессионный анализ:

Регрессионным анализом называется раздел математической статистики, объединяющий практические методы исследования корреляционной зависимости между случайными величинами по результатам наблюдений над ними. Сюда включаются методы выбора модели изучаемой зависимости и оценки ее параметров, методы проверки статистических гипотез о зависимости.

Пусть между случайными величинами X и Y существует линейная корреляционная зависимость. Это означает, что математическое ожидание Y линейно зависит от значений случайной величины X. График этой зависимости (линия регрессии Y на X) имеет уравнение Регрессионный анализ - определение и вычисление с примерами решения

Линейная модель пригодна в качестве первого приближения и в случае нелинейной корреляции, если рассматривать небольшие интервалы возможных значений случайных величин.

Пусть параметры линии регрессии Регрессионный анализ - определение и вычисление с примерами решения неизвестны, неизвестна и величина коэффициента корреляции Регрессионный анализ - определение и вычисление с примерами решения Над случайными величинами X и Y проделано n независимых наблюдений, в результате которых получены n пар значений: Регрессионный анализ - определение и вычисление с примерами решения Эти результаты могут служить источником информации о неизвестных значениях Регрессионный анализ - определение и вычисление с примерами решения надо только уметь эту информацию извлечь оттуда.

Неизвестная нам линия регрессии Регрессионный анализ - определение и вычисление с примерами решения как и всякая линия регрессии, имеет то отличительное свойство, что средний квадрат отклонений значений Y от нее минимален. Поэтому в качестве оценок для Регрессионный анализ - определение и вычисление с примерами решения можно принять те их значения, при которых имеет минимум функция Регрессионный анализ - определение и вычисление с примерами решения

Такие значения Регрессионный анализ - определение и вычисление с примерами решения, согласно необходимым условиям экстремума, находятся из системы уравнений:

Регрессионный анализ - определение и вычисление с примерами решения

Решения этой системы уравнений дают оценки называемые оценками по методу наименьших квадратов.Регрессионный анализ - определение и вычисление с примерами решения

и

Регрессионный анализ - определение и вычисление с примерами решения

Известно, что оценки по методу наименьших квадратов являются несмещенными и, более того, среди всех несмещенных оценок обладают наименьшей дисперсией. Для оценки коэффициента корреляции можно воспользоваться тем, что Регрессионный анализ - определение и вычисление с примерами решения где Регрессионный анализ - определение и вычисление с примерами решения средние квадратические отклонения случайных величин X и Y соответственно. Обозначим через Регрессионный анализ - определение и вычисление с примерами решения оценки этих средних квадратических отклонений на основе опытных данных. Оценки можно найти, например, по формуле (3.1.3). Тогда для коэффициента корреляции имеем оценку Регрессионный анализ - определение и вычисление с примерами решения

По методу наименьших квадратов можно находить оценки параметров линии регрессии и при нелинейной корреляции. Например, для линии регрессии вида Регрессионный анализ - определение и вычисление с примерами решения оценки параметров Регрессионный анализ - определение и вычисление с примерами решения находятся из условия минимума функции

Регрессионный анализ - определение и вычисление с примерами решения

Пример:

По данным наблюдений двух случайных величин найти коэффициент корреляции и уравнение линии регрессии Y наРегрессионный анализ - определение и вычисление с примерами решения

Решение. Вычислим величины, необходимые для использования формул (3.7.1)–(3.7.3):

 Регрессионный анализ - определение и вычисление с примерами решения

По формулам (3.7.1) и (3.7.2) получимРегрессионный анализ - определение и вычисление с примерами решения

Итак, оценка линии регрессии имеет вид Регрессионный анализ - определение и вычисление с примерами решения Так как Регрессионный анализ - определение и вычисление с примерами решения то по формуле (3.1.3)

Регрессионный анализ - определение и вычисление с примерами решения

Аналогично, Регрессионный анализ - определение и вычисление с примерами решения Поэтому в качестве оценки коэффициента корреляции имеем по формуле (3.7.3) величину Регрессионный анализ - определение и вычисление с примерами решения

Ответ.  Регрессионный анализ - определение и вычисление с примерами решения

Пример:

Получена выборка значений величин X и YРегрессионный анализ - определение и вычисление с примерами решения

Для представления зависимости между величинами предполагается использовать модель Регрессионный анализ - определение и вычисление с примерами решения Найти оценки параметров Регрессионный анализ - определение и вычисление с примерами решения

Решение. Рассмотрим сначала задачу оценки параметров этой модели в общем виде. Линия Регрессионный анализ - определение и вычисление с примерами решения играет роль линии регрессии и поэтому параметры ее можно найти из условия минимума функции (сумма квадратов отклонений значений Y от линии должна быть минимальной по свойству линии регрессии)Регрессионный анализ - определение и вычисление с примерами решения

Необходимые условия экстремума приводят к системе из двух уравнений:Регрессионный анализ - определение и вычисление с примерами решения

Откуда

Регрессионный анализ - определение и вычисление с примерами решения

Решения системы уравнений (3.7.4) и (3.7.5) и будут оценками по методу наименьших квадратов для параметров Регрессионный анализ - определение и вычисление с примерами решения

На основе опытных данных вычисляем:Регрессионный анализ - определение и вычисление с примерами решения

В итоге получаем систему уравнений (?????) и (?????) в виде Регрессионный анализ - определение и вычисление с примерами решения

Эта система имеет решения Регрессионный анализ - определение и вычисление с примерами решения

Ответ. Регрессионный анализ - определение и вычисление с примерами решения

Если наблюдений много, то результаты их обычно группируют и представляют в виде корреляционной таблицы.Регрессионный анализ - определение и вычисление с примерами решения

В этой таблице Регрессионный анализ - определение и вычисление с примерами решения равно числу наблюдений, для которых X находится в интервале Регрессионный анализ - определение и вычисление с примерами решения а Y – в интервале Регрессионный анализ - определение и вычисление с примерами решения Через Регрессионный анализ - определение и вычисление с примерами решения обозначено число наблюдений, при которых Регрессионный анализ - определение и вычисление с примерами решения а Y произвольно. Число наблюдений, при которых Регрессионный анализ - определение и вычисление с примерами решения а X произвольно, обозначено через Регрессионный анализ - определение и вычисление с примерами решения

Если величины дискретны, то вместо интервалов указывают отдельные значения этих величин. Для непрерывных случайных величин представителем каждого интервала считают его середину и полагают, что Регрессионный анализ - определение и вычисление с примерами решения и Регрессионный анализ - определение и вычисление с примерами решения  наблюдались Регрессионный анализ - определение и вычисление с примерами решения раз.

При больших значениях X и Y можно для упрощения вычислений перенести начало координат и изменить масштаб по каждой из осей, а после завершения вычислений вернуться к старому масштабу.

Пример:

Проделано 80 наблюдений случайных величин X и Y. Результаты наблюдений представлены в виде таблицы. Найти линию регрессии Y на X. Оценить коэффициент корреляции.Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения

Решение. Представителем каждого интервала будем считать его середину. Перенесем начало координат и изменим масштаб по каждой оси так, чтобы значения X и Y были удобны для вычислений. Для этого перейдем к новым переменным Регрессионный анализ - определение и вычисление с примерами решения Значения этих новых переменных указаны соответственно в самой верхней строке и самом левом столбце таблицы.

Чтобы иметь представление о виде линии регрессии, вычислим средние значения Регрессионный анализ - определение и вычисление с примерами решения при фиксированных значениях Регрессионный анализ - определение и вычисление с примерами решения:Регрессионный анализ - определение и вычисление с примерами решения

Нанесем эти значения на координатную плоскость, соединив для наглядности их отрезками прямой (рис. 3.7.1).Регрессионный анализ - определение и вычисление с примерами решения

По виду полученной ломанной линии можно предположить, что линия регрессии Y на X является прямой. Оценим ее параметры. Для этого сначала вычислим с учетом группировки данных в таблице все величины, необходимые для использования формул (3.31–3.33): Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения

Тогда

Регрессионный анализ - определение и вычисление с примерами решения

В новом масштабе оценка линии регрессии имеет вид Регрессионный анализ - определение и вычисление с примерами решения График этой прямой линии изображен на рис. 3.7.1.

Для оценки Регрессионный анализ - определение и вычисление с примерами решения по корреляционной таблице можно воспользоваться формулой (3.1.3):

Регрессионный анализ - определение и вычисление с примерами решения

Подобным же образом можно оценить Регрессионный анализ - определение и вычисление с примерами решения величиной Регрессионный анализ - определение и вычисление с примерами решения Тогда оценкой коэффициента корреляции может служить величина Регрессионный анализ - определение и вычисление с примерами решения

Вернемся к старому масштабу:

 Регрессионный анализ - определение и вычисление с примерами решения

Коэффициент корреляции пересчитывать не нужно, так как это величина безразмерная и от масштаба не зависит.

Ответ. Регрессионный анализ - определение и вычисление с примерами решения

Пусть некоторые физические величины X и Y связаны неизвестной нам функциональной зависимостью Регрессионный анализ - определение и вычисление с примерами решения Для изучения этой зависимости производят измерения Y при разных значениях X. Измерениям сопутствуют ошибки и поэтому результат каждого измерения случаен. Если систематической ошибки при измерениях нет, то Регрессионный анализ - определение и вычисление с примерами решения играет роль линии регрессии и все свойства линии регрессии приложимы к Регрессионный анализ - определение и вычисление с примерами решения. В частности, Регрессионный анализ - определение и вычисление с примерами решения обычно находят по методу наименьших квадратов.

Регрессионный анализ

Основные положения регрессионного анализа:

Основная задача регрессионного анализа — изучение зависимости между результативным признаком Y и наблюдавшимся признаком X, оценка функции регрессий.

Предпосылки регрессионного анализа:

  1. Y — независимые случайные величины, имеющие постоянную дисперсию;
  2. X— величины наблюдаемого признака (величины не случайные);
  3. условное математическое ожидание Регрессионный анализ - определение и вычисление с примерами решения можно представить в виде Регрессионный анализ - определение и вычисление с примерами решения

Выражение (2.1), как уже упоминалось в п. 1.2, называется функцией регрессии (или модельным уравнением регрессии) Y на X. Оценке в этом выражении подлежат параметры Регрессионный анализ - определение и вычисление с примерами решения называемые коэффициентами регрессии, а также Регрессионный анализ - определение и вычисление с примерами решения— остаточная дисперсия.

Остаточной дисперсией называется та часть рассеивания результативного признака, которую нельзя объяснить действием наблюдаемого признака; Остаточная дисперсия может служить для оценки точности подбора вида функции регрессии (модельного уравнения регрессии), полноты набора признаков, включенных в анализ. Оценки параметров функции регрессии находят, используя метод наименьших квадратов.

В данном вопросе рассмотрен линейный регрессионный анализ. Линейным он называется потому, что изучаем лишь те виды зависимостейРегрессионный анализ - определение и вычисление с примерами решения которые линейны по оцениваемым параметрам, хотя могут быть нелинейны по переменным X. Например, зависимости Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения линейны относительно параметров Регрессионный анализ - определение и вычисление с примерами решения Регрессионный анализ - определение и вычисление с примерами решения хотя вторая и третья зависимости нелинейны относительно переменных х. Вид зависимости Регрессионный анализ - определение и вычисление с примерами решения выбирают, исходя из визуальной оценки характера расположения точек на поле корреляции; опыта предыдущих исследований; соображений профессионального характера, основанных и знании физической сущности процесса.

Важное место в линейном регрессионном анализе занимает так называемая «нормальная регрессия». Она имеет место, если сделать предположения относительно закона распределения случайной величины Y. Предпосылки «нормальной регрессии»:

  1. Y — независимые случайные величины, имеющие постоянную дисперсию и распределенные по нормальному закону;
  2. X— величины наблюдаемого признака (величины не случайные);
  3. условное математическое ожидание Регрессионный анализ - определение и вычисление с примерами решения можно представить в виде (2.1).

В этом случае оценки коэффициентов регрессии — несмещённые с минимальной дисперсией и нормальным законом распределения. Из этого положения следует что при «нормальной регрессии» имеется возможность оценить значимость оценок коэффициентов регрессии, а также построить доверительный интервал для коэффициентов регрессии и условного математического ожидания M(YX=x).

Линейная регрессия

Рассмотрим простейший случай регрессионного анализа — модель вида (2.1), когда зависимость Регрессионный анализ - определение и вычисление с примерами решения линейна и по оцениваемым параметрам, и

по переменным. Оценки параметров модели (2.1) Регрессионный анализ - определение и вычисление с примерами решения обозначил Регрессионный анализ - определение и вычисление с примерами решенияОценку остаточной дисперсии Регрессионный анализ - определение и вычисление с примерами решения обозначим Регрессионный анализ - определение и вычисление с примерами решенияПодставив в формулу (2.1) вместо параметров их оценки, получим уравнение регрессии Регрессионный анализ - определение и вычисление с примерами решениякоэффициенты которого Регрессионный анализ - определение и вычисление с примерами решения находят из условия минимума суммы квадратов отклонений измеренных значений результативного признакаРегрессионный анализ - определение и вычисление с примерами решения от вычисленных по уравнению регрессии Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения

Составим систему нормальных уравнений: первое уравнение

Регрессионный анализ - определение и вычисление с примерами решения

откуда   Регрессионный анализ - определение и вычисление с примерами решения

второе уравнениеРегрессионный анализ - определение и вычисление с примерами решения

откудаРегрессионный анализ - определение и вычисление с примерами решения

Итак,
Регрессионный анализ - определение и вычисление с примерами решения
Оценки, полученные по способу наименьших квадратов, обладают минимальной дисперсией в классе линейных оценок. Решая систему (2.2) относительноРегрессионный анализ - определение и вычисление с примерами решения найдём оценки параметров Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Остаётся получить оценку параметра Регрессионный анализ - определение и вычисление с примерами решения . Имеем
Регрессионный анализ - определение и вычисление с примерами решения
где т — количество наблюдений.

Еслит велико, то для упрощения расчётов наблюдавшиеся данные принята группировать, т.е. строить корреляционную таблицу. Пример построения такой таблицы приведен в п. 1.5. Формулы для нахождения коэффициентов регрессии по сгруппированным данным те же, что и для расчёта по несгруппированным данным, но суммыРегрессионный анализ - определение и вычисление с примерами решениязаменяют на
Регрессионный анализ - определение и вычисление с примерами решения
где Регрессионный анализ - определение и вычисление с примерами решения — частоты повторений соответствующих значений переменных. В дальнейшем часто используется этот наглядный приём вычислений.
 

Нелинейная регрессия

Рассмотрим случай, когда зависимость нелинейна по переменным х, например модель вида
Регрессионный анализ - определение и вычисление с примерами решения   Регрессионный анализ - определение и вычисление с примерами решения

На рис. 2.1 изображено поле корреляции. Очевидно, что зависимость между Y и X нелинейная и её графическим изображением является не прямая, а кривая. Оценкой выражения (2.6) является уравнение регрессии

Регрессионный анализ - определение и вычисление с примерами решения

где Регрессионный анализ - определение и вычисление с примерами решения —оценки коэффициентов регрессии Регрессионный анализ - определение и вычисление с примерами решения
Регрессионный анализ - определение и вычисление с примерами решения
Принцип нахождения коэффициентов тот же — метод наименьших квадратов, т.е.

Регрессионный анализ - определение и вычисление с примерами решения

или

Регрессионный анализ - определение и вычисление с примерами решения

Дифференцируя последнее равенство по Регрессионный анализ - определение и вычисление с примерами решения и приравнивая правые части нулю, получаем так называемую систему нормальных уравнений:

Регрессионный анализ - определение и вычисление с примерами решения

В общем случае нелинейной зависимости между переменными Y и X связь может выражаться многочленом k-й степени от x:

Регрессионный анализ - определение и вычисление с примерами решения

Коэффициенты регрессии определяют по принципу наименьших квадратов. Система нормальных уравнений имеет вид

Регрессионный анализ - определение и вычисление с примерами решения
Вычислив коэффициенты системы, её можно решить любым известным способом.
 

Оценка значимости коэффициентов регрессии. Интервальная оценка коэффициентов регрессии

Проверить значимость оценок коэффициентов регрессии — значит установить, достаточна ли величина оценки для статистически обоснованного вывода о том, что коэффициент регрессии отличен от нуля. Для этого проверяют гипотезу о равенстве нулю коэффициента регрессии, соблюдая предпосылки «нормальной регрессии». В этом случае вычисляемая для проверки нулевой гипотезы Регрессионный анализ - определение и вычисление с примерами решения статистика

Регрессионный анализ - определение и вычисление с примерами решения

имеет распределение Стьюдента с к= n-2 степенями свободы (b — оценка коэффициента регрессии, Регрессионный анализ - определение и вычисление с примерами решения— оценка среднеквадратического отклонения

коэффициента регрессии, иначе стандартная ошибка оценки). По уровню значимости а и числу степеней свободы к находят по таблицам распределения Стьюдента (см. табл. 1 приложений) критическое значениеРегрессионный анализ - определение и вычисление с примерами решения удовлетворяющее условию Регрессионный анализ - определение и вычисление с примерами решения то нулевую гипотезу о равенстве нулю коэффициента регрессии отвергают, коэффициент считают значимым. ПриРегрессионный анализ - определение и вычисление с примерами решениянет оснований отвергать нулевую гипотезу.

Оценки среднеквадратического отклонения коэффициентов регрессии вычисляют по следующим формулам:
Регрессионный анализ - определение и вычисление с примерами решения
где   Регрессионный анализ - определение и вычисление с примерами решения— оценка остаточной дисперсии, вычисляемая по
формуле (2.5).

Доверительный интервал для значимых параметров строят по обычной схеме. Из условия

Регрессионный анализ - определение и вычисление с примерами решения
где а — уровень значимости, находим

Регрессионный анализ - определение и вычисление с примерами решения
 

Интервальная оценка для условного математического ожидания

Линия регрессии характеризует изменение условного математического ожидания результативного признака от вариации остальных признаков.

Точечной оценкой условного математического ожидания Регрессионный анализ - определение и вычисление с примерами решения является условное среднее Регрессионный анализ - определение и вычисление с примерами решения   Кроме точечной оценки для Регрессионный анализ - определение и вычисление с примерами решения можно
построить доверительный интервал в точке Регрессионный анализ - определение и вычисление с примерами решения

Известно, что Регрессионный анализ - определение и вычисление с примерами решения имеет распределение
Стьюдента с k=n—2 степенями свободы. Найдя оценку среднеквадратического отклонения для условного среднего, можно построить доверительный интервал для условного математического ожидания Регрессионный анализ - определение и вычисление с примерами решения

Оценку дисперсии условного среднего вычисляют по формуле
Регрессионный анализ - определение и вычисление с примерами решения
или для интервального ряда
Регрессионный анализ - определение и вычисление с примерами решения
Доверительный интервал находят из условия
Регрессионный анализ - определение и вычисление с примерами решения
где а — уровень значимости. Отсюда

Регрессионный анализ - определение и вычисление с примерами решения
Доверительный интервал для условного математического ожидания можно изобразить графически (рис, 2.2).

Регрессионный анализ - определение и вычисление с примерами решения

Из рис. 2.2 видно, что в точке Регрессионный анализ - определение и вычисление с примерами решения границы интервала наиболее близки друг другу. Расположение границ доверительного интервала показывает, что прогнозы по уравнению регрессии, хороши только в случае, если значение х не выходит за пределы выборки, по которой вычислено уравнение регрессии; иными словами, экстраполяция по уравнению регрессии может привести к значительным погрешностям.

Проверка значимости уравнения регрессии

Оценить значимость уравнения регрессии — значит установить, соответствует ли математическая, модель, выражающая зависимость между Y и X, экспериментальным данным. Для оценки значимости в предпосылках «нормальной регрессии» проверяют гипотезу Регрессионный анализ - определение и вычисление с примерами решения Если она отвергается, то считают, что между Y и X нет связи (или связь нелинейная). Для проверки нулевой гипотезы используют основное положение дисперсионного анализа о разбиении суммы квадратов на слагаемые. Воспользуемся разложением Регрессионный анализ - определение и вычисление с примерами решения— Общая сумма квадратов отклонений результативного признака

Регрессионный анализ - определение и вычисление с примерами решения разлагается на Регрессионный анализ - определение и вычисление с примерами решения (сумму, характеризующую влияние признака

X) и Регрессионный анализ - определение и вычисление с примерами решения (остаточную сумму квадратов, характеризующую влияние неучтённых факторов). Очевидно, чем меньше влияние неучтённых факторов, тем лучше математическая модель соответствует экспериментальным данным, так как вариация У в основном объясняется влиянием признака X.

Для проверки нулевой гипотезы вычисляют статистику Регрессионный анализ - определение и вычисление с примерами решения которая имеет распределение Фишера-Снедекора с АРегрессионный анализ - определение и вычисление с примерами решения степенями свободы (в п — число наблюдений). По уровню значимости а и числу степеней свободы Регрессионный анализ - определение и вычисление с примерами решения находят по таблицам F-распределение для уровня значимости а=0,05 (см. табл. 3 приложений) критическое значениеРегрессионный анализ - определение и вычисление с примерами решения удовлетворяющее условию Регрессионный анализ - определение и вычисление с примерами решения. Если Регрессионный анализ - определение и вычисление с примерами решениянулевую гипотезу отвергают, уравнение считают значимым. Если Регрессионный анализ - определение и вычисление с примерами решения то нет оснований отвергать нулевую гипотезу.

Многомерный регрессионный анализ

В случае, если изменения результативного признака определяются действием совокупности других признаков, имеет место многомерный регрессионный анализ. Пусть результативный признак У, а независимые признаки Регрессионный анализ - определение и вычисление с примерами решенияДля многомерного случая предпосылки регрессионного анализа можно сформулировать следующим образом: У -независимые случайные величины со средним Регрессионный анализ - определение и вычисление с примерами решения и постоянной дисперсией Регрессионный анализ - определение и вычисление с примерами решения— линейно независимые векторы Регрессионный анализ - определение и вычисление с примерами решения. Все положения, изложенные в п.2.1, справедливы для многомерного случая. Рассмотрим модель вида 

Регрессионный анализ - определение и вычисление с примерами решения

Оценке подлежат параметры Регрессионный анализ - определение и вычисление с примерами решения и остаточная дисперсия.

Заменив параметры их оценками, запишем уравнение регрессии

Регрессионный анализ - определение и вычисление с примерами решения
Коэффициенты в этом выражении находят методом наименьших квадратов.

Исходными данными для вычисления коэффициентов Регрессионный анализ - определение и вычисление с примерами решения является выборка из многомерной совокупности, представляемая обычно в виде матрицы X и вектора Y:
Регрессионный анализ - определение и вычисление с примерами решения   

Как и в двумерном случае, составляют систему нормальных уравнений
Регрессионный анализ - определение и вычисление с примерами решения
которую можно решить любым способом, известным из линейной алгебры. Рассмотрим один из них — способ обратной матрицы. Предварительно преобразуем систему уравнений. Выразим из первого уравнения значение Регрессионный анализ - определение и вычисление с примерами решениячерез остальные параметры:

Регрессионный анализ - определение и вычисление с примерами решения

Подставим в остальные уравнения системы вместо Регрессионный анализ - определение и вычисление с примерами решения полученное выражение:

Регрессионный анализ - определение и вычисление с примерами решения

Пусть С — матрица коэффициентов при неизвестных параметрах Регрессионный анализ - определение и вычисление с примерами решения Регрессионный анализ - определение и вычисление с примерами решения— матрица, обратная матрице С; Регрессионный анализ - определение и вычисление с примерами решения — элемент, стоящий на пересечении i-Й строки и i-го столбца матрицыРегрессионный анализ - определение и вычисление с примерами решения    — выражение
Регрессионный анализ - определение и вычисление с примерами решения. Тогда, используя формулы линейной алгебры,

запишем окончательные выражения для параметров:

Регрессионный анализ - определение и вычисление с примерами решения

Оценкой остаточной дисперсииРегрессионный анализ - определение и вычисление с примерами решения является

Регрессионный анализ - определение и вычисление с примерами решения

где Регрессионный анализ - определение и вычисление с примерами решения — измеренное значение результативного признака;Регрессионный анализ - определение и вычисление с примерами решения значение результативного признака, вычисленное по уравнению регрессий.

Если выборка получена из нормально распределенной генеральной совокупности, то, аналогично изложенному в п. 2.4, можно проверить значимость оценок коэффициентов регрессии, только в данном случае статистикуРегрессионный анализ - определение и вычисление с примерами решения вычисляют для каждого j-го коэффициента регрессии

Регрессионный анализ - определение и вычисление с примерами решения

где Регрессионный анализ - определение и вычисление с примерами решения—элемент обратной матрицы, стоящий на пересечении i-й строки и j-
го столбца;Регрессионный анализ - определение и вычисление с примерами решения —диагональный элемент обратной матрицы.

При заданном уровне значимости а и числе степеней свободы к=n— m—1 по табл. 1 приложений находят критическое значение Регрессионный анализ - определение и вычисление с примерами решения ЕслиРегрессионный анализ - определение и вычисление с примерами решения то нулевую гипотезу о равенстве нулю коэффициента регрессии отвергают. Оценку коэффициента считают значимой. Такую проверку производят последовательно для каждого коэффициента регрессии. ЕслиРегрессионный анализ - определение и вычисление с примерами решения то нет оснований отвергать нулевую гипотезу, оценку коэффициента регрессии считают незначимой.

Для значимых коэффициентов регрессии целесообразно построить доверительные интервалы по формуле (2.10). Для оценки значимости уравнения регрессии следует проверить нулевую гипотезу о том, что все коэффициенты регрессии (кроме свободного члена) равны нулю:Регрессионный анализ - определение и вычисление с примерами решения Регрессионный анализ - определение и вычисление с примерами решения — вектор коэффициентов регрессии). Нулевую гипотезу проверяют, так же как и в п. 2.6, с помощью статистики Регрессионный анализ - определение и вычисление с примерами решения, где Регрессионный анализ - определение и вычисление с примерами решения — сумма квадратов, характеризующая влияние признаков X; Регрессионный анализ - определение и вычисление с примерами решения — остаточная сумма квадратов, характеризующая влияние неучтённых факторов; Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решенияДля уровня значимости а и числа степеней свободы Регрессионный анализ - определение и вычисление с примерами решения по табл. 3 приложений находят критическое значение Регрессионный анализ - определение и вычисление с примерами решения Если Регрессионный анализ - определение и вычисление с примерами решения то нулевую гипотезу об одновременном равенстве нулю коэффициентов регрессии отвергают. Уравнение регрессии считают значимым. При Регрессионный анализ - определение и вычисление с примерами решения нет оснований отвергать нулевую гипотезу, уравнение регрессии считают незначимым.

Факторный анализ

Основные положения. В последнее время всё более широкое распространение находит один из новых разделов многомерного статистического анализа — факторный анализ. Первоначально этот метод

разрабатывался для объяснения многообразия корреляций между исходными параметрами. Действительно, результатом корреляционного анализа является матрица коэффициентов корреляций. При малом числе параметров можно произвести визуальный анализ этой матрицы. С ростом числа параметра (10 и более) визуальный анализ не даёт положительных результатов. Оказалось, что всё многообразие корреляционных связей можно объяснить действием нескольких обобщённых факторов, являющихся функциями исследуемых параметров, причём сами обобщённые факторы при этом могут быть и неизвестны, однако их можно выразить через исследуемые параметры.

Один из основоположников факторного анализа Л. Терстоун приводит такой пример: несколько сотен мальчиков выполняют 20 разнообразных гимнастических упражнений. Каждое упражнение оценивают баллами. Можно рассчитать матрицу корреляций между 20 упражнениями. Это большая матрица размером 20><20. Изучая такую матрицу, трудно уловить закономерность связей между упражнениями. Нельзя ли объяснить скрытую в таблице закономерность действием каких-либо обобщённых факторов, которые в результате эксперимента непосредственно, не оценивались? Оказалось, что обо всех коэффициентах корреляции можно судить по трём обобщённым факторам, которые и определяют успех выполнения всех 20 гимнастических упражнений: чувство равновесия, усилие правого плеча, быстрота движения тела.

Дальнейшие разработки факторного анализа доказали, что этот метод может быть с успехом применён в задачах группировки и классификации объектов. Факторный анализ позволяет группировать объекты со сходными сочетаниями признаков и группировать признаки с общим характером изменения от объекта к объекту. Действительно, выделенные обобщённые факторы можно использовать как критерии при классификации мальчиков по способностям к отдельным группам гимнастических упражнений.

Методы факторного анализа находят применение в психологии и экономике, социологии и экономической географии. Факторы, выраженные через исходные параметры, как правило, легко интерпретировать как некоторые существенные внутренние характеристики объектов.

Факторный анализ может быть использован и как самостоятельный метод исследования, и вместе с другими методами многомерного анализа, например в сочетании с регрессионным анализом. В этом случае для набора зависимых переменных наводят обобщённые факторы, которые потом входят в регрессионный анализ в качестве переменных. Такой подход позволяет сократить число переменных в регрессионном анализе, устранить коррелированность переменных, уменьшить влияние ошибок и в случае ортогональности выделенных факторов значительно упростить оценку значимости переменных.

Представление, информации в факторном анализе

Для проведения факторного анализа информация должна быть представлена в виде двумерной таблицы чисел размерностью Регрессионный анализ - определение и вычисление с примерами решенияаналогичной приведенной в п. 2.7 (матрица исходных данных). Строки этой матрицы должны соответствовать объектам наблюдений Регрессионный анализ - определение и вычисление с примерами решения столбцы — признакамРегрессионный анализ - определение и вычисление с примерами решениятаким образом, каждый признак является как бы статистическим рядом, в котором наблюдения варьируют от объекта к объекту. Признаки, характеризующие объект наблюдения, как правило, имеют различную размерность. Чтобы устранить влияние размерности и обеспечить сопоставимость признаков, матрицу исходных данных    обычно нормируют, вводя единый    масштаб. Самым распространенным видом нормировки является стандартизация. От переменных Регрессионный анализ - определение и вычисление с примерами решения переходят к переменным Регрессионный анализ - определение и вычисление с примерами решенияВ дальнейшем, говоря о матрице исходных переменных, всегда будем иметь в виду стандартизованную матрицу.

Основная модель факторного анализа. Основная модель факторного анализа имеет вид

Регрессионный анализ - определение и вычисление с примерами решения

где Регрессионный анализ - определение и вычисление с примерами решения-j-й признак (величина случайная); Регрессионный анализ - определение и вычисление с примерами решения— общие факторы (величины случайные, имеющие нормальный закон распределения); Регрессионный анализ - определение и вычисление с примерами решения— характерный фактор; Регрессионный анализ - определение и вычисление с примерами решения— факторные нагрузки, характеризующие существенность влияния каждого фактора (параметры модели, подлежащие определению);Регрессионный анализ - определение и вычисление с примерами решения — нагрузка характерного фактора.

Модель предполагает, что каждый из j признаков, входящих в исследуемый набор и заданных в стандартной форме, может быть представлен в виде линейной комбинации небольшого числа общих факторов Регрессионный анализ - определение и вычисление с примерами решения и характерного фактора Регрессионный анализ - определение и вычисление с примерами решения

Термин «общий фактор» подчёркивает, что каждый такой фактор имеет существенное значение для анализа всех признаковРегрессионный анализ - определение и вычисление с примерами решения, т.е.

Регрессионный анализ - определение и вычисление с примерами решения

Термин «характерный фактор» показывает, что он относится только к данному j-му признаку. Это специфика признака, которая не может быть, выражена через факторы Регрессионный анализ - определение и вычисление с примерами решения

Факторные нагрузки Регрессионный анализ - определение и вычисление с примерами решения. характеризуют величину влияния того или иного общего фактора в вариации данного признака. Основная задача факторного анализа — определение факторных нагрузок. Факторная модель относится к классу аппроксимационных. Параметры модели должны быть выбраны так, чтобы наилучшим образом аппроксимировать корреляции между наблюдаемыми признаками.

Для j-го признака и i-го объекта модель (2.19) можно записать в. виде

Регрессионный анализ - определение и вычисление с примерами решения

где Регрессионный анализ - определение и вычисление с примерами решения значение k-го фактора для i-го объекта.

Дисперсию признака Регрессионный анализ - определение и вычисление с примерами решения можно разложить на составляющие: часть, обусловленную действием общих факторов, — общность Регрессионный анализ - определение и вычисление с примерами решения и часть, обусловленную действием j-го характера фактора, характерность Регрессионный анализ - определение и вычисление с примерами решения Все переменные представлены в стандартизированном виде, поэтому дисперсий у-го признака Регрессионный анализ - определение и вычисление с примерами решенияДисперсия признака может быть выражена через факторы и в конечном счёте через факторные нагрузки.

Если общие и характерные факторы не коррелируют между собой, то дисперсию j-го признака можно представить в виде

Регрессионный анализ - определение и вычисление с примерами решения

где Регрессионный анализ - определение и вычисление с примерами решения —доля дисперсии признака Регрессионный анализ - определение и вычисление с примерами решения приходящаяся на k-й фактор.

Полный вклад k-го фактора в суммарную дисперсию признаков

Регрессионный анализ - определение и вычисление с примерами решения

Вклад общих факторов в суммарную дисперсию Регрессионный анализ - определение и вычисление с примерами решения
 

Факторное отображение

Используя модель (2.19), запишем выражения для каждого из параметров:

Регрессионный анализ - определение и вычисление с примерами решения
Коэффициенты системы (2,21) — факторные нагрузки — можно представить в виде матрицы, каждая строка которой соответствует параметру, а столбец — фактору.

Факторный анализ позволяет получить не только матрицу отображений, но и коэффициенты корреляции между параметрами и

факторами, что является важной характеристикой качества факторной модели. Таблица таких коэффициентов корреляции называется факторной структурой или просто структурой.

Коэффициенты отображения можно выразить через выборочные парные коэффициенты корреляции. На этом основаны методы вычисления факторного отображения.

Рассмотрим связь между элементами структуры и коэффициентами отображения. Для этого, учитывая выражение (2.19) и определение выборочного коэффициента корреляции, умножим уравнения системы (2.21) на соответствующие факторы, произведём суммирование по всем n наблюдениям и, разделив на n, получим следующую систему уравнений:

Регрессионный анализ - определение и вычисление с примерами решения

гдеРегрессионный анализ - определение и вычисление с примерами решения — выборочный коэффициент корреляции между j-м параметром и к-
м фактором;Регрессионный анализ - определение и вычисление с примерами решения — коэффициент корреляции между к-м и р-м факторами.

Если предположить, что общие факторы между собой, не коррелированы, то уравнения    (2.22) можно записать в виде

Регрессионный анализ - определение и вычисление с примерами решения, т.е. коэффициенты отображения равны
элементам структуры.

Введём понятие, остаточного коэффициента корреляции и остаточной корреляционной матрицы. Исходной информацией для построения факторной модели (2.19) служит матрица выборочных парных коэффициентов корреляции. Используя построенную факторную модель, можно снова вычислить коэффициенты корреляции между признаками и сравнись их с исходными Коэффициентами корреляции. Разница между ними и есть остаточный коэффициент корреляции.

В случае независимости факторов имеют место совсем простые выражения для вычисляемых коэффициентов корреляции между параметрами: для их вычисления достаточно взять сумму произведений коэффициентов отображения, соответствующих наблюдавшимся признакам: Регрессионный анализ - определение и вычисление с примерами решения
где Регрессионный анализ - определение и вычисление с примерами решения —вычисленный по отображению коэффициент корреляции между j-м
и к-м признаком. Остаточный коэффициент корреляции

Регрессионный анализ - определение и вычисление с примерами решения

Матрица остаточных коэффициентов корреляции называется остаточной матрицей или матрицей остатков

Регрессионный анализ - определение и вычисление с примерами решения
где Регрессионный анализ - определение и вычисление с примерами решения — матрица остатков; R — матрица выборочных парных коэффициентов корреляции, или полная матрица; R’— матрица вычисленных по отображению коэффициентов корреляции.

Результаты факторного анализа удобно представить в виде табл. 2.10.
Регрессионный анализ - определение и вычисление с примерами решения

Здесь суммы квадратов нагрузок по строкам — общности параметров, а суммы квадратов нагрузок по столбцам — вклады факторов в суммарную дисперсию параметров. Имеет место соотношение

Регрессионный анализ - определение и вычисление с примерами решения

Определение факторных нагрузок

Матрицу факторных нагрузок можно получить различными способами. В настоящее время наибольшее распространение получил метод главных факторов. Этот метод основан на принципе последовательных приближений и позволяет достичь любой точности. Метод главных факторов предполагает использование ЭВМ. Существуют хорошие алгоритмы и программы, реализующие все вычислительные процедуры.

Введём понятие редуцированной корреляционной матрицы или просто редуцированной матрицы. Редуцированной называется матрица выборочных коэффициентов корреляцииРегрессионный анализ - определение и вычисление с примерами решения у которой на главной диагонали стоят значения общностей Регрессионный анализ - определение и вычисление с примерами решения:Регрессионный анализ - определение и вычисление с примерами решения

Редуцированная и полная матрицы связаны соотношением

Регрессионный анализ - определение и вычисление с примерами решения

где D — матрица характерностей.

Общности, как правило, неизвестны, и нахождение их в факторном анализе представляет серьезную проблему. Вначале определяют (хотя бы приближённо) число общих факторов, совокупность, которых может с достаточной точностью аппроксимировать все взаимосвязи выборочной корреляционной матрицы. Доказано, что число общих факторов (общностей) равно рангу редуцированной матрицы, а при известном ранге можно по выборочной корреляционной матрице найти оценки общностей. Числа общих факторов можно определить априори, исходя из физической природы эксперимента. Затем рассчитывают матрицу факторных нагрузок. Такая матрица, рассчитанная методом главных факторов, обладает одним интересным свойством: сумма произведений каждой пары её столбцов равна нулю, т.е. факторы попарно ортогональны.

Сама процедура нахождения факторных нагрузок, т.е. матрицы А, состоит из нескольких шагов и заключается в следующем: на первом шаге ищут коэффициенты факторных нагрузок при первом факторе так, чтобы сумма вкладов данного фактора в суммарную общность была максимальной:Регрессионный анализ - определение и вычисление с примерами решения

Максимум Регрессионный анализ - определение и вычисление с примерами решения должен быть найден при условии
Регрессионный анализ - определение и вычисление с примерами решения
где Регрессионный анализ - определение и вычисление с примерами решения —общностьРегрессионный анализ - определение и вычисление с примерами решенияпараметраРегрессионный анализ - определение и вычисление с примерами решения

Затем рассчитывают матрицу коэффициентов корреляции с учётом только первого фактораРегрессионный анализ - определение и вычисление с примерами решения Имея эту матрицу, получают первую матрицу остатков:Регрессионный анализ - определение и вычисление с примерами решения

На втором шаге определяют коэффициенты нагрузок при втором факторе так, чтобы сумма вкладов второго фактора в остаточную общность (т.е. полную общность без учёта той части, которая приходится на долю первого фактора) была максимальной. Сумма квадратов нагрузок при втором фактореРегрессионный анализ - определение и вычисление с примерами решения

Максимум Регрессионный анализ - определение и вычисление с примерами решения находят из условия
Регрессионный анализ - определение и вычисление с примерами решения
где Регрессионный анализ - определение и вычисление с примерами решения— коэффициент корреляции из первой матрицы остатков; Регрессионный анализ - определение и вычисление с примерами решения — факторные нагрузки с учётом второго фактора. Затем рассчитыва коэффициентов корреляций с учётом второго фактора и вычисляют вторую матрицу остатков: Регрессионный анализ - определение и вычисление с примерами решения

Факторный анализ учитывает суммарную общность. Исходная суммарная общностьРегрессионный анализ - определение и вычисление с примерами решения Итерационный процесс выделения факторов заканчивают, когда учтённая выделенными факторами суммарная общность отличается от исходной суммарной общности меньше чем на Регрессионный анализ - определение и вычисление с примерами решения— наперёд заданное малое число).

Адекватность факторной модели оценивается по матрице остатков (если величины её коэффициентов малы, то модель считают адекватной).

Такова последовательность шагов для нахождения факторных нагрузок. Для нахождения максимума функции (2.24) при условии (2.25) используют метод множителей Лагранжа, который приводит к системе т уравнений относительно m неизвестных Регрессионный анализ - определение и вычисление с примерами решения

Метод главных компонент

Разновидностью метода главных факторов является метод главных компонент или компонентный анализ, который реализует модель вида

Регрессионный анализ - определение и вычисление с примерами решения

где m — количество параметров (признаков).

Каждый из наблюдаемых, параметров линейно зависит от m не коррелированных между собой новых компонент (факторов) Регрессионный анализ - определение и вычисление с примерами решенияПо сравнению с моделью факторного анализа (2.19) в модели (2.28) отсутствует характерный фактор, т.е. считается, что вся вариация параметра может быть объяснена только действием общих или главных факторов. В случае компонентного анализа исходной является матрица коэффициентов корреляции, где на главной диагонали стоят единицы. Результатом компонентного анализа, так же как и факторного, является матрица факторных нагрузок. Поиск факторного решения — это ортогональное преобразование матрицы исходных переменных, в результате которого каждый параметр может быть представлен линейной комбинацией найденных m факторов, которые называют главными компонентами. Главные компоненты легко выражаются через наблюдённые параметры.

Если для дальнейшего анализа оставить все найденные т компонент, то тем самым будет использована вся информация, заложенная в корреляционной матрице. Однако это неудобно и нецелесообразно. На практике обычно оставляют небольшое число компонент, причём количество их определяется долей суммарной дисперсии, учитываемой этими компонентами. Существуют различные критерии для оценки числа оставляемых компонент; чаще всего используют следующий простой критерий: оставляют столько компонент, чтобы суммарная дисперсия, учитываемая ими, составляла заранее установленное число процентов. Первая из компонент должна учитывать максимум суммарной дисперсии параметров; вторая — не коррелировать с первой и учитывать максимум оставшейся дисперсии и так до тех пор, пока вся дисперсия не будет учтена. Сумма учтённых всеми компонентами дисперсий равна сумме дисперсий исходных параметров. Математический аппарат компонентного анализа полностью совпадает с аппаратом метода главных факторов. Отличие только в исходной матрице корреляций.

Компонента (или фактор) через исходные переменные выражается следующим образом:

Регрессионный анализ - определение и вычисление с примерами решения

где Регрессионный анализ - определение и вычисление с примерами решения— элементы факторного решения:Регрессионный анализ - определение и вычисление с примерами решения— исходные переменные; Регрессионный анализ - определение и вычисление с примерами решения.— k-е собственное значение; р — количество оставленных главных
компонент.

Для иллюстрации возможностей факторного анализа покажем, как, используя метод главных компонент, можно сократить размерность пространства независимых переменных, перейдя от взаимно коррелированных параметров к независимым факторам, число которых р

Следует особо остановиться на интерпретации результатов, т.е. на смысловой стороне факторного анализа. Собственно факторный анализ состоит из двух важных этапов; аппроксимации корреляционной матрицы и интерпретации результатов. Аппроксимировать корреляционную матрицу, т.е. объяснить корреляцию между параметрами действием каких-либо общих для них факторов, и выделить сильно коррелирующие группы параметров достаточно просто:    из корреляционной матрицы одним из методов

факторного анализа непосредственно получают матрицу нагрузок — факторное решение, которое называют прямым факторным решением. Однако часто это решение не удовлетворяет исследователей. Они хотят интерпретировать фактор как скрытый, но существенный параметр, поведение которого определяет поведение некоторой своей группы наблюдаемых параметров, в то время как, поведение других параметров определяется поведением других факторов. Для этого у каждого параметра должна быть наибольшая по модулю факторная нагрузка с одним общим фактором. Прямое решение следует преобразовать, что равносильно повороту осей общих факторов. Такие преобразования называют вращениями, в итоге получают косвенное факторное решение, которое и является результатом факторного анализа.

Приложения

Значение t — распределения Стьюдента Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Понятие о регрессионном анализе. Линейная выборочная регрессия. Метод наименьших квадратов (МНК)

Основные задачи регрессионного анализа:

  •  Вычисление выборочных коэффициентов регрессии
  •  Проверка значимости коэффициентов регрессии
  •  Проверка адекватности модели
  •  Выбор лучшей регрессии
  •  Вычисление стандартных ошибок, анализ остатков

Построение простой регрессии по экспериментальным данным.

Предположим, что случайные величины Регрессионный анализ - определение и вычисление с примерами решения связаны линейной корреляционной зависимостью Регрессионный анализ - определение и вычисление с примерами решения для отыскания которой проведено Регрессионный анализ - определение и вычисление с примерами решения независимых измерений Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Диаграмма рассеяния (разброса, рассеивания)
Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения — координаты экспериментальных точек.

Выборочное уравнение прямой линии регрессии Регрессионный анализ - определение и вычисление с примерами решения имеет вид

Регрессионный анализ - определение и вычисление с примерами решения

Задача: подобрать Регрессионный анализ - определение и вычисление с примерами решения таким образом, чтобы экспериментальные точки как можно ближе лежали к прямой Регрессионный анализ - определение и вычисление с примерами решения

Для того, что бы провести прямую Регрессионный анализ - определение и вычисление с примерами решения воспользуемся МНК. Потребуем,

чтобы Регрессионный анализ - определение и вычисление с примерами решения

Постулаты регрессионного анализа, которые должны выполняться при использовании МНК.

  1. Регрессионный анализ - определение и вычисление с примерами решения подчинены нормальному закону распределения.
  2. Дисперсия Регрессионный анализ - определение и вычисление с примерами решения постоянна и не зависит от номера измерения.
  3. Результаты наблюдений Регрессионный анализ - определение и вычисление с примерами решения в разных точках независимы.
  4. Входные переменные Регрессионный анализ - определение и вычисление с примерами решения независимы, неслучайны и измеряются без ошибок.

Введем функцию ошибок Регрессионный анализ - определение и вычисление с примерами решения и найдём её минимальное значение

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Решив систему, получим искомые значения Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения является несмещенными оценками истинных значений коэффициентов Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения где 

Регрессионный анализ - определение и вычисление с примерами решения несмещенная оценка корреляционного момента (ковариации),
Регрессионный анализ - определение и вычисление с примерами решения несмещенная оценка дисперсии Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения выборочная ковариация,

  Регрессионный анализ - определение и вычисление с примерами решения выборочная дисперсия Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения — выборочный коэффициент корреляции

Коэффициент детерминации

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения — наблюдаемое экспериментальное значение Регрессионный анализ - определение и вычисление с примерами решения при Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения — предсказанное значение Регрессионный анализ - определение и вычисление с примерами решения удовлетворяющее уравнению регрессии

Регрессионный анализ - определение и вычисление с примерами решения — средневыборочное значение Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения — коэффициент детерминации, доля изменчивости Регрессионный анализ - определение и вычисление с примерами решения объясняемая  рассматриваемой регрессионной моделью. Для парной линейной регрессии Регрессионный анализ - определение и вычисление с примерами решения

Коэффициент детерминации принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это используется для доказательства адекватности модели (качества регрессии). Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 0,5 (в этом случае коэффициент множественной корреляции превышает по модулю 0,7). Модели с коэффициентом детерминации выше 0,8 можно признать достаточно хорошими (коэффициент корреляции превышает 0,9). Подтверждение адекватности модели проводится на основе дисперсионного анализа путем проверки гипотезы о значимости коэффициента детерминации.

Регрессионный анализ - определение и вычисление с примерами решения регрессия незначима

Регрессионный анализ - определение и вычисление с примерами решения регрессия значима

Регрессионный анализ - определение и вычисление с примерами решения — уровень значимости 

Регрессионный анализ - определение и вычисление с примерами решения — статистический критерий

Критическая область — правосторонняя; Регрессионный анализ - определение и вычисление с примерами решения

Если Регрессионный анализ - определение и вычисление с примерами решения то нулевая гипотеза отвергается на заданном уровне значимости, следовательно, коэффициент детерминации значим, следовательно, регрессия адекватна.

Мощность статистического критерия. Функция мощности

Регрессионный анализ - определение и вычисление с примерами решения

Определение. Мощностью критерия Регрессионный анализ - определение и вычисление с примерами решения называют вероятность попадания критерия в критическую область при условии, что справедлива конкурирующая гипотеза.

Задача: построить критическую область таким образом, чтобы мощность критерия была максимальной.

Определение. Наилучшей критической областью (НКО) называют критическую область, которая обеспечивает минимальную ошибку второго рода Регрессионный анализ - определение и вычисление с примерами решения

Пример:

По паспортным данным автомобиля расход топлива на 100 километров составляет 10 литров. В результате измерения конструкции двигателя ожидается, что расход топлива уменьшится. Для проверки были проведены испытания 25 автомобилей с модернизированным двигателем; выборочная средняя расхода топлива по результатам испытаний составила 9,3 литра. Предполагая, что выборка получена из нормально распределенной генеральной совокупности с математическим ожиданием Регрессионный анализ - определение и вычисление с примерами решения и дисперсией Регрессионный анализ - определение и вычисление с примерами решения проверить гипотезу, утверждающую, что изменение конструкции двигателя не повлияло на расход топлива.

Регрессионный анализ - определение и вычисление с примерами решения

3) Уровень значимости Регрессионный анализ - определение и вычисление с примерами решения

4) Статистический критерий

Регрессионный анализ - определение и вычисление с примерами решения

5) Критическая область — левосторонняя

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения  следовательно Регрессионный анализ - определение и вычисление с примерами решения отвергается на уровне значимости Регрессионный анализ - определение и вычисление с примерами решения

Пример:

В условиях примера 1 предположим, что наряду с Регрессионный анализ - определение и вычисление с примерами решения рассматривается конкурирующая гипотеза Регрессионный анализ - определение и вычисление с примерами решения а критическая область задана неравенством Регрессионный анализ - определение и вычисление с примерами решения Найти вероятность ошибок I рода и II рода.

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения автомобилей имеют меньший расход топлива)

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения  автомобилей, имеющих расход топлива 9л на 100 км, классифицируются как автомобили, имеющие расход 10 литров).

Определение. Пусть проверяется Регрессионный анализ - определение и вычисление с примерами решения — критическая область критерия с заданным уровнем значимости Регрессионный анализ - определение и вычисление с примерами решения Функцией мощности критерия Регрессионный анализ - определение и вычисление с примерами решения называется вероятность отклонения Регрессионный анализ - определение и вычисление с примерами решения как функция параметра Регрессионный анализ - определение и вычисление с примерами решения т.е.

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения — ошибка 1-ого рода

Регрессионный анализ - определение и вычисление с примерами решения — мощность критерия

Пример:

Построить график функции мощности из примера 2 для Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения попадает в критическую область.

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Пример:

Какой минимальный объем выборки следует взять в условии примера 2 для того, чтобы обеспечить Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Лемма Неймана-Пирсона.

При проверке простой гипотезы Регрессионный анализ - определение и вычисление с примерами решения против простой альтернативной гипотезы Регрессионный анализ - определение и вычисление с примерами решения наилучшая критическая область (НКО) критерия заданного уровня значимости Регрессионный анализ - определение и вычисление с примерами решения состоит из точек выборочного пространства (выборок объема Регрессионный анализ - определение и вычисление с примерами решения для которых справедливо неравенство:

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения — константа, зависящая от Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения — элементы выборки;

Регрессионный анализ - определение и вычисление с примерами решения — функция правдоподобия при условии, что соответствующая гипотеза верна.

Пример:

Случайная величина Регрессионный анализ - определение и вычисление с примерами решения имеет нормальное распределение с параметрами Регрессионный анализ - определение и вычисление с примерами решения известно. Найти НКО для проверки Регрессионный анализ - определение и вычисление с примерами решения против Регрессионный анализ - определение и вычисление с примерами решенияпричем Регрессионный анализ - определение и вычисление с примерами решения

Решение:

Регрессионный анализ - определение и вычисление с примерами решения

Ошибка первого рода: Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

НКО: Регрессионный анализ - определение и вычисление с примерами решения

Пример:

Для зависимостиРегрессионный анализ - определение и вычисление с примерами решения заданной корреляционной табл. 13, найти оценки параметров Регрессионный анализ - определение и вычисление с примерами решения уравнения линейной регрессии Регрессионный анализ - определение и вычисление с примерами решения остаточную дисперсию; выяснить значимость уравнения регрессии при Регрессионный анализ - определение и вычисление с примерами решения

Решение. Воспользуемся предыдущими результатами

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Согласно формуле (24), уравнение регрессии будет иметь вид Регрессионный анализ - определение и вычисление с примерами решения тогда Регрессионный анализ - определение и вычисление с примерами решения

Для выяснения значимости уравнения регрессии вычислим суммы Регрессионный анализ - определение и вычисление с примерами решенияСоставим расчетную таблицу:

Регрессионный анализ - определение и вычисление с примерами решения

Из (27) и (28) по данным таблицы получим Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения по табл. П7 находим Регрессионный анализ - определение и вычисление с примерами решения 

Вычислим статистику

Регрессионный анализ - определение и вычисление с примерами решения

Так как Регрессионный анализ - определение и вычисление с примерами решения то уравнение регрессии значимо. Остаточная дисперсия равна Регрессионный анализ - определение и вычисление с примерами решения

  • Корреляционный анализ
  • Статистические решающие функции
  • Случайные процессы
  • Выборочный метод
  • Проверка гипотезы о равенстве вероятностей
  • Доверительный интервал для математического ожидания
  • Доверительный интервал для дисперсии
  • Проверка статистических гипотез

Проверка адекватности регрессионной модели и значимости показателей тесноты корреляционной связи

Информация, содержащаяся в эмпирических данных, извлекается с большей полнотой, чем полученная традиционными методами описательной статистики, и, что самое важное, может быть представлена с разных точек зрения. Тем самым перед исследователем открывается обширная область для теоретических выводов, формирования новых представлений и гипотез.

Особое внимание необходимо обратить на интерпретацию и оценку параметров уравнения. Параметры уравнения регрессии следует проверить на их значимость.

Для того чтобы получить оценку значимости коэффициентов регрессии при линейной зависимости у от х, и х2, используют t-кри- терий Стьюдента.

Значимость коэффициентов линейного уравнения регрессии а0 и ах оценивается с помощью ^-критерия Стьюдента (п /табл с уровнем значимости 0,05 и числом степеней свободы (п-т- 1).

Уравнение признают окончательным и применяют в качестве модели изучаемого показателя для последующего анализа в том случае, если в данном уравнении все коэффициенты регрессии значимы.

Показатели множественной регрессии и корреляции могут оказаться подверженными действию случайных факторов, поэтому только после проверки адекватности уравнения оно может быть пригодно.

Прежде всего, следует установить, соответствуют ли полученные данные тем гипотетическим представлениям, которые сложились в результате анализа, и показывают ли они причинно-следственные связи, которые ожидались. Для оценки адекватности модели можно вычислить отклонение теоретических данных от эмпирических, остаточную дисперсию, а также ошибку аппроксимации, которая определяется по формуле:

1) для однофакторной регрессионной модели:

2) для многофакторной регрессионной модели:

Общая оценка адекватности уравнения может быть получена с помощью дисперсионного F-критерия Фишера, на основании которого проводят проверку значимости регрессии:

1) для однофакторной регрессионной модели:

где т — число параметров в уравнении регрессии; п — число единиц наблюдения;

2) для многофакторной регрессионной модели:

Распределение Фишера [Рональд Фишер (1890—1968) — английский ученый] — двухпараметрическое распределение неотрицательной случайной величины, являющейся в частном случае, при т= 1, квадратом случайной величины, распределенной по Стьюденту. Для распределения Фишера имеются таблицы критических значений, зависящих от чисел степеней свободы т и п- т — I, при различных уровнях значимости.

Считается, что влияние факторного признака статистически существенно, для принятого уровня значимости 0,05 или 0,01, если Fp (расчетное) > FT (табличное), то влияние факторного признака считается существенным и данное уравнение регрессии будет статистически значимым.

FT зависит от трех параметров:

  • 1) определяет достоверность выводов (называется уровнем значимости). Для социологических и экономических задач FT 0,05 — определяет вероятность отвергнуть правильную гипотезу в 5 случаях из 100;
  • 2) определяется количеством значений факторного признака
  • (т-1);
  • 3) определяется объемом выборки, уменьшенным на количество значений факторного признака (п — т).

FT определяется по таблице критических значений критерия Фишера.

Вернемся к примеру 10.1.

Проведем оценку адекватности регрессионной модели:

выражающей зависимость между производительностью труда и выполнением плана реализации, с помощью F-критерия Фишера:

Эмпирическое значение Fбольше табличного, следовательно, уравнение регрессии можно признать адекватным.

Оценим значимость параметров уравнения регрессии с помощью /-критерия Стьюдента:

Табличное значение /-критерия с уровнем значимости 0,05 и числом степеней свободы (п — 2) равно 2,307. Так как /эмп > /табл, то параметры уравнения регрессии признаются значимыми.

Значимость коэффициента корреляции оценим с помощью /-критерия Стьюдента по формуле

Эмпирическое значение / больше табличного, следовательно, коэффициент корреляции можно признать значимым.

Вычислим ошибку аппроксимации по формуле

На основании данных расчетов можно сделать заключение, что построенная регрессионная модель зависимости производительности труда от выполнения плана реализации может быть использована для анализа и прогноза.

Итак, в общем виде многообразие видов регрессионных моделей порождается формой связи изучаемых признаков (линейной или нелинейной) и представлениями о распределении остатков (ошибки, шума) модели. Кроме того, модели более высокого уровня включают не одно, а систему регрессионных уравнений. Поиск решений для множества моделей приводит исследователя к задаче преобразования этих моделей и получения форм с хорошо известными и реализуемыми алгоритмами оценивания, как, например, в описанном выше случае с нелинейными моделями. Реформирование моделей производится при помощи трансформационных изменений переменных (отклика предикторов) или введением особых ограничений на признаковые или параметрические значения.

Благодаря своей разработанности и гибкости метод регрессионного анализа в настоящее время широко распространен в аналитической практике. Он становится также неотъемлемой частью или обычным логическим дополнением многих методов многомерной статистики в факторном, дискриминантном анализе, методе канонических корреляций, многомерном шкалировании, кластерном анализе и т. д.

Дальнейшее развитие теории регрессионного анализа, прежде всего, видится в разработке новых нелинейных форм, позволяющих с высокой степенью адекватности описывать реальные процессы, расклассификации многочисленных регрессионных моделей и методов их решения, ориентированной на конкретные группы исследовательских задач, определении перспектив использования регрессионного анализа в сочетании с другими методами статистического анализа.

Пример 10.3. По территории регионов имеются следующие данные:

Прожиточный min в день одного трудоспособного, руб.

Среднедневная заработная плата, руб.

Простая линейная регрессия в EXCEL

history 26 января 2019 г.
    Группы статей

  • Статистический анализ

Регрессия позволяет прогнозировать зависимую переменную на основании значений фактора. В MS EXCEL имеется множество функций, которые возвращают не только наклон и сдвиг линии регрессии, характеризующей линейную взаимосвязь между факторами, но и регрессионную статистику. Здесь рассмотрим простую линейную регрессию, т.е. прогнозирование на основе одного фактора.

Disclaimer : Данную статью не стоит рассматривать, как пересказ главы из учебника по статистике. Статья не обладает ни полнотой, ни строгостью изложения положений статистической науки. Эта статья – о применении MS EXCEL для целей Регрессионного анализа. Теоретические отступления приведены лишь из соображения логики изложения. Использование данной статьи для изучения Регрессии – плохая идея.

Статья про Регрессионный анализ получилась большая, поэтому ниже для удобства приведены ее разделы:

Примечание : Если прогнозирование переменной осуществляется на основе нескольких факторов, то имеет место множественная регрессия .

Чтобы разобраться, чем может помочь MS EXCEL при проведении регрессионного анализа, напомним вкратце теорию, введем термины и обозначения, которые могут отличаться в зависимости от различных источников.

Примечание : Для тех, кому некогда, незачем или просто не хочется разбираться в теоретических выкладках предлагается сразу перейти к вычислительной части — оценке неизвестных параметров линейной модели .

Немного теории и основные понятия

Пусть у нас есть массив данных, представляющий собой значения двух переменных Х и Y. Причем значения переменной Х мы можем произвольно задавать (контролировать) и использовать эту переменную для предсказания значений зависимой переменной Y. Таким образом, случайной величиной является только переменная Y.

Примером такой задачи может быть производственный процесс изготовления некого волокна, причем прочность этого волокна (Y) зависит только от рабочей температуры процесса в реакторе (Х), которая задается оператором.

Построим диаграмму рассеяния (см. файл примера лист Линейный ), созданию которой посвящена отдельная статья . Вообще, построение диаграммы рассеяния для целей регрессионного анализа де-факто является стандартом.

СОВЕТ : Подробнее о построении различных типов диаграмм см. статьи Основы построения диаграмм и Основные типы диаграмм .

Приведенная выше диаграмма рассеяния свидетельствует о возможной линейной взаимосвязи между Y от Х: очевидно, что точки данных в основном располагаются вдоль прямой линии.

Примечание : Наличие даже такой очевидной линейной взаимосвязи не может являться доказательством о наличии причинной взаимосвязи переменных. Наличие причинной взаимосвязи не может быть доказано на основании только анализа имеющихся измерений, а должно быть обосновано с помощью других исследований, например теоретических выкладок.

Примечание : Как известно, уравнение прямой линии имеет вид Y = m * X + k , где коэффициент m отвечает за наклон линии ( slope ), k – за сдвиг линии по вертикали ( intercept ), k равно значению Y при Х=0.

Предположим, что мы можем зафиксировать переменную Х ( рабочую температуру процесса ) при некотором значении Х i и произвести несколько наблюдений переменной Y ( прочность нити ). Очевидно, что при одном и том же значении Хi мы получим различные значения Y. Это обусловлено влиянием других факторов на Y. Например, локальные колебания давления в реакторе, концентрации раствора, наличие ошибок измерения и др. Предполагается, что воздействие этих факторов имеет случайную природу и для каждого измерения имеются одинаковые условия проведения эксперимента (т.е. другие факторы не изменяются).

Полученные значения Y, при заданном Хi, будут колебаться вокруг некого значения . При увеличении количества измерений, среднее этих измерений, будет стремиться к математическому ожиданию случайной величины Y (при Х i ) равному μy(i)=Е(Y i ).

Подобные рассуждения можно привести для любого значения Хi.

Чтобы двинуться дальше, воспользуемся материалом из раздела Проверка статистических гипотез . В статье о проверке гипотезы о среднем значении генеральной совокупности в качестве нулевой гипотезы предполагалось равенство неизвестного значения μ заданному μ0.

В нашем случае простой линейной регрессии в качестве нулевой гипотезы предположим, что между переменными μy(i) и Хi существует линейная взаимосвязь μ y(i) =α* Х i +β. Уравнение μ y(i) =α* Х i +β можно переписать в обобщенном виде (для всех Х и μ y ) как μ y =α* Х +β.

Для наглядности проведем прямую линию соединяющую все μy(i).

Данная линия называется регрессионной линией генеральной совокупности (population regression line), параметры которой ( наклон a и сдвиг β ) нам не известны (по аналогии с гипотезой о среднем значении генеральной совокупности , где нам было неизвестно истинное значение μ).

Теперь сделаем переход от нашего предположения, что μy=a* Х + β , к предсказанию значения случайной переменной Y в зависимости от значения контролируемой переменной Х. Для этого уравнение связи двух переменных запишем в виде Y=a*X+β+ε, где ε — случайная ошибка, которая отражает суммарный эффект влияния других факторов на Y (эти «другие» факторы не участвуют в нашей модели). Напомним, что т.к. переменная Х фиксирована, то ошибка ε определяется только свойствами переменной Y.

Уравнение Y=a*X+b+ε называют линейной регрессионной моделью . Часто Х еще называют независимой переменной (еще предиктором и регрессором , английский термин predictor , regressor ), а Y – зависимой (или объясняемой , response variable ). Так как регрессор у нас один, то такая модель называется простой линейной регрессионной моделью ( simple linear regression model ). α часто называют коэффициентом регрессии.

Предположения линейной регрессионной модели перечислены в следующем разделе.

Предположения линейной регрессионной модели

Чтобы модель линейной регрессии Yi=a*Xi+β+ε i была адекватной — требуется:

  • Ошибки ε i должны быть независимыми переменными;
  • При каждом значении Xi ошибки ε i должны быть иметь нормальное распределение (также предполагается равенство нулю математического ожидания, т.е. Е[ε i ]=0);
  • При каждом значении Xi ошибки ε i должны иметь равные дисперсии (обозначим ее σ 2 ).

Примечание : Последнее условие называется гомоскедастичность — стабильность, гомогенность дисперсии случайной ошибки e. Т.е. дисперсия ошибки σ 2 не должна зависеть от значения Xi.

Используя предположение о равенстве математического ожидания Е[ε i ]=0 покажем, что μy(i)=Е[Yi]:

Е[Yi]= Е[a*Xi+β+ε i ]= Е[a*Xi+β]+ Е[ε i ]= a*Xi+β= μy(i), т.к. a, Xi и β постоянные значения.

Дисперсия случайной переменной Y равна дисперсии ошибки ε, т.е. VAR(Y)= VAR(ε)=σ 2 . Это является следствием, что все значения переменной Х являются const, а VAR(ε)=VAR(ε i ).

Задачи регрессионного анализа

Для проверки гипотезы о линейной взаимосвязи переменной Y от X делают выборку из генеральной совокупности (этой совокупности соответствует регрессионная линия генеральной совокупности , т.е. μy=a* Х +β). Выборка будет состоять из n точек, т.е. из n пар значений .

На основании этой выборки мы можем вычислить оценки наклона a и сдвига β, которые обозначим соответственно a и b . Также часто используются обозначения â и b̂.

Далее, используя эти оценки, мы также можем проверить гипотезу: имеется ли линейная связь между X и Y статистически значимой?

Первая задача регрессионного анализа – оценка неизвестных параметров ( estimation of the unknown parameters ). Подробнее см. раздел Оценки неизвестных параметров модели .

Вторая задача регрессионного анализа – Проверка адекватности модели ( model adequacy checking ).

Примечание : Оценки параметров модели обычно вычисляются методом наименьших квадратов (МНК), которому посвящена отдельная статья .

Оценка неизвестных параметров линейной модели (используя функции MS EXCEL)

Неизвестные параметры простой линейной регрессионной модели Y=a*X+β+ε оценим с помощью метода наименьших квадратов (в статье про МНК подробно описано этот метод ).

Для вычисления параметров линейной модели методом МНК получены следующие выражения:

Таким образом, мы получим уравнение прямой линии Y= a *X+ b , которая наилучшим образом аппроксимирует имеющиеся данные.

Примечание : В статье про метод наименьших квадратов рассмотрены случаи аппроксимации линейной и квадратичной функцией , а также степенной , логарифмической и экспоненциальной функцией .

Оценку параметров в MS EXCEL можно выполнить различными способами:

Сначала рассмотрим функции НАКЛОН() , ОТРЕЗОК() и ЛИНЕЙН() .

Пусть значения Х и Y находятся соответственно в диапазонах C 23: C 83 и B 23: B 83 (см. файл примера внизу статьи).

Примечание : Значения двух переменных Х и Y можно сгенерировать, задав тренд и величину случайного разброса (см. статью Генерация данных для линейной регрессии в MS EXCEL ).

В MS EXCEL наклон прямой линии а ( оценку коэффициента регрессии ), можно найти по методу МНК с помощью функции НАКЛОН() , а сдвиг b ( оценку постоянного члена или константы регрессии ), с помощью функции ОТРЕЗОК() . В английской версии это функции SLOPE и INTERCEPT соответственно.

Аналогичный результат можно получить с помощью функции ЛИНЕЙН() , английская версия LINEST (см. статью об этой функции ).

Формула =ЛИНЕЙН(C23:C83;B23:B83) вернет наклон а . А формула = ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83);2) — сдвиг b . Здесь требуются пояснения.

Функция ЛИНЕЙН() имеет 4 аргумента и возвращает целый массив значений:

ЛИНЕЙН(известные_значения_y; [известные_значения_x]; [конст]; [статистика])

Если 4-й аргумент статистика имеет значение ЛОЖЬ или опущен, то функция ЛИНЕЙН() возвращает только оценки параметров модели: a и b .

Примечание : Остальные значения, возвращаемые функцией ЛИНЕЙН() , нам потребуются при вычислении стандартных ошибок и для проверки значимости регрессии . В этом случае аргумент статистика должен иметь значение ИСТИНА.

Чтобы вывести сразу обе оценки:

  • в одной строке необходимо выделить 2 ячейки,
  • ввести формулу в Строке формул
  • нажать CTRL+SHIFT+ENTER (см. статью про формулы массива ).

Если в Строке формул выделить формулу = ЛИНЕЙН(C23:C83;B23:B83) и нажать клавишу F9 , то мы увидим что-то типа <3,01279389265416;154,240057900613>. Это как раз значения a и b . Как видно, оба значения разделены точкой с запятой «;», что свидетельствует, что функция вернула значения «в нескольких ячейках одной строки».

Если требуется вывести параметры линии не в одной строке, а одном столбце (ячейки друг под другом), то используйте формулу = ТРАНСП(ЛИНЕЙН(C23:C83;B23:B83)) . При этом выделять нужно 2 ячейки в одном столбце. Если теперь выделить новую формулу и нажать клавишу F9, то мы увидим что 2 значения разделены двоеточием «:», что означает, что значения выведены в столбец (функция ТРАНСП() транспонировала строку в столбец ).

Чтобы разобраться в этом подробнее необходимо ознакомиться с формулами массива .

Чтобы не связываться с вводом формул массива , можно использовать функцию ИНДЕКС() . Формула = ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83);1) или просто ЛИНЕЙН(C23:C83;B23:B83) вернет параметр, отвечающий за наклон линии, т.е. а . Формула =ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83);2) вернет параметр b .

Оценка неизвестных параметров линейной модели (через статистики выборок)

Наклон линии, т.е. коэффициент а , можно также вычислить через коэффициент корреляции и стандартные отклонения выборок :

= КОРРЕЛ(B23:B83;C23:C83) *(СТАНДОТКЛОН.В(C23:C83)/ СТАНДОТКЛОН.В(B23:B83))

Вышеуказанная формула математически эквивалентна отношению ковариации выборок Х и Y и дисперсии выборки Х:

И, наконец, запишем еще одну формулу для нахождения сдвига b . Воспользуемся тем фактом, что линия регрессии проходит через точку средних значений переменных Х и Y.

Вычислив средние значения и подставив в формулу ранее найденный наклон а , получим сдвиг b .

Оценка неизвестных параметров линейной модели (матричная форма)

Также параметры линии регрессии можно найти в матричной форме (см. файл примера лист Матричная форма ).

В формуле символом β обозначен столбец с искомыми параметрами модели: β0 (сдвиг b ), β1 (наклон a ).

Матрица Х равна:

Матрица Х называется регрессионной матрицей или матрицей плана . Она состоит из 2-х столбцов и n строк, где n – количество точек данных. Первый столбец — столбец единиц, второй – значения переменной Х.

Матрица Х T – это транспонированная матрица Х . Она состоит соответственно из n столбцов и 2-х строк.

В формуле символом Y обозначен столбец значений переменной Y.

Чтобы перемножить матрицы используйте функцию МУМНОЖ() . Чтобы найти обратную матрицу используйте функцию МОБР() .

Пусть дан массив значений переменных Х и Y (n=10, т.е.10 точек).

Слева от него достроим столбец с 1 для матрицы Х.

и введя ее как формулу массива в 2 ячейки, получим оценку параметров модели.

Красота применения матричной формы полностью раскрывается в случае множественной регрессии .

Построение линии регрессии

Для отображения линии регрессии построим сначала диаграмму рассеяния , на которой отобразим все точки (см. начало статьи ).

Для построения прямой линии используйте вычисленные выше оценки параметров модели a и b (т.е. вычислите у по формуле y = a * x + b ) или функцию ТЕНДЕНЦИЯ() .

Формула = ТЕНДЕНЦИЯ($C$23:$C$83;$B$23:$B$83;B23) возвращает расчетные (прогнозные) значения ŷi для заданного значения Хi из столбца В2 .

Примечание : Линию регрессии можно также построить с помощью функции ПРЕДСКАЗ() . Эта функция возвращает прогнозные значения ŷi, но, в отличие от функции ТЕНДЕНЦИЯ() работает только в случае одного регрессора. Функция ТЕНДЕНЦИЯ() может быть использована и в случае множественной регрессии (в этом случае 3-й аргумент функции должен быть ссылкой на диапазон, содержащий все значения Хi для выбранного наблюдения i).

Как видно из диаграммы выше линия тренда и линия регрессии не обязательно совпадают: отклонения точек от линии тренда случайны, а МНК лишь подбирает линию наиболее точно аппроксимирующую случайные точки данных.

Линию регрессии можно построить и с помощью встроенных средств диаграммы, т.е. с помощью инструмента Линия тренда. Для этого выделите диаграмму, в меню выберите вкладку Макет , в группе Анализ нажмите Линия тренда , затем Линейное приближение. В диалоговом окне установите галочку Показывать уравнение на диаграмме (подробнее см. в статье про МНК ).

Построенная таким образом линия, разумеется, должна совпасть с ранее построенной нами линией регрессии, а параметры уравнения a и b должны совпасть с параметрами уравнения отображенными на диаграмме.

Примечание: Для того, чтобы вычисленные параметры уравнения a и b совпадали с параметрами уравнения на диаграмме, необходимо, чтобы тип у диаграммы был Точечная, а не График , т.к. тип диаграммы График не использует значения Х, а вместо значений Х используется последовательность 1; 2; 3; . Именно эти значения и берутся при расчете параметров линии тренда . Убедиться в этом можно если построить диаграмму График (см. файл примера ), а значения Хнач и Хшаг установить равным 1. Только в этом случае параметры уравнения на диаграмме совпадут с a и b .

Коэффициент детерминации R 2

Коэффициент детерминации R 2 показывает насколько полезна построенная нами линейная регрессионная модель .

Предположим, что у нас есть n значений переменной Y и мы хотим предсказать значение yi, но без использования значений переменной Х (т.е. без построения регрессионной модели ). Очевидно, что лучшей оценкой для yi будет среднее значение ȳ. Соответственно, ошибка предсказания будет равна (yi — ȳ).

Примечание : Далее будет использована терминология и обозначения дисперсионного анализа .

После построения регрессионной модели для предсказания значения yi мы будем использовать значение ŷi=a*xi+b. Ошибка предсказания теперь будет равна (yi — ŷi).

Теперь с помощью диаграммы сравним ошибки предсказания полученные без построения модели и с помощью модели.

Очевидно, что используя регрессионную модель мы уменьшили первоначальную (полную) ошибку (yi — ȳ) на значение (ŷi — ȳ) до величины (yi — ŷi).

(yi — ŷi) – это оставшаяся, необъясненная ошибка.

Очевидно, что все три ошибки связаны выражением:

(yi — ȳ)= (ŷi — ȳ) + (yi — ŷi)

Можно показать, что в общем виде справедливо следующее выражение:

или в других, общепринятых в зарубежной литературе, обозначениях:

Total Sum of Squares = Regression Sum of Squares + Error Sum of Squares

Примечание : SS — Sum of Squares — Сумма Квадратов.

Как видно из формулы величины SST, SSR, SSE имеют размерность дисперсии (вариации) и соответственно описывают разброс (изменчивость): Общую изменчивость (Total variation), Изменчивость объясненную моделью (Explained variation) и Необъясненную изменчивость (Unexplained variation).

По определению коэффициент детерминации R 2 равен:

R 2 = Изменчивость объясненная моделью / Общая изменчивость.

Этот показатель равен квадрату коэффициента корреляции и в MS EXCEL его можно вычислить с помощью функции КВПИРСОН() или ЛИНЕЙН() :

R 2 принимает значения от 0 до 1 (1 соответствует идеальной линейной зависимости Y от Х). Однако, на практике малые значения R2 вовсе не обязательно указывают, что переменную Х нельзя использовать для прогнозирования переменной Y. Малые значения R2 могут указывать на нелинейность связи или на то, что поведение переменной Y объясняется не только Х, но и другими факторами.

Стандартная ошибка регрессии

Стандартная ошибка регрессии ( Standard Error of a regression ) показывает насколько велика ошибка предсказания значений переменной Y на основании значений Х. Отдельные значения Yi мы можем предсказывать лишь с точностью +/- несколько значений (обычно 2-3, в зависимости от формы распределения ошибки ε).

Теперь вспомним уравнение линейной регрессионной модели Y=a*X+β+ε. Ошибка ε имеет случайную природу, т.е. является случайной величиной и поэтому имеет свою функцию распределения со средним значением μ и дисперсией σ 2 .

Оценив значение дисперсии σ 2 и вычислив из нее квадратный корень – получим Стандартную ошибку регрессии. Чем точки наблюдений на диаграмме рассеяния ближе находятся к прямой линии, тем меньше Стандартная ошибка.

Примечание : Вспомним , что при построении модели предполагается, что среднее значение ошибки ε равно 0, т.е. E[ε]=0.

Оценим дисперсию σ 2 . Помимо вычисления Стандартной ошибки регрессии эта оценка нам потребуется в дальнейшем еще и при построении доверительных интервалов для оценки параметров регрессии a и b .

Для оценки дисперсии ошибки ε используем остатки регрессии — разности между имеющимися значениями yi и значениями, предсказанными регрессионной моделью ŷ. Чем лучше регрессионная модель согласуется с данными (точки располагается близко к прямой линии), тем меньше величина остатков.

Для оценки дисперсии σ 2 используют следующую формулу:

где SSE – сумма квадратов значений ошибок модели ε i =yi — ŷi ( Sum of Squared Errors ).

SSE часто обозначают и как SSres – сумма квадратов остатков ( Sum of Squared residuals ).

Оценка дисперсии s 2 также имеет общепринятое обозначение MSE (Mean Square of Errors), т.е. среднее квадратов ошибок или MSRES (Mean Square of Residuals), т.е. среднее квадратов остатков . Хотя правильнее говорить сумме квадратов остатков, т.к. ошибка чаще ассоциируется с ошибкой модели ε, которая является непрерывной случайной величиной. Но, здесь мы будем использовать термины SSE и MSE, предполагая, что речь идет об остатках.

Примечание : Напомним, что когда мы использовали МНК для нахождения параметров модели, то критерием оптимизации была минимизация именно SSE (SSres). Это выражение представляет собой сумму квадратов расстояний между наблюденными значениями yi и предсказанными моделью значениями ŷi, которые лежат на линии регрессии.

Математическое ожидание случайной величины MSE равно дисперсии ошибки ε, т.е. σ 2 .

Чтобы понять почему SSE выбрана в качестве основы для оценки дисперсии ошибки ε, вспомним, что σ 2 является также дисперсией случайной величины Y (относительно среднего значения μy, при заданном значении Хi). А т.к. оценкой μy является значение ŷi = a * Хi + b (значение уравнения регрессии при Х= Хi), то логично использовать именно SSE в качестве основы для оценки дисперсии σ 2 . Затем SSE усредняется на количество точек данных n за вычетом числа 2. Величина n-2 – это количество степеней свободы ( df degrees of freedom ), т.е. число параметров системы, которые могут изменяться независимо (вспомним, что у нас в этом примере есть n независимых наблюдений переменной Y). В случае простой линейной регрессии число степеней свободы равно n-2, т.к. при построении линии регрессии было оценено 2 параметра модели (на это было «потрачено» 2 степени свободы ).

Итак, как сказано было выше, квадратный корень из s 2 имеет специальное название Стандартная ошибка регрессии ( Standard Error of a regression ) и обозначается SEy. SEy показывает насколько велика ошибка предсказания. Отдельные значения Y мы можем предсказывать с точностью +/- несколько значений SEy (см. этот раздел ). Если ошибки предсказания ε имеют нормальное распределение , то примерно 2/3 всех предсказанных значений будут на расстоянии не больше SEy от линии регрессии . SEy имеет размерность переменной Y и откладывается по вертикали. Часто на диаграмме рассеяния строят границы предсказания соответствующие +/- 2 SEy (т.е. 95% точек данных будут располагаться в пределах этих границ).

В MS EXCEL стандартную ошибку SEy можно вычислить непосредственно по формуле:

= КОРЕНЬ(СУММКВРАЗН(C23:C83; ТЕНДЕНЦИЯ(C23:C83;B23:B83;B23:B83)) /( СЧЁТ(B23:B83) -2))

или с помощью функции ЛИНЕЙН() :

Примечание : Подробнее о функции ЛИНЕЙН() см. эту статью .

Стандартные ошибки и доверительные интервалы для наклона и сдвига

В разделе Оценка неизвестных параметров линейной модели мы получили точечные оценки наклона а и сдвига b . Так как эти оценки получены на основе случайных величин (значений переменных Х и Y), то эти оценки сами являются случайными величинами и соответственно имеют функцию распределения со средним значением и дисперсией . Но, чтобы перейти от точечных оценок к интервальным , необходимо вычислить соответствующие стандартные ошибки (т.е. стандартные отклонения ).

Стандартная ошибка коэффициента регрессии a вычисляется на основании стандартной ошибки регрессии по следующей формуле:

где Sx – стандартное отклонение величины х, вычисляемое по формуле:

где Sey – стандартная ошибка регрессии, т.е. ошибка предсказания значения переменой Y ( см. выше ).

В MS EXCEL стандартную ошибку коэффициента регрессии Se можно вычислить впрямую по вышеуказанной формуле:

= КОРЕНЬ(СУММКВРАЗН(C23:C83; ТЕНДЕНЦИЯ(C23:C83;B23:B83;B23:B83)) /( СЧЁТ(B23:B83) -2))/ СТАНДОТКЛОН.В(B23:B83) /КОРЕНЬ(СЧЁТ(B23:B83) -1)

или с помощью функции ЛИНЕЙН() :

Формулы приведены в файле примера на листе Линейный в разделе Регрессионная статистика .

Примечание : Подробнее о функции ЛИНЕЙН() см. эту статью .

При построении двухстороннего доверительного интервала для коэффициента регрессии его границы определяются следующим образом:

где — квантиль распределения Стьюдента с n-2 степенями свободы. Величина а с «крышкой» является другим обозначением наклона а .

Например для уровня значимости альфа=0,05, можно вычислить с помощью формулы =СТЬЮДЕНТ.ОБР.2Х(0,05;n-2)

Вышеуказанная формула следует из того факта, что если ошибки регрессии распределены нормально и независимо, то выборочное распределение случайной величины

является t-распределением Стьюдента с n-2 степенью свободы (то же справедливо и для наклона b ).

Примечание : Подробнее о построении доверительных интервалов в MS EXCEL можно прочитать в этой статье Доверительные интервалы в MS EXCEL .

В результате получим, что найденный доверительный интервал с вероятностью 95% (1-0,05) накроет истинное значение коэффициента регрессии. Здесь мы считаем, что коэффициент регрессии a имеет распределение Стьюдента с n-2 степенями свободы (n – количество наблюдений, т.е. пар Х и Y).

Примечание : Подробнее о построении доверительных интервалов с использованием t-распределения см. статью про построение доверительных интервалов для среднего .

Стандартная ошибка сдвига b вычисляется по следующей формуле:

В MS EXCEL стандартную ошибку сдвига Seb можно вычислить с помощью функции ЛИНЕЙН() :

При построении двухстороннего доверительного интервала для сдвига его границы определяются аналогичным образом как для наклона : b +/- t*Seb.

Проверка значимости взаимосвязи переменных

Когда мы строим модель Y=αX+β+ε мы предполагаем, что между Y и X существует линейная взаимосвязь. Однако, как это иногда бывает в статистике, можно вычислять параметры связи даже тогда, когда в действительности она не существует, и обусловлена лишь случайностью.

Единственный вариант, когда Y не зависит X (в рамках модели Y=αX+β+ε), возможен, когда коэффициент регрессии a равен 0.

Чтобы убедиться, что вычисленная нами оценка наклона прямой линии не обусловлена лишь случайностью (не случайно отлична от 0), используют проверку гипотез . В качестве нулевой гипотезы Н 0 принимают, что связи нет, т.е. a=0. В качестве альтернативной гипотезы Н 1 принимают, что a <>0.

Ниже на рисунках показаны 2 ситуации, когда нулевую гипотезу Н 0 не удается отвергнуть.

На левой картинке отсутствует любая зависимость между переменными, на правой – связь между ними нелинейная, но при этом коэффициент линейной корреляции равен 0.

Ниже — 2 ситуации, когда нулевая гипотеза Н 0 отвергается.

На левой картинке очевидна линейная зависимость, на правой — зависимость нелинейная, но коэффициент корреляции не равен 0 (метод МНК вычисляет показатели наклона и сдвига просто на основании значений выборки).

Для проверки гипотезы нам потребуется:

  • Установить уровень значимости , пусть альфа=0,05;
  • Рассчитать с помощью функции ЛИНЕЙН() стандартное отклонение Se для коэффициента регрессии (см. предыдущий раздел );
  • Рассчитать число степеней свободы: DF=n-2 или по формуле = ИНДЕКС(ЛИНЕЙН(C24:C84;B24:B84;;ИСТИНА);4;2)
  • Вычислить значение тестовой статистики t 0 =a/S e , которая имеет распределение Стьюдента с числом степеней свободы DF=n-2;
  • Сравнить значение тестовой статистики |t0| с пороговым значением t альфа ,n-2. Если значение тестовой статистики больше порогового значения, то нулевая гипотеза отвергается ( наклон не может быть объяснен лишь случайностью при заданном уровне альфа) либо
  • вычислить p-значение и сравнить его с уровнем значимости .

В файле примера приведен пример проверки гипотезы:

Изменяя наклон тренда k (ячейка В8 ) можно убедиться, что при малых углах тренда (например, 0,05) тест часто показывает, что связь между переменными случайна. При больших углах (k>1), тест практически всегда подтверждает значимость линейной связи между переменными.

Примечание : Проверка значимости взаимосвязи эквивалентна проверке статистической значимости коэффициента корреляции . В файле примера показана эквивалентность обоих подходов. Также проверку значимости можно провести с помощью процедуры F-тест .

Доверительные интервалы для нового наблюдения Y и среднего значения

Вычислив параметры простой линейной регрессионной модели Y=aX+β+ε мы получили точечную оценку значения нового наблюдения Y при заданном значении Хi, а именно: Ŷ= a * Хi + b

Ŷ также является точечной оценкой для среднего значения Yi при заданном Хi. Но, при построении доверительных интервалов используются различные стандартные ошибки .

Стандартная ошибка нового наблюдения Y при заданном Хi учитывает 2 источника неопределенности:

  • неопределенность связанную со случайностью оценок параметров модели a и b ;
  • случайность ошибки модели ε.

Учет этих неопределенностей приводит к стандартной ошибке S(Y|Xi), которая рассчитывается с учетом известного значения Xi.

где SS xx – сумма квадратов отклонений от среднего значений переменной Х:

В MS EXCEL 2010 нет функции, которая бы рассчитывала эту стандартную ошибку , поэтому ее необходимо рассчитывать по вышеуказанным формулам.

Доверительный интервал или Интервал предсказания для нового наблюдения (Prediction Interval for a New Observation) построим по схеме показанной в разделе Проверка значимости взаимосвязи переменных (см. файл примера лист Интервалы ). Т.к. границы интервала зависят от значения Хi (точнее от расстояния Хi до среднего значения Х ср ), то интервал будет постепенно расширяться при удалении от Х ср .

Границы доверительного интервала для нового наблюдения рассчитываются по формуле:

Аналогичным образом построим доверительный интервал для среднего значения Y при заданном Хi (Confidence Interval for the Mean of Y). В этом случае доверительный интервал будет уже, т.к. средние значения имеют меньшую изменчивость по сравнению с отдельными наблюдениями ( средние значения, в рамках нашей линейной модели Y=aX+β+ε, не включают ошибку ε).

Стандартная ошибка S(Yср|Xi) вычисляется по практически аналогичным формулам как и стандартная ошибка для нового наблюдения:

Как видно из формул, стандартная ошибка S(Yср|Xi) меньше стандартной ошибки S(Y|Xi) для индивидуального значения .

Границы доверительного интервала для среднего значения рассчитываются по формуле:

Проверка адекватности линейной регрессионной модели

Модель адекватна, когда все предположения, лежащие в ее основе, выполнены (см. раздел Предположения линейной регрессионной модели ).

Проверка адекватности модели в основном основана на исследовании остатков модели (model residuals), т.е. значений ei=yi – ŷi для каждого Хi. В рамках простой линейной модели n остатков имеют только n-2 связанных с ними степеней свободы . Следовательно, хотя, остатки не являются независимыми величинами, но при достаточно большом n это не оказывает какого-либо влияния на проверку адекватности модели.

Чтобы проверить предположение о нормальности распределения ошибок строят график проверки на нормальность (Normal probability Plot).

В файле примера на листе Адекватность построен график проверки на нормальность . В случае нормального распределения значения остатков должны быть близки к прямой линии.

Так как значения переменной Y мы генерировали с помощью тренда , вокруг которого значения имели нормальный разброс, то ожидать сюрпризов не приходится – значения остатков располагаются вблизи прямой.

Также при проверке модели на адекватность часто строят график зависимости остатков от предсказанных значений Y. Если точки не демонстрируют характерных, так называемых «паттернов» (шаблонов) типа вор о нок или другого неравномерного распределения, в зависимости от значений Y, то у нас нет очевидных доказательств неадекватности модели.

В нашем случае точки располагаются примерно равномерно.

Часто при проверке адекватности модели вместо остатков используют нормированные остатки. Как показано в разделе Стандартная ошибка регрессии оценкой стандартного отклонения ошибок является величина SEy равная квадратному корню из величины MSE. Поэтому логично нормирование остатков проводить именно на эту величину.

SEy можно вычислить с помощью функции ЛИНЕЙН() :

Иногда нормирование остатков производится на величину стандартного отклонения остатков (это мы увидим в статье об инструменте Регрессия , доступного в надстройке MS EXCEL Пакет анализа ), т.е. по формуле:

Вышеуказанное равенство приблизительное, т.к. среднее значение остатков близко, но не обязательно точно равно 0.

Что такое регрессионный анализ?

Регрессионный анализ — это набор статистических методов оценки отношений между переменными. Его можно использовать для оценки степени взаимосвязи между переменными и для моделирования будущей зависимости. По сути, регрессионные методы показывают, как по изменениям «независимых переменных» можно зафиксировать изменение «зависимой переменной».

Зависимую переменную в бизнесе называют предиктором (характеристика, за изменением которой наблюдают). Это может быть уровень продаж, риски, ценообразование, производительность и так далее. Независимые переменные — те, которые могут объяснять поведение выше приведенных факторов (время года, покупательная способность населения, место продаж и многое другое).Регрессионный анализ включает несколько моделей. Наиболее распространенные из них: линейная, мультилинейная (или множественная линейная) и нелинейная.

Как видно из названий, модели отличаются типом зависимости переменных: линейная описывается линейной функцией; мультилинейная также представляет линейную функцию, но в нее входит больше параметров (независимых переменных); нелинейная модель — та, в которой экспериментальные данные характеризуются функцией, являющейся нелинейной (показательной, логарифмической, тригонометрической и так далее).

Чаще всего используются простые линейные и мультилинейные модели.

Регрессионный анализ предлагает множество приложений в различных дисциплинах, включая финансы.

Рассмотрим поподробнее принципы построения и адаптации результатов метода.

Линейный регрессионный анализ основан на шести фундаментальных предположениях:

  • Переменные показывают линейную зависимость;
  • Независимая переменная не случайна;
  • Значение невязки (ошибки) равно нулю;
  • Значение невязки постоянно для всех наблюдений;
  • Значение невязки не коррелирует по всем наблюдениям;
  • Остаточные значения подчиняются нормальному распределению.

Простая линейная модель выражается с помощью следующего уравнения:

Основы линейной регрессии

Что такое регрессия?

Разместим точки на двумерном графике рассеяния и скажем, что мы имеем линейное соотношение, если данные аппроксимируются прямой линией.

Если мы полагаем, что y зависит от x, причём изменения в y вызываются именно изменениями в x, мы можем определить линию регрессии (регрессия y на x), которая лучше всего описывает прямолинейное соотношение между этими двумя переменными.

Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого сэру Френсису Гальтону (1889).

Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» и «двигался вспять» к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).

Линия регрессии

Математическое уравнение, которое оценивает линию простой (парной) линейной регрессии:

x называется независимой переменной или предиктором.

Y – зависимая переменная или переменная отклика. Это значение, которое мы ожидаем для y (в среднем), если мы знаем величину x, т.е. это «предсказанное значение y»

  • a – свободный член (пересечение) линии оценки; это значение Y, когда x=0 (Рис.1).
  • b – угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем x на одну единицу.
  • a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b.

Парную линейную регрессию можно расширить, включив в нее более одной независимой переменной; в этом случае она известна как множественная регрессия.

Рис.1. Линия линейной регрессии, показывающая пересечение a и угловой коэффициент b (величину возрастания Y при увеличении x на одну единицу)

Метод наименьших квадратов

Мы выполняем регрессионный анализ, используя выборку наблюдений, где a и b – выборочные оценки истинных (генеральных) параметров, α и β , которые определяют линию линейной регрессии в популяции (генеральной совокупности).

Наиболее простым методом определения коэффициентов a и b является метод наименьших квадратов (МНК).

Подгонка оценивается, рассматривая остатки (вертикальное расстояние каждой точки от линии, например, остаток = наблюдаемому y – предсказанный y, Рис. 2).

Линию лучшей подгонки выбирают так, чтобы сумма квадратов остатков была минимальной.

Рис. 2. Линия линейной регрессии с изображенными остатками (вертикальные пунктирные линии) для каждой точки.

Предположения линейной регрессии

Итак, для каждой наблюдаемой величины остаток равен разнице и соответствующего предсказанного Каждый остаток может быть положительным или отрицательным.

Можно использовать остатки для проверки следующих предположений, лежащих в основе линейной регрессии:

  • Остатки нормально распределены с нулевым средним значением;

Если допущения линейности, нормальности и/или постоянной дисперсии сомнительны, мы можем преобразовать или и рассчитать новую линию регрессии, для которой эти допущения удовлетворяются (например, использовать логарифмическое преобразование или др.).

Аномальные значения (выбросы) и точки влияния

«Влиятельное» наблюдение, если оно опущено, изменяет одну или больше оценок параметров модели (т.е. угловой коэффициент или свободный член).

Выброс (наблюдение, которое противоречит большинству значений в наборе данных) может быть «влиятельным» наблюдением и может хорошо обнаруживаться визуально, при осмотре двумерной диаграммы рассеяния или графика остатков.

И для выбросов, и для «влиятельных» наблюдений (точек) используют модели, как с их включением, так и без них, обращают внимание на изменение оценки (коэффициентов регрессии).

При проведении анализа не стоит отбрасывать выбросы или точки влияния автоматически, поскольку простое игнорирование может повлиять на полученные результаты. Всегда изучайте причины появления этих выбросов и анализируйте их.

Гипотеза линейной регрессии

При построении линейной регрессии проверяется нулевая гипотеза о том, что генеральный угловой коэффициент линии регрессии β равен нулю.

Если угловой коэффициент линии равен нулю, между и нет линейного соотношения: изменение не влияет на

Для тестирования нулевой гипотезы о том, что истинный угловой коэффициент равен нулю можно воспользоваться следующим алгоритмом:

Вычислить статистику критерия, равную отношению , которая подчиняется распределению с степенями свободы, где стандартная ошибка коэффициента

,

— оценка дисперсии остатков.

Обычно если достигнутый уровень значимости нулевая гипотеза отклоняется.

Можно рассчитать 95% доверительный интервал для генерального углового коэффициента :

где процентная точка распределения со степенями свободы что дает вероятность двустороннего критерия

Это тот интервал, который содержит генеральный угловой коэффициент с вероятностью 95%.

Для больших выборок, скажем, мы можем аппроксимировать значением 1,96 (то есть статистика критерия будет стремиться к нормальному распределению)

Оценка качества линейной регрессии: коэффициент детерминации R 2

Из-за линейного соотношения и мы ожидаем, что изменяется, по мере того как изменяется , и называем это вариацией, которая обусловлена или объясняется регрессией. Остаточная вариация должна быть как можно меньше.

Если это так, то большая часть вариации будет объясняться регрессией, а точки будут лежать близко к линии регрессии, т.е. линия хорошо соответствует данным.

Долю общей дисперсии , которая объясняется регрессией называют коэффициентом детерминации, обычно выражают через процентное соотношение и обозначают R 2 (в парной линейной регрессии это величина r 2 , квадрат коэффициента корреляции), позволяет субъективно оценить качество уравнения регрессии.

Разность представляет собой процент дисперсии который нельзя объяснить регрессией.

Нет формального теста для оценки мы вынуждены положиться на субъективное суждение, чтобы определить качество подгонки линии регрессии.

Применение линии регрессии для прогноза

Можно применять регрессионную линию для прогнозирования значения по значению в пределе наблюдаемого диапазона (никогда не экстраполируйте вне этих пределов).

Мы предсказываем среднюю величину для наблюдаемых, которые имеют определенное значение путем подстановки этого значения в уравнение линии регрессии.

Итак, если прогнозируем как Используем эту предсказанную величину и ее стандартную ошибку, чтобы оценить доверительный интервал для истинной средней величины в популяции.

Повторение этой процедуры для различных величин позволяет построить доверительные границы для этой линии. Это полоса или область, которая содержит истинную линию, например, с 95% доверительной вероятностью.

Подобным образом можно рассчитать более широкую область, внутри которой, как мы ожидаем, лежит наибольшее число (обычно 95%) наблюдений.

Простые регрессионные планы

Простые регрессионные планы содержат один непрерывный предиктор. Если существует 3 наблюдения со значениями предиктора P , например, 7, 4 и 9, а план включает эффект первого порядка P , то матрица плана X будет иметь вид

а регрессионное уравнение с использованием P для X1 выглядит как

Если простой регрессионный план содержит эффект высшего порядка для P , например квадратичный эффект, то значения в столбце X1 в матрице плана будут возведены во вторую степень:

а уравнение примет вид

Y = b 0 + b 1 P 2

Сигма -ограниченные и сверхпараметризованные методы кодирования не применяются по отношению к простым регрессионным планам и другим планам, содержащим только непрерывные предикторы (поскольку, просто не существует категориальных предикторов). Независимо от выбранного метода кодирования, значения непрерывных переменных увеличиваются в соответствующей степени и используются как значения для переменных X . При этом перекодировка не выполняется. Кроме того, при описании регрессионных планов можно опустить рассмотрение матрицы плана X , а работать только с регрессионным уравнением.

Пример: простой регрессионный анализ

Этот пример использует данные, представленные в таблице:

Рис. 3. Таблица исходных данных.

Данные составлены на основе сравнения переписей 1960 и 1970 в произвольно выбранных 30 округах. Названия округов представлены в виде имен наблюдений. Информация относительно каждой переменной представлена ниже:

Рис. 4. Таблица спецификаций переменных.

Задача исследования

Для этого примера будут анализироваться корреляция уровня бедности и степень, которая предсказывает процент семей, которые находятся за чертой бедности. Следовательно мы будем трактовать переменную 3 ( Pt_Poor ) как зависимую переменную.

Можно выдвинуть гипотезу: изменение численности населения и процент семей, которые находятся за чертой бедности, связаны между собой. Кажется разумным ожидать, что бедность ведет к оттоку населения, следовательно, здесь будет отрицательная корреляция между процентом людей за чертой бедности и изменением численности населения. Следовательно мы будем трактовать переменную 1 ( Pop_Chng ) как переменную-предиктор.

Просмотр результатов

Коэффициенты регрессии

Рис. 5. Коэффициенты регрессии Pt_Poor на Pop_Chng.

На пересечении строки Pop_Chng и столбца Парам. не стандартизованный коэффициент для регрессии Pt_Poor на Pop_Chng равен -0.40374 . Это означает, что для каждого уменьшения численности населения на единицу, имеется увеличение уровня бедности на .40374. Верхний и нижний (по умолчанию) 95% доверительные пределы для этого не стандартизованного коэффициента не включают ноль, так что коэффициент регрессии значим на уровне p . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на .65.

Распределение переменных

Коэффициенты корреляции могут стать существенно завышены или занижены, если в данных присутствуют большие выбросы. Изучим распределение зависимой переменной Pt_Poor по округам. Для этого построим гистограмму переменной Pt_Poor .

Рис. 6. Гистограмма переменной Pt_Poor.

Как вы можете заметить, распределение этой переменной заметно отличается от нормального распределения. Тем не менее, хотя даже два округа (два правых столбца) имеют высокий процент семей, которые находятся за чертой бедности, чем ожидалось в случае нормального распределения, кажется, что они находятся «внутри диапазона.»

Рис. 7. Гистограмма переменной Pt_Poor.

Это суждение в некоторой степени субъективно. Эмпирическое правило гласит, что выбросы необходимо учитывать, если наблюдение (или наблюдения) не попадают в интервал (среднее ± 3 умноженное на стандартное отклонение). В этом случае стоит повторить анализ с выбросами и без, чтобы убедиться, что они не оказывают серьезного эффекта на корреляцию между членами совокупности.

Диаграмма рассеяния

Если одна из гипотез априори о взаимосвязи между заданными переменными, то ее полезно проверить на графике соответствующей диаграммы рассеяния.

Рис. 8. Диаграмма рассеяния.

Диаграмма рассеяния показывает явную отрицательную корреляцию ( -.65 ) между двумя переменными. На ней также показан 95% доверительный интервал для линии регрессии, т.е., с 95% вероятностью линия регрессии проходит между двумя пунктирными кривыми.

Критерии значимости

Рис. 9. Таблица, содержащая критерии значимости.

Критерий для коэффициента регрессии Pop_Chng подтверждает, что Pop_Chng сильно связано с Pt_Poor , p .

На этом примере было показано, как проанализировать простой регрессионный план. Была также представлена интерпретация не стандартизованных и стандартизованных коэффициентов регрессии. Обсуждена важность изучения распределения откликов зависимой переменной, продемонстрирована техника определения направления и силы взаимосвязи между предиктором и зависимой переменной.

источники:

http://excel2.ru/articles/prostaya-lineynaya-regressiya-v-ms-excel

http://vc.ru/u/425321-sf-education/224225-chto-takoe-regressionnyy-analiz

http://statistica.ru/theory/osnovy-lineynoy-regressii/

(Оценочная) стандартная ошибка регрессии ( английская (оценочная) стандартная ошибка регрессии, кратко: SER ) и стандартная ошибка , стандартная ошибка оценки ( английская стандартная ошибка оценки ) или квадратный корень из среднеквадратичной ошибки. ( английский корень среднеквадратичной ошибка , RMSE для короткого замыкания ) является мерой точности регрессии в статистике, особенно в регрессионном анализе . Он определяется как квадратный корень из несмещенной оценки для неизвестной дисперсии возмущающих переменных ( остаточная дисперсия ) и может интерпретироваться как квадратный корень из « среднего квадрата невязки » ( среднеквадратичная ошибка английского корня , сокращенно RMSE ), который используется при использовании рассчитанной линии регрессии для прогнозирования возникновения целевых переменных. Он измеряет среднее расстояние между точками данных и линией регрессии. Стандартная ошибка регрессии может использоваться для оценки дисперсии параметров регрессии, поскольку они зависят от неизвестного стандартного отклонения . Стандартная ошибка регрессии и коэффициент детерминации являются наиболее часто используемыми показателями в регрессионном анализе . Однако стандартная ошибка регрессии следует иной философии, чем коэффициент детерминации. В отличие от коэффициента детерминации, который количественно оценивает объясняющую силу модели, стандартная ошибка регрессии дает оценку стандартного отклонения ненаблюдаемых эффектов, которые влияют на результат (или, что то же самое, оценку стандартного отклонения ненаблюдаемые эффекты, которые влияют на результат после того, как эффекты объясняющих переменных были удалены). Стандартная ошибка регрессии обычно отмечается значком или . Иногда это также отмечается. сигма { displaystyle { hat { sigma}}}{ displaystyle { text {SER}}}s

Введение в проблему

«Качество» регрессии может использовать оцененную стандартную ошибку остатков (англ. Residual standard error ) быть оцененным, это один из стандартных выходных данных большинства пакетов статистического программного обеспечения. Расчетная стандартная ошибка остатков указывает на уверенность, с которой остатки приближаются к истинным смешивающим переменным . Таким образом, остатки являются приближением переменных возмущения . Расчетная стандартная ошибка остатков сопоставима с коэффициентом детерминации и скорректированным коэффициентом детерминации и должна интерпретироваться аналогичным образом. Расчетная стандартная остаточная ошибка определяется как
{ Displaystyle { шляпа { varepsilon}} _ {я}} varepsilon_i{ Displaystyle  varepsilon _ {я}  приблизительно { шляпа { varepsilon}} _ {я}}

{ displaystyle { tilde {s}} = { sqrt {{ tfrac {1} {n}}  sum  nolimits _ {i = 1} ^ {n} { hat { varepsilon}} _ {я } ^ {2}}}}.

Следует отметить, однако, что это смещенная оценка от истинной дисперсии искажающих факторов , так как оценки дисперсии используется не несмещенные . Если учесть , что при оценке двух параметров регрессии и теряет две степени свободы, и это компенсируется за счет удерживается образца размером от числа степеней свободы , разделенной, чтобы получить «среднюю Residuenquadrat» ( М edium Q uadratsumme the R esiduen , сокращенно: MQR ) и, следовательно, неискаженное представление. Это объективное представление известно как стандартная ошибка регрессии.
{ Displaystyle { тильда {s}} ^ {2}}{ Displaystyle  sigma _ { varepsilon} ^ {2} =  sigma ^ {2}} beta _ {0} beta _ {1} п (п-2){ Displaystyle MQR = SQR / (n-2)}

определение

Стандартная ошибка регрессии определяется как квадратный корень из несмещенной оценки дисперсии смешивающих переменных , так называемой остаточной дисперсии.

{ displaystyle { hat { sigma}} = + { sqrt {{ hat { sigma}} ^ {2}}}}.

Стандартная ошибка регрессии имеет ту же единицу, что и целевая переменная . Стандартная ошибка регрессии обычно меньше стандартной ошибки значений. Следует отметить, что стандартная ошибка регрессии может либо уменьшаться, либо увеличиваться, если (для данной выборки) к модели регрессии добавляется другая независимая переменная. Это связано с тем, что остаточная сумма квадратов всегда уменьшается, когда в регрессионную модель добавляется другая независимая переменная, но степени свободы также уменьшаются на единицу или p. Поскольку остаточная сумма квадратов находится в числителе, а количество степеней свободы — в знаменателе, невозможно предсказать, какой эффект будет преобладающим. Для вывода стандартной ошибки регрессии обычно предполагается, что остатки некоррелированы , имеют нулевое математическое ожидание и однородную дисперсию ( предположения Гаусса-Маркова ). Если хотя бы одно из этих предположений нарушается, стандартная ошибка регрессии, рассчитанная по приведенной выше формуле, не будет оценивать истинное значение в среднем , т.е. ЧАС. быть предвзятой оценкой неизвестного стандартного отклонения.
у

Простая линейная регрессия

В простой линейной регрессии стандартная ошибка регрессии определяется как

{ displaystyle { hat { sigma}} = + { sqrt {SQR / (n-2)}} = + { sqrt {{ frac {1} {n-2}}  sum  limits _ { i = 1} ^ {n} { hat { varepsilon}} _ {i} ^ {2}}} = + { sqrt {{{ frac {1} {n-2}}  sum  limits _ {i = 1} ^ {n}  left (y_ {i} -b_ {0} -b_ {1} x_ {i}  right) ^ {2}}}}, с оценкой наименьших квадратов и для наклона и точки пересечения .{ displaystyle b_ {1} = { frac { sum  nolimits _ {i = 1} ^ {n} (x_ {i} - { overline {x}}) (y_ {i} - { overline { y}})} { sum  nolimits _ {i = 1} ^ {n} (x_ {i} - { overline {x}}) ^ {2}}} ;}{ displaystyle ; b_ {0} = { overline {y}} - b_ {1} { overline {x}}} beta _ {1} beta _ {0}

Представление не искажено, потому что, включая степени свободы оценок дисперсии, оно соответствует ожиданиям при предположениях Гаусса-Маркова (см. Также оценки дисперсии переменных возмущения ). Стандартная ошибка регрессии рассчитывается как квадратный корень из среднего квадрата остатка и является отдельной мерой качества модели. Он показывает, насколько велико среднее отклонение измеренных значений от линии регрессии. Чем больше стандартная ошибка регрессии, тем хуже линия регрессии описывает распределение измеренных значений. Стандартная ошибка регрессии обычно меньше стандартной ошибки целевой переменной . Коэффициент детерминации указывается чаще, чем стандартная ошибка остатков, хотя стандартная ошибка остатков может быть более полезной при оценке качества соответствия. Если стандартная ошибка регрессии в простой линейной регрессии вставить в формулы дисперсии для и , то можно получить несмещенные оценки для и { Displaystyle  mathbb {E} ({ шляпа { sigma}} ^ {2}) =  sigma ^ {2}}{ displaystyle { hat { sigma}} _ {y}} beta _ {0} beta _ {1}{ displaystyle  sigma _ {{ hat { beta}} _ {0}} ^ {2}}{ displaystyle  sigma _ {{ hat { beta}} _ {1}} ^ {2}}

{ displaystyle { hat { sigma}} _ {{ hat { beta}} _ {0}} ^ {2} = { hat { sigma}} ^ {2} { frac { sum  nolimits _ {i = 1} ^ {n} x_ {i} ^ {2}} {n  sum  nolimits _ {i = 1} ^ {n} (x_ {i} - { overline {x}}) ^ {2}}} ;}и .{ displaystyle ; { hat { sigma}} _ {{ hat { beta}} _ {1}} ^ {2} = { hat { sigma}} ^ {2} { frac {1 } { sum  nolimits _ {i = 1} ^ {n} (x_ {i} - { overline {x}}) ^ {2}}}}

Кроме того, доверительные интервалы могут быть построены с использованием стандартной ошибки остатков .

Множественная линейная регрессия

В множественной линейной регрессии , то стандартная ошибка регрессии определяются

{ displaystyle { hat { sigma}} = + { sqrt {MQR}} = + { sqrt {SQR / (nk-1)}} = + { sqrt { frac {{ hat { varvec) { varepsilon}}} ^ { top} { hat { boldsymbol { varepsilon}}}} {nk-1}}} = + { sqrt { frac { left ( mathbf {y} -  mathbf {X}  mathbf {b}  right) ^ { top}  left ( mathbf {y} -  mathbf {X}  mathbf {b}  right)} {nk-1}}}}с помощью оценщика наименьших квадратов .{ Displaystyle  mathbf {b} = ( mathbf {X} ^ { top}  mathbf {X}) ^ {- 1}  mathbf {X} ^ { top}  mathbf {y}}

Альтернативное представление стандартной ошибки регрессии является следствием того факта, что остаточная сумма квадратов также может быть представлена с использованием порождающей невязки матрицы как . Это дает стандартную ошибку регрессии
{ displaystyle SQR = { hat { varepsilon}}} ^ { top} { hat { varepsilon}}} = { varepsilon}} ^ { top}  mathbf {Q} { boldsymbol { varepsilon }}}

{ displaystyle { hat { sigma}} = { sqrt { frac { mathbf {y} ^ { top}  mathbf {y} -  mathbf {b} ^ { top}  mathbf {X} ^ { top}  mathbf {y}} {np}}} = { sqrt { frac { mathbf {y} ^ { top} { varvec {Q}}  mathbf {y}} {np} }} = { sqrt { frac {{ varepsilon { varepsilon}} ^ { top} { varvec {Q}} { varepsilon}}} {np}}}}

Если заменить неизвестное на известное в стандартном отклонении соответствующего средства оценки параметра , стандартная ошибка коэффициента регрессии возникает из{ displaystyle { sqrt { operatorname {Var} (b_ {j})}}} сигма  hat { sigma} б_ {j}

{ displaystyle  operatorname {SE} (b_ {j}) = { sqrt { frac {{ tfrac {1} {np}}  sum  nolimits _ {i = 1} ^ {n} { has {  varepsilon}} _ {i} ^ {2}} {(1 - { mathit {R}} _ {j} ^ {2})  sum  nolimits _ {i = 1} ^ {n} (x_ { ij} - { overline {x}} _ {j}) ^ {2}}}}}.

Таким образом, размер стандартных ошибок оцененных параметров регрессии зависит от остаточной дисперсии, взаимозависимости объясняющих переменных и разброса соответствующих объясняющих переменных.

Индивидуальные доказательства

  1. Питер Хакл : Введение в эконометрику. 2-е обновленное издание, Pearson Deutschland GmbH, 2008 г., ISBN 978-3-86894-156-2 , стр. 72.
  2. Джеффри Марк Вулдридж: Вводная эконометрика: современный подход. 4-е издание. Nelson Education, 2015, стр.102.
  3. Вернер Тимишль : Прикладная статистика. Введение для биологов и медицинских работников. 2013, издание 3-е, с. 313.
  4. Джеффри Марк Вулдридж: Вводная эконометрика: современный подход. 4-е издание. Nelson Education, 2015, стр.110.
  5. ^ А. Колин Камерон, Правин К. Триведи: Микроэконометрика. Методы и приложения. Издательство Кембриджского университета, 2005, ISBN 0-521-84805-9 , стр.287.
  6. Джеффри Марк Вулдридж: Вводная эконометрика: современный подход. 4-е издание. Nelson Education, 2015, стр. 58.
  7. Джеффри Марк Вулдридж: Вводная эконометрика: современный подход. 5-е издание. Nelson Education, 2015, стр.101.

Сформулируем новый набор предпосылок, который будем называть предпосылками линейной модели со стохастическими регрессорами. Начнем с модели парной регрессии.

Предпосылки линейной модели со стохастическим регрессором (случай парной регрессии):

  1. Модель линейна по параметрам и правильно специфицирована:

(y_{i} = beta_{1} + beta_{2}x_{i} + varepsilon_{i}, i = 1,2,ldots, n.)

  1. Наблюдения ({left( x_{i},y_{i} right),text{~i} = 1,ldots,n}) независимы и одинаково распределены.

  2. (x_{i}) и (y_{i}) имеют ненулевые конечные четвертые моменты распределения (Eleft( x_{i}^{4} right) < infty,) (Eleft( y_{i}^{4} right) < infty).

  3. Случайные ошибки имеют нулевое условное математическое ожидание при заданном (x_{i}): (Eleft( varepsilon_{i} middle| x_{i} right) = 0).

Сравним предпосылки этой модели с предпосылками классической линейной модели парной регрессии (КЛМПР) из главы 2.

Первая предпосылка стандартна и остается без изменений.

Вторая предпосылка в КЛМПР требовала, чтобы регрессоры были неслучайными величинами. Теперь мы отказываемся от неё, допуская, что объясняющие переменные могут быть случайными. При этом мы требуем, чтобы наблюдения ({left( x_{i},y_{i} right),text{~i} = 1,ldots,n}) были независимыми и одинаково распределенными (independent and identically distributed, i.i.d.).

Это требование вовсе не означает, что (y_{i}) не зависит от (x_{i}) (ясно, что в этом случае анализировать модель их взаимосвязи было бы бессмысленно). Зато оно говорит о том, что векторы (left( x_{1},y_{1} right),left( x_{2},y_{2} right)), (left( x_{3},y_{3} right)ldots) независимы друг от друга в вероятностном смысле. Иными словами, отдельные наблюдения в нашей модели не влияют друг на друга.

Для пространственных данных эта предпосылка практически всегда выполняется1. В то же время следует помнить, что при работе с временными рядами эта предпосылка часто нарушается, так как для временных рядов естественно предполагать, что будущие значения переменных зависят от прошлых2. Поскольку пока мы в основном концентрируемся на пространственных данных, для нас она остается весьма реалистичной.

Лирическое отступление о неслучайных и случайных регрессорах

Отвлечемся ненадолго от технических деталей и обратимся к вопросу: как следует думать об объясняющих переменных с содержательной точки зрения? Следует ли считать их скорее детерминированными величинами или скорее случайными?

Ответ, разумеется, зависит от того, с какими данными вы работаете, и какова процедура их сбора.

Представим, например, что вы анализируете зависимость логарифма реального ВВП от номера года. То есть оцениваете параметры линии тренда для временного ряда:

({ln y}_{t} = beta_{1} + beta_{2}*t + varepsilon_{t})

Здесь (y_{t}) — ВВП в год t. В данном примере регрессор (номер года t) вполне естественно считать неслучайным (детерминированным). Действительно, мы точно знаем, что в принятой нами системе летоисчисления за 2020-ым годом последует 2021-ый, а затем наступит 2022-ой. Никакой случайности тут нет.

Теперь представим, что вас интересуют параметры следующей модели для инфляции:

(pi_{t} = beta_{1} + beta_{2}pi_{t — 1} + beta_{2}x_{t} + varepsilon_{t})

(pi_{t}) — это уровень инфляции в год t, а (x_{t}) — это, например, отклонение фактического ВВП от потенциального ВВП в год t 3. Обратите внимание: здесь предполагается, что инфляция в текущем периоде зависит от инфляции в прошлом периоде. Однако инфляция прошлого периода (pi_{t — 1}), в свою очередь, зависит от (varepsilon_{t — 1}), а значит уж точно является случайной величиной. Следовательно, в данном примере по крайней мере один из регрессоров (переменная (pi_{t — 1})) заведомо является случайным (стохастическим).

В двух приведенных примерах детерминированная или стохастическая природа объясняющих переменных может быть определена однозначно из соображений здравого смысла. В то же время, во многих ситуациях решение о том, как воспринимать регрессоры — как неслучайные величины или как случайные — это исключительно вопрос технического удобства. В частности, при использовании асимптотического подхода второй вариант более удобен, поэтому в современных эконометрических приложениях по умолчанию используют его.

Третья предпосылка выглядит достаточно устрашающе. Однако в действительности никак не ограничивает исследователя. По существу, она означает, что очень большие выбросы в данных маловероятны. Это техническая предпосылка, которая, как мы увидим в дальнейшем, позволяет гарантировать асимптотическую нормальность оценок коэффициентов. Это даст нам возможность тестировать гипотезы и строить доверительные интервалы.

Проверить эту предпосылку сложно, однако она достаточно слабая, и потому на практике обычно считают, что она выполнена. Во всяком случае, легко согласиться с тем, что она выполняется гораздо чаще, чем предпосылка КЛМПР №6 о нормальности случайных ошибок. А ведь именно её она, в сущности, заменяет.

Четвертая предпосылка играет ключевую роль в получении корректных результатов эконометрического моделирования. В последующих параграфах и главах мы увидим, что именно вопрос о выполнении или нарушении этой предпосылки оказывается в центре дискуссии об уместности применения тех или иных методов и спецификаций моделей в различных ситуациях.

Содержательно эта предпосылка говорит о том, что «прочие факторы», которые «спрятаны» в случайной ошибке (varepsilon_{i}), никак не связаны с регрессором. Поэтому знание (x_{i}) никак не влияет на ожидания по поводу случайной величины (varepsilon_{i}).

Чтобы на конкретных числах «пощупать» эту предпосылку, а заодно вспомнить, что такое условное математическое ожидание и как его считать, рассмотрим следующий простой пример.

Пример 6.3. Об условном математическом ожидании

Пусть известен совместный закон распределения случайных величин (x_{i}) и (varepsilon_{i}).

  (varepsilon_{i} = — 1) (varepsilon_{i} = 0) (varepsilon_{i} = 1)
(x_{i} = 0) 0,2 0,1 0,2
(x_{i} = 1) 0,1 0,3 0,1

(а) Проверьте, выполняется ли в данном случае предпосылка №4 об условном математическом ожидании случайной ошибки?

(б) Вычислите безусловное математическое ожидание случайной ошибки.

(в) Вычислите (text{cov}left( varepsilon_{i},x_{i} right)).

Решение:

(а) Напомним, что по определению условным математическим ожиданием случайной величины (varepsilon_{i}) при условии (x_{i}) называется математическое ожидание условного распределения случайной величины (varepsilon_{i}) при условии (x_{i}).

Запишем закон условного распределения (varepsilon_{i}) при условии, что (x_{i} = 0). Для этого отметим, что вероятность события (x_{i} = 0) в нашем примере составляет 0,2+0,1+0,2=0,5.

  (varepsilon_{i} = — 1) (varepsilon_{i} = 0) (varepsilon_{i} = 1)
(Pleft( varepsilon_{i}|x_{i} = 0 right)) (frac{0,2}{0,5}) (frac{0,1}{0,5}) (frac{0,2}{0,5})

Зная этот закон распределения, легко посчитать математическое ожидание:

(Eleft( varepsilon_{i}|x_{i} = 0 right) = — 1*frac{0,2}{0,5} + 0*frac{0,1}{0,5} + 1*frac{0,2}{0,5} = 0)

Аналогично получаем условное математическое ожидание (varepsilon_{i}) при условии, что (x_{i} = 1).

  (varepsilon_{i} = — 1) (varepsilon_{i} = 0) (varepsilon_{i} = 1)
(Pleft( varepsilon_{i}|x_{i} = 1 right)) (frac{0,1}{0,5}) (frac{0,3}{0,5}) (frac{0,1}{0,5})

(Eleft( varepsilon_{i}|x_{i} = 1 right) = — 1*frac{0,1}{0,5} + 0*frac{0,3}{0,5} + 1*frac{0,1}{0,5} = 0)

Таким образом, для любого возможного значения (x_{i}) условие (Eleft( varepsilon_{i}|x_{i} right) = 0) соблюдается. То есть предпосылка выполнена.

(б) (Eleft( varepsilon_{i} right) = Pleft( varepsilon_{i} = — 1 right)*( — 1) + Pleft( varepsilon_{i} = 0 right)*0 + Pleft( varepsilon_{i} = 1 right)*(1) =)

(= 0,3*( — 1) + 0,4*0 + 0,3*1 = 0)

Следовательно, безусловное математическое ожидание случайной ошибки тоже равно нулю.

(в) (text{cov}left( varepsilon_{i},x_{i} right) = Eleft( varepsilon_{i}x_{i} right) — Eleft( varepsilon_{i} right)*Eleft( x_{i} right) = Eleft( varepsilon_{i}x_{i} right) — 0*Eleft( x_{i} right) = Eleft( varepsilon_{i}x_{i} right))

(Eleft( varepsilon_{i}x_{i} right) = 0,2*( — 1)*0 + 0,1*0*0 + 0,2*1*0 +)

(+ 0,1*( — 1)*1 + 0,3*0*1 + 0,1*1*1 = 0)

В нашем примере оказалось, что предпосылке №4 соответствует выполнение условий (Eleft( varepsilon_{i} right) = 0) и (text{cov}left( varepsilon_{i},x_{i} right) = 0). На самом деле это не случайный результат. Его можно обобщить, доказав два важных следствия из предпосылки №4.

Следствие 1. Если случайные ошибки имеют нулевое условное математическое ожидание при заданном (x_{i}): (Eleft( varepsilon_{i} middle| x_{i} right) = 0), то они имеют нулевое безусловное математическое ожидание: (Eleft( varepsilon_{i} right) = 0)

Доказательство этого следствия является хорошим примером применения закона повторного математического ожидания.

Напомним формулировку закона повторного математического ожидания:

(E(xi) = Eleft( Eleft( xi middle| eta right) right))

В нашем случае в соответствии с этим законом:

(Eleft( varepsilon_{i} right) = Eleft( Eleft( varepsilon_{i} middle| x_{i} right) right) = E(0) = 0.)

Поэтому, сформулировав предпосылку №4, мы не нуждаемся в том, чтобы отдельно формулировать предположение по поводу безусловного математического ожидания случайной ошибки, которое мы делаем в КЛМПР.

Подчеркнем, что обратное утверждение, вообще говоря, неверно. Вполне возможна ситуация, когда безусловное математическое ожидание случайной ошибки равно нулю, а её условное математическое ожидание при условии (x_{i}) — нет. См. пример 6.4 далее.

Следствие 2. Если случайные ошибки имеют нулевое условное математическое ожидание при любом заданном (x_{i}): (Eleft( varepsilon_{i} middle| x_{i} right) = 0), то регрессор и случайная ошибка не коррелированы друг с другом: (text{cov}left( varepsilon_{i},x_{i} right) = 0).

Для доказательства сначала отметим, что по свойству теоретической ковариации:

(text{cov}left( varepsilon_{i},x_{i} right) = Eleft( varepsilon_{i}x_{i} right) — Eleft( varepsilon_{i} right)Eleft( x_{i} right) = Eleft( varepsilon_{i}x_{i} right) — 0*Eleft( x_{i} right) = Eleft( varepsilon_{i}x_{i} right).)

А затем снова воспользуемся законом повторного математического ожидания:

(Eleft( varepsilon_{i}x_{i} right) = Eleft( Eleft( varepsilon_{i}x_{i} middle| x_{i} right) right) = Eleft( x_{i}Eleft( varepsilon_{i} middle| x_{i} right) right) = Eleft( x_{i}*0 right) = E(0) = 0)

Регрессор, который не коррелирован со случайной ошибкой модели, обычно называют экзогенным регрессором. Таким образом, предпосылку №4 иногда называют предпосылкой об экзогенности регрессора.

Если же объясняющая переменная в модели, наоборот, коррелирована со случайной ошибкой (text{cov}left( varepsilon_{i},x_{i} right) neq 0), то её называют эндогенным регрессором.

Пример 6.4. Об условном математическом ожидании (продолжение)

Пусть теперь совместный закон распределения (x_{i}) и (varepsilon_{i}) имеет такой вид:

  (varepsilon_{i} = — 1) (varepsilon_{i} = 0) (varepsilon_{i} = 1)
(x_{i} = 0) 0,3 0,1 0,1
(x_{i} = 1) 0,1 0,1 0,3

Покажите, что в этом случае условие (Eleft( varepsilon_{i} right) = 0) выполнено, а условие (Eleft( varepsilon_{i} middle| x_{i} right) = 0) нарушается.

Решение:

(Eleft( varepsilon_{i} right) = Pleft( varepsilon_{i} = — 1 right)*( — 1) + Pleft( varepsilon_{i} = 0 right)*0 + Pleft( varepsilon_{i} = 1 right)*(1) =)

(= 0,4*( — 1) + 0,2*0 + 0,4*1 = 0)

Чтобы показать, что предпосылка (Eleft( varepsilon_{i}|x_{i} right) = 0) не выполняется, достаточно привести любое значение (x_{i}), для которого указанное равенство нарушено. Рассмотрим, например, случай (x_{i} = 0).

(Eleft( varepsilon_{i}|x_{i} = 0 right) = — 1*frac{0,3}{0,5} + 0*frac{0,1}{0,5} + 1*frac{0,1}{0,5} = — 0,4)

Следовательно, предпосылка (Eleft( varepsilon_{i}|x_{i} right) = 0) не выполняется: регрессор в модели является эндогенным.

***

Выполнение четырех предпосылок линейной модели со стохастическими регрессорами (случай парной регрессии) гарантирует, что применение МНК будет приводить к хорошим результатам. Говоря более строго, эти гарантии можно сформулировать в виде следующей теоремы:

Теорема о состоятельности и асимптотической нормальности МНК-оценок в парной регрессии. Если предпосылки №1–4 выполнены, то МНК-оценки коэффициентов (beta_{1}) и (beta_{2}) состоятельны и асимптотически нормальны.

Доказательство этой теоремы приводится в параграфах 6.3 и 6.4. В первом из них доказывается состоятельность, а во втором — асимптотическая нормальность. Однако прежде, чем переходить к доказательству, обсудим значение теоремы для прикладных исследований. Забегая вперед, отметим, что оно велико.

Первый из результатов — состоятельность — даёт нам уверенность, что при достаточно слабых предположениях МНК будет обеспечивать верные ответы на интересующие нас вопросы о мире. Для получения этих ответов нужно лишь собрать достаточно много данных, чтобы асимптотические свойства были применимы. В практических исследованиях вполне хватает нескольких сотен точек (хотя, конечно, когда речь идет об асимптотических методах, то чем больше, тем лучше).

Второй результат — асимптотическая нормальность — позволяет нам легко тестировать гипотезы и строить доверительные интервалы, не делая жестких предположений о распределении отдельных случайных ошибок и отдельных переменных. Детали см. в параграфе 6.5. Это ценно потому, что на практике обычно нет никакой уверенности в том, что случайные ошибки модели распределены нормально. А ведь в рамках КЛМПР, как вы помните, мы были вынуждены делать такую предпосылку.

Отметим также, что в рамках нашей новой модели, в отличие от КЛМПР, мы не требуем гомоскедастичности. Действительно, мы сделали предположение по поводу того, что константой должно быть условное математическое ожидание случайной ошибки (Eleft( varepsilon_{i} middle| x_{i} right)), однако по поводу условной дисперсии случайной ошибки (text{var}(varepsilon_{i}|x_{i})) мы никаких предпосылок не делали. Следовательно, эта величина может меняться при изменении (x_{i}), то есть в модели может наблюдаться гетероскедастичность (в таком случае её также называют условной гетероскедастичностью).

Аналогичный набор предпосылок и аналогичная теорема могут быть, разумеется, сформулированы и для множественной регрессии:

Предпосылки линейной модели со стохастическими регрессорами (случай множественной регрессии):

  1. Модель линейна по параметрам:

(y_{i} = beta_{1} + beta_{2}*x_{i}^{(2)} + beta_{3}*x_{i}^{(3)} + ldots + beta_{k}*x_{i}^{(k)} + varepsilon_{i}, i = 1,2,ldots, n.)

  1. Наблюдения (left{ left( x_{i}^{(2)},ldots,x_{i}^{(k)},y_{i} right),text{~i} = 1,ldots,n right}) независимы и одинаково распределены.

  2. (x_{i}^{(2)},ldots,x_{i}^{(k)},y_{i}) имеют ненулевые конечные четвертые моменты.

  3. Случайные ошибки имеют нулевое условное математическое ожидание при заданных значениях регрессоров:

(Eleft( varepsilon_{i} middle| x_{i}^{(2)},ldots,x_{i}^{(k)} right) = 0, i = 1,ldots,n)

  1. В модели с вероятностью единица отсутствует чистая мультиколлинеарность.

Теорема о состоятельности и асимптотической нормальности МНК-оценок (случай множественной регрессии). Если предпосылки №1–5 выполнены, то МНК-оценки коэффициентов модели множественной регрессии состоятельны и асимптотически нормальны.

Легко видеть, что набор предпосылок полностью идентичен случаю парной регрессии за одним исключением: нам пришлось добавить требование отсутствия мультиколлинеарности. Как мы знаем, при его нарушении МНК-оценки в модели множественной регрессии в принципе невозможно определить однозначно. Упоминание вероятности в формулировке предпосылки связано с тем, что теперь регрессоры являются стохастическими, то есть при каждой реализации их набор может отличаться.

Таблица 6.1. Сопоставление различных регрессионных моделей

Название модели Классическая линейная модель множественной регрессии Обобщенная линейная модель множественной регрессии Линейная модель со стохастическими регрессорами
Где эта модель описана

В параграфе 3.2

(а также для случая парной регрессии в параграфе 2.3)

В параграфе 5.5 В параграфе 6.2
Предположение о детерминированности (неслучайности) регрессоров Требуется Требуется Не требуется
Предположение о нормальности случайных ошибок Требуется для тестирования гипотез Требуется для тестирования гипотез Не требуется
Предположение об отсутствии гетероскедастичности Требуется Не требуется Не требуется

В таблице 6.1 содержится сопоставление предпосылок трёх основных моделей, в условиях которых мы исследуем свойства МНК-оценок. Из неё легко видеть, что предпосылки нашей новой модели, действительно, являются сравнительно более мягкими, что делает её максимально реалистичной моделью для практической работы с пространственными данными.


  1. Исключение составляет специфический класс моделей пространственной автокорреляции, которые обычно рассматриваются отдельно.↩︎

  2. Пример такой ситуации приведен далее в лирическом отступлении о неслучайных и случайных регрессорах.↩︎

  3. Макроэкономист узнает в такой спецификации одну из возможных версий современной кривой Филлипса с адаптивными инфляционными ожиданиями. Однако даже человек, незнакомый с макроэкономическими моделями, наверняка согласится с тем, что если инфляция была высока в прошлом месяце, то и в этом она тоже наверняка будет высокой. Иными словами, текущая инфляция зависит от своих прошлых значений, что и отражено в данной модели.↩︎

Добавил:

Upload

Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Предмет:

Файл:

VUKOLOV2.pdf

Скачиваний:

122

Добавлен:

05.06.2015

Размер:

2.12 Mб

Скачать

Во многих случаях исследуются объекты, характеризующиеся несколькими признаками. Например, у каждого человека можно измерить рост, вес, частоту пульса и ряд других физиологических показателей; работу торгового предприятия можно оценить по объему товарооборота и величине прибыли. Совокупность данных такого типа представляет выборку из многомерной генеральной совокупности. Для таких выборок важно не только определение характеристик распределения каждого признака, но и то, насколько тесно эти признаки связаны между собой, можно ли по значению одного признака сделать какиелибо выводы о предполагаемом значении другого признака и т.д.

При построении регрессионной модели, описывающей зависимость переменной Y от независимых переменных (факторов) x1, x2, … xm, предполагается, во-первых, что у исследователя имеются результаты совокупных наблюдений зависимой переменной Y и независимых переменных x1, x2, …, xm, во-вторых, что значения независимых переменных определяются точно (без ошибок), а значение зависимой переменной Y определяется с ошибками, имеющими случайный характер.

Регрессией (уравнением регрессии) называется условное математическое ожидание Y:

M[Y / x1, x2 , …, xm ] = f (x1, x2 , …, xm ) .

Таким образом, регрессия описывает поведение наблюдаемой зависимой переменной в среднем, представляя ее главную тенденцию. В связи с этим

157

нахождение регрессии по результатам наблюдений называют сглаживанием данных.

Существуют различные регрессионные модели, определяемые выбором функции f (x1, x2 , …, xm ) :

простая линейная регрессия:

Y= β0 + β1x + ε ;

множественная регрессия:

Y= β0 + β1x + β2 x2 + …+ βk −1xk −1 + ε ;

полиномиальная регрессия:

Y= β0 + β1x + β2 x2 + …+ βk−1xk −1 + ε ;

регрессионная модель общего вида:

Y = β0 + β1ϕ1(x1,

x2 ,

…,

xm ) + …+ βk−1ϕk−1(x1, x2 ,…, xm ) + ε ,

где ϕi (x1, x2 , …,

xm )

, i

= 1, 2, …, k – 1 — заданные

функции факторов.

Коэффициентыβ0 ,β1 …, βk-1 называются

параметрами регрессии.

В приведенные регрессионные модели параметры β0 ,β1 …, βk−1 входят линейно. Такие модели называют

линейными (по параметрам) моделями, а

математические методы анализа этих моделей —

линейным регрессионным анализом.

Модель y = β0εβ1x1 1εβ2x2 нелинейна по параметрам.

В некоторых случаях нелинейные модели с помощью специальных линеаризирующих преобразований могут быть представлены как линейные. Рассмотрим несколько примеров.

1. Функция y = β0 xβ1 с помощью логарифмирования и замены переменных преобразуется так: lny = lnβ0 +

β1 lnx. Проведя замену переменных y

= lny; β0 = lnβ0 ;

x= lnx, получим линейную по параметрам функцию

y

+ β1x

.

= β0

158

2. Функция образом:

y =

ax

преобразуется следующим

b + x

b + x = a

x

или

x

= b

+ 1 x .

y

y

a

a

После замены переменных

y¢ =

x

,

b0

=

b

,

b1 =

1

a

a

y

получим y= b0 + b1x .

β0 1x

3. Логистическая функция y =

e

при помощи

β0 1x

æ

ö

1+ e

y

преобразования y¢ = ln ç

÷ примет вид:

è

1y ø

y= b0 + b1x .

После выбора вида регрессионной модели, применив результаты наблюдений зависимой переменной и факторов нужно вычислить оценки (приближенные значения) параметров регрессии, а затем проверить значимость и адекватность модели результатам наблюдений.

6.1. Коэффициент корреляции и простая линейная регрессия

Пусть ( xi , yi ), i = 1, 2, 3, …, n — выборка наблюдений

из двумерной генеральной совокупности. Начальное представление о генеральной совокупности можно получить, изображая элементы выборки как точки на плоскости. Такое представление выборки называется

диаграммой рассеяния.

При построении диаграммы рассеяния рекомендуется масштабы по осям X и Y выбирать так, чтобы значения обоих признаков укладывались на отрезках приблизительно равной длины.

159

Возможны различные варианты расположения «облака точек», по которым можно судить о виде и степени взаимосвязи между признаками X и Y (рис.6.1, а г).

Количественной характеристикой степени линейной зависимости между случайными величинами X и Y

является коэффициент корреляции ρ.

Оценка коэффициента корреляции по выборке вычисляется по формуле

r = Qxy ,

QxQy

Y Y

ρ < 0

ρ > 0

б

X

а

X

Y

ρ = 0

Y

ρ 0

Y

в

X

г

X

Рис.6.1. Варианты располо-

жения «облака точек» (а г) и

функциональная

линейная

з а в и с и м о с т ь м е ж д у

X и Y при ρ = 1 (д)

160

где

(

x )2

Qx = å(xi x)2 = åxi2

å

i

;

n

Qy = å(yi y)2 = åyi2

(

å

y )2

i

;

n

Qxy = å(xi x)(yi y) = åxi yi

(åxi )(åyi )

;

n

x =

1

x ;

y =

1

y .

n å

nå

i

i

Для

коэффициента

корреляции

справедливы

следующие утверждения:

1) −1 ≤ ρ ≤ 1;

2)

если

ρ

= 1, то

между X

и Y

имеет место

функциональная линейная зависимость, все точки (xi, yi) будут лежать на прямой (рис.6.1,д);

3) если ρ = 0 , то говорят, что X и Y

некоррелированы, т.е. между ними нет линейной зависимости (см. рис.6.1, в г);

4) если X и Y имеют двумерное нормальное распределение, то из равенства ρ = 0 следует, что они

статистически независимы.

Если между случайными величинами X и Y существует достаточно тесная линейная статистическая зависимость ( r > 0) , то ее можно аппроксимировать

уравнением линейной регрессии Y на X:

Y = β0 + β1x,

где β0 и β1 — параметры линейной регрессии; x

независимая переменная; Y — зависимая переменная. При этом предполагается, что независимая переменная x

161

измеряется точно, а Y является случайной величиной. Таким образом, исследуют, как «в среднем» изменяются значения зависимой переменной Y при изменении независимой переменной x.

В тех случаях, когда признаки X и Y равнозначны (например, рост и вес), аналогично регрессии Y на X

рассматривают линейную регрессию X на Y: x

0

1y .

= b

+ b

Если случайный вектор (X, Y) имеет двумерное нормальное распределение, то линейная регрессия Y на X равна условному математическому ожиданию

M

éY

X

ù

= my + r

sy

(X mx ),

ë

= xû

sx

а регрессия X на Y равна

sx

M

é

ù

= mx + r

( y my ),

êX Y

= yú

sy

ë

û

где mx , my иsx ,

sy

— соответственно математические

ожидания и средние квадратические отклонения X и Y; ρ

— коэффициент корреляции.

Для оценки параметров линейной регрессии Y на X по результатам наблюдений ( xi , yi ), i = 1, 2, 3, …, n, используется метод наименьших квадратов: в качестве

оценок параметров

берут

значения

%

%

b0

иb1 ,

минимизирующие

Q (b0 ,b1 )

сумму

квадратов

отклонений

значений

зависимой переменной

yi от

значений,

вычисляемых по

уравнению

регрессии

%

yi = b0 + b1xi :

n

2

Q(b0 ,b1) = å[yi (b0 +b1 × xi )] .

i=1

Из необходимых

условий

минимума

функции

Q(b0 ,b1 )

162

Q

= 0;

Q

= 0

∂β

0

∂β

1

получают оценки параметров регрессии Y на X:

%

nåxi yi − (åxi )(åyi )

Qxy

(6.1)

β1

=

nåxi

2 − (åxi )2

=

;

Qx

%

%

(6.2)

β0

= y − β1x .

Оценки (6.1) и (6.2) называют МНК-оценками параметров линейной регрессии.

Аналогично для регрессии X на Y оценки параметров вычисляются по формулам

%

Qxy

β1

=

Qy

;

%

= x

%

β0

− β1Y .

Уравнения

%

%

sy

(x x)

и

y = β0

1x

= y

+ r

sx

%

%

+r

sx

( yy) ,

где

sx

и

sy

оценки средних

x 0

1y = x

sy

квадратических отклонений σx

и σy , равные

Qy

Q

sx = sx2 =

x

;

sy

= sy2 =

,

n

n

называются

выборочными

уравнениями линейной

регрессии.

Прямые регрессии пересекаются в точке с

координатами x и y и образуют «ножницы». При

r

= 1

обе прямые совпадают, при

r

= 0 они перпендикулярны

друг другу.

Между коэффициентом корреляции и параметрами регрессии имеются следующие соотношения:

163

sy

¢

sx

% %

¢

r

;

%

= r

;

%

= r

.

b1b1

=

b1

sx

b1

sy

Проведем статистический анализ простой линейной регрессии.

Простая линейная регрессия определяется уравнениями

yi = b0 + b1xi + ei , i = 1, 2, …, n ,

где x1, x2 ,…, xn — значения независимой переменной x, а y1, y2 ,…, yn — соответствующие им значения зависимой переменной Y, полученные как результаты независимых экспериментов или наблюдений; ei — ошибки наблюдений

зависимой переменной, имеющие случайный характер. В регрессионном анализе предполагается, что

случайные величины ei и e j , i ¹ j , i, j = 1, 2, …, n

некоррелированы, имеют нулевое математическое ожидание M [ei ] = 0 и постоянную дисперсию D[ei ] = s2 ,

i = 1, 2, …, n .

При статистическом анализе регрессионной модели предполагается также, что случайные ошибки наблюдений имеют нормальное распределение:

ei ~ N (0,s2 ), i = 1, 2, …, n .

В этом случае ei будут независимыми случайными

величинами.

Задача линейного регрессионного анализа состоит в том, чтобы по результатам наблюдений

(xi , yi ), i = 1, 2, …, n :

∙ получить наилучшие точечные и интервальные оценки неизвестных параметров b0 , b1 и s2 ;

164

проверить статистические гипотезы о параметрах модели;

проверить, достаточно ли хорошо модель согласуется с результатами наблюдений (адекватность модели результатам наблюдений).

Оценки параметров линейной регрессии (6.1) и (6.2), получаемые по методу наименьших квадратов, при любом законе распределения ошибок наблюдений

ei , i = 1, 2, …, n

имеют следующие свойства:

1) являются линейными функциями результатов

наблюдений

yi , i = 1,2,…,n,

и

несмещенными

é% ù

= b j ,

j = 0,1 ;

оценками параметров, т.е. M ëb j û

2) имеют минимальные дисперсии в классе несмещенных оценок, являющихся линейными функциями результатов наблюдений (теорема Гаусса — Маркова).

Если ошибки наблюдений ei некоррелированы и имеют нормальное распределение, т.е. ei ~ N (0, s) , то к

свойствам 1 и 2 добавляется следующее свойство.

3) МНК-оценки совпадают с оценками,

вычисляемыми по методу максимального правдоподобия.

Функция

%

%

определяет выборочную

y = b0

+ b1x

(эмпирическую) регрессию Y на x, которая является оценкой предполагаемой (теоретической) линейной регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при

x = xi , i = 1, 2, …, n , и расчетными значениями

%

%

yi = b0

+ b1xi

%

называются остатками и обозначаются ei :

ei = yi y%i , i = 1, 2, …, n.

165

Качество

аппроксимации

результатов

наблюдений (xi , yi ) ,

i = 1,2,Kn , выборочной

регрессией

определяется величиной остаточной дисперсии, вычисляется по формуле

2

åei2

1

%

%

2

Qe

S

=

n 2

=

n

2

åëé yi (b0

+ b1xi )ûù

=

n

2

.

S2 является несмещенной оценкой дисперсии ошибок

наблюде-

ний s2 .

ВеличинаQe ,

определяемая

выражением

2

%

2

называется остаточной суммой

Qe = åei = å( yi yi ) ,

квадратов.

Если модель согласуется с результатами наблюдений (адекватна результатам наблюдений), то остаточная дисперсия является несмещенной оценкой

дисперсии ошибок наблюдений s2 , т.е. M éëS2 ùû = s2 . Всюду в дальнейшем будем предполагать, что

ошибки наблюдений ei , i = 1, 2, …, n ,

имеют нормальное

распределение ei ~ N (0, s2 ) и

независимы. Это

предположение эквивалентно тому, что результаты

наблюдений

yi , i = 1, 2, …, n, являются реализациями

независимых

нормально распределенных случайных

величинYi :

Yi ~ N (b0 +b1xi , s), i = 1, 2, …, n.

В этом случае можно показать [13, 22] , что статистика Qe s2 имеет распределение l2 с (n – 2)

166

степенями свободы, т.е. Qs2e = l2 (n 2) , и эта статистика

распределена независимо от распределения оценок b%0

иb%1 . Используя это утверждение, можно построить

доверительные интервалы для параметров линейной регрессии.

Доверительные интервалы для параметров имеют вид:

(n−2)

åxi2

или

(n−2)

;

%

%

é%

ù

b0

± t1−α 2 S

nQx

b0

± t1−α 2

D ëb0

û

(n−2)

(n−2)

1

или

,

%

%

é%

ù

± t1−α 2

± t1−α 2

b1

S

Qx

b1

D ëb1

û

где t(n−2) — квантиль распределения Стьюдента с (n – 2)

1−α 2

степенями свободы порядка 1a 2 ; S — оценка среднего

квадратического ошибок наблюдений,

S =

Qe

;

é% ù

n

2

D ëbi û

дисперсия оценки параметраb%i , i = 0,1.

Доверительный интервал для дисперсии ошибок наблюдений s2 имеет вид:

(n 2)S2

< s2

<

(n 2)S2

,

c2

(n 2)

c2

(n 2)

1−α

2

1−α

2

где c2p (n 2)

квантили распределения c2 с (n – 2)

степенями свободы порядка p; S2 — оценка дисперсии ошибок наблюдений.

В практических вычислениях остаточную сумму квадратов получают из тождества

167

å( yi y )2 = å( y%i y)2 + å( yi y%i )2 ,

которое записывается в виде

Qy = QR + Qe ,

где

Qy = å( yi y)2 = åyi2 ny2 ;

QR = å( yi y )

2

%

%2

Qxy2

= b1

×Qxy = b1 Qx =

.

%

Qx

Величина QR называется суммой квадратов,

обусловленной регрессией.

Линейная регрессионная модель называется

незначимой, если b1 = 0 .

Для проверки гипотезы H0 : b1 = 0 используют либо доверительный интервал для параметра b1 , либо статистику

QR (n 2)

%2

F =

=

b1 Qx

.

Qe

S2

Если гипотеза H0 : b1 = 0

верна, то статистика F

имеет распределение Фишера с 1 и (n – 2) степенями свободы.

Гипотеза

H0 : b1 = 0

принимается на

уровне

значимости

α ,

если выборочное значение статистики

Фишера

Fв

будет меньше квантили распределения

Фишера

F1−α (1,

n-1) , то

есть Fb < F1−α (1,

n – 1).

В противном случае гипотеза H0 отклоняется.

Если гипотеза H0 : b1 = 0 отклоняется, говорят, что регрессионная модель статистически значима. Из этого

168

не следует, конечно, что модель хорошо согласуется с результатами наблюдений, т.е. адекватна им.

Полезной характеристикой линейной регрессии

является коэффициент детерминации R2 , вычисляемый по формуле

R2 =

QR

= 1−

Qe

.

Qy

Qy

Коэффициент детерминации R2 равен той доле

разброса

результатов

наблюдений

(xi , yi ), i = 1, 2,…, n,

относительно горизонтальной прямой

y = y , которая

объясняется

регрессионной моделью.

Величина

R = +

R2

является

оценкой коэффициента

корреляции

между

результатами

наблюдений yi и

вычисляемыми

значениями

yi ,

предсказываемыми

%

регрессией:

%

R = ρ % = r % .

YY

yy

В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется

следующее соотношение:

rxy = (знак β%1 )R.

Напомним, что коэффициент ρxy определяет

степень линейной зависимости между случайными величинами X и Y.

Линейная регрессионная модель называется адекватной, если предсказанные по ней значения переменной Y согласуются с результатами наблюдений. Грубая оценка адекватности модели может быть проведена непосредственно по графику остатков, т.е. разностей между наблюдаемыми значениями yi и

169

вычисленными значениями y%i , i = 1,2,…,n. Если модель адекватна, то остатки ei являются реализациями случайных ошибок наблюдений εi , i = 1,2,…,n , которые в

силу предположений должны быть независимыми нормально распределенными случайными величинами с

нулевыми средними и одинаковыми дисперсиями σ2 . Проверка выполнения этих предположений различными статистическими методами и лежит в основе оценки адекватности по графику остатков.

Если регрессионная модель адекватна результатам наблюдений, то она может быть использована для определения прогноза y% при заданном значении

независимой переменной x = x0 .

Доверительный интервал для прогноза среднего значения Y при x = x0 определяется по формуле

y (x0 ) ± t

(n−2)

(x x )2

S

1

+

0

,

%

1−α 2

n

Qx

а доверительный интервал для прогноза индивидуального значения Y вычисляется по формуле

y (x0 )± t

(n−2)

(x x )2

S 1+

1

+

0

,

%

1−α 2

n

Qx

где y% (x0 ) = β%0 + β%1x0 .

Проведем регрессионный анализ в матричном виде. Введем следующие обозначения:

170

регрессионная матрица (n´ 2) A =

=

вектор параметров модели

æb

ö

,

b=çb0

÷

è 1

ø

æ e

ö

ç 1

÷

наблюдений e = ç e2

÷ .

ç M

÷

ç

÷

èen

ø

æ1

x1

ö

ç1

x

÷

; вектор Y

ç

2

÷

çM

M

÷

ç1

x

÷

è

n

ø

æ

y

ö

ç

1

÷

;

ç y2

÷

ç

M

÷

ç

÷

è yn

ø

вектор ошибок

Тогда простая линейная регрессия определяется матричным уравнением

Y = Aβ + ε.

Метод наименьших квадратов дает оценкуβ , определенную формулой

b% = (AT A)−1 AT Y ,

где AT — матрица, транспонированная к матрице A ; AT A = B — информационная матрица; B−1 = (AT A)−1 — матрица,

обратная

к

матрице

B = (AT A)

.Вывод этой формулы приводится ниже (см.

п.6.2).

Сумма квадратов, обусловленная регрессией, определяется по формуле

QR = bT AT Y n( y )2 .

Остаточная сумма квадратов: Qe = Qy QR.

171

Оценка ковариационной матрицы K оценок параметров регрессии вычисляется по формуле

K= S2 (AT A)−1 = S2B−1 ,

адисперсии оценок параметров — диагональные элементы матрицы K:

é%

ù

= S

2

(b11 ),

D ëb0

û

é%

ù

= S

2

(b22 ),

D ëb1

û

где bii — диагональные элементы матрицы B−1 .

172

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

  • Ошибки регрессии имеют непостоянную дисперсию
  • Ошибки регистрации характерны тест
  • Ошибки регистрации статистического наблюдения возникают
  • Ошибки регистрации свойственны наблюдению тест
  • Ошибки регистрации присущи наблюдению а сплошному б выборочному