Гетероскедастичность
Случайной ошибкой
называется отклонение в линейной модели
множественной регрессии:
εi=yi–β0–β1x1i–…–βmxmi
В связи с тем, что
величина случайной ошибки модели
регрессии является неизвестной величиной,
рассчитывается выборочная оценка
случайной ошибки модели регрессии по
формуле:
где ei – остатки
модели регрессии.
Термин
гетероскедастичность в широком смысле
понимается как предположение о дисперсии
случайных ошибок модели регрессии.
При построении
нормальной линейной модели регрессии
учитываются следующие условия, касающиеся
случайной ошибки модели регрессии:
6) математическое
ожидание случайной ошибки модели
регрессии равно нулю во всех наблюдениях:
7) дисперсия случайной
ошибки модели регрессии постоянна для
всех наблюдений:
между значениями
случайных ошибок модели регрессии в
любых двух наблюдениях отсутствует
систематическая взаимосвязь, т. е.
случайные ошибки модели регрессии не
коррелированны между собой (ковариация
случайных ошибок любых двух разных
наблюдений равна нулю):
Второе условие
означает
гомоскедастичность (homoscedasticity – однородный
разброс) дисперсий случайных ошибок
модели регрессии.
Под гомоскедастичностью
понимается предположение о том, что
дисперсия случайной ошибки βi является
известной постоянной величиной для
всех наблюдений.
Но на практике
предположение о гомоскедастичности
случайной ошибки βi или остатков модели
регрессии ei выполняется не всегда.
Под гетероскедастичностью
(heteroscedasticity – неоднородный разброс)
понимается предположение о том, что
дисперсии случайных ошибок являются
разными величинами для всех наблюдений,
что означает нарушение второго условия
нормальной линейной модели множественной
регрессии:
Гетероскедастичность
можно записать через ковариационную
матрицу случайных ошибок модели
регрессии:
Тогда можно
утверждать, что случайная ошибка модели
регрессии βi подчиняется нормальному
закону распределения с нулевым
математическим ожиданием и дисперсией
G2Ω:
εi~N(0; G2Ω),
где Ω – матрица
ковариаций случайной ошибки.
Если дисперсии
случайных ошибок
модели регрессии
известны заранее, то проблема
гетероскедастичности легко устраняется.
Однако в большинстве случаев неизвестными
являются не только дисперсии случайных
ошибок, но и сама функция регрессионной
зависимости y=f(x), которую предстоит
построить и оценить.
Для обнаружения
гетероскедастичности остатков модели
регрессии необходимо провести их анализ.
При этом проверяются следующие гипотезы.
Основная гипотеза
H0 предполагает постоянство дисперсий
случайных ошибок модели регрессии, т.
е. присутствие в модели условия
гомоскедастичности:
Альтернативная
гипотеза H1 предполагает непостоянство
дисперсиий случайных ошибок в различных
наблюдениях, т. е. присутствие в модели
условия гетероскедастичности:
Гетероскедастичность
остатков модели регрессии может привести
к негативным последствиям:
1) оценки неизвестных
коэффициентов нормальной линейной
модели регрессии являются несмещёнными
и состоятельными, но при этом теряется
свойство эффективности;
2) существует большая
вероятность того, что оценки стандартных
ошибок коэффициентов модели регрессии
будут рассчитаны неверно, что конечном
итоге может привести к утверждению
неверной гипотезы о значимости
коэффициентов регрессии и значимости
модели регрессии в целом.
Гомоскедастичность
Гомоскедастичность
остатков означает, что дисперсия каждого
отклонения одинакова для всех значений
x. Если это условие не соблюдается, то
имеет место гетероскедастичность.
Наличие гетероскедастичности можно
наглядно видеть из поля корреляции.
Т.к. дисперсия
характеризует отклонение то из рисунков
видно, что в первом случае дисперсия
остатков растет по мере увеличения x, а
во втором – дисперсия остатков достигает
максимальной величины при средних
значениях величины x и уменьшается при
минимальных и максимальных значениях
x. Наличие гетероскедастичности будет
сказываться на уменьшении эффективности
оценок параметров уравнения регрессии.
Наличие гомоскедастичности или
гетероскедастичности можно определять
также по графику зависимости остатков
от теоретических значений
.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Гомоскедастичность – допущение линейной регрессии об «одинаковости» Дисперсии (Variance). Иными словами, разность между реальным Ypred и предсказанным Yactual значениями, скажем, Линейной регрессии (Linear Regresion) остается в определенном известном диапазоне, что позволяет в принципе использовать такую Модель (Model). В случае такого единообразия ошибок Наблюдения (Observation) с большими значениями будут иметь то же влияние на предсказывающий Алгоритм (Algorithm), что и наблюдения с меньшими значениями:
Линейная регрессия базируется на предположении, что для всех случаев ошибки будут одинаковыми и с очень малой дисперсией.
Пример. У нас есть две переменные – высота дерева навскидку и реальный его рост. Естественно, по мере увеличения оценочной высоты реальные тоже растут. Итак, мы подбираем модель линейной регрессии и видим, что ошибки имеют одинаковую дисперсию:
Прогнозы почти совпадают с линейной регрессией и имеют одинаковую известную дисперсию повсюду. Кроме того, если мы нанесем эти остатки на ось X, мы увидим их вдоль прямой линии, параллельной оси X. Это явный признак гомоскедастичности.
Когда это условие нарушается, в модели присутствует Гетероскедастичность (Heteroscedasticity). Предположим, что для деревьев с меньшей приблизительной высотой разность между прогнозируемым и реальным значением меньше, чем для высоких представителей флоры. По мере увеличения высоты дисперсия в прогнозах увеличивается, что приводит к увеличению значения ошибки или Остатка (Residual). Когда мы снова построим график остатков, то увидим типичную коническую кривую, которая четко указывает на наличие гетероскедастичности в модели:
Гетероскедастичность – это систематическое увеличение или уменьшение дисперсии остатков в диапазоне независимых переменных. Это проблема, потому нарушается базовое предположение о линейной регрессии: все ошибки должны иметь одинаковую дисперсию.
Как узнать, присутствует ли гетероскедастичность?
Проще говоря, самый простой способ узнать, присутствует ли гетероскедастичность, – построить график остатков. Если вы видите какую-либо закономерность, значит, есть гетероскедастичность. Обычно значения увеличиваются, образуя конусообразную кривую.
Причины гетероскедастичности
- Есть большая разница в переменной. Другими словами, когда наименьшее и наибольшее значения переменной слишком экстремальны. Это также могут быть Выбросы (Outlier).
- Мы выбираем неправильную модель. Если вы подгоните модель линейной регрессии к нелинейным данным, это приведет к гетероскедастичности.
- Когда масштаб значений в переменной некорректен (например, стоит рассматривать данные по сезонам, а не по дням).
- Когда для регрессии используется неправильное преобразование данных.
- Когда в данных присутствует Скошенность (Skewness).
Чистая и нечистая гетероскедастичности
Когда мы подбираем правильную модель (линейную или нелинейную) и все же есть видимый образец в остатках, это называется чистой гетероскедастичностью.
Однако, если мы подбираем неправильную модель, а затем наблюдаем закономерность в остатках, то это случай нечистой гетероскедастичности. В зависимости от типа гетероскедастичности необходимо принять меры для ее преодоления. Это зависит и от сферы, в которой мы работаем.
Эффекты гетероскедастичности в Машинном обучении
Как мы обсуждали ранее, модель линейной регрессии делает предположение о наличии гомоскедастичности в данных. Если это предположение неверно, мы не сможем доверять полученным результатам.
Наличие гетероскедастичности делает коэффициенты менее точными, и, следовательно, правильные находятся дальше от значения Генеральной совокупности (Population).
Как лечить гетероскедастичность?
Если мы обнаружили гетероскедастичность, есть несколько способов справиться с ней. Во-первых, давайте рассмотрим пример, в котором у нас есть две переменные: население города и количество заражений COVID-19.
В этом примере будет огромная разница в количестве заражений в крупных мегаполисах по сравнению с небольшими городами. Переменная «Количество инфекций» будет Целевой переменной (Target Variable), а «Население города» – Предиктором (Predictor Variable). Мы знаем, что в модели присутствует гетероскедастичность, и ее необходимо исправить.
В нашем случае, источник проблемы – это переменная с большой дисперсией (Население). Есть несколько способов справиться с подобным неоднообразием остатков, мы же рассмотрим три таких метода.
Управление переменными
Мы можем внести некоторые изменения в имеющиеся переменные, чтобы уменьшить влияние этой большой дисперсии на прогнозы модели. Один из способов сделать это – осуществить Нормализацию (Normalization), то есть привести значения Признака (Feature) к диапазону от 0 до 1. Это заставит признаки передавать немного другую информацию. От проблемы и данных будет зависеть, можно ли реализовать такой подход.
Этот метод требует минимальных модификаций и часто помогает решить проблему, а в некоторых случаях даже повысить производительность модели.
В нашем случае, мы изменим параметр «Количество инфекций» на «Скорость заражения». Это поможет уменьшить дисперсию, поскольку совершенно очевидно, что число инфекций в городах с большой численностью населения будет большим.
Взвешенная регрессия
Взвешенная регрессия – это модификация нормальной регрессии, при которой точкам данных присваиваются определенные Веса (Weights) в соответствии с их дисперсией. Те, у которых есть бо́льшая дисперсия, получают небольшой вес, а те, у которых меньшая дисперсия, получают бо́льший вес.
Таким образом, когда веса возведены в квадрат, это позволяет снизить влияние остатков с большой дисперсией.
Когда используются правильные веса, гетероскедастичность заменяется гомоскедастичностью. Но как найти правильный вес? Один из быстрых способов – использовать инверсию этой переменной в качестве веса (население города превратится в дробь 1/n, где n – число жителей).
Трансформация
Преобразование данных – последнее средство, поскольку при этом вы теряете интерпретируемость функции. Это означает, что вы больше не сможете легко объяснить, что показывает признак. Один из способов – взятие логарифма. Воспринять новые значения высоты дерева (например, 16 метров превратятся в ≈2.772) будет сложнее.
Фото: @sorasagano
Автор оригинальной статьи: Pavan Vadapalli
What Is Homoskedastic?
Homoskedastic (also spelled «homoscedastic») refers to a condition in which the variance of the residual, or error term, in a regression model is constant. That is, the error term does not vary much as the value of the predictor variable changes. Another way of saying this is that the variance of the data points is roughly the same for all data points.
This suggests a level of consistency and makes it easier to model and work with the data through regression; however, the lack of homoskedasticity may suggest that the regression model may need to include additional predictor variables to explain the performance of the dependent variable.
Key Takeaways
- Homoskedasticity occurs when the variance of the error term in a regression model is constant.
- If the variance of the error term is homoskedastic, the model was well-defined. If there is too much variance, the model may not be defined well.
- Adding additional predictor variables can help explain the performance of the dependent variable.
- Oppositely, heteroskedasticity occurs when the variance of the error term is not constant.
How Homoskedasticity Works
Homoskedasticity is one assumption of linear regression modeling and data of this type works well with the least squares method. If the variance of the errors around the regression line varies much, the regression model may be poorly defined.
The opposite of homoskedasticity is heteroskedasticity just as the opposite of «homogenous» is «heterogeneous.» Heteroskedasticity (also spelled “heteroscedasticity”) refers to a condition in which the variance of the error term in a regression equation is not constant.
Special Considerations
A simple regression model, or equation, consists of four terms. On the left side is the dependent variable. It represents the phenomenon the model seeks to «explain.» On the right side are a constant, a predictor variable, and a residual, or error, term. The error term shows the amount of variability in the dependent variable that is not explained by the predictor variable.
Example of Homoskedastic
For example, suppose you wanted to explain student test scores using the amount of time each student spent studying. In this case, the test scores would be the dependent variable and the time spent studying would be the predictor variable.
The error term would show the amount of variance in the test scores that was not explained by the amount of time studying. If that variance is uniform, or homoskedastic, then that would suggest the model may be an adequate explanation for test performance—explaining it in terms of time spent studying.
But the variance may be heteroskedastic. A plot of the error term data may show a large amount of study time corresponded very closely with high test scores but that low study time test scores varied widely and even included some very high scores.
So the variance of scores would not be well-explained simply by one predictor variable—the amount of time studying. In this case, some other factor is probably at work, and the model may need to be enhanced in order to identify it or them.
When considering that variance is the measured difference between the predicted outcome and the actual outcome of a given situation, determining homoskedasticity can help to determine which factors need to be adjusted for accuracy.
Further investigation may reveal that some students had seen the answers to the test ahead of time or that they had previously taken a similar test, and therefore didn’t need to study for this particular test. For that matter, it may just turn out that students had different levels of test passing abilities independent of their study time and their performance on previous tests, regardless of the subject.
To improve on the regression model, the researcher would have to try out other explanatory variables that could provide a more accurate fit to the data. If, for example, some students had seen the answers ahead of time, the regression model would then have two explanatory variables: time studying, and whether the student had prior knowledge of the answers.
With these two variables, more of the variance of the test scores would be explained and the variance of the error term might then be homoskedastic, suggesting that the model was well-defined.
What Does Heteroskedasticity Mean?
Heteroskedasticity in statistics is the error variance. This is the dependence of scattering that occurs within a sample with a minimum of one independent variable. This means that the standard deviation of a predictable variable is non-constant.
How Can You Tell If a Regression Is Homoskedastic?
You can tell if a regression is homoskedastic by looking at the ratio between the largest variance and the smallest variance. If the ratio is 1.5 or smaller, then the regression is homoskedastic.
Why Is Homoskedasticity Important?
Homoskedasticity is important because it identifies dissimilarities in a population. Any variance in a population or sample that is not even will produce results that are skewed or biased, making the analysis incorrect or worthless.
Линейная регрессия — одна из самых простых и известных моделей машинного обучения с учителем. В линейной регрессии переменная отклика (зависимая переменная) моделируется как линейная функция от характеристик (независимых переменных). Линейная регрессия основана на нескольких важных предположениях, которые не могут быть выполнены в некоторых приложениях. В этой статье мы рассмотрим одну из основных ловушек линейной регрессии: гетероскедастичность.
Модель линейной регрессии
Начнем с математической модели линейной регрессии. Предположим, имеется m наблюдений и n функций. Модель линейной регрессии выражается как
где y — переменная ответа, x — вектор признаков (n +1) × 1, w — (n +1) × 1 вектор, содержащий коэффициенты регрессии, а e представляет ошибку наблюдения. Обратите внимание, что первый элемент вектора x равен 1, чтобы представить перехват (или смещение):
Модель линейной регрессии также может быть записана в матричной форме как
где X — матрица признаков размером m × (n +1), y — вектор ответа из m × 1 и e — вектор m × 1, представляющий ошибки наблюдения. Можно показать, что коэффициент линейной регрессии оценивается как
Обратите внимание, что первый элемент w представляет собой оценку перехвата.
Предположения
Линейная регрессия основана на нескольких важных предположениях:
- Линейность: означает, что зависимая переменная имеет линейную связь с независимыми переменными.
- Нормальность: означает, что ошибки наблюдения имеют нормальное распределение.
- Независимость: означает, что ошибки наблюдения не зависят друг от друга.
- Гомоскедастичность: означает, что ошибки наблюдения не являются функцией переменной ответа, и их дисперсия постоянна для всех наблюдений.
- Низкая мультиколлинеарность: означает, что независимые переменные слабо коррелированы друг с другом.
Во многих случаях с реальными данными было бы трудно удовлетворить все эти предположения. Это не обязательно означает, что вы не можете использовать линейную регрессию. Однако, если какое-либо из этих предположений не выполняется, нельзя ожидать оптимальной производительности, и вывод коэффициентов модели может быть неточным. В этой статье мы сосредоточимся на предположении 4.
Гомоскедастичность
Линейная регрессия предполагает, что ошибки наблюдения внутри e являются независимыми и одинаково распределенными (i.i.d) нормальными случайными величинами (предположения 2, 3 и 4). Математически это условие можно представить как
где C — ковариационная матрица ошибки наблюдения, I — единичная матрица, а E — ожидаемое значение. Другими словами, ковариационная матрица e имеет вид
Диагональные элементы ковариационной матрицы представляют собой дисперсию каждой ошибки наблюдения, и все они одинаковы, потому что ошибки одинаково распределены. Недиагональные элементы представляют собой ковариацию между двумя ошибками наблюдения, и все они равны нулю, поскольку ошибки статистически независимы. Это состояние называется гомоскедастичностью.
Гетероскедастичность
В некоторых приложениях гомоскедастичность не гарантируется, и ошибки наблюдения фактически не распределяются одинаково (хотя мы по-прежнему предполагаем, что они независимы). В этом случае ковариационная матрица ошибок наблюдения представляется в виде
где диагональные элементы не идентичны, и каждое наблюдение имеет свою дисперсию. Отсутствие гомоскедастичности имеет несколько последствий для результатов линейной регрессии. Во-первых, характеристики моделей перестали быть оптимальными. Другими словами, модель не будет иметь самую низкую среднеквадратичную ошибку (MSE). Во-вторых, коэффициенты модели и стандартные ошибки будут неточными, и, следовательно, их выводы и любая основанная на них проверка гипотез будет недействительной.
Обнаружение
Есть много способов определить, имеете ли вы дело с гетероскедастическими или гомоскедастическими данными. Самый простой способ сделать это — построить график остатков линейной модели в сравнении с предсказанными значениями (подобранные значения) и найти какие-либо конкретные закономерности в остатках.
График остатков гомоскедастических данных не показывает определенной закономерности, а значения равномерно распределены по горизонтальной оси. С другой стороны, график остатков гетероскедастических данных показывает дисперсию (вертикальный разброс по горизонтальной оси) изменений остатков для различных прогнозируемых значений.
Взвешенная линейная регрессия
Взвешенная линейная регрессия — это обобщение линейной регрессии, в которой ковариационная матрица ошибок включена в модель. Следовательно, это может быть полезно, когда мы имеем дело с гетероскедастическими данными. Здесь мы используем метод оценки максимального правдоподобия (MLE) для получения решения взвешенной линейной регрессии. MLE — это метод оценки неизвестных параметров путем максимизации функции правдоподобия модели. Переменная ответа y в модели линейной регрессии является многомерной нормальной случайной величиной. Следовательно, MLE может быть получен как
Поскольку функция журнала не убывает, мы можем взять журнал функции правдоподобия. Мы также удаляем все термины, не зависящие от w
что эквивалентно
Расширяя термины внутри круглых скобок и удаляя постоянные члены
Мы оцениваем w, взяв производную указанного выше члена по w и установив ее равной нулю.
Решение его относительно w дает нам решение взвешенной линейной регрессии.
Как видите, решение взвешенной линейной регрессии очень похоже на решение линейной регрессии. Единственное отличие состоит в том, что взвешенная линейная регрессия использует ковариацию ошибок C для нахождения коэффициентов регрессии. Поскольку C — диагональная матрица, ее обратная матрица получается просто заменой диагональных элементов их обратными
Это выражение показывает, что взвешенная линейная регрессия использует разные веса для каждого наблюдения в зависимости от их дисперсии. Если наблюдение имеет большую дисперсию ошибок, оно будет иметь меньшее влияние (из-за малого веса) на окончательное решение и наоборот. Обратите внимание, что если все наблюдения имеют одинаковую дисперсию, приведенное выше выражение будет таким же, как решение линейной регрессии.
Устойчивость к выбросам
Еще одно преимущество взвешенной линейной регрессии — ее устойчивость к выбросам. Взвешенная линейная регрессия может присвоить меньший вес выбросам и, следовательно, уменьшить их влияние на оценку коэффициентов. Выбросы могут быть обнаружены путем построения графика стандартизованного остатка (также называемого стьюдентизированным остатком) в сравнении с прогнозируемыми значениями:
Любое наблюдение с абсолютным стандартизированным остатком больше 3 считается выбросом.
Неизвестная ковариация
Основным недостатком взвешенной линейной регрессии является то, что для поиска решения требуется ковариационная матрица ошибок наблюдения. Во многих приложениях такая информация ранее отсутствовала. В этом случае можно оценить ковариационную матрицу. Есть несколько способов оценить ковариационную матрицу. Здесь представлен один подход:
- Решите линейную регрессию без ковариационной матрицы (или решите взвешенную линейную регрессию, установив C = I, что аналогично линейной регрессии)
- Рассчитать остатки
- Оценить ковариацию по остаткам
- Решите взвешенную линейную регрессию, используя оцененную ковариацию
Пример Python
В этом разделе мы предоставляем фрагмент кода Python для запуска взвешенной линейной регрессии для гетероскедастических данных и сравнения ее с линейной регрессией:
В этом коде мы генерируем набор синтетических данных, где дисперсия ошибки наблюдения является функцией объекта. Фактический наклон и пересечение модели линейной регрессии составляют 5 и 2 соответственно. Сначала мы используем линейную регрессию, чтобы найти остатки и оценить ковариационную матрицу. Затем мы запускаем взвешенную линейную регрессию и находим коэффициенты
На приведенной выше диаграмме показано, что при наличии гетероскедастичности взвешенная линейная регрессия обеспечивает более точную оценку коэффициентов регрессии.
Заключение
В этой статье мы даем краткий обзор взвешенной линейной регрессии. Взвешенная линейная регрессия должна использоваться, когда ошибки наблюдения не имеют постоянной дисперсии и нарушают требование гомоскедастичности линейной регрессии. Основным недостатком взвешенной линейной регрессии является ее зависимость от ковариационной матрицы ошибки наблюдения.
использованная литература
Взвешенный метод наименьших квадратов и робастная регрессия (2021 г.), Статистический факультет Пенсильванского университета.
С. Чаттерджи, А. С. Хади, Регрессионный анализ на примере, 5-е издание (2013 г.), John Wiley & Sons.
С. Кей, Основы статистической обработки, Том I: Теория оценок (1993), Prentice Hall PTR.