Определим случайные ошибки ma mb mrxy

Исследовать зависимость между результатами зимней (Х) и летней (У) сессий.
В таблице приведена средняя оценка, полученная по итогам сессии, а также указана принадлежность студента к группе А или Б.

№ п/п х у Группа
1 3,7 4,8 Б
2 3,5 3,5 Б
3 4,3 5 Б
4 3 4 Б
5 4,6 4,2 Б
6 4,6 4,1 Б
7 3,8 4,8 А
8 3,6 3,5 Б
9 3,3 4,4 Б
10 3,9 3 Б
11 4,7 3,7 Б
12 4,6 4,4 Б
13 4,6 3,8 Б
14 3,3 3,1 Б
15 4,3 3,6 Б
16 3,1 4,8 А
17 3,2 3 А
18 4,2 4,8 А
19 3,3 3,4 Б
20 3,5 4,2 А

1. Построить линейную регрессионную модель У по Х.
2. Проверить значимость коэффициентов уравнения и самого уравнения регрессии.
3. Построить регрессионную модель У по Х с использованием фиктивной переменной «группа».
4. Проверить значимость коэффициентов уравнения и самого уравнения регрессии.
5. Вычислить коэффициенты детерминации для обычной модели и модели с фиктивной переменной.

Решение:

1. Для расчёта параметров а и b линейной регрессии

Уравнение линейной регрессии

необходимо решить систему нормальных уравнений относительно a и b:

Расчёт параметров линейной регрессии

Число наблюдений n = 20.

Построим таблицу исходных и расчётных данных.

Таблица 1 Расчетные данные для оценки линейной регрессии

№ п/п х у х2 у2 х*у Теоретическое значение у Квадрат отклонения  значения расчётного от фактического Квадрат разности фактического значения фактора х от его среднего Группа z
1 3,7 4,8 13,69 23,04 17,76 3,973 0,684 0,024 Б 1
2 3,5 3,5 12,25 12,25 12,25 3,931 0,186 0,126 Б 1
3 4,3 5 18,49 25 21,5 4,098 0,814 0,198 Б 1
4 3 4 9 16 12 3,827 0,030 0,731 Б 1
5 4,6 4,2 21,16 17,64 19,32 4,160 0,002 0,555 Б 1
6 4,6 4,1 21,16 16,81 18,86 4,160 0,004 0,555 Б 1
7 3,8 4,8 14,44 23,04 18,24 3,994 0,650 0,003 А 0
8 3,6 3,5 12,96 12,25 12,6 3,952 0,204 0,065 Б 1
9 3,3 4,4 10,89 19,36 14,52 3,889 0,261 0,308 Б 1
10 3,9 3 15,21 9 11,7 4,014 1,029 0,002 Б 1
11 4,7 3,7 22,09 13,69 17,39 4,181 0,232 0,714 Б 1
12 4,6 4,4 21,16 19,36 20,24 4,160 0,057 0,555 Б 1
13 4,6 3,8 21,16 14,44 17,48 4,160 0,130 0,555 Б 1
14 3,3 3,1 10,89 9,61 10,23 3,889 0,623 0,308 Б 1
15 4,3 3,6 18,49 12,96 15,48 4,098 0,248 0,198 Б 1
16 3,1 4,8 9,61 23,04 14,88 3,848 0,907 0,570 А 0
17 3,2 3 10,24 9 9,6 3,868 0,754 0,429 А 0
18 4,2 4,8 17,64 23,4 20,16 4,077 0,523 0,119 А 0
19 3,3 3,4 10,89 11,56 11,22 3,889 0,239 0,308 Б 1
20 3,5 4,2 12,25 17,64 14,7 3,930 0,072 0,126 А 0
Итого: 77,1 80,1 303,67 328,73 310,13 80,1 7,649 6,45 х 15
Среднее: 3,855 4,005 15,184 16,4365 15,5065 х х х х х
Дисперсия 0,322 0,396 х х х х х х х х
Среднее квадратическое значение 0,568 0,630 х х х х х х х х

Среднее значение определим по формуле:

Формула среднего значения х

Среднее квадратическое отклонение рассчитаем по формуле:

Формула сренего квадратического отклонения

Возведя в квадрат полученное значение, получим дисперсию:

Формула дисперсии

Параметры уравнения можно определить также и по формулам:

Формула и расчёт коэффициента регрессии

Формула и расчёт параметра а

Таким образом, уравнение регрессии имеет вид:

 Уравнение линейной регрессии

Следовательно, с повышением средней оценки, полученной по итогам зимней сессии, на один балл, средняя оценка по итогам летней сессии увеличивается в среднем на 0,2085.

2. Рассчитаем линейный коэффициент парной корреляции:

Коэффициент корреляции

Связь очень слабая, практически отсутствует.

Определим коэффициент детерминации:

Коэффициент детерминации

Вариация результата на 3,53% объясняется вариацией фактора х. На долю других, не учтённых в модели факторов, приходится 96,47%. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчётные) значения Теоретическое значение у.
Так как Равенство суммы фактических и теоретических значений, следовательно, параметры уравнения определены верно.

3. Проверим значимость коэффициентов уравнения и самого уравнения регрессии.

Оценку качества уравнения регрессии проведём с помощью F-критерия Фишера.
F-критерий состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.
Fфакт определяется по формуле:

Формула F-критерия

где n – число единиц совокупности;
m – число параметров при переменных х.

Фактическое значение F-критерия Фишера

Сравнение фактического и табличного значения F-критерия

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик принимается и признаётся их статистическая незначимость и ненадёжность.

4. Оценку статистической значимости коэффициентов регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н0 о статистически незначимом отличии показателей от нуля: a = b = rxy = 0.
tтабл = 2,1 для числа степеней свободы df = n – 2 = 18 и α = 0,05.

Определим случайные ошибки ma, mb, mrxy:

Формула и расчёт стандартной ошибки коэффициента регрессии

Формула и расчёт стандартной ошибки параметра а

Фактические значения t-статистики определим по формулам:

Формула и расчёт t-статистики

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

1) Формула t-критерия для коэффициента корреляции

Формула стандартной ошибки коэффициента корреляции – случайная ошибка коэффициента корреляции.

Расчёт t-критерия коэффициента корреляции

2) Кроме того

Формула и расчёт t-критерия для коэффициента корреляции

Сравним фактические значения t-статистики с табличными значениями.

Сравнение фактического и табличного t-критерия

Так как фактическое значение t-критерия для коэффициента а превышает табличное, следовательно, гипотезу о несущественности коэффициента а можно отклонить.

Сравнение фактического и табличного t-критерия

Величина t-критерия для коэффициента регрессии меньше табличного и совпадает с величиной tr.
Следовательно, полученная линейная зависимость является недостоверной.

5. По 20 наблюдениям уравнение линейной регрессии (без учёта принадлежности студента к группе А или Б) составило:

Уравнение линейной регрессии

Введём в уравнение регрессии фиктивную переменную z для отражения принадлежности студента к группе, а именно: z = 1, для группы Б и z = 0 для группы А. Уравнение регрессии примет вид:
уxz = a + b*x + c*z + ɛ
Применяя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:

Система нормальных уравнений для двух факторов

В виду того, что z принимает лишь два значения (1 и 0), Σz = n1 = 15 (число студентов группы Б), Σх*z =Σх1 =59,3 (сумма х по группе Б), Σz2 =Σz =15, Σy*z =Σy1 =58,5 (сумма у по группе Б).

Тогда система нормальных уравнений примет вид:

Решение системы уравнений

Решая её, получим уравнение регрессии:

Уравнение регрессии с фиктивной переменной

6. Найдём индекс детерминации для данной модели по формуле:

Формула индекса детерминации

Добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объяснённой вариации выросла с 3,53% (Коэффициент детерминации) до 16,6% (Rухz2 = 0,166). Но, не смотря на это, связь между признаками остаётся слабой.

7. Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера:

 Формула и расчёт F-критерия

Сравнение фактического и табличного F-критерия

Так как фактическое значение F-критерия меньше табличного, то уравнение статистически не значимо.

8. Оценка значимости коэффициентов регрессии производится, как и в парной регрессии по t-критерию Стьюдента, по формуле:

t-критерий Стьюдента

где bi – величина параметра регрессии (в наших обозначениях это a, b и с)

a = 3,129; b = 0,335; с = — 0,5516;

ma = 0,9578; mb = 0,2574; mc = 0,3376;

ta = 3,266; tb = 1,3; tc = -1,634.

Величина t-статистики коэффициентов регрессии b и c меньше табличного tтабл.=2,1 при уровне значимости α 0,05, что свидетельствует о случайной природе взаимосвязи, о статистической ненадёжности всего уравнения.

Таким образом, уравнение в целом незначимо и ненадёжно и не может использоваться в дальнейшем для анализа и прогноза.

Исследовать зависимость между результатами зимней (Х) и летней (У) сессий.
В таблице приведена средняя оценка, полученная по итогам сессии, а также указана принадлежность студента к группе А или Б.

№ п/п х у Группа
1 3,7 4,8 Б
2 3,5 3,5 Б
3 4,3 5 Б
4 3 4 Б
5 4,6 4,2 Б
6 4,6 4,1 Б
7 3,8 4,8 А
8 3,6 3,5 Б
9 3,3 4,4 Б
10 3,9 3 Б
11 4,7 3,7 Б
12 4,6 4,4 Б
13 4,6 3,8 Б
14 3,3 3,1 Б
15 4,3 3,6 Б
16 3,1 4,8 А
17 3,2 3 А
18 4,2 4,8 А
19 3,3 3,4 Б
20 3,5 4,2 А

1. Построить линейную регрессионную модель У по Х.
2. Проверить значимость коэффициентов уравнения и самого уравнения регрессии.
3. Построить регрессионную модель У по Х с использованием фиктивной переменной «группа».
4. Проверить значимость коэффициентов уравнения и самого уравнения регрессии.
5. Вычислить коэффициенты детерминации для обычной модели и модели с фиктивной переменной.

Решение:

1. Для расчёта параметров а и b линейной регрессии

Уравнение линейной регрессии

необходимо решить систему нормальных уравнений относительно a и b:

Расчёт параметров линейной регрессии

Число наблюдений n = 20.

Построим таблицу исходных и расчётных данных.

Таблица 1 Расчетные данные для оценки линейной регрессии

№ п/п х у х2 у2 х*у Теоретическое значение у Квадрат отклонения значения расчётного от фактического Квадрат разности фактического значения фактора х от его среднего Группа z
1 3,7 4,8 13,69 23,04 17,76 3,973 0,684 0,024 Б 1
2 3,5 3,5 12,25 12,25 12,25 3,931 0,186 0,126 Б 1
3 4,3 5 18,49 25 21,5 4,098 0,814 0,198 Б 1
4 3 4 9 16 12 3,827 0,030 0,731 Б 1
5 4,6 4,2 21,16 17,64 19,32 4,160 0,002 0,555 Б 1
6 4,6 4,1 21,16 16,81 18,86 4,160 0,004 0,555 Б 1
7 3,8 4,8 14,44 23,04 18,24 3,994 0,650 0,003 А 0
8 3,6 3,5 12,96 12,25 12,6 3,952 0,204 0,065 Б 1
9 3,3 4,4 10,89 19,36 14,52 3,889 0,261 0,308 Б 1
10 3,9 3 15,21 9 11,7 4,014 1,029 0,002 Б 1
11 4,7 3,7 22,09 13,69 17,39 4,181 0,232 0,714 Б 1
12 4,6 4,4 21,16 19,36 20,24 4,160 0,057 0,555 Б 1
13 4,6 3,8 21,16 14,44 17,48 4,160 0,130 0,555 Б 1
14 3,3 3,1 10,89 9,61 10,23 3,889 0,623 0,308 Б 1
15 4,3 3,6 18,49 12,96 15,48 4,098 0,248 0,198 Б 1
16 3,1 4,8 9,61 23,04 14,88 3,848 0,907 0,570 А 0
17 3,2 3 10,24 9 9,6 3,868 0,754 0,429 А 0
18 4,2 4,8 17,64 23,4 20,16 4,077 0,523 0,119 А 0
19 3,3 3,4 10,89 11,56 11,22 3,889 0,239 0,308 Б 1
20 3,5 4,2 12,25 17,64 14,7 3,930 0,072 0,126 А 0
Итого: 77,1 80,1 303,67 328,73 310,13 80,1 7,649 6,45 х 15
Среднее: 3,855 4,005 15,184 16,4365 15,5065 х х х х х
Дисперсия 0,322 0,396 х х х х х х х х
Среднее квадратическое значение 0,568 0,630 х х х х х х х х

Среднее значение определим по формуле:

Формула среднего значения х

Среднее квадратическое отклонение рассчитаем по формуле:

Формула сренего квадратического отклонения

Возведя в квадрат полученное значение, получим дисперсию:

Формула дисперсии

Параметры уравнения можно определить также и по формулам:

Формула и расчёт коэффициента регрессии

Формула и расчёт параметра а

Таким образом, уравнение регрессии имеет вид:

 Уравнение линейной регрессии

Следовательно, с повышением средней оценки, полученной по итогам зимней сессии, на один балл, средняя оценка по итогам летней сессии увеличивается в среднем на 0,2085.

2. Рассчитаем линейный коэффициент парной корреляции:

Коэффициент корреляции

Связь очень слабая, практически отсутствует.

Определим коэффициент детерминации:

Коэффициент детерминации

Вариация результата на 3,53% объясняется вариацией фактора х. На долю других, не учтённых в модели факторов, приходится 96,47%. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчётные) значения Теоретическое значение у.
Так как Равенство суммы фактических и теоретических значений, следовательно, параметры уравнения определены верно.

3. Проверим значимость коэффициентов уравнения и самого уравнения регрессии.

Оценку качества уравнения регрессии проведём с помощью F-критерия Фишера.
F-критерий состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.
Fфакт определяется по формуле:

Формула F-критерия

где n – число единиц совокупности;
m – число параметров при переменных х.

Фактическое значение F-критерия Фишера

Сравнение фактического и табличного значения F-критерия

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик принимается и признаётся их статистическая незначимость и ненадёжность.

4. Оценку статистической значимости коэффициентов регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н0 о статистически незначимом отличии показателей от нуля: a = b = rxy = 0.
tтабл = 2,1 для числа степеней свободы df = n – 2 = 18 и α = 0,05.

Определим случайные ошибки ma, mb, mrxy:

Формула и расчёт стандартной ошибки коэффициента регрессии

Формула и расчёт стандартной ошибки параметра а

Фактические значения t-статистики определим по формулам:

Формула и расчёт t-статистики

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

1) Формула t-критерия для коэффициента корреляции

Формула стандартной ошибки коэффициента корреляции – случайная ошибка коэффициента корреляции.

Расчёт t-критерия коэффициента корреляции

2) Кроме того

Формула и расчёт t-критерия для коэффициента корреляции

Сравним фактические значения t-статистики с табличными значениями.

Сравнение фактического и табличного t-критерия

Так как фактическое значение t-критерия для коэффициента а превышает табличное, следовательно, гипотезу о несущественности коэффициента а можно отклонить.

Сравнение фактического и табличного t-критерия

Величина t-критерия для коэффициента регрессии меньше табличного и совпадает с величиной tr.
Следовательно, полученная линейная зависимость является недостоверной.

5. По 20 наблюдениям уравнение линейной регрессии (без учёта принадлежности студента к группе А или Б) составило:

Уравнение линейной регрессии

Введём в уравнение регрессии фиктивную переменную z для отражения принадлежности студента к группе, а именно: z = 1, для группы Б и z = 0 для группы А. Уравнение регрессии примет вид:
уxz = a + b*x + c*z + ɛ
Применяя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:

Система нормальных уравнений для двух факторов

В виду того, что z принимает лишь два значения (1 и 0), Σz = n1 = 15 (число студентов группы Б), Σх*z =Σх1 =59,3 (сумма х по группе Б), Σz2 =Σz =15, Σy*z =Σy1 =58,5 (сумма у по группе Б).

Тогда система нормальных уравнений примет вид:

Решение системы уравнений

Решая её, получим уравнение регрессии:

Уравнение регрессии с фиктивной переменной

6. Найдём индекс детерминации для данной модели по формуле:

Формула индекса детерминации

Добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объяснённой вариации выросла с 3,53% (Коэффициент детерминации) до 16,6% (Rухz2 = 0,166). Но, не смотря на это, связь между признаками остаётся слабой.

7. Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера:

 Формула и расчёт F-критерия

Сравнение фактического и табличного F-критерия

Так как фактическое значение F-критерия меньше табличного, то уравнение статистически не значимо.

8. Оценка значимости коэффициентов регрессии производится, как и в парной регрессии по t-критерию Стьюдента, по формуле:

t-критерий Стьюдента

где bi – величина параметра регрессии (в наших обозначениях это a, b и с)

a = 3,129; b = 0,335; с = — 0,5516;

ma = 0,9578; mb = 0,2574; mc = 0,3376;

ta = 3,266; tb = 1,3; tc = -1,634.

Величина t-статистики коэффициентов регрессии b и c меньше табличного tтабл.=2,1 при уровне значимости α 0,05, что свидетельствует о случайной природе взаимосвязи, о статистической ненадёжности всего уравнения.

Таким образом, уравнение в целом незначимо и ненадёжно и не может использоваться в дальнейшем для анализа и прогноза.

Задача 1.1.

По районам региона приводятся данные за 200Х г. (табл. 1.1).

Таблица 1.6

Номер района

Среднедушевой прожиточный минимум в день одного трудоспособного, руб., Х

Среднедневная заработная плата, руб., У

1

78

133

2

82

148

3

87

134

4

79

154

5

89

162

6

106

195

7

67

139

8

88

158

9

73

152

10

87

162

11

76

159

12

115

173

Требуется:

1. Построить линейное уравнение парной регрессии у от х.

2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость параметров регрессии и корреляции.

4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение:

1. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу (табл. 1.2).

;

Таблица 1.2

Х

У

Xy

X2

Y2

YI

1

78

133

10374

6084

17689

149

-16

11,84962

2

82

148

12136

6724

21904

152

-4

3

3

87

134

11658

7569

17956

157

-23

17,19403

4

79

154

12166

6241

23716

150

4

2,805195

5

89

162

14418

7921

26244

159

3

1,925926

6

106

195

20670

11236

38025

175

20

10,50256

7

67

139

9313

4489

19321

139

0

0,258993

8

88

158

13904

7744

24964

158

0

0,025316

9

73

152

11096

5329

23104

144

8

5,157895

10

87

162

14094

7569

26244

157

5

3,061728

11

76

159

12084

5776

25281

147

12

7,597484

12

115

173

19895

13225

29929

183

-10

5,66474

Итого

1027

1869

161808

89907

294377

69,0435

Среднее

Значение

85,6

156

13484

7492,25

24531,42

5,753625

S

13,5

17,3

S2

183

298

.

Получено уравнение регрессии: .

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

2. Тесноту линейной связи оценит коэффициент корреляции:

; .

Это означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х – среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

.

Качество построенной модели оценивается как хорошее, так как средняя относительная ошибка аппроксимации не превышает 8-10%.

3. Оценку статистической значимости параметров регрессии проведем с помощью t-статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н0 о статистически незначимом отличии показателя от нуля: .

Определим случайные ошибки Ma, mb, :

;

;

.

Тогда

; ;

.

Фактические значения t-статистики превосходят табличные значения:

; ; ,

Поэтому гипотеза Н0 отклоняется, т. е. A, B и Rxy не случайно отличаются от нуля, а статистически значимы.

Рассчитаем доверительный интервал для A и B. Для этого определим предельную ошибку для каждого показателя:

; .

Доверительные интервалы:

;

;

;

;

;

.

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры A и B, находясь в указанных границах, не принимают нулевые значения, т. е. не являются статистики незначимыми и существенно отличаются от нуля.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение промежуточного минимума составит: тыс. руб., тогда прогнозное значение прожиточного минимума составит: тыс. руб.

5. Ошибка прогноза составит:

тыс. руб.

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

.

Доверительный интервал прогноза:

;

руб.;

руб.

Выполненный прогноз среднемесячной заработной платы оказался надежным, но неточным, т. к. диапазон верхней и нижней границ доверительного интервала составляет 1,95 раза (121/62,2).

Задача 1.2.

Зависимость потребления продукта А от среднедушевого дохода по данным 20 семей характеризуется следующим образом:

— уравнение регрессии ;

— индекс корреляции ;

— остаточная дисперсия .

Требуется провести дисперсионный анализ полученных результатов.

Решение:

Результаты дисперсионного анализа приведены в табл. 1.3.

Таблица 1.3

Вариация результата y

Число степеней свободы

Сумма квадратов отклонений, S

Дисперсия на одну степень свободы, D

Fрасч

Fтабл

A=0,05

K1=1,

K2=18

Общая

Df=n-1=19

6,316

Факторная

K1=m=1

5,116

5,116

76,7

4,41

Остаточная

K2=n-m-1=18

1,200

0,0667

;

;

;

.

В силу того, что , гипотеза о случайности различий факторной и остаточной дисперсий отклоняется. Эти различия существенны, статистически значимы, уравнение надежно, значимо, показатель тесноты связи надежен и отражает устойчивую зависимость потребления продукта А от среднедушевого дохода.

< Предыдущая   Следующая >

Регрессионная
статистика

Множественный
R

0,969117127

R-квадрат

0,939188005

Нормированный
R-квадрат

0,929052672

Стандартная
ошибка

0,036690484

Наблюдения

8

Посчитанные
результаты

Множественный
R- индекс корреляции (для парной регрессии
rxy) = 0.969

R-квадрат
— коэффициент детерминации, =0.939

Стандартная
ошибка — стандартная ошибка оценки
=0.036

Наблюдения
— количество наблюдений, n=8

Дисперсионный
анализ

df

SS

MS

F

Значимость
F

Регрессия

1

0,124745

0,124745

92,66475

7,19E-05

Остаток

6

0,008077

0,001346

Итого

7

0,132822

Посчитанные
результаты

df
— число степеней свободы m=1; n-m-1=6; n-1=7.

F-
критерий Фишера=92.66

Коэффициенты

Стандартная
ошибка

t-статистика

Y-пересечение

1,031553029

0,034086

30,26334

Переменная
X 1

-0,493795004

0,051297

-9,62625

Посчитанные
результаты

Коэффициенты-
коэффициенты уравнения регрессии
а=9.11 и b=-5.76

Стандартная
ошибка — стандартные ошибки коэффициентов
уравнения регрессии ma=0.199
и mb=7.261

t-статистика-
t-статистика ta=45.72
и tb=-7.93

ВЫВОД
ОСТАТКА

Наблюдение

Предсказанное
Y

Остатки

1

5,033016453

-2,033016453

2

3,773393274

2,226606726

3

5,340924342

-1,340924342

4

5,956740119

0,043259881

5

5,610343744

-1,610343744

6

6,156464154

1,843535846

7

6,418601951

-0,418601951

8

6,957440756

2,042559244

9

7,49627956

1,50372044

10

7,256795647

-2,256795647

Посчитанные
результаты

Предсказанное
Y – значения результирующего показателя,
рассчитанные по построенной модели;

Остатки
– разность между фактическими и
предсказанными значениями результирующего
показателя Y
.

y*

y-y*

2,713517046

0,386483

5,274332794

-0,17433

6,234638699

-0,33464

6,810822243

-0,71082

7,057758047

0,142242

7,194944605

0,905055

4,314026888

-0,51403

4,999959678

0,30004

Для определения
наилучшей модели составим сравнительную
таблицу:

Модель

Коэффициент

детерминации

F-критерий

Фишера

Индекс

корреляции

Средняя
относительная ошибка

линейная

0,915715696

65,1876319

0,956930351

0%

Степенная

0,923752509

72,69111418

0,961120445

7%

гиперболическая

0,939188005

92,66474522

-0,969117127

8%

Наибольшее значение
коэффициента детерминации и критерия
Фишера имеет гиперболическая модель,
ее берем в качестве наилучшей.

По линейной модели
делаем прогноз выпуска готовой продукции
при прогнозном значении вооруженности
предприятия.

Определяем
случайные ошибки ma,
mb,
mrxy:

ma
=
6,66

mb
=
7,18

mrxy
=
0,2

Далее

ta
= 136867602

tb
= -0,802473

trxy
= -9,626253

Сравниваем
фактическое значение t-статистики
с табличным значением:

ta
= 136867602.6 > tтабл=2,45;
tb
= -0.802 < tтабл=2,45;
trxy
= 9.63 > tтабл=2,45,
получаем что параметры a,
b,
r
xy
статистически не значимы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Всероссийский
заочный финансово-экономический институт

Ярославский филиал

Аудиторная работа

по Эконометрике

Вариант 13

Выполнили:

г. Ярославль

2006

Условие задачи:

По данным о потребительских
расходах на товар (продукты питания, одежду и обувь, жилье, книги, образование
– у) и располагаемых (совокупных) личных доходах (х), с использованием
приложения EXCEL:

1.    
Построить модель линейной парной регрессии.

2.    
Оценить качество полученной модели.

3.    
Построить точечный и интервальный прогноз на один шаг.

Исходные
данные:

х

3544.8

3576

3668.8

3905.3

4009.3

4135.8

4170.8

4316.3

4393.2

у

497.8

500.9

511.8

531.8

551.1

565.5

583.4

600.9

614.6

Задания по
аудиторной работе:

1.          
Построить модель линейной парной регрессии:

1.1.   Построить линейную регрессию
вида ух= а + b*x. Дать интерпретацию
коэффициента регрессии b.

1.2.   Построить линейную регрессию
вида уt = а0 + b0* t, где t –
фактор времени t = n;  n – номер наблюдения.   Дать интерпретацию коэффициента регрессии b0.

1.3.    Определить значения коэффициентов корреляции ryx и ryt    и
соответственно коэффициентов детерминации R2 yx   и   R2 yt.

1.4.   Сравнить полученные в
пунктах 1.1. и 1.2. модели регрессии по значениям коэффициентов детерминации R2. Сделать вывод.

2.          
Оценить качество регрессионной модели вида ух = а + b*x,
полученной  в пункте 1.1.

2.1.   Оценить статистическую
значимость уравнения  линейной парной
регрессии по F – критерию Фишера.

2.2.   Оценить статистическую
значимость коэффициентов уравнения регрессии a  и  b,
вычислив значения:

                —  t – критерия Стьюдента;

                —  доверительных интервалов для
коэффициентов   регрессии a  и  b при 5%
уровне значимости, α=5%.

2.3. Вычислить среднюю
ошибку аппроксимации .

2.4. По показателям
адекватности и точности сделать выводы о качестве полученной  модели 
и её    пригодности для
прогнозирования.

3.  Выполнить
прогнозирование на один шаг вперед, используя полученную в п. 1.1. модель вида
ух = а + b*x  .

 3.1. Рассчитать значение точечного прогноза упр.

  3.1.1. Рассчитать прогнозное значение фактора
хпр.

 a) Построить временной ряд хt по
фактическим данным, используя встроенные функции «Мастер диаграмм» и «График».

 б) Аппроксимировать полученный временной
ряд  функциями:

          — линейной;

        — 
степенной;

      — полиномиальной (второй степени),

используя встроенные функции
EXCEL: «Диаграмма», «Добавить линию тренда», 
«Линейная», «Степенная», «Полиномиаль­ная» (второй степени), с выводом
вида уравнения регрессия на диаграмме и значения коэффициента детерминации R2.

 в) Выбрать по максимальному значению
коэффициента детерминации R2 функцию, наилучшим образом
аппроксимирующую исходные данные хt, и по ней рассчитать
прогнозное значение фактора хпрt(n+1), где n —  последний номер наблюдений.

 3.1.2. Рассчитать значение точечного прогноза
упр по уравнению ух = а + b*x  (см. п. 1.1.), при значении х=хпр.

3.2. Рассчитать значения интервального прогноза для
уровня значимости 5%,   α=5%.

4. На рисунке в координатах Х0У привести:

         —
исходные данные (хi; уi);

         — график линейной регрессии вида ух =
а + b*x, полученной в 
п. 1.1.;

         —
значение точечного   прогноза на один шаг
вперед и соответствующие значения интервального прогноза.

5. Сделать общий вывод по результатам исследования.

Решение:

1. Построим линейные модели
парной регрессии.

1.1.
Линейная регрессия вида ух= а + b*x


Определим значения
параметров a и b линейной модели:


Уравнение линейной
регрессии имеет вид:

С
увеличением располагаемых личных доходов, потребительские расходы на товары
увеличатся в среднем на 13,6.

1.2.
Линейная регрессия вида уt = а0 + b0* t

Определим
значения параметров a0 и b0 линейной модели:


Уравнение линейной
регрессии имеет вид:

С
увеличением времени, потребительские расходы на товары увеличатся в среднем на 1573,5.


1.3. Определим
линейные коэффициенты парной корреляции ryx и ryt:

Определим
коэффициенты детерминации R2 yx   и   R2 yt    :

R2 =r2



1.4. Большее значение
коэффициента детерминации имеет линейная модель

Поэтому
модель более точная и лучше по качеству для построения прогноза.

2.
Оценка
качества модели  ух = а + b*x

2.1. Проверку значимости произведем на основе
вычислений F-критерия Фишера.

Т.
к. Fрас>Fтабл, уравнение регрессии
следует признать адекватным.

2.2.
Выдвигаем гипотезу H0 о статистически не значимом отличии показателей от
нуля: a=b=rxy=0.

tтабл(0,05;7)=2,3646

Определим
случайные ошибки ma, mb, mrxy:


Тогда:


Сравнивая фактические
значения t с табличным можно сделать вывод о том, что
параметры b и r не случайно отличаются от
нуля и являются статистически значимыми, 
параметр а статистически незначим (ta<tтабл).

Рассчитаем
доверительный интервал для a и b. Для этого определим
предельную ошибку для каждого показателя:


Доверительные
интервалы:

 

Анализ
верхней и нижней границ доверительных интервалов  приводит к выводу о том, что с вероятностью
0,95 параметр a  принимается
нулевым и является статистически незначимым, а параметр b не
принимает нулевых значений и не является статистически незначимым.

2.3.
Качество модели определяет средняя ошибка аппроксимации:

Ошибка
аппроксимации не превышает 5%, значит модель является очень точной.

2.4.
Модель имеет достаточно большое значение критерия Фишера и коэффициента
детерминации. Модель достаточно точная, её можно взять для построения прогноза.

3. Построение прогноза.

3.1.
Рассчитаем значение точечного прогноза упр.

Строим
временной ряд xt:

Функция
наилучшим образом аппроксимирующая исходные данные  xt

хt=-2,2634t2+136,78t+3356,7

хпрt(10)=-2,2634*102+136,78*10+3356,7=4498,16

упр=12,025+0,136*хпр=12,025+0,136*4498,16=623,77

3.2. Рассчитаем значения
интервального прогноза для уровня значимости 5%,   α=5%.

Ошибка
прогноза составит:


tтабл(0,05;7)=2,3646

Х прог

Хпрог — Хсред

(Хпрог — Хсред)2

Упрог

Sу расч

Дельта

Верхняя граница

Нижняя граница

4498,16

529,26

280116,14

623,77

6,6268

18,9367

642,7067

604,8333

Выполненный прогноз оказался надежным, и достаточно
точным, так как диапазон верхней и нижней границ доверительного интервала
составляет 1,06 раза.        

Задача 1.1.

По районам региона приводятся данные за 200Х г. (табл. 1.1).

Таблица 1.6

Номер района

Среднедушевой прожиточный минимум в день одного трудоспособного, руб., Х

Среднедневная заработная плата, руб., У

1

78

133

2

82

148

3

87

134

4

79

154

5

89

162

6

106

195

7

67

139

8

88

158

9

73

152

10

87

162

11

76

159

12

115

173

Требуется:

1. Построить линейное уравнение парной регрессии у от х.

2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость параметров регрессии и корреляции.

4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение:

1. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу (табл. 1.2).

;

Таблица 1.2

Х

У

Xy

X2

Y2

YI

1

78

133

10374

6084

17689

149

-16

11,84962

2

82

148

12136

6724

21904

152

-4

3

3

87

134

11658

7569

17956

157

-23

17,19403

4

79

154

12166

6241

23716

150

4

2,805195

5

89

162

14418

7921

26244

159

3

1,925926

6

106

195

20670

11236

38025

175

20

10,50256

7

67

139

9313

4489

19321

139

0

0,258993

8

88

158

13904

7744

24964

158

0

0,025316

9

73

152

11096

5329

23104

144

8

5,157895

10

87

162

14094

7569

26244

157

5

3,061728

11

76

159

12084

5776

25281

147

12

7,597484

12

115

173

19895

13225

29929

183

-10

5,66474

Итого

1027

1869

161808

89907

294377

69,0435

Среднее

Значение

85,6

156

13484

7492,25

24531,42

5,753625

S

13,5

17,3

S2

183

298

.

Получено уравнение регрессии: .

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

2. Тесноту линейной связи оценит коэффициент корреляции:

; .

Это означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х – среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

.

Качество построенной модели оценивается как хорошее, так как средняя относительная ошибка аппроксимации не превышает 8-10%.

3. Оценку статистической значимости параметров регрессии проведем с помощью t-статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н0 о статистически незначимом отличии показателя от нуля: .

Определим случайные ошибки Ma, mb, :

;

;

.

Тогда

; ;

.

Фактические значения t-статистики превосходят табличные значения:

; ; ,

Поэтому гипотеза Н0 отклоняется, т. е. A, B и Rxy не случайно отличаются от нуля, а статистически значимы.

Рассчитаем доверительный интервал для A и B. Для этого определим предельную ошибку для каждого показателя:

; .

Доверительные интервалы:

;

;

;

;

;

.

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры A и B, находясь в указанных границах, не принимают нулевые значения, т. е. не являются статистики незначимыми и существенно отличаются от нуля.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение промежуточного минимума составит: тыс. руб., тогда прогнозное значение прожиточного минимума составит: тыс. руб.

5. Ошибка прогноза составит:

тыс. руб.

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

.

Доверительный интервал прогноза:

;

руб.;

руб.

Выполненный прогноз среднемесячной заработной платы оказался надежным, но неточным, т. к. диапазон верхней и нижней границ доверительного интервала составляет 1,95 раза (121/62,2).

Задача 1.2.

Зависимость потребления продукта А от среднедушевого дохода по данным 20 семей характеризуется следующим образом:

— уравнение регрессии ;

— индекс корреляции ;

— остаточная дисперсия .

Требуется провести дисперсионный анализ полученных результатов.

Решение:

Результаты дисперсионного анализа приведены в табл. 1.3.

Таблица 1.3

Вариация результата y

Число степеней свободы

Сумма квадратов отклонений, S

Дисперсия на одну степень свободы, D

Fрасч

Fтабл

A=0,05

K1=1,

K2=18

Общая

Df=n-1=19

6,316

Факторная

K1=m=1

5,116

5,116

76,7

4,41

Остаточная

K2=n-m-1=18

1,200

0,0667

;

;

;

.

В силу того, что , гипотеза о случайности различий факторной и остаточной дисперсий отклоняется. Эти различия существенны, статистически значимы, уравнение надежно, значимо, показатель тесноты связи надежен и отражает устойчивую зависимость потребления продукта А от среднедушевого дохода.

< Предыдущая   Следующая >

Регрессионная
статистика

Множественный
R

0,969117127

R-квадрат

0,939188005

Нормированный
R-квадрат

0,929052672

Стандартная
ошибка

0,036690484

Наблюдения

8

Посчитанные
результаты

Множественный
R- индекс корреляции (для парной регрессии
rxy) = 0.969

R-квадрат
— коэффициент детерминации, =0.939

Стандартная
ошибка — стандартная ошибка оценки
=0.036

Наблюдения
— количество наблюдений, n=8

Дисперсионный
анализ

df

SS

MS

F

Значимость
F

Регрессия

1

0,124745

0,124745

92,66475

7,19E-05

Остаток

6

0,008077

0,001346

Итого

7

0,132822

Посчитанные
результаты

df
— число степеней свободы m=1; n-m-1=6; n-1=7.

F-
критерий Фишера=92.66

Коэффициенты

Стандартная
ошибка

t-статистика

Y-пересечение

1,031553029

0,034086

30,26334

Переменная
X 1

-0,493795004

0,051297

-9,62625

Посчитанные
результаты

Коэффициенты-
коэффициенты уравнения регрессии
а=9.11 и b=-5.76

Стандартная
ошибка — стандартные ошибки коэффициентов
уравнения регрессии ma=0.199
и mb=7.261

t-статистика-
t-статистика ta=45.72
и tb=-7.93

ВЫВОД
ОСТАТКА

Наблюдение

Предсказанное
Y

Остатки

1

5,033016453

-2,033016453

2

3,773393274

2,226606726

3

5,340924342

-1,340924342

4

5,956740119

0,043259881

5

5,610343744

-1,610343744

6

6,156464154

1,843535846

7

6,418601951

-0,418601951

8

6,957440756

2,042559244

9

7,49627956

1,50372044

10

7,256795647

-2,256795647

Посчитанные
результаты

Предсказанное
Y – значения результирующего показателя,
рассчитанные по построенной модели;

Остатки
– разность между фактическими и
предсказанными значениями результирующего
показателя Y
.

y*

y-y*

2,713517046

0,386483

5,274332794

-0,17433

6,234638699

-0,33464

6,810822243

-0,71082

7,057758047

0,142242

7,194944605

0,905055

4,314026888

-0,51403

4,999959678

0,30004

Для определения
наилучшей модели составим сравнительную
таблицу:

Модель

Коэффициент

детерминации

F-критерий

Фишера

Индекс

корреляции

Средняя
относительная ошибка

линейная

0,915715696

65,1876319

0,956930351

0%

Степенная

0,923752509

72,69111418

0,961120445

7%

гиперболическая

0,939188005

92,66474522

-0,969117127

8%

Наибольшее значение
коэффициента детерминации и критерия
Фишера имеет гиперболическая модель,
ее берем в качестве наилучшей.

По линейной модели
делаем прогноз выпуска готовой продукции
при прогнозном значении вооруженности
предприятия.

Определяем
случайные ошибки ma,
mb,
mrxy:

ma
=
6,66

mb
=
7,18

mrxy
=
0,2

Далее

ta
= 136867602

tb
= -0,802473

trxy
= -9,626253

Сравниваем
фактическое значение t-статистики
с табличным значением:

ta
= 136867602.6 > tтабл=2,45;
tb
= -0.802 < tтабл=2,45;
trxy
= 9.63 > tтабл=2,45,
получаем что параметры a,
b,
r
xy
статистически не значимы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Предложите, как улучшить StudyLib

(Для жалоб на нарушения авторских прав, используйте

другую форму
)

Ваш е-мэйл

Заполните, если хотите получить ответ

Оцените наш проект

1

2

3

4

5

  • Определение ошибки измерения определение шансов наступления того или иного события 8 класс видеоурок
  • Определился восьмой участник четвертьфинальной дуэли ошибка
  • Определив заслонили ошибку при блокировании судья должен
  • Определение ошибки выборки ошибки регистрации ошибки репрезентативности
  • Определение ошибки xbox 360