Факторы влияющие на величину ошибки выборки

Неточности,
неправильности в статистических данных,
полученных при наблюдении, принято
называть ошибками наблюдения. Эти ошибки
подразделяются на два вида: ошибки
регистрации и ошибки репрезентативности
(представительности наблюдения).

Ошибки
регистрации

– это расхождения между сведениями,
записанными в формуляры наблюдения и
фактическим положением в исследуемой
совокупности.

Ошибки
репрезентативности (представительности)

– это расхождение между характеристиками
выборки и генеральной совокупности.
Ошибка рассчитывается по формуле:

;
.

Ошибки
могут быть систематическими,
если нарушается принцип отбора единиц,
и
случайными
.
Случайные
ошибки объясняются недостаточно
равномерным представлением в выборочной
совокупности различных категорий единиц
генеральной совокупности. В результате
первой причины выборка легко может
оказаться смещенной, так как при отборе
каждой единицы допускается ошибка,
всегда направленная в одну и ту же
сторону. Эта ошибка получила название
ошибки смещения. Ее размер может превышать
величину случайной ошибки. Особенность
ошибки смещения состоит в том, что,
представляя собой постоянную часть
ошибки репрезентативности, она
увеличивается с увеличением объема
выборки. Случайная же ошибка с увеличением
объема выборки уменьшается. Кроме того,
величину случайной ошибки можно
определить, тогда как размер ошибки
смещения непосредственно практически
определить очень сложно, а иногда и
невозможно. Поэтому важно знать причины,
вызывающие ошибку смещения, и предусмотреть
мероприятия по ее устранению.

Систематические
ошибки

подразделяются на преднамеренные и
непреднамеренные. Преднамеренные
– сознательные искажения (приписки).
Непреднамеренные
ошибки – допускаются неумышленно, это
ошибки, связанные с неисправностями
измерительных приборов, пропуском
записей и т.д.

Непреднамеренные
ошибки могут возникать на стадии
подготовки выборочного наблюдения,
формирования выборочной совокупности
и анализа ее данных. Чтобы не допустить
появления таких ошибок, необходима
хорошая основа выборки, Основа выборки
должна быть достоверной, полной и
соответствовать цели исследования, а
единицы отбора и их характеристики
должны соответствовать действительному
их состоянию на момент подготовки
выборочного наблюдения. Нередки случаи,
когда в отношении некоторых ед-ц, попавших
в выборку, трудно собрать сведения из-за
их отсутствия на момент наблюдения,
нежелания дать сведения и т. п. В таких
случаях эти ед приходится заменять др.
Необходимо следить, чтобы замена
осуществлялась равноценными ед.

Случайная
ошибка выборки возникает в результате
случайных различий между ед-ми, попавшими
в выборку, и ед-ми генеральной совокупности,
т. е. она связана со случайным отбором.
случайная ошибка выборки возникает в
результате случайных различий между
ед-ми выборочной и генеральной
совокупностей, при достаточно большом
объеме выборки она будет мала. Различают
среднюю (стандартную) и предельную
ошибку выборки. Под средней (стандартной)
ошибкой выборки понимают расхождение
между средней выборочной и генеральной
совокупностей. Предельной ошибкой
выборки принято считать максимально
возможное расхождение, т. е. максимум
ошибки при заданной вероятности ее
появления.

В
математической теории выборочного
метода сравниваются средние характеристики
признаков выборочной и генеральной
совокупностей и доказывается, что с
увеличением объема выборки вероятность
появления больших ошибок и пределы
максимально возможной ошибки уменьшаются.
Чем больше обследуется единиц, тем
меньше будет величина расхождений
выборочных и генеральных характеристик.

Рассчитывают
2 вида ошибок: среднюю (µ)
и предельную (∆).

Способ
отбора

Средняя
ошибка, µ

для
средней

для
доли

Повторный

Бесповторный

С
заданной вероятностью P(t)
находится предельная ошибка выборки:

;
,

где
t
– коэффициент доверия, определяется
исходя из вероятности исследования; ∆x
– предельная ошибка выборки. На практике
пользуются готовыми таблицами значений.

Доверительные
пределы, в которых следует ожидать
генеральную среднюю:

.

Для
определения необходимой численности
выборки задается уровень точности
выборочной совокупности с определенной
вероятностью. Формула для расчета
необходимой численности выборки
выводится из формулы предельной ошибки.
Поэтому, расчет необходимой численности
выборки будет осуществляться исходя
из способа отбора.

Однако
каждая из формул численности показывает,
что с увеличением предполагаемой ошибки
выборки значительно уменьшается ее
необходимый объем. Кроме того, для
определения численности выборки
необходимо также задать уровень
колеблемости, выражаемый дисперсией
или средним квадратическим отклонением.
Способ выражения качественных признаков
не позволяет рассчитать по ним средние
значения, дисперсию и среднее квадратическое
отклонение, поэтому оценка колеблемости
производится исходя из долей единиц,
обладающих значениями этих признаков,
т.е. выборочных долей.

Если
расчет проводится по качественному
альтернативному признаку и не известна
его доля в генеральной совокупности,
то рекомендуется принять ее равной 0,5.
Именно при этом значении дисперсия доли
достигает своего максимума 0,25.

Заключительным
этапом является распространение
результатов выборочного обследования
на генеральную совокупность. Вывод о
возможности распространения зависит
от полноты выборки. Под полнотой
понимается наличие или представленность
всех типов и групп данной генеральной
совокупности в основе выборки.

Более
точной основой суждения о распространении
результатов является расчет относительной
ошибки: для средней:

;
для доли:

.

Если
величина относительной ошибки не
превышает заранее установленного для
данного обследования предельного
значения, то данные выборочного наблюдения
являются представительными и могут
быть распространены на генеральную
совокупность.

Достоверность
рассчитанных по выборочным данным
характеристик определяется
репрезентативностью выборочной
совокупности, которая зависит от способа
отбора единиц. По виду различают
индивидуальный, групповой и комбинированный
отбор. При индивидуальном отборе в
выборочную совокупность отбираются
отдельные единицы генеральной
совокупности, при групповом – группы
единиц, а при комбинированном отборе
производится сочетание группового и
индивидуального отбора.

Метод
отбора определяет возможность продолжения
участия отобранной единицы в процедуре
отбора.

Бесповторным
называется отбор, при котором попавшая
в выборку единица не возвращается в
генеральную совокупность. При повторном
отборе – попавшая в выборку единица
после регистрации наблюдаемых признаков
возвращается в исходную совокупность
и может снова участвовать в процедуре
отбора.

Для
получения объективных данных при
выборочном обследовании необходимо
иметь достаточное число отобранных
единиц в связи с тем, что размер ошибки
выборки зависит от численности выборочной
совокупности n.

Для
определения необходимой численности
выборки надо знать уровень точности
выборочной совокупности с определенной
вероятностью.

В
общем случае необходимая численность
выборки прямо пропорциональна дисперсии
признака и квадрату коэффициента доверия
t2.

Формула
для расчета необходимой численности
выборки выводится из формулы предельной
ошибки.
Формулы расчета оптимальной
численности выборки

Способ
отбора

Необходима
численность выборки, n

для
средней

для
доли

Повторный

Бесповторный

Конечная
цель выборочного наблюдения заключается
в распространении полученных данных
на генеральную совокупность. Распространение
выборочных результатов на генеральную
совокупность производится с учетом
закона больших чисел, который определяет
с заданной вероятностью предел возможной
ошибки различий средних.

Выборочный
метод чаще всего применяется для
получения характеристик генеральной
совокупности по соответствующим
показателям выборки. В зависимости от
целей исследований это осуществляется
или прямым пересчётом показателей
выборки для генеральной совокупности,
или посредством расчёта поправочных
коэффициентов.

Способ
прямого пересчета

состоит в том, что показатели выборочной
доли w,
или средней х
распространяются на генеральную
совокупность с учетом ошибки выборки.
Применяются формулы:

,

Способ
поправочных коэффициентов

применяется в случаях, когда целью
выборочного метода является уточнение
результатов сплошного учета. Рассчитывается
поправочный коэффициент путем
сопоставления данных контрольного
выборочного наблюдения и показателей
сплошного наблюдения. Затем величина
объема генеральной совокупности
корректируется на поправочный коэффициент.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

7.4. Влияние вида выборки на величину ошибки выборки

Как указывалось в п. 7.2, при проведении выборочного наблюдения используются различные способы формирования выборочной совокупности: случайный отбор — повторный или бесповторный, механический, серийный, типический. Вид выборки влияет на величину ошибки выборки. При бесповторном отборе формула средней ошибки выборки дополняется множителем

который корректирует величину ошибки выборки и в связи с изменением состава совокупности и вероятности попадания единиц в выборку. В серийной выборке дисперсия определяется как колеблемость между сериями:

 (7.14)

где x̌j — среднее значение признака х в у-й серии;

х̅ — среднее значение в целом по выборке;

r — число отобранных серий.

Формула (7.14) предполагает равенство серий по числу единиц, если это условие не выполняется, то в числитель выражения (7.14) вводится вес — число единиц в j-й серии, fj; тогда в  знаменателе указывается не r, а . Межсерийная дисперсия представляет часть общей дисперсии признака х, и потому ее использование направлено на уменьшение ошибки выборки. Однако значение г намного меньше п, так как число отобранных гнезд намного меньше числа единиц наблюдения. Этот фактор увеличивает ошибку выборки. Его действие более значительно, нежели понижающее влияние межсерийной дисперсии — в результате ошибка серийной выборки в среднем больше ошибки выборки при отборе единицами.

При типическом отборе (стратифицированная или районированная выборка) дисперсия рассчитывается как средняя из внутрирайонных дисперсий:

                                                        (7.15′)

где     s2ji — выборочная дисперсия признака х в j-м районе;

                                                              

где     пj — объем выборки в j-м районе;

т — число районов.

Очевидно, что по правилу сложения дисперсий величина s2 меньше, чем величина общей дисперсии.

Величина ошибки районированной выборки меньше величины ошибки простой (нерайонированной выборки).

Часто используется сочетание районированного отбора с отбором сериями. Такой вид выборки обеспечивает преимущества в организации выборки и уменьшение ошибки выборки. Дисперсия такой выборки представляет среднюю из межсерийных дисперсий для каждого j-го района:

                                                            (7.16)

где s2x̌j — межсерийная дисперсия в j-м районе;

 ,

х̌ij — средняя в i-й серии  j-го района;

х̅j — средняя ву-м районе;

r число серий, отобранных в j-м районе;

т — число районов.

Табл. 7.2 содержит формулы средней ошибки выборки для выборочной средней и выборочной относительной величины для разных видов выборки. В приведенных формулах требуют пояснения выражения дисперсий выборочной относительной величины.

При нерайонированной серийной выборке

,

где     рj — доля единиц определенной категории в у-й серии;

р — доля единиц этой категории в выборке.

Таблица 7.2

Формулы средней ошибки выборочной средней и выборочной относительной величины

 

Рассмотрим на примере влияние вида выборки на величину ошибки выборки. Исходные данные представлены в табл. 7.3.

Таблица 7.3

Показатели 60 предприятий легкой промышленности Санкт-Петербурга (по данным статистической отчетности за I полугодие 1995 г.)

пп

Форма

Собственнос-ти

Оборачиваемость

запасов, х1

Коэффициент покрытия, х2

пп

Форма

собственности

Оборачиваемость

запасов, х1

Коэффициент покрытия, х2

1

государственная

5,65

0,22

31

Частная

1,23

1,18

2

«

2,86

0,35

32

«

0,82

1,59

3

«

1,61

1,06

33

«

2,83

0,74

4

«

3,99

1,01

34

«

1,83

1,52

5

«

2,17

8,88

35

«

2,26

2,43

6

«

1,52

1,06

36

«

2,33

3,28

7

«

0,40

0,99

37

«

2,35

1,13

8

«

2,18

1,07

38

«

1,68

0,89

9

«

1,36

4,62

39

«

2,00

1,67

10

«

3,69

1,40

40

«

2,64

1,48

11

частная

0,45

1,34

41

«

2,75

1,51

12

«

1,0

1,16

42

«

3,29

5,96

13

«

2,05

2,00

43

«

1,6

1,38

14

«

2,36

1,43

44

«

            1,90

2,39

15

«

4,90

1,76

45

«

3,27

3,62

16

«

3,12

1,26

46

«

3,49

0,46

17

«

1,36

1,89

47

«

2,92

1,26

18

«

1,56

12,36

48

смешання

3,22

0,78

19

«

4,84

1,23

49

«

2,61

1,67

20

«

1,23

3,26

50

«

5,17

0,95

21

«

0,81

2,22

51

«

8,63

0,96

22

«

0,7

1,16

52

«

1,06

2,51

23

«

0,87

1,21

53

«

2,13

3,49

24

«

0,20

1,45

54

«

2,03

1,22

25

«

1,71

4,04

55

«

1,82

2,92

26

«

1,83

2,07

56

«

3,12

1,54

27

«

1,32

0,69

57

«

0,77

0,97

28

«

1,95

1,97

58

«

4,15

0,93

29

«

1,46

1,31

59

«

3,62

1,34

30

«

2,96

5,32

60

«

3,89

3,51

Предприятия легкой промышленности примем за генеральную совокупность. Ее характеристики:

численность N = 60;

генеральные средние: μ1 = 2,40 число оборотов;

       μ2 = 1,424;

генеральные дисперсии: σ21 = 2,24;

                                          σ22 = 4,38;

средние квадратические σ1 = 1,49 оборотов;

отклонения:                      σ2 = 2,09.

Остановимся на смысле характеристик предприятий: оборачиваемость запасов рассчитывается делением продолжительности периода (полгода) на среднюю продолжительность одного периода оборота запасов. Очевидно, чем скорее оборачиваются запасы, тем выше их отдача. Коэффициент покрытия рассчитывается как отношение суммы всех источников покрытия запасов к стоимости запасов. Если значение этого показателя меньше единицы, то текущее финансовое состояние предприятия рассматривается как неустойчивое. В нашем примере вариация этого признака примерно в 2 раза превосходит вариацию предприятий по уровню оборачиваемости запасов: ν2 = 147%, ν1 = 62%.

Произведем 30%-ную выборку. Объем выборки составит п = 20 предприятий. При формировании выборки методом механического отбора каждое третье предприятие попадет в выборку. Отбор начинаем с полушага отбора, т. е. первым предприятием, попавшим в выборку, является второе по списку. Средние по выборке равны:

оборачиваемость запасов x̅1 =2,16 оборотов, коэффициент покрытия x̅2=2,01.

Средняя ошибка выборочной средней оборачиваемости запасов

   оборотов.

Средняя ошибка выборочного среднего коэффициента покрытия

 

С вероятностью 0,954 можно утверждать, что средняя оборачиваемость запасов на предприятиях легкой промышленности не ниже

x̅1 — 2sx1 = 2,16 — 0,55 = 1,61 оборотов и не выше x̅1+2sx1 = 2,16 +  0,55 = 2,71 оборотов.

Действительно генеральная средняя (μ1 = 2,40) попадает в этот интервал.

Фактическая ошибка репрезентативности

  оборотов.

Эта величина меньше предельной ошибки выборки, гарантированной с принятой доверительной вероятностью, 0,36 < 0,55. Следовательно, выборка репрезентативна по этому признаку.

Вычислим предельную ошибку выборки коэффициента покрытия и определим доверительный интервал для этой характеристики. Его нижняя граница с той же вероятностью

;

верхняя граница:

 

Генеральная средняя (μ2 = 1,424) так же попадает в доверительный интервал.

Фактическая ошибка репрезентативности составляет:

Эта величина меньше предельной ошибки выборки (0,77), что дает основание считать выборку репрезентативной и по этому признаку.

В генеральной совокупности доля единиц с неустойчивым финансовым положением 2 < 1) составила   в выборке  

Доверительный интервал для оценки доли таких предприятий в генеральной совокупности составляет с вероятностью 0,954:

 

0,15 ± 0,076,

т. е. таких предприятий должно быть не меньше 7,4% и не больше 22,6%. Фактически их оказалось 20% от общего числа предприятии, т. е. выборка дает репрезентативный результат и по этому показателю.

Выполненная выборка формировалась как простая бесповторная механическая. Однако, наверняка статистик будет стремиться учесть структуру генеральной совокупности, поэтому  более естественной была бы выборка, учитывающая выделение предприятий разных форм собственности. Тогда выборка должна быть районированной.

Рассмотрим пример. Генеральная совокупность состоит из 11 государственных предприятий, 36 частных, 13 смешанных. В выборке эти пропорции соблюдаются следующим образом: отобраны по 4 предприятия государственных и смешанных и 12 — частных:

Предприятия

Генеральные

характеристики

Выборочные

характеристики

средние

доли

средние

доли

Государственные

 μ= 2.35

π1 = 0,27

х̅1 = 1,92

Р1 = 0,25

Частные

 μ=2,11

π2 = 0,11

х̅1  = 1,79

Р2=0,08

Смешанные

μ1 =3,25

π3 = 0,38

х̅1  =3,51

Рз — 0,25

Средняя из внутрирайонных дисперсий, рассчитанных по каждой группе предприятий в генеральной совокупности:

Эта величина меньше общей дисперсии без учета районирования (σ2 = 2,24). Следовательно, и величина ошибки выборки при районированном отборе будет меньше:

 

Итак, с вероятностью 0,954 генеральная средняя оборачиваемости запасов находится в интервале 2,16 ± 0,294; 1,866 £ μ £ 2,454.

Чтобы понять, насколько целесообразно в том или ином случае применение районированного отбора, можно воспользоваться корреляционным отношением ц. Согласно правилу сложения дисперсий средняя из внутригрупповых дисперсий может быть представлена как

где h2 — квадрат корреляционного отношения, равный б2:s2.

Следовательно, применение районированной (типической) выборки изменяет предельную ошибку на  . В нашем примере для первой переменной (оборачиваемость) имеем:

          

Сопоставим полученный результат с изменением предельной ошибки выборки:  (без учета районирования) =0,55;

x (при районировании) = 0,294, т. е. ошибка уменьшилась примерно вполовину.

Корреляционное отношение используется и при корректировке величины

                                                  (7.18′)

Тогда при вероятности 0,954 и t = 2; t*=2 — Ö0̅,8̅6̅ = 1,85, т. е. вместо t = 2 достаточно взять t = 1,85.

Многие выборки формируются как многоступенчатые. Ошибка многоступенчатой выборки может быть представлена как

Она складывается из ошибок отдельных ступеней. Поэтому практически используется не больше 2-3 ступеней отбора.

Средняя ошибка выборки при двухступенчатом отборе рассчитывается по формуле

где sx1 2 — дисперсия признака х по совокупности «крупных» единиц;

sx22 — дисперсия признака х в каждой из отобранных «крупных» единиц;

пi — число отобранных единиц наблюдения в <-й «крупной» единице;

т — число отобранных «крупных» единиц.

Таким образом, применение многоступенчатой выборки улучшает организацию выборки, но увеличивает ее ошибку.

Кроме рассмотренных, применяется многофазовая выборка, когда одни сведения собираются на основе изучения всех единиц выборки, а другие — только на основании изучения некоторых из этих единиц, отобранных так, что они составляют подвыборки из единиц первоначальной выборки.

При периодическом повторении выборочных обследований с целью изучения динамики явлений применяются либо независимые выборки — через определенные промежутки времени отбор каждый раз производится независимо от предыдущих выборок; либо фиксированные выборки — в этом случае повторные обследования проводятся по одной и той же выборке. В связи с тем, что в фиксированной выборке могут происходить изменения (прежде всего за счет выбытия единиц) практикуют периодическую адаптацию фиксированной выборки происходящим изменениям. Чаще для целей изучения динамики используется промежуточный вариант — ротационная выборка (частичное замещение). При этом нужно следовать определенному плану замещения, например, каждый раз замещать четверть выборки, тогда каждая первоначальная единица останется в выборке в четырех следующих друг за другом обследованиях.

Названные виды выборок ориентированы на отбор конкретных материальных явлений. Кроме них следует назвать как особый вид выборки метод моментных наблюдений.Сущность метода моментных наблюдений состоит в периодической фиксации состояний .наблюдаемых единиц в отобранные моменты времени. Расчет объема такой выборки дает количество моментов. Этот вид выборочного наблюдения применяется при изучении использования производственного оборудования, либо рабочего времени (см. п. 7.13).

7.5. Задачи, решаемые при применении выборочного метода

При применении выборочного наблюдения возникают три основные задачи:

• определение объема выборки, необходимого для получения требуемой точности результатов с заданной вероятностью;

• определение возможного предела ошибки репрезентативности, гарантированного с заданной вероятностью, и сравнение его с величиной допустимой погрешности.

• определение вероятности того, что Ошибка выборки не превысит допустимой погрешности.

Все эти задачи решаются на основе теоремы Чебышева, согласно которой Р {[ х — μ | < e } ³ 1 — h, когда п — достаточно большое число; e и h — сколь угодно малые положительные числа. Это соотношение, как было показано в п. 7.3, может быть выражено через формулу предельной ошибки выборки ∆x = tsx или ∆p = ts. Решение указанных задач зависит от того, какие величины в формуле предельной ошибки заданы, а какие нужно найти.

Объем выборки рассчитывается на стадии проектирования выборочного обследования. Так как

                                                      

то

 ,                                                                (7.20)

где   ∆ — допустимая погрешность,, которая задается исследователем исходя из требуемой точности результатов проектируемой выборки;

t — табличная величина, соответствующая заданной доверительной вероятности F(t), с которой будут гарантированы оценки генеральной совокупности по данным выборочного обследования;

σ2 — генеральная дисперсия.

Последняя величина, как правило, неизвестна. Используются какие-либо ее оценки: результаты прошлых обследований той же совокупности, если ее структура и условия развития достаточно стабильны, или же зная примерную величину средней, находят дисперсию из соотношения  ;

если известны xmax и хminто можно определить среднее квадратическое отклонение в соответствии с правилом «трех сигм»

   ,

так как в нормальном распределении в размахе вариации «укладывается» 6σ(±3σ). Если распределение заведомо асимметричное, то

 .

Для относительной величины принимают максимальную величину дисперсии σ2max = 0,5∙0,5 = 0,25.

При расчете п не следует гнаться за большими значениями t и малыми значениями ∆, так как это приведет к увеличению объема выборки, а следовательно, к увеличению затрат средств, труда и времени, вовсе не являющемуся необходимым.

Формула (7.20) не учитывает бесповторности отбора и дает максимальную величину выборки, которую можно скорректировать «на бесповторность». Так как

  ,

то на основе (7.20) получаем выражение скорректированного объема выборки (п):

  ,                                         (7.21)

где

 .

При больших размерах генеральной совокупности скорректированный Объем выборки незначительно отличается от n0.

Например, для изучения структуры и стоимости покупок в универмаге из 10 000 покупателей следует отобрать определенное число человек, которое бы обеспечивало с вероятностью 0,95 определение средней стоимости покупок с точностью не менее 2 тыс. руб. Дисперсию примем по прошлому обследованию равной 625.

   человек;

тогда скорректированная численность

   человек (≈ 570 человек).

При проектировании районированной выборки рассчитанный объем выборки распределяют пропорционально численности районов (пропорциональный отбор):

  ,                                                              (7.22)

где  пi — объем выборки для i-го района;

Ni — объем i-го района в генеральной совокупности;

п — общий объем выборки;

N — общий объем генеральной совокупности.

При различиях в однородности выделенных районов лучшие результаты дает распределение запланированного объема выборки между районами не только с учетом их объема, но и с учетом дисперсии признака (оптимальный отбор). В этом случае объем выборки в i-м районе определяется как

 ,                                                      (7.23)

где σ2i — дисперсия признака х в i-м районе.

При любом виде проектируемой выборки расчет объема выборки начинают по формуле повторного отбора (7.20). Если в результате расчета п доля отбора превысит 5%, проводят второй вариант расчета по формуле бесповторного отбора, либо по формуле (7.21), либо как

 .

Если доля отбора меньше 5%, к формуле бесповторного отбора не переходят, так как это не скажется существенно на величине п.

Выборка должна быть такой, чтобы выборочные показатели по всем основным характеристикам были репрезентативны. Поэтому численность выборки рассчитывают многократно исходя из допустимых ошибок разных показателей, значения которых в генеральной совокупности известны.

Например, при выборочном учете детей школьного возраста требуется определить число семей, которые надо обследовать. При этом надо учесть: а) число детей в возрасте 6-7 лет, б) число детей в возрасте 6-15 лет; в) число детей в возрасте 16-17 лет;

г) среднедушевой доход (например, для решения вопроса о строительстве базы отдыха).

Так как репрезентируемые признаки могут иметь разную размерность, то допустимая погрешность для каждого их них задается в виде относительной величины (∆ : х̅) (например, планируется, что в определении среднего размера семьи ошибка должна быть не больше 2%, в определении дохода — не больше 3% и т.д.). В этом случае вместо дисперсии в формуле (7.20) берется квадрат коэффициента вариации.

Вычислив значение п, на основе каждой из характеристик получаем разные объемы выборки: 1200; 300; 700; 100. Обследовать необходимо 1200 семей, т.е. из рассчитанных численностей берется максимальная. При резких различиях необходимых объемов выборки для разных вопросов программы проводится многофазный отбор. В рассмотренном примере среднедушевой доход достаточно учитывать в одной из каждых 12 семей, попавших в выборку.

Многофазный отбор, как правило, довольно сложно организовать, может быть нарушен принцип случайности отбора. Поэтому для обеспечения репрезентативности оказывается выгоднее затратить больше средств на учет большего числа единиц совокупности. Многофазный отбор целесообразно применять, если соотношение между рассчитанными объемами выборки по крайней мере 1:6.

Поскольку расчет необходимой численности выборки основан не на точных, а на предположительных данных о колеблемости в совокупности, следует соблюдать следующие рекомендации: абсолютную величину п округлять только вверх; долю отбора округлять только вниз, т.е. из предосторожности планировать несколько больший объем выборки, чем показывают расчеты.

Объем многоступенчатой выборки рекомендуется увеличить не менее чем на 10% от рассчитанной численности, поскольку, как было показано в предыдущем параграфе, многоступенчатость отбора увеличивает ошибку выборки.

После проведения выборки рассчитывают возможные ошибки . выборочных показателей (ошибки репрезентативности), которые используются для оценки результатов выборки и для получения характеристик генеральной совокупности.

Пример. На электроламповом заводе взято для проверки 100 ламп. Средняя продолжительность их горения оказалась 1420 ч со средним квадратическим отклонением 61,03 ч. Поскольку приемщика продукции интересует качество всей партии (50 тыс. электроламп), оценивают точность полученной средней. Средняя возможная ошибка вычисленной выборочной средней

  ч.

С вероятностью 0,954 предел возможной ошибки

х = 2∙6,1 = ± 12,2 ч.

С вероятностью 0,954 можно утверждать, что средняя продолжительность горения 1 электролампы во всей партии будет находиться в пределах от 1408 до 1432 ч; 46 электроламп из 1000 могут иметь срок горения, выходящий за эти пределы.

Приемщика продукции интересуют отклонения от вычисленных пределов только в сторону сокращения продолжительности горения. Меньше чем 1408 ч могут гореть 23 лампы из 1000. На основании этого приемщик продукции решает вопрос о годности всей партии электроламп.

Решение вопроса может быть уточнено: определим, у какой доли ламп срок службы окажется меньше установленного лимита. Для потребителя продукции таким лимитом являются  1410 ч, продукция с меньшим сроком горения неприемлема.

При контрольной проверке 100 ламп 100 ламп горели менее 1410 ч, их удельный вес р = 0,1, или 10%. Средняя возможная ошибка этой доли

, или ± 3%.

С вероятностью 0,954 предел ошибки доли Д^ = 2 • 0,03 = ± 0,06, или ±6%. Следовательно, во всей партии можно ожидать от 4 до 16% некачественных электроламп.

Чаще всего делают заключение об удовлетворительности выборки, сопоставляя получившиеся пределы ошибок выборочных показателей с величинами допустимых погрешностей. Может получиться, что предел ошибки, рассчитанный с заданной вероятностью, окажется выше допустимого размера погрешности. В этих случаях определяют вероятность того, что ошибка выборки не превзойдет допускаемую погрешность. Решение этой задачи и заключается в отыскании Fft) на основе формулы предела ошибки выборки:

,

где ∆ — допустимый размер погрешности оцениваемого показателя;

s2 — дисперсия показателя, рассчитанная по данным выборочного наблюдения;

п — объем проведенной выборки.

Продолжим пример с оценкой качества электроламп. Если при приемке партии электроламп ставится условие, что минимальный срок горения электроламп 1410 ч, то, учитывая среднюю продолжительность горения по выборке (х= 1420 ч), допустимая погрешность равна 10 ч: 1410 — 1420 = — 10 ч.

Как было установлено выше, с вероятностью 0,954 предел возможной ошибки выборочной средней составил 12,2 ч, что превосходит допустимую погрешность. Является ли это основанием для браковки всей партии? Для ответа на этот вопрос определяют вероятность риска при приемке продукции:

 , отсюда t= 1,64.

Соответствующая доверительная вероятность 0,899 (см. приложение, табл. 1). Вероятность того, что средний срок горения лампы меньше 1410 ч, равна:

 

Следовательно, из 100 ламп 5 могут гореть менее 1410 ч — риск появления некачественной продукции достаточно высок.

Аналогично можно определить вероятность того, что предел ошибки доли не превысит допускаемую погрешность доли.

Оценки надежности выборочных показателей, как показано на примере, позволяют принять обоснованные решения в отношении генеральной совокупности.

7.6. Распространение данных выборочного наблюдения на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности на основе данных, полученных по выборке. При этом исходят из того, что все средние и относительные показатели, полученные по выборке, являются несмещенными и эффективными характеристиками генеральной совокупности.

Выборочные средние и относительные величины распространяются на генеральную совокупность обязательно с учетом предела их возможной ошибки. Приводится выборочный показатель со справкой о пределах ошибки с указанием доверительной вероятности:  x̅ ± ∆xp ± ∆p Или же указывают границы значений генеральной характеристики с определенной вероятностью F(t):

 

Последняя форма записи является основной.

Иногда требуется указать только один (верхний или нижний) предел характеристики генеральной совокупности. При испытании качества продукции часто нас не интересуют положительные ошибки выборки (качество фактически выше, чем получилось по выборке), беспокоит нижний предел, как в примере, рассмотренном в предыдущем параграфе. В некоторых случаях, напротив, интерес вызывают верхние границы оцениваемых показателей, например при анализе расхода материалов. Так что при характеристике генеральной совокупности всегда указывают неблагоприятный предел.

На основе выборки могут быть получены и значения объемных показателей, т. е. подсчетов для генеральной совокупности. Такой расчет осуществляется двумя способами: путем прямого расчета и способом коэффициентов. Прямой расчет заключается в том, что выборочная средняя или доля умножается на объем генеральной совокупности:

 .

Так как средняя величина имеет ошибку репрезентативности ± А д то можно считать, что итоговый подсчет в генеральной совокупности находится в пределах

                                  (7.24)

Итоговый подсчет по генеральной совокупности можно получить на основе итогового подсчета по выборке, разделив его на долю отбора единиц совокупности

 

Прежде чем проводить расчет объемных показателей для генеральной совокупности, нужно убедиться, что структура выборки соответствует структуре генеральной совокупности. При наличии значительных смещений в структуре выборки в долях отдельных групп (0,03 и выше) следует применить метод перевзвешивания, г. в. рассчитывать генеральную среднюю на основе выборочных средних по группам и удельного веса этих групп в генеральной совокупности:

  ,

где wi = NiN.

При способе коэффициентов также используются не только выборочные данные, но и сведения о генеральной совокупности.

Этот способ основан на связи признаков друг с другом. Например, в результате выборочного обследования семей города получены размер среднедушевого дохода ̅), средний доход семьи ̅) и среднее число человек в семье (z̅). Так что x̅ = y̅ / z̅.

Зная численность населения города, требуется рассчитать общую величину денежного дохода населения. Очевидно, это можно сделать, умножив душевой доход на общее число жителей в городе: x̅N. Общий доход можно получить, суммируя доход отдельных семей; численность населения можно получить, суммируя данные о числе членов семей. Тогда

 .

Средний душевой расход  представляет собой коэффициент, подсчитанный по выборке, который связывает две характеристики. Этот коэффициент рассчитывается как отношение двух итоговых подсчетов по выборке:

 .

Следовательно,

 .      

Последний сомножитель не что иное, как обратная величина доли отбора, рассчитанной по значениям признака z.

Итак, итоговый подсчет по генеральной совокупности может быть получен делением соответствующего итогового подсчета по выборке на долю отбора. При прямом расчете берется доля отбора единиц совокупности, при способе коэффициентов — доля отбора по значению какого-либо признака.

Эффективность способа коэффициентов по сравнению с методом прямого расчета зависит от того, насколько тесно связаны между собой признаки, лежащие в основе расчета коэффициента, т.е. признак, по которому подсчитывается итог, и признак, по которому определяется доля отбора. Эффект проявляется, если коэффициент корреляции между ними больше 0,8.

Способ коэффициентов используется для корректировки данных сплошного наблюдения. Например, перепись скота дала сведения, что поголовье свиней в районе составляет 10 000, в том числе в тех хозяйствах, которые потом были охвачены контрольным обходом, сплошное наблюдение показало число свиней 1100. Контрольный обход дал уточненную цифру: не 1100, а 1107 свиней. Тогда поправочный коэффициент

  .

Отсюда скорректированная численность поголовья свиней во всем районе

N =N¢+∆N;  ∆N = kN¢ = ∙10 000 = 64.

N = 10 000 + 64 = 10 064 голов.

Таблицы интеграла вероятностей используются для выборок большого объема из бесконечно большой генеральной совокупности. Но уже при п <  00 получается несоответствие между табличными данными и вероятностью предела; при п < 100 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в генеральной совокупности не имеет значения, так как распределение отклонений выборочного показателя от генеральной характеристики при большой выборке всегда оказывается нормальным.

В выборках небольшого объема п £ 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из совокупности, имеющей нормальное распределение.

Теория малых выборок разработана английским статистиком В. Госсетом (писавшим под псевдонимом Стьюдент) в начале XX в. В 1908 г. им построено специальное распределение, которое позволяет и при малых выборках соотносить t и доверительную вероятность F(t). При п > 100 таблицы распределения Стьюдента дают те же результаты, что и таблицы интеграла вероятностей Лапласа, при 30 £ п £ 100 различия незначительны. Поэтому практически к малым выборкам относят выборки объемом менее 30 единиц (безусловно, большой считается выборка с объемом более 100 единиц).

Использование малых выборок в ряде случаев обусловлено характером обследуемой совокупности. Так, в селекционной работе «чистого» опыта легче добиться на небольшом числе  делянок. Производственный и экономический эксперимент, связанный с экономическими затратами, также проводится на небольшом числе испытаний.

Как уже отмечалось, в случае малой выборки только для нормально распределенной генеральной совокупности могут быть рассчитаны и доверительные вероятности, и доверительные пределы генеральной средней.

Плотность вероятностей распределения Стьюдента описывается функцией

,                               (7.25)

где  t — текущая переменная;

п — объем выборки;

В — величина, зависящая лишь от п.

Распределение Стьюдента имеет только один параметр: d.f. —число степеней свободы (иногда обозначается k).

Это распределение, как и нормальное, симметрично относительно точки t = 0, но оно более пологое. При увеличении объема выборки, а следовательно, и числа степеней свободы распределение Стьюдента быстро приближается к нормальному. Число степеней свободы равно числу тех индивидуальных значений признаков, которыми нужно располагать для определения искомой характеристики.

Так, для расчета дисперсии должна быть известна средняя величина. Поэтому при расчете дисперсии d.f. = п — 1

Таблицы распределения Стьюдента публикуются в двух вариантах:

1) аналогично таблицам интеграла вероятностей приводятся значения t и соответствующие вероятности F(t) при разном числе степеней свободы;

2) значения t приводятся для наиболее употребимых доверительных вероятностей 0,90; 0,95 и 0,99 или для 1 — 0,9 = 0,1, 1 — 0,95 = = 0,05 и 1 — 0,99 == 0,01 при разном числе степеней свободы. Такого рода таблица приведена в приложении (табл. 2), а также значение t-критерия Стьюдента при уровне значимости 0,10; 0,05; 0,01.

При малых выборках расчет средней возможной ошибки основан на выборочных дисперсиях, поэтому

 .

Приведенная формула используется для определения предела возможной ошибки выборочного показателя:

.

Порядок расчетов тот же, что и при больших выборках.

Пример. Для изучения интенсивности труда было организовано наблюдение за 10 отобранными рабочими. Доля работавших все время оказалась равной 0,40, дисперсия 0,4∙0,6 = 0,24. По табл. 2 приложения находим для F(t) = 0,95 и d.f. = n — 1 = 9, t = 2,26. Рассчитаем среднюю ошибку выборки доли работавших все время:

 

Тогда предельная ошибка выборки ∆p = 2,26∙0,16 = ± 0,36. Таким образом, с вероятностью 0,95 доля рабочих, работавших без простоев, в данном цехе предприятия находится в пределах

39,64% £ π £ 40,36%

или

39,6% £ π £ 40,4%.

Если бы мы использовали для расчета доверительных границ генерального параметра таблицу интеграла вероятностей, то t было бы равно 1,96 и ∆p — ± 0,31, т. е. доверительный интервал был бы несколько уже.

Малые выборки широко используются для решения задач, связанных с испытанием статистических гипотез, особенно гипотез о средних величинах.

Случайные ошибки — те, которые изменяются по вероятностным законам. К случайным относится ошибка выборки.
 [c.165]

Следовательно, средняя ошибка выборки тем больше, чем больше вариация в генеральной совокупности, и тем меньше, чем больше объем выборки.
 [c.166]

Чтобы вычислить ошибку выборки при принятой доверительной вероятности, нужно рассчитать величину средней ошибки SK. Формула для ее определения (7.4) включает дисперсию признака в генеральной совокупности а2, которая, как правило, неизвестна. Может быть определена только выборочная дисперсия s2. Доказано, что соотношение между а и s определяется следующим равенством  [c.169]

Л называется доверительной ошибкой выборки или предельной ошибкой выборки. Рассчитав величину А, мы можем записать следующее неравенство  [c.170]

Как указывалось в п. 7.2, при проведении выборочного наблюдения используются различные способы формирования выборочной совокупности случайный отбор — повторный или бесповторный, механический, серийный, типический. Вид выборки влияет на величину ошибки выборки. При бесповторном отборе формула средней ошибки выборки дополняется множителем
 [c.171]

Эта величина меньше предельной ошибки выборки (0,77), что дает основание считать выборку репрезентативной и по этому признаку.
 [c.177]

Эта величина меньше общей дисперсии без учета районирования (а2 = 2,24). Следовательно, и величина ошибки выборки при районированном отборе будет меньше  [c.178]

Сопоставим полученный результат с изменением предельной ошибки выборки Дх (без учета районирования) = 0,55  [c.179]

Средняя ошибка выборки при двухступенчатом отборе рассчитывается по формуле
 [c.179]

-h, когда п — достаточно большое число е и h — сколь угодно малые положительные числа. Это соотношение, как было показано в п. 7.3, может быть выражено через формулу предельной ошибки выборки ДЛ = tsx или АЯ = ts. Решение указанных задач зависит от того, какие величины в формуле предельной ошибки заданы, а какие нужно найти.
 [c.181]

Объем многоступенчатой выборки рекомендуется увеличить не менее чем на 10% от рассчитанной численности, поскольку, как было показано в предыдущем параграфе, многоступенчатость отбора увеличивает ошибку выборки.
 [c.185]

Чаще всего делают заключение об удовлетворительности выборки, сопоставляя получившиеся пределы ошибок выборочных показателей с величинами допустимых погрешностей. Может получиться, что предел ошибки, рассчитанный с заданной вероятностью, окажется выше допустимого размера погрешности. В этих случаях определяют вероятность того, что ошибка выборки не превзойдет допускаемую погрешность. Решение этой задачи и заключается в отыскании F(t) на основе формулы предела ошибки выборки  [c.186]

Иногда требуется указать только один (верхний или нижний) предел характеристики генеральной совокупности. При испытании качества продукции часто нас не интересуют положительные ошибки выборки (качество фактически выше, чем получилось по выборке), беспокоит нижний предел, как в примере, рассмотренном в предыдущем параграфе. В некоторых случаях, напротив, интерес вызывают верхние границы оцениваемых показателей, например при анализе расхода материалов. Так что при характеристике генеральной совокупности всегда указывают неблагоприятный предел.
 [c.187]

В выборках небольшого объема п < 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из совокупности, имеющей нормальное распределение.
 [c.190]

Пример. Для изучения интенсивности труда было организовано наблюдение за 10 отобранными рабочими. Доля работавших все время оказалась равной 0,40, дисперсия 0,4 0,6 = 0,24. По табл. 2 приложения находим для F(t) = 0,95 и d.f. = п — 1 = 9, t = 2,26. Рассчитаем среднюю ошибку выборки доли работавших все время  [c.192]

Тогда предельная ошибка выборки Л = 2,26 0,16 = 0,36. Таким образом, с вероятностью 0,95 доля рабочих, работавших без простоев, в данном цехе предприятия находится в пределах
 [c.192]

Этап 2. По остальным расчетным документам делается контрольная выборка. Для этого применяются различные способы. Одним из самых простейших является -процентный тест (так, при п = 10% проверяют каждый десятый документ, отбираемый по какому-либо признаку, например, по времени возникновения обязательства). Существуют и более сложные статистические методы отбора, основанные на задании критических значений уровня значимости, ошибки выборки, допустимого отклонения между отраженным в отчетности и исчисленным по выборочным данным размером дебиторской задолженности и т. п. В этом случае определяют интервал выборки (подснежному измерителю), и каждый расчетный документ, на который падает граница очередного интервала, отбирается для контроля и анализа.
 [c.331]

Ошибка выборки допустимая
 [c.336]

Ошибка выборки ожидаемая
 [c.336]

Величина AJ называется предельной ошибкой выборки. Это величина случайная. Исследованию закономерностей случайных
 [c.130]

Рассмотрим, как влияет на величину средней ошибки число отбираемых единиц п. Логически нетрудно убедиться, что при отборе большого числа единиц расхождения между средними будут меньше, т.е. существует обратная связь между средней ошибкой выборки и числом отобранных единиц. При этом образуется не только обратная математическая зависимость, а такая зависимость, которая показывает, что квадрат расхождения между средними обратно пропорционален числу отобранных единиц.
 [c.131]

Далее посмотрим, как влияет колеблемость признака в генеральной совокупности на величину ошибки. Нетрудно доказать, что увеличение колеблемости признака влечет за собой увеличение среднего квадратического отклонения, а следовательно, и ошибки. Если предположить, что все единицы будут иметь одинаковую величину признака, то среднее квадратическое отклонение станет равно нулю и ошибка выборки также исчезнет. Тогда нет необходимости применять выборку. Однако следует иметь в виду, что величина колеблемости признака в генеральной совокупности бывает неизвестна, поскольку неизвестны размеры единиц в ней. Мы можем рассчитать лишь колеблемости признака в выборочной совокупности.
 [c.131]

Следовательно, средняя ошибка выборки показывает, какие возможны отклонения характеристик выборочной совокупности от соответствующих характеристик генеральной совокупности. Однако о величине этой ошибки можно судить с определенной вероятностью. На величину вероятности указывает множитель /.
 [c.132]

Поскольку / указывает на вероятность расхождения х-х , т.е. на вероятность того, на какую величину генеральная средняя будет отличаться от выборочной средней, то это может быть прочитано так с вероятностью 0,683 можно утверждать, что разность между выборочной и генеральной средними не превышает одной величины средней ошибки выборки. Другими словами, в 68,3% случаев ошибка репрезентативности не выйдет за пределы ц. С вероятностью 0,954 можно утверждать, что ошибка репрезентативности не превышает 2ц, (т.е. в 95% случаев). С вероятностью 0,997, т.е. довольно близкой к единице, можно ожидать, что разность между выборочной и генеральной средней не превзойдет трехкратной средней ошибки выборки и т.д. Логически связь здесь выглядит довольно ясно чем больше пределы, в которых допускается возможная ошибка, тем с большей вероятностью судят о ее величине.
 [c.132]

Для различных способов отбора предельная ошибка рассчитывается при проведении выборки по-разному. Зная выборочную среднюю величину признака (х) и предельную ошибку выборки (Л ), можно определить границы (пределы), в которых заключена генеральная средняя  [c.133]

Теорема Бернулли. Теорема Бернулли была доказана раньше теоремы Чебышева — Ляпунова, но является лишь частным случаем последней. Она рассматривает ошибку выборки для альтернативного признака, т.е. признака, у которого возможны только два исхода наличие признака (1) и отсутствие его (0).
 [c.133]

Такая точность выборки может быть достигнута, если величина предельнбй ошибки выборки не превосходит Ь — 6% средней  [c.73]

Представительная выборка — это выборка, характерные особенности которой такие же, как и у совокупности. Выборка может быть непредставительной в двух случаях 1) при большой ошибке выборки 2) при невыборочной ошибке. Риски их появления называют соответственно выборочными и невыборочными рисками.
 [c.48]

Все ошибки выборочного наблюдения подразделяются на ошибки выборки (случайные) ошибки, вызванные отклонением от схемы отбора (неслучайные) ошибки наблюдения (случайные и не-случайные).Ппохо, когда ошибка выборки превышает допустимый размер погрешности, но слишком высокая точность также подозрительна и, как правило, свидетельствует об ошибках отбора.
 [c.164]

Формула (7.14 ) предполагает равенство серий по числу единиц, если это условие не выполняется, то в числитель выражения (7.14 ) вводится вес — число единиц в у -й серии, f-, тогда в знаменателе указывается не г, а 1/ . Межсерийная дисперсия представляет часть общей дисперсии признака х, и потому ее использование направлено на уменьшение ошибки выборки. Однако значение г намного меньше п, так как число отобранных гнезд намного меньше числа единиц наблюдения. Этот фактор увеличивает ошибку выборки. Его действие более значительно, нежели понижающее влияние межсерийной дисперсии — в результате ошибка серийной выборки в среднем больше ошибки выборки при отборе единицами.
 [c.172]

Часто используется сочетание районированного отбора с отбором сериями. Такой вид выборки обеспечивает преимущества в организации выборки и уменьшение ошибки выборки. Дисперсия такой выборки представляет среднюю из межсерийных дисперсий для каждого У-ГО района  [c.173]

Вычислим предельную ошибку выборки коэффициента покры тия и определим доверительный интервал для этой характеристики. Его нижняя граница с той же вероятностью
 [c.177]

11.2. Оценка результатов выборочного наблюдения

11.2.1. Средняя и предельная ошибки выборки. Построение доверительных границ для средней и доли

Средняя ошибка выборки показывает, насколько отклоняется в среднем параметр выборочной совокупности от соответствующего параметра генеральной. Если рассчитать среднюю из ошибок всех возможных выборок определенного вида заданного объема (n), извлеченных из одной и той же генеральной совокупности, то получим их обобщающую характеристику — среднюю ошибку выборки (mu).

В теории выборочного наблюдения выведены формулы для определения mu, которые индивидуальны для разных способов отбора (повторного и бесповторного), типов используемых выборок и видов оцениваемых статистических показателей.

Например, если применяется повторная собственно случайная выборка, то mu определяется как:

— при оценивании среднего значения признака;

— если признак альтернативный, и оценивается доля.

При бесповторном собственно случайном отборе в формулы вносится поправка (1 — n/N):

— для среднего значения признака;

— для доли.

Вероятность получения именно такой величины ошибки всегда равна 0,683. На практике же предпочитают получать данные с большей вероятностью, но это приводит к возрастанию величины ошибки выборки.

Предельная ошибка выборки (Delta) равна t-кратному числу средних ошибок выборки (в теории выборки принято коэффициент t называть коэффициентом доверия):

Delta =t mu.

Если ошибку выборки увеличить в два раза (t = 2), то получим гораздо большую вероятность того, что она не превысит определенного предела (в нашем случае — двойной средней ошибки) — 0,954. Если взять t = 3, то доверительная вероятность составит 0,997 — практически достоверность.

Уровень предельной ошибки выборки зависит от следующих факторов:

  • степени вариации единиц генеральной совокупности;
  • объема выборки;
  • выбранных схем отбора (бесповторный отбор дает меньшую величину ошибки);
  • уровня доверительной вероятности.

Если объем выборки больше 30, то значение t определяется по таблице нормального распределения, если меньше — по таблице распределения Стьюдента.

Приведем некоторые значения коэффициента доверия из таблицы нормального распределения.

Таблица
11.2.

Значение доверительной вероятности P 0,683 0,954 0,997
Значение коэффициента доверия t 1,0 2,0 3,0

Доверительный интервал для среднего значения признака и для доли в генеральной совокупности устанавливается следующим образом:

Итак, определение границ генеральной средней и доли состоит из следующих этапов:

Ошибки выборки при различных видах отбора

  1. Собственно случайная и механическая выборка. Средняя ошибка собственно случайной и механической выборки находятся по формулам, представленным в табл. 11.3.

Таблица
11.3.
Формулы для расчета средней ошибки собственно случайной и механической выборки (mu)

где sigma^{2} — дисперсия признака в выборочной совокупности.

Пример 11.2. Для изучения уровня фондоотдачи было проведено выборочное обследование 90 предприятий из 225 методом случайной повторной выборки, в результате которого получены данные, представленные в таблице.

Таблица
11.4.

Уровень фондоотдачи, руб. До 1,4 1,4-1,6 1,6-1,8 1,8-2,0 2,0-2,2 2,2 и выше Итого
Количество предприятий 13 15 17 15 16 14 90

В рассматриваемом примере имеем 40%-ную выборку (90 : 225 = 0,4, или 40%). Определим ее предельную ошибку и границы для среднего значения признака в генеральной совокупности по шагам алгоритма:

  1. По результатам выборочного обследования рассчитаем среднее значение и дисперсию в выборочной совокупности:

Таблица
11.5.

Результаты наблюдения Расчетные значения
уровень фондоотдачи, руб., xi количество предприятий, fi середина интервала, xixb4 xixb4fi xixb42fi
До 1,4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2,2 и выше 14 2,3 32,2 74,06
Итого 90 162,6 303,62

Выборочная средняя

Выборочная дисперсия изучаемого признака

  1. Определяем среднюю ошибку повторной случайной выборки

  2. Зададим вероятность, на уровне которой будем говорить о величине предельной ошибки выборки. Чаще всего она принимается равной 0,999; 0,997; 0,954.

Для наших данных определим предельную ошибку выборки, например, с вероятностью 0,954. По таблице значений вероятности функции нормального распределения (см. выдержку из нее, приведенную в Приложении 1) находим величину коэффициента доверия t, соответствующего вероятности 0,954. При вероятности 0,954 коэффициент t равен 2.

  1. Предельная ошибка выборки с вероятностью 0,954 равна

    delta_{x}= tmu_{x}= 2*0.035 = 0.07

  2. Найдем доверительные границы для среднего значения уровня фондоотдачи в генеральной совокупности

Таким образом, в 954 случаях из 1000 среднее значение фондоотдачи будет не выше 1,88 руб. и не ниже 1,74 руб.

Выше была использована повторная схема случайного отбора. Посмотрим, изменятся ли результаты обследования, если предположить, что отбор осуществлялся по схеме бесповторного отбора. В этом случае расчет средней ошибки проводится по формуле

Тогда при вероятности равной 0,954 величина предельной ошибки выборки составит:

delta_{x}= tmu_{x}= 2*0.027 = 0.054

Доверительные границы для среднего значения признака при бесповторном случайном отборе будут иметь следующие значения:

Сравнив результаты двух схем отбора, можно сделать вывод о том, что применение бесповторной случайной выборки дает более точные результаты по сравнению с применением повторного отбора при одной и той же доверительной вероятности. При этом, чем больше объем выборки, тем существеннее сужаются границы значений средней при переходе от одной схемы отбора к другой.

По данным примера определим, в каких границах находится доля предприятий с уровнем фондоотдачи, не превышающим значения 2,0 руб., в генеральной совокупности:

  1. рассчитаем выборочную долю.

Количество предприятий в выборке с уровнем фондоотдачи, не превышающим значения 2,0 руб., составляет 60 единиц. Тогда

m = 60, n = 90, w = m/n = 60 : 90 = 0,667;

  1. рассчитаем дисперсию доли в выборочной совокупности

sigma_{w}^{2}= w(1 - w) = 0,667(1 - 0,667) = 0,222;

  1. средняя ошибка выборки при использовании повторной схемы отбора составит

Если предположить, что была использована бесповторная схема отбора, то средняя ошибка выборки с учетом поправки на конечность совокупности составит

  1. зададим доверительную вероятность и определим предельную ошибку выборки.

При значении вероятности Р = 0,997 по таблице нормального распределения получаем значение для коэффициента доверия t = 3 (см. выдержку из нее, приведенную в Приложении 1):

delta_{x}= tmu_{x}= 3*0.04 = 0.12

  1. установим границы для генеральной доли с вероятностью 0,997:

Таким образом, с вероятностью 0,997 можно утверждать, что в генеральной совокупности доля предприятий с уровнем фондоотдачи, не превышающим значения 2,0 руб., не меньше, чем 54,7%, и не больше 78,7%.

  1. Типическая выборка. При типической выборке генеральная совокупность объектов разбита на k групп, тогда

N1 + N2 + … + Ni + … + Nk = N.

Объем извлекаемых из каждой типической группы единиц зависит от принятого способа отбора; их общее количество образует необходимый объем выборки

n1 + n2 + … + ni + … + nk = n.

Существуют следующие два способа организации отбора внутри типической группы: пропорциональной объему типических групп и пропорциональной степени колеблемости значений признака у единиц наблюдения в группах. Рассмотрим первый из них, как наиболее часто используемый.

Отбор, пропорциональный объему типических групп, предполагает, что в каждой из них будет отобрано следующее число единиц совокупности:

n = ni · Ni/N

где ni — количество извлекаемых единиц для выборки из i-й типической группы;

n — общий объем выборки;

Ni — количество единиц генеральной совокупности, составивших i-ю типическую группу;

N — общее количество единиц генеральной совокупности.

Отбор единиц внутри групп происходит в виде случайной или механической выборки.

Формулы для оценивания средней ошибки выборки для среднего и доли представлены в табл. 11.6.

Таблица
11.6.
Формулы для расчета средней ошибки выборки (mu) при использовании типического отбора, пропорционального объему типических групп

Здесь sigma^{2} — средняя из групповых дисперсий типических групп.

Пример 11.3. В одном из московских вузов проведено выборочное обследование студентов с целью определения показателя средней посещаемости вузовской библиотеки одним студентом за семестр. Для этого была использована 5%-ная бесповторная типическая выборка, типические группы которой соответствуют номеру курса. При отборе, пропорциональном объему типических групп, получены следующие данные:

Таблица
11.7.

Номер курса Всего студентов, чел., Ni Обследовано в результате выборочного наблюдения, чел., ni Среднее число посещений библиотеки одним студентом за семестр, xi Внутригрупповая выборочная дисперсия, sigma_{i}^{2}
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Итого 2 550 128 8

Число студентов, которое необходимо обследовать на каждом курсе, рассчитаем следующим образом:

  • общий объем выборочной совокупности:

    n = 2550/130*5 =128 (чел.);

  • количество единиц, отобранных из каждой типической группы:

аналогично для других групп:

n2 = 31 (чел.);

n3 = 29 (чел.);

n4 = 18 (чел.);

n5 = 17 (чел.).

Проведем необходимые расчеты.

  1. Выборочная средняя, исходя из значений средних типических групп, составит:

  2. Средняя из внутригрупповых дисперсий

  3. Средняя ошибка выборки:

    С вероятностью 0,954 находим предельную ошибку выборки:

    delta_{x} = tmu_{x} = 2*0.334 = 0.667

  4. Доверительные границы для среднего значения признака в генеральной совокупности:

Таким образом, с вероятностью 0,954 можно утверждать, что один студент за семестр посещает вузовскую библиотеку в среднем от семи до девяти раз.

  1. Малая выборка. В связи с небольшим объемом выборочной совокупности те формулы для определения ошибок выборки, которые использовались нами ранее при «больших» выборках, становятся неподходящими и требуют корректировки.

Среднюю ошибку малой выборки определяют по формуле

Предельная ошибка малой выборки:

delta_{MB}= tmu_{MB}

Распределение значений выборочных средних всегда имеет нормальный закон распределения (или приближается к нему) при п > 100, независимо от характера распределения генеральной совокупности. Однако в случае малых выборок действует иной закон распределения — распределение Стьюдента. В этом случае коэффициент доверия находится по таблице t-распределения Стьюдента в зависимости от величины доверительной вероятности Р и объема выборки п. В Приложении 1 приводится фрагмент таблицы t-распределения Стьюдента, представленной в виде зависимости доверительной вероятности от объема выборки и коэффициента доверия t.

Пример 11.4. Предположим, что выборочное обследование восьми студентов академии показало, что на подготовку к контрольной работе по статистике они затратили следующее количество часов: 8,5; 8,0; 7,8; 9,0; 7,2; 6,2; 8,4; 6,6.

Оценим выборочные средние затраты времени и построим доверительный интервал для среднего значения признака в генеральной совокупности, приняв доверительную вероятность равной 0,95.

  1. Среднее значение признака в выборке равно

  2. Значение среднего квадратического отклонения составляет

  3. Средняя ошибка выборки:

  4. Значение коэффициента доверия t = 2,365 для п = 8 и Р = 0,95 .
  5. Предельная ошибка выборки:

    delta_{MB}= tmu_{MB}=2,365*0,344 = 0,81356 ~ 0,81 (ч)

  6. Доверительный интервал для среднего значения признака в генеральной совокупности:

То есть с вероятностью 0,95 можно утверждать, что затраты времени студента на подготовку к контрольной работе находятся в пределах от 6,9 до 8,5 ч.

11.2.2. Определение численности выборочной совокупности

Перед непосредственным проведением выборочного наблюдения всегда решается вопрос, сколько единиц исследуемой совокупности необходимо отобрать для обследования. Формулы для определения численности выборки выводят из формул предельных ошибок выборки в соответствии со следующими исходными положениями (табл. 11.7):

  1. вид предполагаемой выборки;
  2. способ отбора (повторный или бесповторный);
  3. выбор оцениваемого параметра (среднего значения признака или доли).

Кроме того, следует заранее определиться со значением доверительной вероятности, устраивающей потребителя информации, и с размером допустимой предельной ошибки выборки.

Таблица
11.8.
Формулы для определения численности выборочной совокупности

Примечание: при использовании приведенных в таблице формул рекомендуется получаемую численность выборки округлять в большую сторону для обеспечения некоторого запаса в точности.

Пример 11.5. Рассчитаем, сколько из 507 промышленных предприятий следует проверить налоговой инспекции, чтобы с вероятностью 0,997 определить долю предприятий с нарушениями в уплате налогов. По данным прошлого аналогичного обследования величина среднего квадратического отклонения составила 0,15; размер ошибки выборки предполагается получить не выше, чем 0,05.

При использовании повторного случайного отбора следует проверить

При бесповторном случайном отборе потребуется проверить

Как видим, использование бесповторного отбора позволяет проводить обследование гораздо меньшего числа объектов.

Пример 11.6. Планируется провести обследование заработной платы на предприятиях отрасли методом случайного бесповторного отбора. Какова должна быть численность выборочной совокупности, если на момент обследования в отрасли число занятых составляло 100 000 чел.? Предельная ошибка выборки не должна превышать 100 руб. с вероятностью 0,954. По результатам предыдущих обследований заработной платы в отрасли известно, что среднее квадратическое отклонение составляет 500 руб.

Следовательно, для решения поставленной задачи необходимо включить в выборку не менее 100 человек.

Расхождения
между величиной какого-либо показателя,
найденного посредством статистического
наблюдения, и действительными его
размерами называются ошибками
наблюдения
.В зависимости от
причин возникновения различают ошибки
регистрации и ошибки репрезентативности.

Ошибки
регистрации
возникают в результате
неправильного установления фактов или
ошибочной записи в процессе наблюдения
или опроса. Они бывают случайными или
систематическими. Случайные ошибки
регистрации могут быть допущены как
опрашиваемыми в их ответах, так и
регистраторами. Систематические ошибки
могут быть и преднамеренными, и
непреднамеренными. Преднамеренные –
сознательные, тенденциозные искажения
действительного положения дела.
Непреднамеренные вызываются различными
случайными причинами (небрежность,
невнимательность).

Ошибки
репрезентативности
(представительности)
возникают в результате неполного
обследования и в случае, если обследуемая
совокупность недостаточно полно
воспроизводит генеральную совокупность.
Они могут быть случайными и систематическими.
Случайные ошибки репрезентативности
– это отклонения, возникающие при
несплошном наблюдении из-за того, что
совокупность отобранных единиц наблюдения
(выборка) неполно воспроизводит всю
совокупность в целом. Систематические
ошибки репрезентативности – это
отклонения, возникающие вследствие
нарушения принципов случайного отбора
единиц. Ошибки репрезентативности
органически присущи выборочному
наблюдению и возникают в силу того, что
выборочная совокупность не полностью
воспроизводит генеральную. Избежать
ошибок репрезентативности нельзя,
однако, пользуясь методами теории
вероятностей, основанными на использовании
предельных теорем закона больших чисел,
эти ошибки можно свести к минимальным
значениям, границы которых устанавливаются
с достаточно большой точностью.

Ошибки
выборки –
разность между
характеристиками выборочной и генеральной
совокупности. Для среднего значения
ошибка будет определяться по формуле


(7.1)

где

Величина
называетсяпредельной ошибкойвыборки.

Предельная
ошибка выборки – величина случайная.
Исследованию закономерностей случайных
ошибок выборки посвящены предельные
теоремы закона больших чисел. Наиболее
полно эти закономерности раскрыты в
теоремах П. Л. Чебышева и А. М. Ляпунова.

Теорему П.
Л. Чебышева
применительно к
рассматриваемому методу можно
сформулировать следующим образом: при
достаточно большом числе независимых
наблюдений можно с вероятностью, близкой
к единице (т. е. почти с достоверностью),
утверждать, что отклонение выборочной
средней от генеральной будет сколько
угодно малым. В теореме П. Л. Чебышева
доказано, что величина ошибки не должна
превышать.
В свою очередь величина,
выражающая среднее квадратическое
отклонение выборочной средней от
генеральной средней, зависит от
колеблемости признака в генеральной
совокупностии числа отобранных единицn. Эта
зависимость выражается формулой

,
(7.2)

где
зависит также от способа производства
выборки.

Величину
=называютсредней ошибкой выборки. В
этом выражении– генеральная дисперсия,n– объем
выборочной совокупности.

Рассмотрим, как
влияет на величину средней ошибки число
отбираемых единиц n. Логически
нетрудно убедиться, что при отборе
большого числа единиц расхождения между
средними будут меньше, т. е. существует
обратная связь между средней ошибкой
выборки и числом отобранных единиц. При
этом здесь образуется не просто обратная
математическая зависимость, а такая
зависимость, которая показывает, что
квадрат расхождения между средними
обратно пропорционален числу отобранных
единиц.

Увеличение
колеблемости признака влечет за собой
увеличение среднего квадратического
отклонения, а следовательно, и ошибки.
Если предположить, что все единицы будут
иметь одинаковую величину признака, то
среднее квадратическое отклонение
станет равно нулю и ошибка выборки
также исчезнет. Тогда нет необходимости
применять выборку. Однако следует иметь
в виду, что величина колеблемости
признака в генеральной совокупности
неизвестна, поскольку неизвестны размеры
единиц в ней. Можно рассчитать лишь
колеблемость признака в выборочной
совокупности. Соотношение между
дисперсиями генеральной и выборочной
совокупности выражается формулой

Поскольку
величина
при достаточно большихnблизка к
единице, можно приближенно считать, что
выборочная дисперсия равна генеральной
дисперсии, т. е.

Следовательно,
средняя ошибка выборки показывает,
какие возможны отклонения характеристик
выборочной совокупности от соответствующих
характеристик генеральной совокупности.
Однако о величине этой ошибки можно
судить с определенной вероятностью. На
величину вероятности указывает множитель

Теорема А.
М. Ляпунова
. А. М. Ляпунов доказал,
что распределение выборочных средних
(следовательно, и их отклонений от
генеральной средней) при достаточно
большом числе независимых наблюдений
приближенно нормально при условии, что
генеральная совокупность обладает
конечной средней и ограниченной
дисперсией.

Математически
теорему Ляпуноваможно записать
так:

(7.3)

где

,
(7.4)

где – математическая постоянная;

предельная ошибка выборки,которая дает возможность выяснить, в
каких пределах находится величина
генеральной средней.

Значения этого
интеграла для различных значений
коэффициента доверия tвычислены и
приводятся в специальных математических
таблицах. В частности, при:

Поскольку tуказывает на вероятность расхождения,
т. е. на вероятность того, на какую
величину генеральная средняя будет
отличаться от выборочной средней, то
это может быть прочитано так: с вероятностью
0,683 можно утверждать, что разность между
выборочной и генеральной средними не
превышает одной величины средней ошибки
выборки. Другими словами, в 68,3 % случаев
ошибка репрезентативности не выйдет
за пределыС вероятностью 0,954 можно утверждать,
что ошибка репрезентативности не
превышает(т. е. в 95 % случаев). С вероятностью
0,997, т. е. довольно близкой к единице,
можно ожидать, что разность между
выборочной и генеральной средней не
превзойдет трехкратной средней ошибки
выборки и т. д.

Логически связь
здесь выглядит довольно ясно: чем больше
пределы, в которых допускается
возможная ошибка, тем с большей
вероятностью судят о ее величине.

Зная выборочную
среднюю величину признака
и предельную ошибку выборки,
можно определить границы (пределы),
в которых заключена генеральная
средняя

(7.5)

1.
Собственно-случайная выборка

этот способ ориентирован на выборку
единиц из генеральной совокупности без
всякого расчленения на части или группы.
При этом для соблюдения основного
принципа выборки – равной возможности
всем единицам генеральной совокупности
быть отобранным – используются схема
случайного извлечения единиц путем
жеребьевки (лотереи) или таблицы случайных
чисел. Возможен повторный и бесповторный
отбор единиц

Средняя ошибка
собственно-случайной выборки
представляет собой среднеквадратическое
отклонение возможных значений выборочной
средней от генеральной средней. Средние
ошибки выборки при собственно-случайном
методе отбора представлены в табл. 7.2.

Таблица 7.2

Средняя ошибка
выборки μ

При отборе

повторном

бесповторном

Для средней

Для доли

В таблице
использованы следующие обозначения:

– дисперсия выборочной совокупности;

– численность выборки;

– численность генеральной совокупности;

– выборочная доля единиц, обладающих
изучаемым признаком;

– число единиц, обладающих изучаемым
признаком;

– численность выборки.

Для увеличения
точности вместо множителя
следует
брать множитель
,
но при большой численностиNразличие
между этими выражениями практического
значения не имеет.

Предельная
ошибка собственно-случайной выборки
рассчитывается по формуле

,
(7.6)

где t
– коэффициент доверия зависит от
значения вероятности.

Пример.При
обследовании ста образцов изделий,
отобранных из партии в случайном порядке,
20 оказалось нестандартными. С вероятностью
0,954 определите пределы, в которых
находится доля нестандартной продукции
в партии.

Решение.
Вычислим генеральную долю (Р):
.

Доля нестандартной
продукции:
.

Предельная
ошибка выборочной доли с вероятностью
0,954 рассчитывается по формуле (7.6) с
применением формулы табл. 7.2 для доли:

С вероятностью
0,954 можно утверждать, что доля нестандартной
продукции в партии товара находится в
пределах 12 % ≤ P≤ 28 %.

В практике
проектирования выборочного наблюдения
возникает потребность определения
численности выборки, которая необходима
для обеспечения определенной точности
расчета генеральных средних. Предельная
ошибка выборки и ее вероятность при
этом являются заданными. Из формулы
и формул средних ошибок выборки
устанавливается необходимая численность
выборки. Формулы для определения
численности выборки (n) зависят от
способа отбора. Расчет численности
выборки для собственно-случайной выборки
приведен в табл. 7.3.

Таблица 7.3

Предполагаемый
отбор

Формулы

для средней

для доли

Повторный

Бесповторный

2.
Механическая выборка
– при этом
методе исходят из учета некоторых
особенностей расположения объектов в
генеральной совокупности, их упорядоченности
(по списку, номеру, алфавиту). Механическая
выборка осуществляется путем отбора
отдельных объектов генеральной
совокупности через определенный интервал
(каждый 10-й или 20-й). Интервал рассчитывается
по отношению,
гдеn– численность выборки,N
численность генеральной совокупности.
Так, если из совокупности в 500 000 единиц
предполагается получить 2 %-ную выборку,
т. е. отобрать 10 000
единиц, то пропорция отбора составитОтбор
единиц осуществляется в соответствии
с установленной пропорцией через равные
интервалы. Если расположение объектов
в генеральной совокупности носит
случайный характер, то механическая
выборка по содержанию аналогична
случайному отбору. При механическом
отборе применяется только бесповторная
выборка [1, 5–10].

Средняя ошибка
и численность выборки при механическом
отборе подсчитывается по формулам
собственно-случайной выборки (см.
табл. 7.2 и 7.3).

3.
Типическая выборка
, при котрой
генеральная совокупность делится по
некоторым существенным признакам на
типические группы; отбор единиц
производится из типических групп. При
этом способе отбора генеральная
совокупность расчленяется на однородные
в некотором отношении группы, которые
имеют свои характеристики, и вопрос
сводится к определению объема выборок
из каждой группы. Может бытьравномерная
выборка
– при этом способе из каждой
типической группы отбирается одинаковое
число единицТакой подход оправдан лишь при равенстве
численностей исходных типических групп.
При типическом отборе, непропорциональном
объему групп, общее число отбираемых
единиц делится на число типических
групп, полученная величина дает
численность отбора из каждой типической
группы.

Более совершенной
формой отбора является пропорциональная
выборка
. Пропорциональной называется
такая схема формирования выборочной
совокупности, когда численность выборок,
взятых из каждой типической группы в
генеральной совокупности, пропорциональна
численностям, дисперсиям (или комбинированно
и численностям, и дисперсиям). Условно
определяем численность выборки в 100
единиц и отбираем единицы из групп:

пропорционально
численности их генеральной совокупности

(табл. 7.4). В таблице
обозначено:

Ni– численность типической группы;

dj
– доля (Ni/N);

N– численность
генеральной совокупности;

ni– численность выборки из типической
группы вычисляется:

, (7.7)

n – численность выборки из генеральной
совокупности.

Таблица
7.4

Группы

Ni

dj

ni

1

300

0,3

30

2

500

0,5

50

3

200

0,2

20

1000

1,0

100


пропорционально среднему квадратическому
отклонению
(табл. 7.5).

здесь
i– среднее
квадратическое отклонение типических
групп;

ni
– численность выборки из типической
группы вычисляется по формуле


(7.8)

Таблица
7.5

Ni

i

ni

300

5

0,25

25

500

7

0,35

35

200

8

0,40

40

1000

20

1,0

100


комбинированно (табл. 7.6).

Численность
выборки вычисляется по формуле

. (7.9)

Таблица 7.6

i

iNi

300

5

1500

0,23

23

500

7

2100

0,53

53

200

8

1600

0.24

24

1000

20

6600

1,0

100

При проведении
типической выборки непосредственный
отбор из каждой группы проводится
методом случайного отбора.

Средние ошибки
выборки рассчитываются по формулам
табл. 7.7 в зависимости от способа отбора
из типических групп.

Таблица 7.7

Способ
отбора

Повторный

Бесповторный

для
средней

для
доли

для
средней

для
доли

Непропорциональный
объему групп

Пропорциональный

объему групп

Пропорциональный
колеблемости в группах (является
наивыгоднейшим)

здесь
– средняя из внутригрупповых дисперсий
типических групп;

– доля единиц, обладающих изучаемым
признаком;

– средняя из внутригрупповых дисперсий
для доли;

– среднее квадратическое отклонение
в выборке изi-й типической группы;

– объем выборки из типической группы;

– общий объем выборки;


объем типической группы;

– объем генеральной совокупности.

Численность
выборки из каждой типической группы
должна быть пропорциональна среднему
квадратическому отклонению в этой
группе
.Расчет численности
производится по формулам, приведенным
в табл. 7.8.

Таблица 7.8

Повторный

Бесповторный

Для определения
средней

Для определения
доли

4. Серийная
выборка
– удобена в тех случаях,
когда единицы совокупности объединены
в небольшие группы или серии. При серийной
выборке генеральную совокупность делят
на одинаковые по объему группы – серии.
В выборочную совокупность отбираются
серии. Сущность серийной выборки
заключается в случайном или механическом
отборе серий, внутри которых производится
сплошное обследование единиц. Средняя
ошибка серийной выборки с равновеликими
сериями зависит от величины только
межгрупповой дисперсии. Средние ошибки
сведены в табл. 7.9.

Таблица 7.9

Способ
отбора серии

Формулы

для
средней

для
доли

Повторный

Бесповторный

Здесь
R– число серий в генеральной
совокупности;

r – число
отобранных серий;

– межсерийная (межгрупповая) дисперсия
средних;

– межсерийная (межгрупповая) дисперсия
доли.

При серийном
отборе необходимую численность отбираемых
серий определяют так же, как и при
собственно-случайном методе отбора.

Расчет численности
серийной выборки производится по
формулам, приведенным в табл. 7.10.

Таблица 7.10

Повторный

Бесповторный

Для
определения среднего признака

Для
определения доли

Пример.В
механическом цехе завода в десяти
бригадах работает 100 рабочих. В целях
изучения квалификации рабочих была
произведена 20 %-ная серийная бесповторная
выборка, в которую вошли две бригады.
Получено следующее распределение
обследованных рабочих по разрядам:

Рабочие

Разряды

рабочих
в бригаде 1

Разряды

рабочих
в бригаде 2

Рабочие

Разряды
рабочих
в бригаде 1

Разряды
рабочих
в бригаде 2

1

2

3

4

5

2

4

5

2

5

3

6

1

5

3

6

7

8

9

10

6

5

8

4

5

4

2

1

3

2

Необходимо
определить с вероятностью 0,997 пределы,
в которых находится средний разряд
рабочих механического цеха.

Решение.
Определим выборочные средние по
бригадам и общую среднюю как среднюю
взвешенную из групповых средних:

Определим
межсерийную дисперсию по формулам
(5.25):

Рассчитаем
среднюю ошибку выборки по формуле табл.
7.9:

Вычислим
предельную ошибку выборки с вероятностью
0,997:

С вероятностью
0,997 можно утверждать, что средний разряд
рабочих механического цеха находится
в пределах

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

7.4. Влияние вида выборки на величину ошибки выборки

Как указывалось в п. 7.2, при проведении выборочного наблюдения используются различные способы формирования выборочной совокупности: случайный отбор — повторный или бесповторный, механический, серийный, типический. Вид выборки влияет на величину ошибки выборки. При бесповторном отборе формула средней ошибки выборки дополняется множителем

который корректирует величину ошибки выборки и в связи с изменением состава совокупности и вероятности попадания единиц в выборку. В серийной выборке дисперсия определяется как колеблемость между сериями:

 (7.14)

где x̌j — среднее значение признака х в у-й серии;

х̅ — среднее значение в целом по выборке;

r — число отобранных серий.

Формула (7.14) предполагает равенство серий по числу единиц, если это условие не выполняется, то в числитель выражения (7.14) вводится вес — число единиц в j-й серии, fj; тогда в  знаменателе указывается не r, а . Межсерийная дисперсия представляет часть общей дисперсии признака х, и потому ее использование направлено на уменьшение ошибки выборки. Однако значение г намного меньше п, так как число отобранных гнезд намного меньше числа единиц наблюдения. Этот фактор увеличивает ошибку выборки. Его действие более значительно, нежели понижающее влияние межсерийной дисперсии — в результате ошибка серийной выборки в среднем больше ошибки выборки при отборе единицами.

При типическом отборе (стратифицированная или районированная выборка) дисперсия рассчитывается как средняя из внутрирайонных дисперсий:

                                                        (7.15′)

где     s2ji — выборочная дисперсия признака х в j-м районе;

                                                              

где     пj — объем выборки в j-м районе;

т — число районов.

Очевидно, что по правилу сложения дисперсий величина s2 меньше, чем величина общей дисперсии.

Величина ошибки районированной выборки меньше величины ошибки простой (нерайонированной выборки).

Часто используется сочетание районированного отбора с отбором сериями. Такой вид выборки обеспечивает преимущества в организации выборки и уменьшение ошибки выборки. Дисперсия такой выборки представляет среднюю из межсерийных дисперсий для каждого j-го района:

                                                            (7.16)

где s2x̌j — межсерийная дисперсия в j-м районе;

 ,

х̌ij — средняя в i-й серии  j-го района;

х̅j — средняя ву-м районе;

r число серий, отобранных в j-м районе;

т — число районов.

Табл. 7.2 содержит формулы средней ошибки выборки для выборочной средней и выборочной относительной величины для разных видов выборки. В приведенных формулах требуют пояснения выражения дисперсий выборочной относительной величины.

При нерайонированной серийной выборке

,

где     рj — доля единиц определенной категории в у-й серии;

р — доля единиц этой категории в выборке.

Таблица 7.2

Формулы средней ошибки выборочной средней и выборочной относительной величины

 

Рассмотрим на примере влияние вида выборки на величину ошибки выборки. Исходные данные представлены в табл. 7.3.

Таблица 7.3

Показатели 60 предприятий легкой промышленности Санкт-Петербурга (по данным статистической отчетности за I полугодие 1995 г.)

пп

Форма

Собственнос-ти

Оборачиваемость

запасов, х1

Коэффициент покрытия, х2

пп

Форма

собственности

Оборачиваемость

запасов, х1

Коэффициент покрытия, х2

1

государственная

5,65

0,22

31

Частная

1,23

1,18

2

«

2,86

0,35

32

«

0,82

1,59

3

«

1,61

1,06

33

«

2,83

0,74

4

«

3,99

1,01

34

«

1,83

1,52

5

«

2,17

8,88

35

«

2,26

2,43

6

«

1,52

1,06

36

«

2,33

3,28

7

«

0,40

0,99

37

«

2,35

1,13

8

«

2,18

1,07

38

«

1,68

0,89

9

«

1,36

4,62

39

«

2,00

1,67

10

«

3,69

1,40

40

«

2,64

1,48

11

частная

0,45

1,34

41

«

2,75

1,51

12

«

1,0

1,16

42

«

3,29

5,96

13

«

2,05

2,00

43

«

1,6

1,38

14

«

2,36

1,43

44

«

            1,90

2,39

15

«

4,90

1,76

45

«

3,27

3,62

16

«

3,12

1,26

46

«

3,49

0,46

17

«

1,36

1,89

47

«

2,92

1,26

18

«

1,56

12,36

48

смешання

3,22

0,78

19

«

4,84

1,23

49

«

2,61

1,67

20

«

1,23

3,26

50

«

5,17

0,95

21

«

0,81

2,22

51

«

8,63

0,96

22

«

0,7

1,16

52

«

1,06

2,51

23

«

0,87

1,21

53

«

2,13

3,49

24

«

0,20

1,45

54

«

2,03

1,22

25

«

1,71

4,04

55

«

1,82

2,92

26

«

1,83

2,07

56

«

3,12

1,54

27

«

1,32

0,69

57

«

0,77

0,97

28

«

1,95

1,97

58

«

4,15

0,93

29

«

1,46

1,31

59

«

3,62

1,34

30

«

2,96

5,32

60

«

3,89

3,51

Предприятия легкой промышленности примем за генеральную совокупность. Ее характеристики:

численность N = 60;

генеральные средние: μ1 = 2,40 число оборотов;

       μ2 = 1,424;

генеральные дисперсии: σ21 = 2,24;

                                          σ22 = 4,38;

средние квадратические σ1 = 1,49 оборотов;

отклонения:                      σ2 = 2,09.

Остановимся на смысле характеристик предприятий: оборачиваемость запасов рассчитывается делением продолжительности периода (полгода) на среднюю продолжительность одного периода оборота запасов. Очевидно, чем скорее оборачиваются запасы, тем выше их отдача. Коэффициент покрытия рассчитывается как отношение суммы всех источников покрытия запасов к стоимости запасов. Если значение этого показателя меньше единицы, то текущее финансовое состояние предприятия рассматривается как неустойчивое. В нашем примере вариация этого признака примерно в 2 раза превосходит вариацию предприятий по уровню оборачиваемости запасов: ν2 = 147%, ν1 = 62%.

Произведем 30%-ную выборку. Объем выборки составит п = 20 предприятий. При формировании выборки методом механического отбора каждое третье предприятие попадет в выборку. Отбор начинаем с полушага отбора, т. е. первым предприятием, попавшим в выборку, является второе по списку. Средние по выборке равны:

оборачиваемость запасов x̅1 =2,16 оборотов, коэффициент покрытия x̅2=2,01.

Средняя ошибка выборочной средней оборачиваемости запасов

   оборотов.

Средняя ошибка выборочного среднего коэффициента покрытия

 

С вероятностью 0,954 можно утверждать, что средняя оборачиваемость запасов на предприятиях легкой промышленности не ниже

x̅1 — 2sx1 = 2,16 — 0,55 = 1,61 оборотов и не выше x̅1+2sx1 = 2,16 +  0,55 = 2,71 оборотов.

Действительно генеральная средняя (μ1 = 2,40) попадает в этот интервал.

Фактическая ошибка репрезентативности

  оборотов.

Эта величина меньше предельной ошибки выборки, гарантированной с принятой доверительной вероятностью, 0,36 < 0,55. Следовательно, выборка репрезентативна по этому признаку.

Вычислим предельную ошибку выборки коэффициента покрытия и определим доверительный интервал для этой характеристики. Его нижняя граница с той же вероятностью

;

верхняя граница:

 

Генеральная средняя (μ2 = 1,424) так же попадает в доверительный интервал.

Фактическая ошибка репрезентативности составляет:

Эта величина меньше предельной ошибки выборки (0,77), что дает основание считать выборку репрезентативной и по этому признаку.

В генеральной совокупности доля единиц с неустойчивым финансовым положением 2 < 1) составила   в выборке  

Доверительный интервал для оценки доли таких предприятий в генеральной совокупности составляет с вероятностью 0,954:

 

0,15 ± 0,076,

т. е. таких предприятий должно быть не меньше 7,4% и не больше 22,6%. Фактически их оказалось 20% от общего числа предприятии, т. е. выборка дает репрезентативный результат и по этому показателю.

Выполненная выборка формировалась как простая бесповторная механическая. Однако, наверняка статистик будет стремиться учесть структуру генеральной совокупности, поэтому  более естественной была бы выборка, учитывающая выделение предприятий разных форм собственности. Тогда выборка должна быть районированной.

Рассмотрим пример. Генеральная совокупность состоит из 11 государственных предприятий, 36 частных, 13 смешанных. В выборке эти пропорции соблюдаются следующим образом: отобраны по 4 предприятия государственных и смешанных и 12 — частных:

Предприятия

Генеральные

характеристики

Выборочные

характеристики

средние

доли

средние

доли

Государственные

 μ= 2.35

π1 = 0,27

х̅1 = 1,92

Р1 = 0,25

Частные

 μ=2,11

π2 = 0,11

х̅1  = 1,79

Р2=0,08

Смешанные

μ1 =3,25

π3 = 0,38

х̅1  =3,51

Рз — 0,25

Средняя из внутрирайонных дисперсий, рассчитанных по каждой группе предприятий в генеральной совокупности:

Эта величина меньше общей дисперсии без учета районирования (σ2 = 2,24). Следовательно, и величина ошибки выборки при районированном отборе будет меньше:

 

Итак, с вероятностью 0,954 генеральная средняя оборачиваемости запасов находится в интервале 2,16 ± 0,294; 1,866 £ μ £ 2,454.

Чтобы понять, насколько целесообразно в том или ином случае применение районированного отбора, можно воспользоваться корреляционным отношением ц. Согласно правилу сложения дисперсий средняя из внутригрупповых дисперсий может быть представлена как

где h2 — квадрат корреляционного отношения, равный б2:s2.

Следовательно, применение районированной (типической) выборки изменяет предельную ошибку на  . В нашем примере для первой переменной (оборачиваемость) имеем:

          

Сопоставим полученный результат с изменением предельной ошибки выборки:  (без учета районирования) =0,55;

x (при районировании) = 0,294, т. е. ошибка уменьшилась примерно вполовину.

Корреляционное отношение используется и при корректировке величины

                                                  (7.18′)

Тогда при вероятности 0,954 и t = 2; t*=2 — Ö0̅,8̅6̅ = 1,85, т. е. вместо t = 2 достаточно взять t = 1,85.

Многие выборки формируются как многоступенчатые. Ошибка многоступенчатой выборки может быть представлена как

Она складывается из ошибок отдельных ступеней. Поэтому практически используется не больше 2-3 ступеней отбора.

Средняя ошибка выборки при двухступенчатом отборе рассчитывается по формуле

где sx1 2 — дисперсия признака х по совокупности «крупных» единиц;

sx22 — дисперсия признака х в каждой из отобранных «крупных» единиц;

пi — число отобранных единиц наблюдения в <-й «крупной» единице;

т — число отобранных «крупных» единиц.

Таким образом, применение многоступенчатой выборки улучшает организацию выборки, но увеличивает ее ошибку.

Кроме рассмотренных, применяется многофазовая выборка, когда одни сведения собираются на основе изучения всех единиц выборки, а другие — только на основании изучения некоторых из этих единиц, отобранных так, что они составляют подвыборки из единиц первоначальной выборки.

При периодическом повторении выборочных обследований с целью изучения динамики явлений применяются либо независимые выборки — через определенные промежутки времени отбор каждый раз производится независимо от предыдущих выборок; либо фиксированные выборки — в этом случае повторные обследования проводятся по одной и той же выборке. В связи с тем, что в фиксированной выборке могут происходить изменения (прежде всего за счет выбытия единиц) практикуют периодическую адаптацию фиксированной выборки происходящим изменениям. Чаще для целей изучения динамики используется промежуточный вариант — ротационная выборка (частичное замещение). При этом нужно следовать определенному плану замещения, например, каждый раз замещать четверть выборки, тогда каждая первоначальная единица останется в выборке в четырех следующих друг за другом обследованиях.

Названные виды выборок ориентированы на отбор конкретных материальных явлений. Кроме них следует назвать как особый вид выборки метод моментных наблюдений.Сущность метода моментных наблюдений состоит в периодической фиксации состояний .наблюдаемых единиц в отобранные моменты времени. Расчет объема такой выборки дает количество моментов. Этот вид выборочного наблюдения применяется при изучении использования производственного оборудования, либо рабочего времени (см. п. 7.13).

7.5. Задачи, решаемые при применении выборочного метода

При применении выборочного наблюдения возникают три основные задачи:

• определение объема выборки, необходимого для получения требуемой точности результатов с заданной вероятностью;

• определение возможного предела ошибки репрезентативности, гарантированного с заданной вероятностью, и сравнение его с величиной допустимой погрешности.

• определение вероятности того, что Ошибка выборки не превысит допустимой погрешности.

Все эти задачи решаются на основе теоремы Чебышева, согласно которой Р {[ х — μ | < e } ³ 1 — h, когда п — достаточно большое число; e и h — сколь угодно малые положительные числа. Это соотношение, как было показано в п. 7.3, может быть выражено через формулу предельной ошибки выборки ∆x = tsx или ∆p = ts. Решение указанных задач зависит от того, какие величины в формуле предельной ошибки заданы, а какие нужно найти.

Объем выборки рассчитывается на стадии проектирования выборочного обследования. Так как

                                                      

то

 ,                                                                (7.20)

где   ∆ — допустимая погрешность,, которая задается исследователем исходя из требуемой точности результатов проектируемой выборки;

t — табличная величина, соответствующая заданной доверительной вероятности F(t), с которой будут гарантированы оценки генеральной совокупности по данным выборочного обследования;

σ2 — генеральная дисперсия.

Последняя величина, как правило, неизвестна. Используются какие-либо ее оценки: результаты прошлых обследований той же совокупности, если ее структура и условия развития достаточно стабильны, или же зная примерную величину средней, находят дисперсию из соотношения  ;

если известны xmax и хminто можно определить среднее квадратическое отклонение в соответствии с правилом «трех сигм»

   ,

так как в нормальном распределении в размахе вариации «укладывается» 6σ(±3σ). Если распределение заведомо асимметричное, то

 .

Для относительной величины принимают максимальную величину дисперсии σ2max = 0,5∙0,5 = 0,25.

При расчете п не следует гнаться за большими значениями t и малыми значениями ∆, так как это приведет к увеличению объема выборки, а следовательно, к увеличению затрат средств, труда и времени, вовсе не являющемуся необходимым.

Формула (7.20) не учитывает бесповторности отбора и дает максимальную величину выборки, которую можно скорректировать «на бесповторность». Так как

  ,

то на основе (7.20) получаем выражение скорректированного объема выборки (п):

  ,                                         (7.21)

где

 .

При больших размерах генеральной совокупности скорректированный Объем выборки незначительно отличается от n0.

Например, для изучения структуры и стоимости покупок в универмаге из 10 000 покупателей следует отобрать определенное число человек, которое бы обеспечивало с вероятностью 0,95 определение средней стоимости покупок с точностью не менее 2 тыс. руб. Дисперсию примем по прошлому обследованию равной 625.

   человек;

тогда скорректированная численность

   человек (≈ 570 человек).

При проектировании районированной выборки рассчитанный объем выборки распределяют пропорционально численности районов (пропорциональный отбор):

  ,                                                              (7.22)

где  пi — объем выборки для i-го района;

Ni — объем i-го района в генеральной совокупности;

п — общий объем выборки;

N — общий объем генеральной совокупности.

При различиях в однородности выделенных районов лучшие результаты дает распределение запланированного объема выборки между районами не только с учетом их объема, но и с учетом дисперсии признака (оптимальный отбор). В этом случае объем выборки в i-м районе определяется как

 ,                                                      (7.23)

где σ2i — дисперсия признака х в i-м районе.

При любом виде проектируемой выборки расчет объема выборки начинают по формуле повторного отбора (7.20). Если в результате расчета п доля отбора превысит 5%, проводят второй вариант расчета по формуле бесповторного отбора, либо по формуле (7.21), либо как

 .

Если доля отбора меньше 5%, к формуле бесповторного отбора не переходят, так как это не скажется существенно на величине п.

Выборка должна быть такой, чтобы выборочные показатели по всем основным характеристикам были репрезентативны. Поэтому численность выборки рассчитывают многократно исходя из допустимых ошибок разных показателей, значения которых в генеральной совокупности известны.

Например, при выборочном учете детей школьного возраста требуется определить число семей, которые надо обследовать. При этом надо учесть: а) число детей в возрасте 6-7 лет, б) число детей в возрасте 6-15 лет; в) число детей в возрасте 16-17 лет;

г) среднедушевой доход (например, для решения вопроса о строительстве базы отдыха).

Так как репрезентируемые признаки могут иметь разную размерность, то допустимая погрешность для каждого их них задается в виде относительной величины (∆ : х̅) (например, планируется, что в определении среднего размера семьи ошибка должна быть не больше 2%, в определении дохода — не больше 3% и т.д.). В этом случае вместо дисперсии в формуле (7.20) берется квадрат коэффициента вариации.

Вычислив значение п, на основе каждой из характеристик получаем разные объемы выборки: 1200; 300; 700; 100. Обследовать необходимо 1200 семей, т.е. из рассчитанных численностей берется максимальная. При резких различиях необходимых объемов выборки для разных вопросов программы проводится многофазный отбор. В рассмотренном примере среднедушевой доход достаточно учитывать в одной из каждых 12 семей, попавших в выборку.

Многофазный отбор, как правило, довольно сложно организовать, может быть нарушен принцип случайности отбора. Поэтому для обеспечения репрезентативности оказывается выгоднее затратить больше средств на учет большего числа единиц совокупности. Многофазный отбор целесообразно применять, если соотношение между рассчитанными объемами выборки по крайней мере 1:6.

Поскольку расчет необходимой численности выборки основан не на точных, а на предположительных данных о колеблемости в совокупности, следует соблюдать следующие рекомендации: абсолютную величину п округлять только вверх; долю отбора округлять только вниз, т.е. из предосторожности планировать несколько больший объем выборки, чем показывают расчеты.

Объем многоступенчатой выборки рекомендуется увеличить не менее чем на 10% от рассчитанной численности, поскольку, как было показано в предыдущем параграфе, многоступенчатость отбора увеличивает ошибку выборки.

После проведения выборки рассчитывают возможные ошибки . выборочных показателей (ошибки репрезентативности), которые используются для оценки результатов выборки и для получения характеристик генеральной совокупности.

Пример. На электроламповом заводе взято для проверки 100 ламп. Средняя продолжительность их горения оказалась 1420 ч со средним квадратическим отклонением 61,03 ч. Поскольку приемщика продукции интересует качество всей партии (50 тыс. электроламп), оценивают точность полученной средней. Средняя возможная ошибка вычисленной выборочной средней

  ч.

С вероятностью 0,954 предел возможной ошибки

х = 2∙6,1 = ± 12,2 ч.

С вероятностью 0,954 можно утверждать, что средняя продолжительность горения 1 электролампы во всей партии будет находиться в пределах от 1408 до 1432 ч; 46 электроламп из 1000 могут иметь срок горения, выходящий за эти пределы.

Приемщика продукции интересуют отклонения от вычисленных пределов только в сторону сокращения продолжительности горения. Меньше чем 1408 ч могут гореть 23 лампы из 1000. На основании этого приемщик продукции решает вопрос о годности всей партии электроламп.

Решение вопроса может быть уточнено: определим, у какой доли ламп срок службы окажется меньше установленного лимита. Для потребителя продукции таким лимитом являются  1410 ч, продукция с меньшим сроком горения неприемлема.

При контрольной проверке 100 ламп 100 ламп горели менее 1410 ч, их удельный вес р = 0,1, или 10%. Средняя возможная ошибка этой доли

, или ± 3%.

С вероятностью 0,954 предел ошибки доли Д^ = 2 • 0,03 = ± 0,06, или ±6%. Следовательно, во всей партии можно ожидать от 4 до 16% некачественных электроламп.

Чаще всего делают заключение об удовлетворительности выборки, сопоставляя получившиеся пределы ошибок выборочных показателей с величинами допустимых погрешностей. Может получиться, что предел ошибки, рассчитанный с заданной вероятностью, окажется выше допустимого размера погрешности. В этих случаях определяют вероятность того, что ошибка выборки не превзойдет допускаемую погрешность. Решение этой задачи и заключается в отыскании Fft) на основе формулы предела ошибки выборки:

,

где ∆ — допустимый размер погрешности оцениваемого показателя;

s2 — дисперсия показателя, рассчитанная по данным выборочного наблюдения;

п — объем проведенной выборки.

Продолжим пример с оценкой качества электроламп. Если при приемке партии электроламп ставится условие, что минимальный срок горения электроламп 1410 ч, то, учитывая среднюю продолжительность горения по выборке (х= 1420 ч), допустимая погрешность равна 10 ч: 1410 — 1420 = — 10 ч.

Как было установлено выше, с вероятностью 0,954 предел возможной ошибки выборочной средней составил 12,2 ч, что превосходит допустимую погрешность. Является ли это основанием для браковки всей партии? Для ответа на этот вопрос определяют вероятность риска при приемке продукции:

 , отсюда t= 1,64.

Соответствующая доверительная вероятность 0,899 (см. приложение, табл. 1). Вероятность того, что средний срок горения лампы меньше 1410 ч, равна:

 

Следовательно, из 100 ламп 5 могут гореть менее 1410 ч — риск появления некачественной продукции достаточно высок.

Аналогично можно определить вероятность того, что предел ошибки доли не превысит допускаемую погрешность доли.

Оценки надежности выборочных показателей, как показано на примере, позволяют принять обоснованные решения в отношении генеральной совокупности.

7.6. Распространение данных выборочного наблюдения на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности на основе данных, полученных по выборке. При этом исходят из того, что все средние и относительные показатели, полученные по выборке, являются несмещенными и эффективными характеристиками генеральной совокупности.

Выборочные средние и относительные величины распространяются на генеральную совокупность обязательно с учетом предела их возможной ошибки. Приводится выборочный показатель со справкой о пределах ошибки с указанием доверительной вероятности:  x̅ ± ∆xp ± ∆p Или же указывают границы значений генеральной характеристики с определенной вероятностью F(t):

 

Последняя форма записи является основной.

Иногда требуется указать только один (верхний или нижний) предел характеристики генеральной совокупности. При испытании качества продукции часто нас не интересуют положительные ошибки выборки (качество фактически выше, чем получилось по выборке), беспокоит нижний предел, как в примере, рассмотренном в предыдущем параграфе. В некоторых случаях, напротив, интерес вызывают верхние границы оцениваемых показателей, например при анализе расхода материалов. Так что при характеристике генеральной совокупности всегда указывают неблагоприятный предел.

На основе выборки могут быть получены и значения объемных показателей, т. е. подсчетов для генеральной совокупности. Такой расчет осуществляется двумя способами: путем прямого расчета и способом коэффициентов. Прямой расчет заключается в том, что выборочная средняя или доля умножается на объем генеральной совокупности:

 .

Так как средняя величина имеет ошибку репрезентативности ± А д то можно считать, что итоговый подсчет в генеральной совокупности находится в пределах

                                  (7.24)

Итоговый подсчет по генеральной совокупности можно получить на основе итогового подсчета по выборке, разделив его на долю отбора единиц совокупности

 

Прежде чем проводить расчет объемных показателей для генеральной совокупности, нужно убедиться, что структура выборки соответствует структуре генеральной совокупности. При наличии значительных смещений в структуре выборки в долях отдельных групп (0,03 и выше) следует применить метод перевзвешивания, г. в. рассчитывать генеральную среднюю на основе выборочных средних по группам и удельного веса этих групп в генеральной совокупности:

  ,

где wi = NiN.

При способе коэффициентов также используются не только выборочные данные, но и сведения о генеральной совокупности.

Этот способ основан на связи признаков друг с другом. Например, в результате выборочного обследования семей города получены размер среднедушевого дохода ̅), средний доход семьи ̅) и среднее число человек в семье (z̅). Так что x̅ = y̅ / z̅.

Зная численность населения города, требуется рассчитать общую величину денежного дохода населения. Очевидно, это можно сделать, умножив душевой доход на общее число жителей в городе: x̅N. Общий доход можно получить, суммируя доход отдельных семей; численность населения можно получить, суммируя данные о числе членов семей. Тогда

 .

Средний душевой расход  представляет собой коэффициент, подсчитанный по выборке, который связывает две характеристики. Этот коэффициент рассчитывается как отношение двух итоговых подсчетов по выборке:

 .

Следовательно,

 .      

Последний сомножитель не что иное, как обратная величина доли отбора, рассчитанной по значениям признака z.

Итак, итоговый подсчет по генеральной совокупности может быть получен делением соответствующего итогового подсчета по выборке на долю отбора. При прямом расчете берется доля отбора единиц совокупности, при способе коэффициентов — доля отбора по значению какого-либо признака.

Эффективность способа коэффициентов по сравнению с методом прямого расчета зависит от того, насколько тесно связаны между собой признаки, лежащие в основе расчета коэффициента, т.е. признак, по которому подсчитывается итог, и признак, по которому определяется доля отбора. Эффект проявляется, если коэффициент корреляции между ними больше 0,8.

Способ коэффициентов используется для корректировки данных сплошного наблюдения. Например, перепись скота дала сведения, что поголовье свиней в районе составляет 10 000, в том числе в тех хозяйствах, которые потом были охвачены контрольным обходом, сплошное наблюдение показало число свиней 1100. Контрольный обход дал уточненную цифру: не 1100, а 1107 свиней. Тогда поправочный коэффициент

  .

Отсюда скорректированная численность поголовья свиней во всем районе

N =N¢+∆N;  ∆N = kN¢ = ∙10 000 = 64.

N = 10 000 + 64 = 10 064 голов.

Таблицы интеграла вероятностей используются для выборок большого объема из бесконечно большой генеральной совокупности. Но уже при п <  00 получается несоответствие между табличными данными и вероятностью предела; при п < 100 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в генеральной совокупности не имеет значения, так как распределение отклонений выборочного показателя от генеральной характеристики при большой выборке всегда оказывается нормальным.

В выборках небольшого объема п £ 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из совокупности, имеющей нормальное распределение.

Теория малых выборок разработана английским статистиком В. Госсетом (писавшим под псевдонимом Стьюдент) в начале XX в. В 1908 г. им построено специальное распределение, которое позволяет и при малых выборках соотносить t и доверительную вероятность F(t). При п > 100 таблицы распределения Стьюдента дают те же результаты, что и таблицы интеграла вероятностей Лапласа, при 30 £ п £ 100 различия незначительны. Поэтому практически к малым выборкам относят выборки объемом менее 30 единиц (безусловно, большой считается выборка с объемом более 100 единиц).

Использование малых выборок в ряде случаев обусловлено характером обследуемой совокупности. Так, в селекционной работе «чистого» опыта легче добиться на небольшом числе  делянок. Производственный и экономический эксперимент, связанный с экономическими затратами, также проводится на небольшом числе испытаний.

Как уже отмечалось, в случае малой выборки только для нормально распределенной генеральной совокупности могут быть рассчитаны и доверительные вероятности, и доверительные пределы генеральной средней.

Плотность вероятностей распределения Стьюдента описывается функцией

,                               (7.25)

где  t — текущая переменная;

п — объем выборки;

В — величина, зависящая лишь от п.

Распределение Стьюдента имеет только один параметр: d.f. —число степеней свободы (иногда обозначается k).

Это распределение, как и нормальное, симметрично относительно точки t = 0, но оно более пологое. При увеличении объема выборки, а следовательно, и числа степеней свободы распределение Стьюдента быстро приближается к нормальному. Число степеней свободы равно числу тех индивидуальных значений признаков, которыми нужно располагать для определения искомой характеристики.

Так, для расчета дисперсии должна быть известна средняя величина. Поэтому при расчете дисперсии d.f. = п — 1

Таблицы распределения Стьюдента публикуются в двух вариантах:

1) аналогично таблицам интеграла вероятностей приводятся значения t и соответствующие вероятности F(t) при разном числе степеней свободы;

2) значения t приводятся для наиболее употребимых доверительных вероятностей 0,90; 0,95 и 0,99 или для 1 — 0,9 = 0,1, 1 — 0,95 = = 0,05 и 1 — 0,99 == 0,01 при разном числе степеней свободы. Такого рода таблица приведена в приложении (табл. 2), а также значение t-критерия Стьюдента при уровне значимости 0,10; 0,05; 0,01.

При малых выборках расчет средней возможной ошибки основан на выборочных дисперсиях, поэтому

 .

Приведенная формула используется для определения предела возможной ошибки выборочного показателя:

.

Порядок расчетов тот же, что и при больших выборках.

Пример. Для изучения интенсивности труда было организовано наблюдение за 10 отобранными рабочими. Доля работавших все время оказалась равной 0,40, дисперсия 0,4∙0,6 = 0,24. По табл. 2 приложения находим для F(t) = 0,95 и d.f. = n — 1 = 9, t = 2,26. Рассчитаем среднюю ошибку выборки доли работавших все время:

 

Тогда предельная ошибка выборки ∆p = 2,26∙0,16 = ± 0,36. Таким образом, с вероятностью 0,95 доля рабочих, работавших без простоев, в данном цехе предприятия находится в пределах

39,64% £ π £ 40,36%

или

39,6% £ π £ 40,4%.

Если бы мы использовали для расчета доверительных границ генерального параметра таблицу интеграла вероятностей, то t было бы равно 1,96 и ∆p — ± 0,31, т. е. доверительный интервал был бы несколько уже.

Малые выборки широко используются для решения задач, связанных с испытанием статистических гипотез, особенно гипотез о средних величинах.

From Wikipedia, the free encyclopedia

In statistics, sampling errors are incurred when the statistical characteristics of a population are estimated from a subset, or sample, of that population. Since the sample does not include all members of the population, statistics of the sample (often known as estimators), such as means and quartiles, generally differ from the statistics of the entire population (known as parameters). The difference between the sample statistic and population parameter is considered the sampling error.[1] For example, if one measures the height of a thousand individuals from a population of one million, the average height of the thousand is typically not the same as the average height of all one million people in the country.

Since sampling is almost always done to estimate population parameters that are unknown, by definition exact measurement of the sampling errors will not be possible; however they can often be estimated, either by general methods such as bootstrapping, or by specific methods incorporating some assumptions (or guesses) regarding the true population distribution and parameters thereof.

Description[edit]

Sampling Error[edit]

The sampling error is the error caused by observing a sample instead of the whole population.[1] The sampling error is the difference between a sample statistic used to estimate a population parameter and the actual but unknown value of the parameter.[2]

Effective Sampling[edit]

In statistics, a truly random sample means selecting individuals from a population with an equivalent probability; in other words, picking individuals from a group without bias. Failing to do this correctly will result in a sampling bias, which can dramatically increase the sample error in a systematic way. For example, attempting to measure the average height of the entire human population of the Earth, but measuring a sample only from one country, could result in a large over- or under-estimation. In reality, obtaining an unbiased sample can be difficult as many parameters (in this example, country, age, gender, and so on) may strongly bias the estimator and it must be ensured that none of these factors play a part in the selection process.

Even in a perfectly non-biased sample, the sample error will still exist due to the remaining statistical component; consider that measuring only two or three individuals and taking the average would produce a wildly varying result each time. The likely size of the sampling error can generally be reduced by taking a larger sample.[3]

Sample Size Determination[edit]

The cost of increasing a sample size may be prohibitive in reality. Since the sample error can often be estimated beforehand as a function of the sample size, various methods of sample size determination are used to weigh the predicted accuracy of an estimator against the predicted cost of taking a larger sample.

Bootstrapping and Standard Error[edit]

As discussed, a sample statistic, such as an average or percentage, will generally be subject to sample-to-sample variation.[1] By comparing many samples, or splitting a larger sample up into smaller ones (potentially with overlap), the spread of the resulting sample statistics can be used to estimate the standard error on the sample.

In Genetics[edit]

The term «sampling error» has also been used in a related but fundamentally different sense in the field of genetics; for example in the bottleneck effect or founder effect, when natural disasters or migrations dramatically reduce the size of a population, resulting in a smaller population that may or may not fairly represent the original one. This is a source of genetic drift, as certain alleles become more or less common), and has been referred to as «sampling error»,[4] despite not being an «error» in the statistical sense.

See also[edit]

  • Margin of error
  • Propagation of uncertainty
  • Ratio estimator
  • Sampling (statistics)

References[edit]

  1. ^ a b c Sarndal, Swenson, and Wretman (1992), Model Assisted Survey Sampling, Springer-Verlag, ISBN 0-387-40620-4
  2. ^ Burns, N.; Grove, S. K. (2009). The Practice of Nursing Research: Appraisal, Synthesis, and Generation of Evidence (6th ed.). St. Louis, MO: Saunders Elsevier. ISBN 978-1-4557-0736-2.
  3. ^ Scheuren, Fritz (2005). «What is a Margin of Error?». What is a Survey? (PDF). Washington, D.C.: American Statistical Association. Archived from the original (PDF) on 2013-03-12. Retrieved 2008-01-08.
  4. ^ Campbell, Neil A.; Reece, Jane B. (2002). Biology. Benjamin Cummings. pp. 450–451. ISBN 0-536-68045-0.

  • Факторио ошибка загрузки модов
  • Фактор ошибки логнормального распределения
  • Фактологические ошибки это примеры
  • Фактологическая ошибка что это
  • Фактологическая ошибка или фактическая