Ошибки смещение бывает преднамеренные

В выборочном наблюдении используются понятия «ге-нералъная совокупность» – изучаемая совокупность единиц, подлежащая изучению по интересующим исследователя признакам, и «выборочная совокупность» – случайно отобранная из генеральной совокупности некоторая ее часть. К данной выборке предъявляется требование репрезентативности, т. е. при изучении лишь части генеральной совокупности полученные выводы можно применять ко всей совокупности. Характеристиками генеральной и выборочной совокупностей могут служить средние значения изучаемых признаков, их дисперсии и средние квадрати-ческие отклонения, мода и медиана и др.

Исследователя могут интересовать и распределения единиц по изучаемым признакам в генеральной и выборочной совокупностях. В этом случае частоты называются соответственно генеральными и выборочными.

Система правил отбора и способов характеристики единиц изучаемой совокупности составляет содержание выборочного метода, суть которого состоит в получении первичных данных при наблюдении выборки с последующим обобщением, анализом и их распространением на всю генеральную совокупность с целью получения достоверной информации об исследуемом явлении.

Репрезентативность выборки обеспечивается соблюдением принципа случайности отбора объектов совокупности в выборку. Если совокупность является качественно однородной, то принцип случайности реализуется простым случайным отбором объектов выборки. Простым случайным отбором называют такую процедуру образования выборки, которая обеспечивает для каждой единицы совокупности одинаковую вероятность быть выбранной для наблюдения, для любой выборки заданного объема.

Таким образом, цель выборочного метода – сделать вывод о значении признаков генеральной совокупности на основе информации случайной выборки из этой совокупности.

6.2. Ошибки выборочного наблюдения

Между признаками выборочной совокупности и признаками генеральной совокупности, как правило, существует некоторое расхождение, которое называется ошибкой статистического наблюдения. При массовом наблюдении ошибки неизбежны, но возникают они в результате действия различных причин. Величина возможной ошибки выборочного признака происходит из-за ошибок регистрации и ошибок репрезентативности. Ошибки регистрации, или технические ошибки, связаны с недостаточной квалификацией наблюдателей, неточностью подсчетов, несовершенством приборов и т. п.

Под ошибкой репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности. Ошибки репрезентативности бывают случайными и систематическими. Систематические ошибки связаны с нарушением установленных правил отбора. Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности.

В результате первой причины выборка легко может оказаться смещенной, так как при отборе каждой единицы допускается ошибка, всегда направленная в одну и ту же сторону. Эта ошибка получила название ошибки смещения. Ее размер может превышать величину случайной ошибки. Особенность ошибки смещения состоит в том, что, являясь постоянной частью ошибки репрезентативности, она увеличивается с увеличением объема выборки. Случайная же ошибка с увеличением объема выборки уменьшается. Кроме того, величину случайной ошибки можно определить, тогда как размер ошибки смещения практически определить очень сложно, а иногда и невозможно, поэтому важно знать причины, вызывающие ошибку смещения, и предусмотреть мероприятия по ее устранению.

Ошибки смещения бывают преднамеренные и непреднамеренные. Причиной возникновения преднамеренной ошибки является тенденциозный подход к выбору единиц из генеральной совокупности. Чтобы не допустить появление такой ошибки, необходимо соблюдать принцип случайности отбора единиц.

Непреднамеренные ошибки могут возникать на стадии подготовки выборочного наблюдения, формирования выборочной совокупности и анализа ее данных. Чтобы не допустить появление таких ошибок, необходима хорошая основа выборки, т. е. та генеральная совокупность, из которой предполагается производить отбор, например список единиц отбора. Основа выборки должна быть достоверной, полной и соответствовать цели исследования, а единицы отбора и их характеристики должны соответствовать действительному их состоянию на момент подготовки выборочного наблюдения. Нередки случаи, когда в отношении некоторых единиц, попавших в выборку, трудно собрать сведения из-за их отсутствия на момент наблюдения, нежелания дать сведения и т. п. В таких случаях эти единицы приходится заменять другими. Необходимо следить, чтобы замена осуществлялась равноценными единицами.

Случайная ошибка выборки возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности, т. е. она связана со случайным отбором. Теоретическим обоснованием появления случайных ошибок выборки является теория вероятностей и ее предельные теоремы.

Сущность предельных теорем состоит в том, что в массовых явлениях совокупное влияние различных случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая. Так как случайная ошибка выборки возникает в результате случайных различий между единицами выборочной и генеральной совокупностей, то при достаточно большом объеме выборки она будет сколь угодно мала.

Предельные теоремы теории вероятностей позволяют определять размер случайных ошибок выборки. Различают среднюю (стандартную) и предельную ошибку выборки. Под средней (стандартной) ошибкой выборки понимают такое расхождение между средней выборочной и генеральной совокупностями (~ —), которое не превышает ±. Предельной ошибкой выборки принято считать максимально возможное расхождение (~ —), т. е. максимум ошибки при заданной вероятности ее появления.

В математической теории выборочного метода сравниваются средние характеристики признаков выборочной и генеральной совокупностей и доказывается, что с увеличением объема выборки вероятность появления больших ошибок и пределы максимально возможной ошибки уменьшаются. Чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик. На основании теоремы, доказанной П.Л. Чебышевым, величину стандартной ошибки простой случайной выборки при достаточно большом объеме выборки (n) можно определить по формуле

Статистика: конспект лекций i_041.png

– стандартная ошибка.

Из этой формулы средней (стандартной) ошибки простой случайной выборки видно, что величина зависит от изменчивости признака в генеральной совокупности (чем больше вариация признака, тем больше ошибка выборки) и от объема выборки n (чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик).

Академик A.M. Ляпунов доказал, что вероятность появления случайной ошибки выборки при достаточно большом ее объеме подчиняется закону нормального распределения. Эта вероятность определяется по формуле

Статистика: конспект лекций i_042.png

В математической статистике употребляют коэффициент доверия t, значения функции F(t) табулированы при разных его значениях, при этом получают соответствующие уровни доверительной вероятности (табл. 6.1).

Таблица 6.1

Коэффициент доверия t и соответствующие уровни доверительной вероятности

Статистика: конспект лекций i_043.png

Коэффициент доверия позволяет вычислить предельную ошибку выборки,

Статистика: конспект лекций i_044.png

т. е. предельная ошибка выборки равна t-кратному числу средних ошибок выборки.

Ошибки выборочного наблюдения

Информация, получаемая в результате
любого статисти­ческого наблюдения,
имеет расхождение с реальной
действитель­ностью. Такое расхождение
получило название ошибок стати­стического
наблюдения. При массовом наблюдении
ошибки не­избежны, но возникают они
в результате действия различных причин
(см. гл. 4).

В данной главе рассматривается только
ошибка репрезен­тативности и причины
ее возникновения. Под ошибкой
репре­зентативности
(представительства)
понимают расхождение между выборочной
характеристикой и предполагаемой
характе­ристикой генеральной
совокупности. Причиной образования
этой ошибки является то обстоятельство,
что обследуются не все единицы генеральной
совокупности, а лишь их некоторая часть,
и различия между единицами, попавшими
в выборку, не соот­ветствуют различиям
единиц, не попавших в выборку. Вслед­ствие
этого выборочная совокупность становится
непредстави­тельной по отношению к
генеральной совокупности. Ошибка
ре­презентативности может возникнуть
по двум причинам: из-за нарушения научных
принципов отбора —систематическая
ошибка
— и в результате случайности
отбора —случайная ошибка. В результате
первой причины выборка легко может
оказаться смещенной, так как при отборе
каждой единицы до­пускается ошибка,
всегда направленная в одну и ту же
сто­рону. Эта ошибка получила названиеошибки смещения. Ее раз­мер может
превышать величину случайной ошибки.
Особен­ность ошибки смещения состоит
в том, что, представляя собой постоянную
часть ошибки репрезентативности, она
увеличива­ется с увеличением объема
выборки. Случайная же ошибка с увеличением
объема выборки уменьшается. Кроме того,
ве­личину случайной ошибки можно
определить (см. ниже), тогда как размер
ошибки смещения непосредственно
практически оп­ределить очень сложно,
а иногда — невозможно. Поэтому необ­ходимо
знать причины, вызывающие ошибку смещения
и меры, способствующие её устранению.

Ошибки смещения бывают преднамеренные
и непреднаме­ренные. Причиной
возникновения преднамеренной ошибки
яв­ляется тенденциозный подход к
выбору единиц из генеральной совокупности.
Мерой устранения этой ошибки может быть
только исключение тенденциозности.
Выявить эту ошибку можно только путем
проведения повторного отбора с
обязательным соблюдением принципа
случайности.

Непреднамеренные ошибки могут
возникать на стадии под­готовки
выборочного наблюдения, формирования
выборочной совокупности и анализа ее
данных. Чаще всего создаются условия
для возникновения ошибок смещения на
стадии подготовки выборочного наблюдения.
Недостаточно хорошо продуманные и четко
сформулированные взаимоувязанные
вопросы плана организации и проведения
выборочного обследования могут дать
информацию, не соответствующую цели
исследования или, что еще хуже, вводящую
в заблуждение. Если при сплошном
наблюдении это возможно только при
преднамеренном искажении фактов, то
при выборочном это связано с
непреднамеренными ошибками смещения.
При разработке плана организации и
про­ведения выборочного наблюдения
особое внимание следует уделятьединице
отбора,
т. е. такой единице изучаемой
сово­купности, которая является
основанием самого процесса отбора.
Единицей отбора могут служить естественные
единицы изучае­мого явления, например
предприятие, рабочий, покупатель, семья
и т. д. В некоторых случаях необходимо
создать искус­ственные единицы, не
соответствующие естественному делению
изучаемой совокупности. Удачное
установление единицы отбора уменьшает
вероятность получить смещенную выборку.

Сокращению опасности возникновения
ошибок смещения во многом способствует
хорошая основа выборки, т. е. та
гене­ральная совокупность, из которой
предполагается производить отбор,
например список единиц отбора. Поэтому
при подготовке выборочного наблюдения
необходимо особенно тщательно
озна­комиться с тем, какова основа
выборки, пригодна ли она для производства
отбора, позволит ли она образовать
несмещенную выборку. Если готовой основы
выборки нет, то ее необходимо построить.

Основа выборки должна быть достоверной,
полной и соот­ветствовать цели
исследования, а единицы отбора и их
ха­рактеристики должны соответствовать
действительному их со­стоянию на
момент подготовки выборочного наблюдения.
Если основа выборки не отвечает
перечисленным требова­ниям, ее
необходимо либо существенно улучшить,
внеся соот­ветствующие изменения,
уточнения, дополнения, либо создать
заново.

На стадиях формирования выборочной
совокупности и про­изводства наблюдения
ошибки смещения особенно опасны, так
как их трудно заметить и исправить. При
формировании выбо­рочной совокупности
ошибку смещения чаще всего дает неточ­ное
соблюдение установленного порядка
отбора, предусматри­вающего отбор
вполне определенных единиц. Иногда
может показаться, что выборочная
совокупность «не пострадает», если,
например, вместо предусмотренной десятой
единицы по списку взять одиннадцатую
или двенадцатую; в действительности же
такое нарушение установленного порядка
отбора нередко при­водит к смещенной
выборке. Ошибки смещения при анализе
данных могут возникнуть из-за неправильных
приемов распространения выборочных
ха­рактеристик на генеральную
совокупность (см. 11.4).

Случайная ошибка выборки возникает
в результате случай­ных различий
между единицами, попавшими в выборку,
и еди­ницами генеральной совокупности,
т. е. она связана со слу­чайным отбором.
Теоретическим обоснованием появления
слу­чайных ошибок выборки является
теория вероятностей и ее предельные
теоремы.

Сущность предельных теорем состоит в
том, что в массовых явлениях совокупное
влияние различных случайных причин на
формирование закономерностей и обобщающих
характеристик будет сколь угодно малой
величиной или практически не зави­сит
от случая. Так как случайная ошибка
выборки возникает в результате случайных
различий между единицами выбороч­ной
и генеральной совокупностей, то при
достаточно большом объеме выборки она
будет сколь угодно мала. Этот вывод,
опирающийся на доказательства предельных
теорем, позволяет предполагать, что
характеристики выборочного наблюдения
мо­гут достаточно хорошо представлять
характеристики генераль­ной
совокупности.

Предельные теоремы исходят из закона
нормального рас­пределения, согласно
которому большая часть выборочных
средних сосредоточивается около
генеральной средней
.
Следо­вательно, закон нормального
распределения теоретически поз­воляет
установить, в какой мере изменяется
размер случайной ошибки выборки с
изменением вероятности ее появления.
Так как многие массовые явления
подчиняются закону нормального
распределения, то он служит основой при
оценке вероятности тех или иных
результатов выборочного наблюдения.

Предельные теоремы теории вероятностей
позволяют опре­делять размер случайных
ошибок выборки. Различают сред­нюю
(стандартную) и предельную ошибку
выборки. Под сред­ней (стандартной)
ошибкой выборки
понимают расхож­дение
между средней выборочной и генеральной
совокупностей,не
превышающее.
Предельной ошибкой
вы­борки принято
считать максимально возможное расхождение,
т. е. максимум ошибки при заданной
вероятности ее по­явления. На основании
теоремы, доказанной П. Л. Чебышевым,
ве­личину стандартной ошибки так
называемого собственно-случайного
отбора при достаточно большом объёме
выборки можно определить по формуле:

,

где
— стандартная ошибка.

Величина стандартной ошибки прямо
пропорциональна колеблемости признака
в генеральной совокупности и обратно
пропорциональна квадратному корню
объёма выборки. Величина
зависит также от способа и вида отбора.

Академик А.М.Ляпунов, продолжив разработки
П.Л.Чебышева, доказал, что вероятность
появления случайной ошибки выборки при
её достаточно большом объёме подчиняется
закону нормального распределения. Эта
вероятность определяется по формуле:

Значения функции
табулированы
при различных значенияхt.

Предельная ошибка выборки определяется
по формуле

,

где
-предельная
ошибка,t– заданный
коэффициент доверия.

Так, при t=1 величина
предельной ошибки составит,
гарантированную с вероятностью 0,683. Это
означает, что в 683 выборках из тысячи
подобных максимальная ошибка выборки
(предельная) не превысит.
Приt=2 с вероятностью
0,954 она не выйдет за пределыи
т.д. В практике выборочных наблюдений
массовых общественных явлений максимальный
предел ошибок, как правило, вполне
достаточен в пределах.

Однако приведённые формулы нахождения
ошибок выборки практически непригодны,
т.к. в них σ – это показатель колеблемости
признака в генеральной совокупности,
который неизвестен, как неизвестна и
генеральная средняя. Но в теории
вероятностей доказывается, что

.

Так как
при
достаточно большомn– величина, близкая к единице, то условно
принимается, что.
На основании этого утверждения в
вышеприведённых формулах вместо
генеральной дисперсии принимают значение
выборочной дисперсии.

Предельная ошибка выборки позволяет
определять предельные значения
характеристик генеральной совокупности
при заданной вероятности и их доверительные
интервалы:

.

Это означает следующее: с заданной
вероятностью можно утверждать, что
значение генеральной средней ожидается
в пределах от
до.

Наряду с абсолютной величиной предельной
ошибки выборки рассчитывают и относительную
ошибку,
определяемую как процентное
отношение предельной ошибки выборки к
соответствующей характеристике
выборочной совокупности:

,,

Если при выборочном наблюдении изучению
подлежит альтернативный признак, то
случайная ошибка выборки для доли
определяется в соответствии с теоремой
Я.Бернулли. так
как вероятность расхождения между
частостью и долей тоже подчиняется
закону нормального распределения, то
стандартная ошибка выборки альтернативного
признака определяется по формуле:

,

где pq– дисперсия
доли альтернативного признака в
генеральной совокупности.

Так как pqнеизвестно,
то на практике её заменяют дисперсией
выборочной совокупностиw(1-w)
и формула принимает вид:

Соседние файлы в папке 14-05-2013_10-41-11

  • #
  • #
  • #
  • #
  • #
  • #
  • #

Между
признаками выборочной совокупности и
генеральной совокупности, как правило,
существует некоторое расхождение,
которое называется ошибкой статистического
наблюдения
. При массовом наблюдении
ошибки неизбежны, но возникают они в
результате действия различных причин:

1) ошибки
регистрации
или технические
ошибки
связаны с недостаточной
квалификацией наблюдателей, неточностью
подсчетов, несовершенством приборов и
т.п;

2) под ошибкой
репрезентативности

(представительства)
понимают
расхождение между выборочной
характеристикой и разыскиваемой истинной
характеристикой генеральной совокупности:

а) систематические
ошибки
связаны с нарушением
установленных правил отбора;

б) случайные
ошибки
объясняются недостаточно
равномерным представлением в выборочной
совокупности различных категорий единиц
генеральной совокупности.

В результате
систематической ошибки выборка легко
может оказаться смещенной, т.к. при
отборе каждой единицы допускается
ошибка, всегда направленная в одну и ту
же сторону. Эта ошибка получила название
ошибки смещения. Ее размер может
превышать величину случайной ошибки.
Особенность ошибки смещения состоит в
том, что, являясь постоянной частью
ошибки репрезентативности, она
увеличивается с увеличением объема
выборки
. Размер ошибки смещения
определить очень сложно, иногда
невозможно.

Ошибки
смещения бывают преднамеренные и
непреднамеренные. Причиной возникновения
преднамеренной ошибки является
тенденциозный подход к выбору единиц
из генеральной совокупности. Чтобы не
допустить появления такой ошибки,
необходимо соблюдать принцип случайности
отбора единиц. Непреднамеренные
ошибки
могут возникать на стадии
подготовки выборочного наблюдения,
формирования выборочной совокупности
и анализа ее данных. Чтобы не допустить
появления таких ошибок, необходима
хорошая основа выборки.

Случайная
ошибка выборки возникает в результате
случайных различий между единицами,
попавшими в выборку, и единицами
генеральной совокупности; с увеличением
объёма выборки случайная ошибка
уменьшается
. Теоретическим обоснованием
работы со случайными ошибками выборки
является теория вероятностей и ее
предельные теоремы.

Сущность
предельных теорем состоит в том,
что в массовых явлениях совокупное
влияние различных случайных причин на
формирование закономерностей и обобщающих
характеристик будет сколь угодно малой
величиной или практически не зависит
от случая. Поскольку случайная ошибка
выборки возникает в результате случайных
различий между единицами выборочной и
генеральной совокупностей, то при
достаточно большом объеме выборки она
будет сколь угодно мала.

Предельные
теоремы теории вероятностей позволяют
определять размер случайных ошибок
выборки. Различают среднюю (стандартную)
и предельную ошибку выборки. Под средней
(стандартной) ошибкой
выборки
понимают такое расхождение между средней
выборочной и генеральной совокупностью
(
),
которое не превышает ±Δ. Предельной
ошибкой
выборочного наблюдения
называется разность между величиной
средней в генеральной совокупности и
ее величиной, вычисленной по результатам
выборочного наблюдения (5.1):


.

(5.1)

В курсах
математической статистики доказано,
что величина предельной ошибки выборки
не должна превышать соотношения (5.2):


,

(5.2)

где величина μ
называется средней ошибкой выборки
и в общем виде определяется по
формулам (5.3) или (5.4):

,

(5.3)

μ
=

.

(5.4)

где


среднее квадратическое отклонение в
генеральной совокупности;

n
— число наблюдений.

В качестве
предельной ошибки обычно рассматривается
произведение средней ошибки выборки и
коэффициента доверия t
параметра, указывающего на конкретное
значение вероятности того, на какую
величину генеральная средняя будет
отличаться от выборочной средней.

Соотношение
между дисперсиями генеральной и
выборочной совокупности при этом
выражается формулой (5.5):


.

(5.5)

Случайный
отбор может быть бесповторным и повторным.
При бесповторном
отборе

единица, попавшая в выборочную
совокупность, обратно в генеральную не
возвращается. Следовательно, численность
генеральной совокупности всё время
уменьшается (по такой схеме проходят,
например, тиражи различных лотерей).
При повторном
отборе

отобранная единица наблюдения возвращается
в генеральную совокупность обратно.
Таким образом, численность генеральной
совокупности в процессе проведения
выборочного обследования остается все
время неизменной.

Расчет
средней
ошибки

повторной
случайной выборки
:

1) cредняя
ошибка для средней

(5.3) или (5.4);

2) cредняя
ошибка для доли

(5.6):

(5.6)

Расчет
средней
ошибки

бесповторной
случайной выборки
:

1) средняя
ошибка для средней

(5.7):

(5.7)

2) средняя
ошибка для доли

(5.8):

(5.8)

Расчет
предельной
ошибки
 повторной
случайной выборки
:

1) предельная
ошибка для средней

(теорема
Чебышева—Ляпунова—Лапласа)

(5.9):

(5.9)

2) предельная
ошибка для доли

(5.10):

(5.10)

Расчет
предельной
ошибки

бесповторной
случайной выборки
:

1) предельная
ошибка для средней

(5.11):

(5.11)

2) предельная
ошибка для доли

(5.12):

(5.12)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Статистика (СП)

Государственная статистическая отчетность подразделятся на __________ и специализированную

Статистика (СП)

_____________ — статистический показатель, рассчитываемый как отношение абсолютного прироста к абсолютному уровню, принятому за базу сравнения

Статистика (СП)

Показатели, представляющие собой количественную характеристику социально-экономических явлений и процессов в условиях качественной определенности, называются _______________ показатели

Статистика (СП)

_______________ статистических показателей — это совокупность взаимосвязанных показателей, имеющая одно- или многоуровневую структуру, нацеленная на решение конкретной статистической задачи

Статистика (СП)

___________ отчетность — официальный документ, в котором содержатся сведения о работе, состоянии (развитии) подотчетного объекта, занесенные в специальную форму

Статистика (СП)

_____________ группировка – разделение исследуемой качественно разнородной совокупности на классы, социально-экономические типы, однородные группы единиц в соответствии с правилами научной группировки

Статистика (СП)

Статистический ________________ – это качественная, а также количественная характеристика любого свойства какой-то совокупности

Статистика (СП)

___________ – последовательность упорядоченных во времени числовых показателей, характеризующих уровень развития изучаемого явления

Статистика (СП)

Совокупность признаков можно разделить на две группы: факторные и _____________.

Статистика (СП)

__________ выступает как количественная закономерность изменения в пространстве и во времени массовых явлений и процессов общественной жизни, состоящих из множества элементов (единиц совокупности)

Статистика (СП)

___________ — это признак, по которому проводится разбивка единиц совокупности на отдельные группы.

Статистика (СП)

_____________ статистики — количественная сторона массовых социально-экономических явлений и процессов, которая изучается неразрывно с их качественной стороной

Статистика (СП)

__________ индексы — индексы, которые характеризуют соотношение совокупности статистических процессов или явлений, состоящей из разнородных, непосредственно несоизмеримых элементов

Статистика (СП)

___________– количество элементов совокупности, которые имеют данное значение признака

Статистика (СП)

Признак, имеющий только два варианта значений называется -_______________.

Статистика (СП)

В _____________ отчетности программа разработана с учетом особенностей отдельных отраслей экономики или видов деятельности

Статистика (СП)

__________ — общественная наука, которая изучает количественную сторону качественно определенных массовых социально-экономических явлений и процессов, выявляет действующие количественные зависимости, тенденции и закономерности в конкретных условиях места и времени

Статистика (СП)

________________ ошибка выборки – ошибка, которая возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности, т.е. ошибка, связанная со случайным отбором

Статистика (СП)

_______________ – различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени

Статистика (СП)

____________ величины – обобщающие показатели, выражающие меру количественных соотношений, присущих статистическим объектам

Статистика (СП)

Применяя выборочный метод в статистике, обычно используют два основных вида обобщающих показателей: 1) среднюю величину количественного признака; 2) ________________ величину альтернативного признака

Статистика (СП)

Установите соответствие между понятиями и их определениями:

Монографическое обследование

обследованию подвергается только часть единиц изучаемой совокупности

наблюдение, основанное на принципе случайного отбора тех единиц изучаемой совокупности, которые должны быть подвергнуты наблюдению

обследованию подвергаются все единицы изучаемой совокупности

детальное, глубокое изучение и описание отдельных, характерных в каком-либо отношении единиц совокупности, как правило, по расширенной программе

Статистика (СП)

______________ статистические показатели – показатели, которые отражают количественную сторону изучаемой совокупности общественных явлений и представляют собой их величину, выраженную соответствующими единицами измерения

Статистика (СП)

________________ величина — обобщающий показатель, характеризующий типичный уровень варьирующего признака в расчете на единицу однородной совокупности в конкретных условиях места и времени

Статистика (СП)

____________ статистической отчетности — специальный документ, бланк, содержащий перечень определенных показателей, сведений, характеризующих ту или иную хозяйственную единицу и результаты ее деятельности, представляемый в государственные статистические органы для дальнейшего обобщения

Статистика (СП)

_______________ — частота, выраженные в долях единицы или в процентах к итогу (сумма частостей равна 1 или 100 %)

Статистика (СП)

Закон _____________ — общий принцип, в силу которого количественные закономерности, присущие массовым явлениям, отчетливо проявляются лишь при достаточно большом числе наблюдений

Статистика (СП)

Каждое числовое значение показателя, характеризующее величину явления, называется ___________ — количественной оценкой развития во времени исследуемого явления или процесса

Статистика (СП)

Установите соответствие между видами отбора и их характеристиками:

все единицы ГС нумеруются, а выпавшие в результате жеребьевки номера соответствуют единицам, попавшим в выборку, причем число номеров равно запланированному объему выборки

Стратифицированный (расслоенный) отбор

случайным или механическим способом выбирают не отдельные единицы, а определенные серии, внутри которых производится сплошное наблюдение

Серийный (гнездовой) отбор

осуществляется из неоднородной генеральной совокупности, когда ее предварительно разбивают на однородные группы, после чего производят отбор единиц из каждой группы в выборочную совокупность случайным или механическим способом пропорционально их численности в генеральной совокупности

Собственно случайный отбор

отбираются единицы генеральной совокупности с постоянным шагом N/п. Так, если она генеральная совокупность содержит 100 тыс. ед., а требуется выбрать 1 тыс. ед., то в выборку попадет каждая сотая единица

Статистика (СП)

Группировка, в которой группы образованы по одному признаку, называется ___________.

Статистика (СП)

____________ – статистический показатель, который отражает интенсивность изменения уровней ряда динамики и показывает, во сколько раз увеличился уровень по сравнению с предыдущим или базисным, а в случае уменьшения – какую часть базисного уровня составляет сравниваемый уровень; измеряется отношением текущего уровня к предыдущему или базисному

Статистика (СП)

__________ наблюдением называется такое несплошное обследование, при котором признаки регистрируются у отдельных единиц изучаемой статистической совокупности, отобранных с использованием специальных методов, а полученные в процессе обследования результаты с определенным уровнем вероятности распространяются на всю исходную совокупность

Статистика (СП)

______________ индексы — индексы, которые характеризуют результат сравнения двух показателей, относящихся к одному объекту, например сравнение цен какого-либо товара, объема его реализации и т.д.

Статистика (СП)

Статистическая ___________ — документ, разъясняющий вопросы программы статистического наблюдения, порядок заполнения статистического формуляра и частично планово-организационные вопросы

Статистика (СП)

Под __________ репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности

Статистика (СП)

_____________ — относительный показатель, характеризующий изменение величины какого-либо явления (простого или сложного, состоящего из соизмеримых или несоизмеримых элементов) во времени, пространстве или по сравнению с любым эталоном (нормативом, планом, прогнозом и т.д.)

Статистика (СП)

______________ — группа, состоящая из множества относительно однородных элементов, взятых вместе в известных границах пространства и времени и обладающих признаками сходства и различия

Статистика (СП)

Различают два вида показателей экономического и социального развития общества: плановые (прогнозные) и _____________ (статистические)

Статистика (СП)

Группировка, в которой разделение совокупности на группы производится по двум и более признакам, взятым в сочетании (комбинации) называется ___________.

Статистика (СП)

___________ статистического наблюдения — это статистическая совокупность, в которой проистекают исследуемые социально-экономические явления и процессы

Статистика (СП)

Ряды динамики подразделяются на моментные, ____________ и ряды средних величин.

Статистика (СП)

Общее число единиц, образующих статистическую совокупность, называется ______________ совокупности

Статистика (СП)

Формы государственной статистической отчетности утверждаются ____________

Статистика (СП)

Сущность ________________ теорем состоит в том, что в массовых явлениях совокупное влияние различных случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая

Статистика (СП)

Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется _______________ группировкой

Статистика (СП)

__________ наблюдения — перечень признаков, подлежащих регистрации (при непосредственном наблюдении), либо перечень вопросов, по которым собираются сведения (при опросах)

Статистика (СП)

Федеральная служба государственной ___________ (Росстат) — федеральный орган исполнительной власти, осуществляющий функции по формированию официальной статистической информации о социальном, экономическом, демографическом и экологическом положении страны, а также функции по контролю и надзору в области государственной статистической деятельности на территории РФ

Статистика (СП)

____________ отчетность – отчетность, обязательная к представлению организациями и предприятиями в органы государственной статистики

часть единиц может представлять всю изучаемую совокупность явления по интересующим исследователя признакам. Целью выборочного наблюдения является получение информации прежде всего для определения сводных обобщающих характеристик всей изучаемой совокупности. По своей цели выборочное наблюдение совпадает с одной из задач сплошного наблюдения, и поэтому речь может идти о том, какое из двух видов наблюдения – сплошное или выборочное – целесообразнее провести.

При решении этого вопроса необходимо исходить из следующих основных требований, предъявляемых к статистическому наблюдению:

1) информация должна быть достоверной, т. е. максимально соответствовать реальной действительности;

2) сведения должны быть достаточно полными для решения задач исследования;

3) отбор информации должен быть проведен в максимально сжатые сроки для обеспечения ее использования в оперативных целях;

4) денежные и трудовые затраты на организацию и проведение должны быть минимальными.

При выборочном наблюдении эти требования обеспечиваются в большей мере, чем при сплошном. Преимущества выборочного наблюдения по сравнению со сплошным в полной мере можно оценить, если оно организовано и проведено в строгом соответствии с научными принципами теории выборочного метода. Таким принципом является обеспечение случайности отбора единиц и достаточного их числа. Соблюдение принципа позволяет получить такую совокупность единиц, которая по интересующим исследователя признакам представляет всю изучаемую совокупность, т. е. является репрезентативной (представительной).

При проведении выборочного наблюдения обследуются не все единицы изучаемого объекта, т. е. не все единицы генеральной совокупности, а лишь ее некоторая часть, специальным образом отобранная. Первый принцип отбора – обеспечение случайности – заключается в том, что при отборе каждой из единиц изучаемой совокупности обеспечивается равная возможность попасть в выборку. Случайный отбор – это не беспорядочный отбор. Случайный отбор можно обеспечить только при соблюдении определенной методики (например, осуществляя отбор по жребию, применяя таблицы случайных чисел и т. д.).

Второй принцип отбора – обеспечение достаточного числа отобранных единиц – тесно связан с понятием репрезентативности выборки. Понятие репрезентативности отобранной совокупности единиц не следует понимать как ее представительность во всех отношениях, т. е. по всем признакам изучаемой совокупности. Такое представительство обеспечить практически невозможно. Любое выборочное наблюдение проводится с определенной целью и четко сформулированными конкретными задачами, и понятие репрезентативности должно быть связано с целью и задачами исследования. Отобранная из всей изучаемой совокупности часть должна быть репрезентативной прежде всего в отношении тех признаков, которые изучаются или оказывают существенное влияние на формирование сводных обобщающих характеристик.

Введем некоторые понятия, используемые в выборочном наблюдении. Генеральной совокупностью называется вся изучаемая совокупность единиц, подлежащая изучению по интересующим исследователя признакам. Выборочной совокупностью называется отобранная в случайном порядке из генеральной совокупности некоторая ее часть. К данной выборке предъявляется требование репрезентативности, что означает возможность, изучая лишь часть генеральной совокупности, распространять полученные выводы на всю совокупность. Характеристиками генеральной и выборочной совокупностей могут служить средние значения изучаемых признаков, их дисперсии и средние квадратические отклонения, мода и медиана и др.

Исследователя могут интересовать и распределения единиц по изучаемым признакам в генеральной и выборочной совокупностях. В этом случае частоты называются соответственно генеральными и выборочными.

Система правил отбора и способов характеристики единиц изучаемой совокупности составляет содержание выборочного метода. Суть выборочного метода состоит в получении первичных данных, осуществляемых наблюдением выборки с последующим обобщением, анализом и их распространением на всю генеральную совокупность с целью получения достоверной информации об исследуемом явлении.

Репрезентативность выборки обеспечивается соблюдением принципа случайности отбора объектов совокупности в выборку. Если совокупность является качественно однородной, то принцип случайности реализуется простым случайным отбором объектов выборки. Простым случайным отбором называют такую процедуру образования выборки, которая обеспечивает одинаковую вероятность для каждой единицы совокупности быть выбранной для наблюдения, для любой выборки заданного объема.

Итак, цель выборочного метода – сделать вывод о значении признаков генеральной совокупности на основе информации от случайной выборки из этой совокупности.

2. Ошибки выборочного наблюдения

Между признаками выборочной совокупности и признаками генеральной совокупности, как правило, существует некоторое расхождение, которое называют ошибкой статистического наблюдения. При массовом наблюдении ошибки неизбежны, но возникают они в результате действия различных причин. Величина возможной ошибки выборочного признака слагается из ошибок регистрации и ошибок репрезентативности. Ошибки регистрации, или технические ошибки, связаны с недостаточной квалификацией наблюдателей, неточностью подсчетов, несовершенством приборов и т. п.

Под ошибкой репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности. Ошибки репрезентативности бывают случайными и систематическими.

Систематические ошибки связаны с нарушением установленных правил отбора. Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности. В результате первой причины выборка легко может оказаться смещенной, так как при отборе каждой единицы допускается ошибка, всегда направленная в одну и ту же сторону. Эта ошибка получила название ошибки смещения. Ее размер может превышать величину случайной ошибки. Особенность ошибки смещения состоит в том, что, представляя собой постоянную часть ошибки репрезентативности, она увеличивается с увеличением объема выборки. Случайная же ошибка с увеличением объема выборки уменьшается. Кроме того, величину случайной ошибки можно определить, тогда как размер ошибки смещения непосредственно практически определить очень сложно, а иногда и невозможно. Поэтому важно знать причины, вызывающие ошибку смещения, и предусмотреть мероприятия по ее устранению.

Ошибки смещения бывают преднамеренными и непреднамеренными. Причиной возникновения преднамеренной ошибки является тенденциозный подход к выбору единиц из генеральной совокупности. Чтобы не допустить появления такой ошибки, необходимо соблюдать принцип случайности отбора единиц.

Непреднамеренные ошибки могут возникать на стадии подготовки выборочного наблюдения, формирования выборочной совокупности и анализа ее данных. Чтобы не допустить появления таких ошибок, необходима хорошая основа выборки, т. е. та генеральная совокупность, из которой предполагается производить отбор, например список единиц отбора. Основа выборки должна быть достоверной, полной и соответствовать цели исследования, а единицы отбора и их характеристики должны соответствовать действительному их состоянию на момент подготовки выборочного наблюдения. Нередки случаи, когда в отношении некоторых единиц, попавших в выборку, трудно собрать сведения из-за их отсутствия на момент наблюдения, нежелания дать сведения и т. п. В таких случаях эти единицы приходится заменять другими. Необходимо следить, чтобы замена осуществлялась равноценными единицами.

Случайная ошибка выборки возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности, т. е. она связана со случайным отбором. Теоретическим обоснованием появления случайных ошибок выборки являются теория вероятностей и ее предельные теоремы.

Сущность предельных теорем состоит в том, что в массовых явлениях совокупное влияние различных случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая. Так как случайная ошибка выборки возникает в

Статистика (СП)

Государственная статистическая отчетность подразделятся на __________ и специализированную

Статистика (СП)

_____________ — статистический показатель, рассчитываемый как отношение абсолютного прироста к абсолютному уровню, принятому за базу сравнения

Статистика (СП)

Показатели, представляющие собой количественную характеристику социально-экономических явлений и процессов в условиях качественной определенности, называются _______________ показатели

Статистика (СП)

_______________ статистических показателей — это совокупность взаимосвязанных показателей, имеющая одно- или многоуровневую структуру, нацеленная на решение конкретной статистической задачи

Статистика (СП)

___________ отчетность — официальный документ, в котором содержатся сведения о работе, состоянии (развитии) подотчетного объекта, занесенные в специальную форму

Статистика (СП)

_____________ группировка – разделение исследуемой качественно разнородной совокупности на классы, социально-экономические типы, однородные группы единиц в соответствии с правилами научной группировки

Статистика (СП)

Статистический ________________ – это качественная, а также количественная характеристика любого свойства какой-то совокупности

Статистика (СП)

___________ – последовательность упорядоченных во времени числовых показателей, характеризующих уровень развития изучаемого явления

Статистика (СП)

Совокупность признаков можно разделить на две группы: факторные и _____________.

Статистика (СП)

__________ выступает как количественная закономерность изменения в пространстве и во времени массовых явлений и процессов общественной жизни, состоящих из множества элементов (единиц совокупности)

Статистика (СП)

___________ — это признак, по которому проводится разбивка единиц совокупности на отдельные группы.

Статистика (СП)

_____________ статистики — количественная сторона массовых социально-экономических явлений и процессов, которая изучается неразрывно с их качественной стороной

Статистика (СП)

__________ индексы — индексы, которые характеризуют соотношение совокупности статистических процессов или явлений, состоящей из разнородных, непосредственно несоизмеримых элементов

Статистика (СП)

___________– количество элементов совокупности, которые имеют данное значение признака

Статистика (СП)

Признак, имеющий только два варианта значений называется -_______________.

Статистика (СП)

В _____________ отчетности программа разработана с учетом особенностей отдельных отраслей экономики или видов деятельности

Статистика (СП)

__________ — общественная наука, которая изучает количественную сторону качественно определенных массовых социально-экономических явлений и процессов, выявляет действующие количественные зависимости, тенденции и закономерности в конкретных условиях места и времени

Статистика (СП)

________________ ошибка выборки – ошибка, которая возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности, т.е. ошибка, связанная со случайным отбором

Статистика (СП)

_______________ – различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени

Статистика (СП)

____________ величины – обобщающие показатели, выражающие меру количественных соотношений, присущих статистическим объектам

Статистика (СП)

Применяя выборочный метод в статистике, обычно используют два основных вида обобщающих показателей: 1) среднюю величину количественного признака; 2) ________________ величину альтернативного признака

Статистика (СП)

Установите соответствие между понятиями и их определениями:

Монографическое обследование

обследованию подвергается только часть единиц изучаемой совокупности

наблюдение, основанное на принципе случайного отбора тех единиц изучаемой совокупности, которые должны быть подвергнуты наблюдению

обследованию подвергаются все единицы изучаемой совокупности

детальное, глубокое изучение и описание отдельных, характерных в каком-либо отношении единиц совокупности, как правило, по расширенной программе

Статистика (СП)

______________ статистические показатели – показатели, которые отражают количественную сторону изучаемой совокупности общественных явлений и представляют собой их величину, выраженную соответствующими единицами измерения

Статистика (СП)

________________ величина — обобщающий показатель, характеризующий типичный уровень варьирующего признака в расчете на единицу однородной совокупности в конкретных условиях места и времени

Статистика (СП)

____________ статистической отчетности — специальный документ, бланк, содержащий перечень определенных показателей, сведений, характеризующих ту или иную хозяйственную единицу и результаты ее деятельности, представляемый в государственные статистические органы для дальнейшего обобщения

Статистика (СП)

_______________ — частота, выраженные в долях единицы или в процентах к итогу (сумма частостей равна 1 или 100 %)

Статистика (СП)

Закон _____________ — общий принцип, в силу которого количественные закономерности, присущие массовым явлениям, отчетливо проявляются лишь при достаточно большом числе наблюдений

Статистика (СП)

Каждое числовое значение показателя, характеризующее величину явления, называется ___________ — количественной оценкой развития во времени исследуемого явления или процесса

Статистика (СП)

Установите соответствие между видами отбора и их характеристиками:

все единицы ГС нумеруются, а выпавшие в результате жеребьевки номера соответствуют единицам, попавшим в выборку, причем число номеров равно запланированному объему выборки

Стратифицированный (расслоенный) отбор

случайным или механическим способом выбирают не отдельные единицы, а определенные серии, внутри которых производится сплошное наблюдение

Серийный (гнездовой) отбор

осуществляется из неоднородной генеральной совокупности, когда ее предварительно разбивают на однородные группы, после чего производят отбор единиц из каждой группы в выборочную совокупность случайным или механическим способом пропорционально их численности в генеральной совокупности

Собственно случайный отбор

отбираются единицы генеральной совокупности с постоянным шагом N/п. Так, если она генеральная совокупность содержит 100 тыс. ед., а требуется выбрать 1 тыс. ед., то в выборку попадет каждая сотая единица

Статистика (СП)

Группировка, в которой группы образованы по одному признаку, называется ___________.

Статистика (СП)

____________ – статистический показатель, который отражает интенсивность изменения уровней ряда динамики и показывает, во сколько раз увеличился уровень по сравнению с предыдущим или базисным, а в случае уменьшения – какую часть базисного уровня составляет сравниваемый уровень; измеряется отношением текущего уровня к предыдущему или базисному

Статистика (СП)

__________ наблюдением называется такое несплошное обследование, при котором признаки регистрируются у отдельных единиц изучаемой статистической совокупности, отобранных с использованием специальных методов, а полученные в процессе обследования результаты с определенным уровнем вероятности распространяются на всю исходную совокупность

Статистика (СП)

______________ индексы — индексы, которые характеризуют результат сравнения двух показателей, относящихся к одному объекту, например сравнение цен какого-либо товара, объема его реализации и т.д.

Статистика (СП)

Статистическая ___________ — документ, разъясняющий вопросы программы статистического наблюдения, порядок заполнения статистического формуляра и частично планово-организационные вопросы

Статистика (СП)

Под __________ репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности

Статистика (СП)

_____________ — относительный показатель, характеризующий изменение величины какого-либо явления (простого или сложного, состоящего из соизмеримых или несоизмеримых элементов) во времени, пространстве или по сравнению с любым эталоном (нормативом, планом, прогнозом и т.д.)

Статистика (СП)

______________ — группа, состоящая из множества относительно однородных элементов, взятых вместе в известных границах пространства и времени и обладающих признаками сходства и различия

Статистика (СП)

Различают два вида показателей экономического и социального развития общества: плановые (прогнозные) и _____________ (статистические)

Статистика (СП)

Группировка, в которой разделение совокупности на группы производится по двум и более признакам, взятым в сочетании (комбинации) называется ___________.

Статистика (СП)

___________ статистического наблюдения — это статистическая совокупность, в которой проистекают исследуемые социально-экономические явления и процессы

Статистика (СП)

Ряды динамики подразделяются на моментные, ____________ и ряды средних величин.

Статистика (СП)

Общее число единиц, образующих статистическую совокупность, называется ______________ совокупности

Статистика (СП)

Формы государственной статистической отчетности утверждаются ____________

Статистика (СП)

Сущность ________________ теорем состоит в том, что в массовых явлениях совокупное влияние различных случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая

Статистика (СП)

Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется _______________ группировкой

Статистика (СП)

__________ наблюдения — перечень признаков, подлежащих регистрации (при непосредственном наблюдении), либо перечень вопросов, по которым собираются сведения (при опросах)

Статистика (СП)

Федеральная служба государственной ___________ (Росстат) — федеральный орган исполнительной власти, осуществляющий функции по формированию официальной статистической информации о социальном, экономическом, демографическом и экологическом положении страны, а также функции по контролю и надзору в области государственной статистической деятельности на территории РФ

Статистика (СП)

____________ отчетность – отчетность, обязательная к представлению организациями и предприятиями в органы государственной статистики

5 причин смещения в машинном обучении и что с этим делать

Смещение в машинном обучении означает, что алгоритм дает ошибочные результаты из-за неточных предположений, сделанных на одном из этапов процесса.

Чтобы разработать любой процесс машинного обучения, специалисту по обработке данных необходимо выполнить ряд шагов: сбор и очистка данных, обучение алгоритма и его развертывание. Во время этого могут возникать ошибки. Если они случаются на любом из этапов, то оказывают влияние на оставшиеся, усугубляя ситуацию к концу.

Все подразделы науки о данных, будь то машинное обучение, обработка естественного языка или любая другая область, зависят от качества и количества наборов данных, используемых для построения, обучения и разработки их основных алгоритмов. Следовательно, данные низкого качества или ошибочные могут привести к неточным прогнозам и неудовлетворительным результатам в целом.

Существуют разные причины смещения в приложениях машинного обучения. Наша работа как специалистов по обработке данных  — сделать все возможное, чтобы уменьшить и предотвратить это. Лучший способ  —  полностью понять причину смещения. Дальше уже можно предпринимать действия для его устранения и нивелирования всех последствий.

В этой статье мы рассмотрим 5 основных причин смещения в машинном обучении и способы уменьшения их влияния.

№1: Ошибка в алгоритме

Одна из причин смещения возникает, когда алгоритм, лежащий в основе процесса машинного обучения, неисправен или не подходит для текущего приложения. Это можно обнаружить, когда оно начинает выдавать неверные результаты для определенной группы людей (входные параметры).

Если ваш алгоритм дает разные результаты для почти идентичных случаев, то вернитесь назад, перепроверьте его и убедитесь, что он подходит для решения поставленной задачи. Такое смещение бывает преднамеренным или непреднамеренным. Его могут вызвать технические проблемы в ядре алгоритма или изначально неправильный выбора алгоритма.

№2: Ошибка в выборке

Следующая причина смещения возникает из-за ошибки на ранних этапах разработки приложения, то есть при сборе и очистке данных. Данные  —  это ядро ​​любого приложения машинного обучения. Ведь алгоритм не может узнать то, чего не видел.

Если разработчик взял неправильную выборку  —  маленькую по размеру, содержащую много ошибочных точек данных или представляющую не весь пул данных для обучения модели  — результаты будут неточными для точек данных, которые от неё отличаются.

К счастью, такое смещение не очень сложно исправить. Попробуйте использовать более крупный и разнообразный набор данных для обучения своей модели. Вы можете тренировать ее несколько раз, наблюдать за поведением и настраивать параметры, чтобы получить лучший результат.

№3: Предвзятость

Допустим, у вас есть правильный алгоритм решения задачи, и вы сделали все возможное, чтобы использовать лучшую выборку данных, а результаты необъективны. Одна из причин, по которой могло произойти смещение  —  предвзятость.

Когда дело касается стереотипных и ошибочных суждений о каких-либо ситуациях, тогда чаще всего смещение обусловлено изначальной предвзятостью данных. В таком случае вы получите необъективные результаты, независимо от используемого алгоритма.

Это смещение довольно сложно устранить. Попробуйте использовать совершенно новый набор данных или изменить имеющиеся данные, чтобы устранить любую существующую предвзятость.

№4: Ошибка в измерениях

Смещение может возникать в самом начале процесса разработки: на этапе сбора данных. Если они неточны, а от них зависит функциональность и корректность модели, то весь остальной процесс окажется ошибочным.

Речь идет о данных, которые получаются в результате вычислений и измерений человека или компьютера и хранятся в базе данных. Если они неверны, значит точки данных для обучения модели будут ошибочные. Один из вариантов, как этого избежать,  —  использовать несколько измерительных устройств.

Выбор правильного набора данных для обучения и построения модели  —  это непростая задача. Одна из проблем, с которой вы можете столкнуться,  —  смещение в результате некорректных исключений. В этом случае важные точки данных удаляются, и, следовательно, полученная модель их не учитывает. Поэтому отбирайте данные тщательно.

Заключение

Технологии помогают нам принимать большинство решений: что покупать, какую школу выбрать для детей, в какой город безопаснее переехать, будет ли одобрена заявка на кредит и многое другое. Однако эти системы могут быть некорректны в зависимости от используемых данных и специалиста, который их строит.

И люди, и алгоритмы склонны к ошибкам и предвзятости. Но это не означает, что наши модели тоже должны быть такими. Поэтому важным этапом разработки любого приложения для машинного обучения является попытка уменьшить и устранить смещение, насколько это возможно. Для этого нужно понять, почему и на каком этапе разработки оно возникает.

Поиск и устранение причины смещения в приложениях машинного обучения  —  это не точная наука. Я предпочитаю думать об этом как о форме искусства. Или навыке, который становится лучше, по мере того как вы создаете больше проектов, взаимодействуете с большим количеством данных и устраняете различные смещения.

Читайте также:

  • 5 минут на машинное обучение
  • Когда ИИ или машинное обучение неуместны
  • Машинное обучение. С чего начать? Часть 1

Читайте нас в Telegram, VK и Яндекс.Дзен


Перевод статьи Sara A. Metwalli: 5 Types of Machine Learning Bias Every Data Scientist Should Know.

  • Ошибки совершаемые на кладбище
  • Ошибки смад расшифровка аббревиатуры
  • Ошибки сма хаер haier
  • Ошибки сма индезит witl 86
  • Ошибки сма аристон avsl 109