Надежность тестов стандартная ошибка измерения интерпретация результатов теста

Стандартная ошибка измерения: определение и пример

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


Стандартная ошибка измерения , часто обозначаемая как SE m , оценивает отклонение от «истинного» показателя для индивидуума при повторных измерениях.

Он рассчитывается как:

SE m = s√ 1-R

куда:

  • s: стандартное отклонение измерений
  • R: коэффициент надежности теста.

Обратите внимание, что коэффициент надежности находится в диапазоне от 0 до 1 и рассчитывается путем двукратного проведения теста для многих людей и расчета корреляции между их результатами теста.

Чем выше коэффициент надежности, тем чаще тест дает стабильные результаты.

Пример: расчет стандартной ошибки измерения

Предположим, человек проходит определенный тест 10 раз в течение недели, целью которого является измерение общего интеллекта по шкале от 0 до 100. Он получает следующие баллы:

Очки: 88, 90, 91, 94, 86, 88, 84, 90, 90, 94.

Среднее значение выборки равно 89,5, а стандартное отклонение выборки равно 3,17.

Если известно, что тест имеет коэффициент надежности 0,88, то мы рассчитываем стандартную ошибку измерения как:

SE м = с√1 -R = 3,17√1-0,88 = 1,098

Как использовать SE m для создания доверительных интервалов

Используя стандартную ошибку измерения, мы можем создать доверительный интервал, который, вероятно, будет содержать «истинную» оценку человека по определенному тесту с определенной степенью достоверности.

Если человек получает по тесту оценку x , мы можем использовать следующие формулы для расчета различных доверительных интервалов для этой оценки:

  • 68% доверительный интервал = [ x – SE m , x + SE m ]
  • 95% доверительный интервал = [ x – 2*SE m , x + 2*SE m ]
  • 99% доверительный интервал = [ x – 3*SE m , x + 3*SE m ]

Например, предположим, что человек набрал 92 балла по определенному тесту, который, как известно, имеет SE m 2,5. Мы могли бы рассчитать 95% доверительный интервал как:

  • 95% доверительный интервал = [92 – 2*2,5, 92 + 2*2,5] = [87, 97]

Это означает, что мы на 95% уверены в том, что «истинный» результат этого теста человека находится между 87 и 97.

Надежность и стандартная ошибка измерения

Существует простая зависимость между коэффициентом надежности теста и стандартной ошибкой измерения:

  • Чем выше коэффициент надежности, тем меньше стандартная ошибка измерения.
  • Чем ниже коэффициент надежности, тем выше стандартная ошибка измерения.

Чтобы проиллюстрировать это, рассмотрим человека, который проходит тест 10 раз и имеет стандартное отклонение баллов, равное 2 .

Если тест имеет коэффициент надежности 0,9 , то стандартная ошибка измерения будет рассчитываться как:

  • SE m = s√1 -R = 2√1-0,9 = 0,632

Однако, если тест имеет коэффициент надежности 0,5 , то стандартная ошибка измерения будет рассчитываться как:

  • SE м = с√ 1-R = 2√ 1-,5 = 1,414

Это должно иметь смысл интуитивно: если результаты теста менее надежны, то ошибка измерения «истинного» результата будет выше.

Надежность
одно из основных понятий психодиагностики
и, вместе с тем, одно из самых сложных.
К.М. Гуревич отмечает «Надежность —
крайне сложное и многоплановое понятие,
одна из основных функций которого —
оценить постоянство показателей тестовых
испытаний. В принципе можно сказать,
что надежность должна обосновывать
ошибку измерения — она должна показывать,
какая часть изменчивости показателей
ошибочна» [17, стр. 27].

На
практике понятие «надежности»
имеет два значения
:
одно связано с воспроизводимостью
результатов тестирования, другое – с
внутренней согласованностью
теста [8].

На
понятии «надежность»
основывается вычисление «ошибки
измерения
«,
с помощью которой определяются вероятные
пределы колебания измеряемой величины,
возникающей под
воздействием случайных факторов.

Можно
сказать, что в широком смысле слова
надежность теста показывает, в какой
мере индивидуальные различия в тестовых
результатах являются «истинными», а в
какой мере они могут быть отнесены к
случайным ошибкам. Надежность
это помехоустойчивость теста, независимость
его результатов от действия всевозможных
случайных факторов.

К числу таких факторов следует отнести:


разнообразие внешних материальных
условий тестирования (время суток,
освещенность, температура, наличие
посторонних звуков и т.п.);


динамичные внутренние факторы, по-разному
действующие на разных испытуемых в ходе
тестирования (настроение, утомление,
другие особенности состояния испытуемого);


информационно-социальные факторы
(контакт с психологом, наличие других
людей, сама ситуация тестирования и
пр.).

Разнообразие
и изменчивость этих факторов так велики,
что они обусловливают появление у
каждого испытуемого непрогнозируемого
по размеру и направлению отклонения
измеренного тестового балла (т.е. такого,
который можно было бы получить в идеальных
условиях).

Поэтому,
общий
разброс

(дисперсию) результатов
произведенных измерений
можно представить как результат суммы
двух источников
разнообразия
:
самого измеряемого
свойства

и нестабильности
измерительной процедуры
,
обусловливающей наличие ошибки измерения.
Это нашло свое выражение в классической
формуле, описывающей надежность теста
в виде отношения истинной дисперсии к
дисперсии эмпирически зарегистрированных
баллов [1, 13, 15, 16]:

α
= 1 —



где:
α

надежность теста;


дисперсия
ошибки;



дисперсия
теста.

Итак,
эта формула читается так: надежность
теста равняется единице минус отношение
дисперсии ошибки к дисперсии эмпирически
зарегистрированных баллов.

Из
этой формулы получаем, что стандартная
ошибка
измерения

равна:

.

Можно сказать, что величина ошибки
измерения — обратный индикатор точности
измерения: чем выше ошибка, тем шире
диапазон неопределенности на шкале
(доверительный интервал), внутри которого
оказывается статистически возможной
расположение истинного балла данного
испытуемого [15].

В
общем случае можно сказать, что ошибку
измерения в психометрике определяют с
помощью корреляционных методов, которые
дают возможность оценить надежность
(или, что одно и тоже точность)
через устойчивость и согласованность
результатов, полученных как на уровне
целого теста, так и на уровне отдельных
его пунктов.

Рассмотрим
вначале надежность теста, связанную с
воспроизводимостью
результатов тестирования – так
называемую, «ретестовую» или
«диахронную» надежность. Затем,
проанализируем
понятие «надежности», связанное с
внутренней согласованностью
теста. В завершении этого параграфа
проанализируем критический взгляд на
такие понятия, как «ретестовая
надежность «, «синхронная надежность»
и достаточно подробно остановимся на
«теории надежности», позволяющей
психологу, разрабатывающему или
использующему тест, понять всю важность
данного параметра теста.

1.
Ретестовая (диахронная) надежность
(надежность теста, как целого).

Самый естественный способ определить
надежность результатов теста — использовать
тот же тест второй раз.

В
этом случае коэффициент надежности
просто равен корреляции между двумя
результатами, полученными на одних и
тех же испытуемых в каждом из двух случае
проведения теста. Приводя в руководстве
к тесту его ретестовую надежность,
всегда следует указывать, в каком
интервале времени она измерена. Как
правило, выбирают этот интервал исходя
из следующих соображений.

На
дисперсию ошибки тестовых результатов
обычно влияют случайные колебания с
периодом от нескольких часов до нескольких
месяцев. Поэтому, определяя тип тестовой
надежности, стараются придерживаться
небольших временных интервалов.

(Например,
при тестировании маленьких детей этот
период должен быть еще короче, чем у
взрослых испытуемых, поскольку в раннем
детстве возрастные изменения происходят
в течение месяца и даже быстрее.
).

В
целом для любого типа испытуемых интервал
между двумя последовательными применениями
теста обычно не должен быть меньше двух
недель и превышать 6 месяцев [1].

Следует
учесть, что данное понятие
надежности в основном характеризует
выполнение теста самого по себе, а не
тестируемую область поведения

(т.е. характеризует стабильность теста,
как измерительного инструмента).

В
качестве коэффициента корреляции для
этого типа надежности обычно подсчитывают
известный коэффициент корреляции
произведения моментов Пирсона [1, 15]:


,
где

r

коэффициент
корреляции между результатами двух
тестовых испытаний;



эмпирическая
дисперсия первого испытания;



эмпирическая дисперсия второго испытания;


сумма
произведения отклонений от средних
значений каждого испытуемого в первом
и втором испытаниях;

N

число испытуемых.

Оценка
значимости этого коэффициента

производится следующим образом:


вычисляется квадратическая ошибка
коэффициента корреляции по формуле

;

при
малом числе наблюдений n
берется «числом степеней свободы»,
обычно как n-2,
и ошибка коэффициента корреляции
вычисляется так


;

Ошибка
коэффициента корреляции приближается
к нулю, когда коэффициент корреляции
приближается к единицы. Таким образом,
при r
=1 независимо от знака, mr
=0.

Значение
коэффициента корреляции оценивается
с помощью критерия достоверности,
который представляет отношение этого
коэффициента к своей средней квадратической
ошибке, т.е.


;

Далее
полученный критерий достоверности (t)
сравнивается с табличным (см. приложение
2).

Напомним
из статистики, что если необходимо
оценить достоверность различий,
наблюдаемых между двумя коэффициентами
корреляции, формула для расчета критерия
достоверности принимает вид

.

Знание
надежности теста позволяет уточнить
«истинное» значение тестового
балла индивида, применяя формулу:

,
где



истинный
балл;


эмпирический
балл i-го испытуемого;



среднее
для теста;

r
— эмпирическая надежность теста;

Например,
что испытуемый получил балл IQ по шкале
Стенфорд-Бине равный 120 нормализованным
очкам,


= 100, r = 0,9.

Тогда
истинный балл будет равен:

= 0,9
х 120 + 0,1 х 100 = 118

Все
выше сказанное касалось тестов
с
интервальными
шкалами, для
шкал порядка в качестве меры ретестовой
надежности используется ранговый
коэффициент корреляции Спирмена:


,
где


разность рангов i-го испытуемого в первом
и втором ранговом ряду (1, 4).

Оценка
значимости коэффициента

корреляции Спирмена производится
аналогичным образом через расчет
квадратической ошибки по формуле


;

Теперь
проанализируем понятие «надежности»,
связанное с
внутренней согласованностью
теста, и которое находит свое выражение
в таких понятиях, как «одномоментная»
или «синхронная» надежность.

2.
Одномоментная (синхронная) надежность

(согласованность).
Этот
тип надежности независим от устойчивости
(поскольку не имеет временного интервала)
и имеет особую содержательную и
операциональную природу. Ее
надо понимать именно как согласованность
частей теста
.
В психотехнике этот вид надежности
часто называют коэффициентом
внутренней согласованности теста.

Для
того, чтобы ее измерить следует
скоррелировать между собой параллельные
формы теста. Особо
отметим, что проводится только однократное
применение теста (а уже потом его
искусственно разбивают на две параллельные
формы)
.
Чаще всего параллельные формы теста
получают расщеплением составного теста
на «четную» и «нечетную»
половины: к первой относятся все четные
пункты заданий теста, ко второй —
соответственно, все нечетные. По каждой
половине рассчитываются суммарные
баллы и между двумя рядами баллов
подсчитываются допустимые коэффициенты
корреляции [1, 15]. Если параллельные формы
тесты не нормализованы, то предпочтение
отдается ранговой корреляции. При
подобном расщеплении получается
коэффициент корреляции, относящийся к
половинам теста. Для того, чтобы найти
надежность
(согласованность)
целого
теста
,
пользуются формулой Спирмена-Брауна:


,
где



эмпирически рассчитанная корреляция
для половин;



надежность целого теста.

Следует
отметить, что делить тест на две части
можно разными способами, и каждый раз
получаются несколько разные коэффициенты;
поэтому в психометрике предложен способ
оценки синхронной надежности, который
соответствует разбиению теста на такое
количество частей, сколько в нем отдельных
пунктов. В этом случае, синхронную
надежность теста можно оценить с помощью
формулы
Кронбаха
:


,
где

α
коэффициент
Кронбаха;

k
количество
пунктов (заданий) теста;


дисперсия по i-му пункту теста;



дисперсия
суммарных баллов по всему тесту.

В
1957 году Дж. Китс предложил следующий
критерий для оценки статистической
значимости коэффициента α
(1):


,
где



эмпирическое значение статистики χ2
с п-1 степенью свободы;

k
— количество пунктов;

n
— количество испытуемых;

α
— надежность.

Вычисленная
статистика


далее сравнивается с табличной (см.
приложение 2).

Как
видно, формула Кронбаха позволяет
оценить взаимную согласованность
пунктов теста, используя только подсчет
дисперсий (вся важность этой формулы
для психометрики станет понятна после
анализа теории надежности).

Коэффициент
α
позволяет
также оценить и среднюю корреляцию
между i-тым
и j-тым
произвольными пунктами теста, так как
он связан с этой средней корреляцией
следующей формулой:

α
=
,
(***)

где


средняя корреляция между пунктами
теста.

Из
всего вышесказанного вытекает возможность
повысить синхронную надежность теста,
увеличивая численность пунктов теста
(в k раз). Из формулы видно, что при больших
k малое значение r

может сочетаться с высокой надежностью
(например:
пусть
r
= 0,1,
а
k
= 100,
тогда
согласно формуле (***) имеем:
α
=

0,91).

При
прочих равных условиях, чем
больше заданий содержит тест, тем выше
его надежность.

Все
приведенные формулы относятся к оценке
надежности одномерного
теста
,
направленного на измерение одной
характеристики.

Перейдем
теперь к обсуждению «теории надежности»
тестов [10], опираясь на понятия изложенные
выше.

Теория надежности
тестов.

Известно
[1, 2, 8, 10, 15, 16], что оценки полученные
индивидуумами по психологическим тестам
используются как численные выражения
абстрактных психологических понятий.
По этой причине важно иметь уверенность
в том, что эти оценки по любому
психологическому тесту, во-первых,
имеют небольшую случайную ошибку
измерения (что говорит о высокой
статистической надежности) и, во-вторых,
действительно измеряют то, что они
ставят целью измерить (т.е. имеют высокую
валидность, которая подробнее будет
рассмотрена позже).

По
определению К. Купера [10], анализ понятий
систематической
и случайной ошибок измерения

приводит к важному аспекту психометрики,
известному как теория
надежности
.

Следует
напомнить, что главнейшей
характеристикой психологических тестов
является то, что каждая шкала теста
должна оценивать одну (и только одну!)
психологическую характеристику
.

Большинство
тестов (составленных по типу опросников)
обрабатываются суммированием по ключу
ответов на каждое задание и интерпретировать
значение набранного балла можно только
в том случае, если все задания в шкале
измеряют одну и ту же базовую психологическую
характеристику
.
Если все утверждения измеряют одну
психологическую характеристику, то чем
выше оценки испытуемых, полученные по
данному тесту, тем более развита у них
эта характеристика.

Однако
если задания теста измеряют две и более
совершенно разные характеристики, такая
интерпретация невозможна. Поэтому очень
важно убедиться

в том, что
все утверждения в определенной шкале
оценивают одну

(и только одну!) психологическую
характеристику.

Существуют два основных способа убедиться
в этом.

Теория
надежности

эта теория,
в которой изначально предполагается
,
что все задания теста предназначены
для того, чтобы измерять одну и ту же
характеристику; кроме того, теория
надежности позволяет проверить, так ли
это в действительности.

Для
того чтобы лучше понять суть систематической
и случайной ошибок, рассмотрим аналогию
психологических и физических измерений.

Физические
измерения.

Измерение предметов в повседневной
жизни может проводиться с различной
точностью, при этом всегда существует
некоторая «ошибка измерения»,
связанная с определением физических
параметров предмета, которая составляет
небольшой процент от измеряемого
параметра. Как правило, величина этой
ошибки зависит от точности используемого
измерительного инструмента. В частности,
в случае измерения длины (например,
стола) могут использоваться — рулетка,
сантиметр или линейка, которые имеют
свою, заданную ошибку измерения.

Ошибка, связанная
с проведением каждого измерения
,
может рассматриваться как случайная
в том смысле, что она будет изменяться
случайным образом от одного измерения
к другому.

К примеру, если бы
измеряли некоторый стол одним и тем же
инструментом 100 раз, его длина иногда
могла оказаться равной, 155 см, в другой
раз несколько меньше – 154. Однако если
бы мы усреднили эти 100 измерений, они
должны были бы дать более точную оценку
его подлинной длины, чем та, которая
получилась бы в результате одного
измерения, поскольку случайные ошибки
измерения имеют тенденцию нивелировать
влияния друг друга при усреднении.

Таким
образом, ошибки измерения могут быть
сведены к минимуму; при этом измерительные
инструменты должны быть сконструированы
так, чтобы получаемые с их помощью оценки
гарантированно находились под влиянием
только одной физической переменной —
именно той, которую хотят измерить.
Например, показатели длины, получаемые
по шкале измерительной рулетки, не
должны зависеть от времени дня, когда
осуществляется измерение, от температуры
помещения, где происходить измерение,
света или фактуры измеряемого объекта
или еще чего-либо, за исключением его
длины. Это
прямой эквивалент принципа, который
заложен при использовании любого теста:
измерительные инструменты должны
измерять только
одну
(психологическую) характеристику

объекта.

На
практике обеспечить это далеко не так
просто. Допустим, что указанные выше
измерительные инструменты, полностью
свободны от ошибок измерения — «случайных
ошибок», упоминавшихся выше. Дает ли
это основание полагать, что длина стола
может быть измерена с полной точностью?
К сожалению, нет, поскольку ни один из
этих инструментов не измеряет только
длину. Сантиметр (особенно если он на
тканевой основе), будет слегка вытягиваться
или сжиматься в зависимости от изменения
температуры и влажности, и поэтому в
холодный влажный день или в сухой и
жаркий он будет давать несколько
различающиеся показатели. Точность
других измерителей может (хотя и в очень
малой степени) также зависеть от иных
параметров окружающей среды.

Таким
образом, даже если мы примем,
что все эти инструменты измеряют длину
(и только ее одну), размеры, определяемые
каждым из них, будут в действительности
подвержены влиянию нескольких различных
переменных. Назовем их источниками
«систематической ошибки»
.
В отличие от обсуждавшихся выше случайных
ошибок
,
источники систематических ошибок не
обнаруживают тенденцию к устранению,
когда проводятся повторные измерения
при одних и тех же физических условиях.
Если мы 100 раз измеряем длину стола с
помощью сантиметра в жаркий влажный
день, то показатели будут всегда
слегка преувеличены, поскольку
измерительная лента будет коробиться.

Если
перечисленные три способа измерения
длины стола (т.е. рулетка, сантиметр или
линейка) находятся под влиянием различных
физических переменных окружающей среды,
то каким образом следует определять
«подлинную» длину, руководствуясь
этими тремя, слегка различающимися
показателями? Решение, которое
напрашивается само собой, состоит в
том, чтобы усреднить эти три показателя,
надеясь на интуитивную очевидность
того, что среднее трех измерений окажется
ближе к «подлинному» значению,
нежели каждое из измерений, взятое
поодиночке.

Теперь
можно подвести итог сказанному,
сформулировав несколько основополагающих
принципов [10]:

• «Хорошие»
измерительные инструменты — это такие,
на которые мало влияет случайная ошибка.

• «Хорошие»
измерительные инструменты не подвержены
влияниям источников систематической
ошибки.

Проведение
многократных измерений

при разных физических условиях и
усреднение результатов уменьшают
вклад

случайных
ошибок
.

Усреднение
измерений
,
полученных с помощью разных
инструментов
,
будет вести к уменьшению
вклада систематической ошибки
.

Измерения
в психологии.
В
психологии ответ, который испытуемый
дает на задание теста, представляет
собой аналог измерения длины одним из
методов, описанных выше, — с одной лишь
существенной разницей, имеющей
практическое значение, особенно в случае
личностных измерений.

Допустим,
что в личностном опроснике задан вопрос:
«Получаете ли вы удовольствие от
шумных вечеринок?», на который можно
ответить, отмечая по пятибалльной шкале
ранги от – «совершенно согласен»
до «совершенно не согласен».
Попытаемся назвать ряд очевидных
факторов, которые могут повлиять на то,
какие ответы будут даваться. Среди таких
факторов можно отметить следующие:

— уровень экстраверсии
(личностная черта);


число вечеринок, на которых недавно
побывал испытуемый (фактор усталости);

— возраст испытуемого;

— его религиозные
убеждения;

— контекст, в котором
задавался вопрос (диагностическая
ситуация);


способ, который испытуемый использует
при работе с пятибалльной шкалой:
некоторые индивидуумы используют оценки
1 и 5 довольно свободно, в то время как
другие никогда не обращаются к полюсам
шкалы;


склонность соглашаться: установлено,
что люди склонны соглашаться с
утверждениями;

— настроение
испытуемого;


случайная ошибка: если задать ему тот
же самый вопрос двумя минутами позже,
можете получить несколько отличающийся
ответ.

Этот список,
вероятно, может содержать и другие
важные переменные, поскольку множество
посторонних факторов определяет, каким
образом индивидуум будет отвечать на
вопрос в личностном тесте.

Такое же заключение
относится и к оценкам поведения
испытуемого или к оценкам его способностей.
Следовательно, любой фрагмент собранных
данных при оценке индивидуальных
различий, подвержен влиянию большого
числа разнообразных факторов.

В
экспериментах, можно определить меру
влияния каждого из этих факторов на
индивидуальный ответ, полученный на
каждый вопрос теста. Например, если
вопрос предназначен для измерения такой
черты, как экстраверсия, «хорошим»
будет вопрос, при котором эффекты всех
других переменных окажутся малы,
аналогично тому, как на «хороший»
показатель длины влияет расстояние, а
не температура, давление воздуха или
что-либо еще. В предыдущем примере,
касавшемся измерения длины стола,
реальная длина стола оказывала решающее
влияние на показатели, получаемые с
помощью сантиметра.

К
сожалению, в психологии это не так.
Практически
невозможно найти вопрос личностного
теста, для которого диагностируемая
черта объясняла бы более чем 20—30%
вариативности индивидуальных ответов
на вопросы
.
Большая часть вариативности обязана
своим происхождением другим факторам.

Проблема
действительно сложная. Кажется, что
невозможно придумать вопросы, которые
измеряли бы черту в чистом виде, поскольку
ответы индивидуумов на каждый вопрос
теста подвержены влияниям множества
черт, состояний, аттитюдов, настроений
и везения. Можно ли надеяться, что
личность или способности могут быть
оценены с какой-либо степенью точности?

Тем не менее,
существует подход к решению этой
проблемы. Например, можно привести
некоторые другие вопросы, измеряющие
экстраверсию, каждый из которых зависит
от действия различного
набора

посторонних факторов. Известно [10], что
Айзенк считает экстравертов социабельными,
оптимистичными, разговорчивыми,
импульсивными и т.д., — значит, можно
сформулировать вопросы, которые измеряли
бы и эти переменные тоже. Вопрос типа
«Ведете ли вы себя тихо во время
общественных мероприятий?» был бы
подвержен влиянию определенного числа
посторонних факторов, но лишь некоторые
из них оказались бы теми же, что и для
первого вопроса.

Таким образом,
если опросники конструировались из
некоторого количества вопросов, на
каждый из которых действует
различный набор посторонних факторов
,
влияние последних будет иметь тенденцию
к снижению, в то время как влияние черты
будет накапливаться. Следовательно,
чтобы разработать более точное измерение
личностной черты, необходимо
:


написать несколько вопросов, каждый из
которых отражает разные
аспекты

черты и, следовательно, оказывается под
воздействием различных
наборов

посторонних факторов;

— оценить ответы
на эти вопросы;

— сложить эти оценки
вместе.

Средний
балл
,
полученный по опроснику, неизбежно
будет лучшей оценкой черты индивидуума,
чем ответ на один-единственный вопрос,
поскольку посторонние факторы устраняют
действие друг друга. Это тот же принцип,
о котором говорилось в примере с
измерением длины стола. Когда мы
используем этот принцип, 80%, 90% (и более)
вариативности в общей оценке теста
будет обусловливаться личностной
чертой, что намного лучше, чем 20 или 30%,
которые можно было бы получить с помощью
одного отдельно взятого, даже самого
хорошего, вопроса. Этот простой принцип
составляет основу теории
надежности
,
которую мы рассмотрим ниже.

Прежде
чем перейти к ней, необходимо ввести
еще один термин – «специфическая
вариативность»
.

Вернемся
к примеру с вопросом об экстраверсии.
Вполне возможно, что некто, не являющийся
экстравертом и не получающий удовольствия
шумных компаний, и чей ответ не подвержен
сильному влиянию любого другого
постороннего фактора, может тем не менее
просто извлекать удовольствие из
«шумных» вечеринок.

Другими
словами, может получиться так, что
некоторые индивидуумы ответят на этот
вопрос полным согласием, даже, несмотря
на то, что такой вариант ответа невозможно
предугадать исходя из знания их установок,
личностных черт и прочих обстоятельств
из числа «побочных факторов». Этот
факт и учитывается с помощью понятия,
называемого «специфической
вариативностью».

Выше
было показано, что отдельно взятый
вопрос теста — плохое средство измерения
черты и что значительно лучшую оценку
ее выраженности можно получить, если
мы сложим оценки, полученные по некоторому
количеству вопросов, измеряющих различные
аспекты черты.

Представим
себе, что для измерения определенной
черты разработано около к
вопросов, и они предъявляются приблизительно
n
испытуемым. Пока мы только допускаем,
что все вопросы измеряют одну и ту же
черту (проблемы о том, как проверить это
допущение и устранить вопросы, которые
плохо ее измеряют, будут рассмотрены
позже). Специализированные компьютерные
программы (такие, как операция оценки
«надежности» в SPSS,
«STADIA»)
могут быть использованы, чтобы вычислить
по этим данным статистическую
характеристику, которую различные
авторы называют как: «надежность»
теста, «альфа», «коэффициент
альфа», «KR-20»,
«альфа Кронбаха» или «внутренняя
согласованность». Деталей того, как
вычисляется эта статистика, мы касаться
не будем, но их можно найти в большинстве
учебников по статистике.

Как
можно ожидать исходя из выше изложенного,
на коэффициент
альфа влияют два фактора
:


средняя
величина корреляции между вопросами
теста
.
Поскольку ранее мы допустили, что
различные задания теста подвержены
действию разных посторонних факторов,
единственная причина, по которой ответы
индивидуумов на любую пару заданий
должны
коррелировать между собой, состоит в
том, что оба вопроса измеряют одну и ту
же скрытую черту. Поэтому, если все
вопросы теста измеряют одну и ту же
черту, корреляции между ними будут
высокими и положительными;


количество
вопросов в шкале
.
Еще раз подчеркнем, что общая цель
построения шкалы из нескольких вопросов
состоит в том, чтобы попытаться устранить
действие посторонних факторов.

Легко
понять: чем больше вопросов в шкале, тем
более вероятно, что все эти посторонние
факторы будут устранены. В этом случае
может оказаться полезной формула
Спирмена — Брауна (рассмотренная выше).
Она позволяет предсказать, как будет
увеличиваться или уменьшаться надежность
шкалы, если число вопросов в шкале
меняется.

Итак,
надежность
теста
— это
статистическая характеристика, которая
может быть вычислена на основе любого
набора данных (при условии, что выборка
составляет не менее 200 испытуемых).
Напомним также, что максимально возможное
значение надежности составляет 1,0
(минимальное значение, при определенных
обстоятельствах, может быть меньше 0).

Для
больших тестов квадратный
корень из коэффициента альфа представляет
очень близкую аппроксимацию к корреляции
между оценками индивидуумов по
определенному тесту и
подлинной
оценкой
их черты
.
Например, коэффициент альфа равный 0,7,
предполагает корреляцию
равную 0,84
(
=0,84),
между оценками,
полученными по тесту, и подлинными
оценками испытуемых
,
в то время как величина коэффициента
альфа, равная 0,9,
подразумевает, что корреляция достигает
такого высокого значения, как 0,95.

Поскольку
основная
цель использования психологических
тестов — попытаться достичь максимально
возможного приближения к подлинной
оценке черты личности, из этого следует,
что тесты должны иметь высокое значение
коэффициента альфа
.

Широко
распространенное эмпирическое правило
указывает на то, что тест не должен
использоваться, если он имеет коэффициент
альфа ниже 0,7, а применять его при принятии
важных решений по поводу конкретного
индивидуума

(например, для оценки необходимости
коррекционного обучения) можно только
в том случае, если величина коэффициента
альфа больше 0,9.

Теперь
рассмотрим вопрос о содержании
заданий

теста. Проблема заключается в том, что
довольно легко повысить среднюю
корреляцию между заданиями теста,
задавая несколько раз, по существу, один
и тот же вопрос, слегка перефразируя
его в каждом случае. Благодаря этому
все посторонние факторы, которые влияют
на первый вопрос, будут влиять и на
второй. Поскольку оба вопроса имеют
отношение к одному и тому же поведению,
они будут также разделять большую часть
своей специфической
вариативности. Поэтому можно ожидать,
что корреляция между двумя такими
утверждениями будет близка к 1,0. Примерами
двух таких утверждений могут быть:

«Мне
нравятся шумные компании» и «Мне
нравятся шумные вечеринки». Поскольку
эти два задания, по сути, задают один и
тот же вопрос, трудно представить себе,
что многие люди могли бы полностью
согласиться с одним и столь же решительно
не согласиться с другим. Ответы на эти
два вопроса обязаны
иметь высокую положительную корреляцию.
При условии, что корреляции между
заданиями теста обычно невелики (в
лучшем случае порядка 0,2-0,4), корреляция
0,9, полученная в результате сопоставления
двух фактически идентичных утверждений,
существенно увеличит среднюю корреляцию
по тесту. В результате этого произойдет
значительное увеличение коэффициента
альфа.

Однако
должно быть ясно, что в этом случае
нарушаются два главных условия составления
теста:
каждый
вопрос должен быть подвержен влиянию
различного набора посторонних факторов,
и каждый должен иметь свою собственную
«уникальную» вариативность, которая
не разделяется другими вопросами.
Поэтому, крайне важно убедиться, что
задания в каждой шкале хорошо подобраны.
В некоторых случаях сделать это несложно.

Например,
в случае разработки словарного теста
просто необходимо подбирать задания
из словаря (исключая те слова, которые
встречаются ниже определенного порога
частотности, или слова архаичные,
специальные, т.е. профессиональные,
термины). Когда это сделано, единственное,
что будет влиять на корреляцию между
ответами на пару заданий, — степень, с
которой каждое из них измеряет скрытую
черту (грамотность).

Не
существует магической формулы для
автоматической реализации этого принципа
при конструировании тестов. Только от
разработчика теста, зависит гарантия
того, что единственной причиной,
объясняющей корреляцию ответов на любую
пару заданий, является та скрытая черта
личности или способностей, которую они
оба должны измерять. К сожалению,
некоторые подходы к конструированию
тестов, часто ведут к появлению большого
количества искусственно завышенных
корреляций, что дает, в свою очередь,
завышенную оценку коэффициента альфа.

Важно
также обеспечить, чтобы выборка
испытуемых, чьи тестовые оценки
используются для вычисления коэффициента
альфа, была репрезентативна группе, в
которой будет применяться данный тест.

Бессмысленно, например, установив
величину коэффициента альфа в размере
0,9 на выборке студентов университета,
затем считать, что этот тест будет
годиться для использования на общей
популяции, поскольку студенты университета
— это не случайная выборка. Еще раз
подчеркнем, что не существует
количественного способа определить,
будет ли тест, имеющий высокое значение
коэффициента альфа на одной выборке,
так же работать на другой, — это дело
здравого смысла. Самое безопасное —
вычислять коэффициент альфа во всех
случаях использования теста, хотя в
качестве предварительного условия
обязательным будет тестирование большей
выборки испытуемых (рекомендуется
выборка — минимум 200 человек). При
использовании должным образом коэффициент
альфа может быть очень полезен.

Выше
мы использовали понятие «подлинная
оценка»
,
но не определили его значение. Рассмотрим
его несколько подробнее.

Любой
тест можно рассматривать как комплекс
заданий, выбранных из большого
набора
вопросов, которые потенциально могли
быть заданы
.
Например, тест на правописание — это
выборка большого количества слов из
словаря. Тест, измеряющий тревогу, — это
набор всех (многих!) вопросов, которые
можно было бы перечислить с целью
измерения множества аспектов тревоги.
Тест математических способностей — это
выборка из почти бесконечного числа
математических заданий, которые только
можно было бы написать.

Итак,
подлинное
значение

черты
индивидуума

это оценка,
которую он получил бы, если бы ему
предъявили каждое возможное задание
из
полного
набора.

Поясним
это на примере. Если было бы необходимо
оценить чью-либо способность правильно
писать каждое слово из словаря, то можно
было бы узнать точно, каковы способности
этого человека к правописанию, поскольку
отсутствовала бы ошибка измерения,
обусловленная случайным выбором заданий.
Однако в реальном тесте используется
лишь небольшая выборка заданий из всего
возможного набора.

Если
задания теста формируют репрезентативную
выборку по отношению к полному набору
заданий, то квадратный корень из
коэффициента альфа довольно точно
оценивает корреляцию между оценкой,
полученной испытуемыми при выполнении
теста, и их подлинной оценкой

(т.е. оценкой, которую они могли бы
получить, если бы им были предъявлены
все задания из полного набора).

Чем
выше величина коэффициента альфа, тем
меньше будет ошибка при измерении черты
;
зная надежность теста и стандартные
отклонения тестовых оценок, можно найти
статистическую характеристику, которая
называется «стандартная ошибка
измерения», которая показывает
насколько ошибка измерения может быть
связана с каждым измерением (формула
для вычисления стандартной ошибки
приведена ниже

;
где σ –стандартное отклонение тестовых
оценок; α – коэффициент надежности
теста).

Таким
образом, знание надежности теста
позволяет делать некоторые заключения,
касающиеся величины ошибки, которая,
вероятно, имеется в любом измерении,
при условии, конечно, что задания данного
теста можно считать репрезентативными
по отношению к полному набору заданий.

Другие подходы
к измерению надежности.

До
широкого применения компьютеров
вычислять коэффициент альфа вручную
было долго, поэтому использовалась
аппроксимация [10]. Вместо сложения всех
заданий теста для получения общей оценки
вычислялись две оценки: одна основывалась
на всех нечетных заданиях теста, а другая
— на всех четных. Полученные две оценки
затем коррелировали между собой. Далее
применяя формулу Спирмена-Брауна
(поскольку набор четных или нечетных
заданий — только половина объема полного
теста) рассчитывали надежность,
полученную методом расщепления.
В настоящее
время, по-видимому, нет весомых оснований
для ее использования
.

Ретестовая
надежность

временная стабильность, имеет совершенно
другой смысл. Как следует из названия,
она проверяет, в какой степени оценки
(!)
черты
остаются более или менее постоянными
в течение времени. Большинство тестов
разработано для измерения именно
стабильных черт таких, как экстраверсия,
способности к вычислениям или нейротизм,
а в определении черты подчеркивается,
что это относительно устойчивая
диспозиция. Последнее предполагает,
что индивидуумы должны иметь похожие
оценки, когда они тестируются в двух
ситуациях (например, с интервалом в
несколько недель) при условии, что:


с ними не случилось ничего значительного
в интервале между двумя тестированиями
(например, не было эмоционального
кризиса, изменений, обусловленных
развитием, или значительного
образовательного опыта, который мог бы
повлиять на черту);

— тест хорошо
измеряет черту.

Если
при первом тестировании тест показывает,
что ребенок гениален, а через месяц его
интеллект оказывается на среднем уровне,
то либо концепция интеллекта характеризует
в большей степени состояние, а не черту,
либо тест несостоятелен.

Проблема,
однако, заключается в том, что ретестовая
надежность

основывается на общей оценке, она ничего
не говорит о том, как люди выполняют
отдельные задания
.
В то время как коэффициент
альфа

показывает, измеряет ли набор заданий
некоторую конкретную скрытую черту,
прекрасную
ретестовую надежность может иметь набор
заданий, которые не имеют ничего общего
между собой (!).

Например,
если вы попросили кого-то суммировать
номер своего дома, размер обуви и год
рождения в двух разных ситуациях,
полученная статистическая характеристика
будет обнаруживать впечатляющую
ретестовую надежность, хотя эти три
пункта не имеют между собой ничего
общего.

В
связи с обсуждением понятия «ретестовая
надежность» целесообразно остановиться
на возможности дифференцирования
таких психологических понятий как
«состояние» и «черта личности»

на основе статистической оценки.

Имея
показатели ретестовой надежности и
внутренней согласованности теста,
представляется возможным математически
проверить, является ли тестируемое
психическое образование устойчивой
личностной характеристикой или текущим
состоянием. Говард Е. в своей работе
[23] приводит формулу для вычисления
индекса μ,
по величине которого можно судить, что
диагностируется данным тестом (черта
личности или состояние субъекта в момент
тестирования; например, тревожность
как стабильная черта личности и как
ситуативная характеристика).

Остер
Т.Р. [24], приводит количественные данные
для индекса μ,
по которым можно отличить устойчивые
характеристики личности от ситуативных.
Если μ
находится в пределах от 0,4 до 0,7, то данный
тест определяет ситуативную характеристику
индивида; при μ,
равном 0,1-0,2, тест определяет стабильную
личностную характеристику. Индекс μ
вычисляется по формуле:



;

где:
к — показатель ретестовой надежности
теста; α — коэффициент внутренней
однородности теста.

Надежность
параллельных форм.

Ради полноты картины следует упомянуть
надежность параллельных форм. Конструкторы
тестов иногда создают из набора заданий
несколько тестов. Чтобы создать две
параллельные формы теста, задания
предъявляются большой выборке испытуемых
и подбираются пары заданий со сходным
содержанием и уровнем трудности.

Например,
обе формы теста могут включать задание
решить анаграмму из семи букв, и в обоих
случаях ответом будут слова, одинаково
часто встречающиеся в языке, и только
около 25% выборки будут способны решить
каждую из них. Одно задание будет, затем
включено в форму «А» теста, а другое
— в форму «Б». Эти два теста продаются
отдельно, и (теоретически) несущественно,
какой из них будет использоваться в
определенных целях, поскольку обычно
прилагаются специальные усилия,
гарантирующие, что эти две версии дают
одинаковое распределение оценок (и
благодаря этому позволяют использовать
одни и те же таблицы норм для обеих форм
теста). Если оба теста измеряют одну и
ту же черту, следует ожидать высокой
положительной корреляции между оценками
индивидуумов по двум формам теста. Эта
корреляция известна как надежность
параллельных форм.

Однако, поскольку из-за трудностей
создания, параллельные формы имеют
относительно немногие тесты, она
используется редко [10].

Надежность
отдельных пунктов.

Очевидно,
что надежность теста обеспечивается
надежностью пунктов, из которых он
состоит. Чтобы повысить ретестовую
(диахронную) надежность всего теста,
надо отобрать из исходного набора
пунктов (проверенных в пилотажных
психометрических экспериментах) такие
пункты, на которые испытуемые дают
устойчивые ответы.

Для
дихотомических пунктов

с ответами типа «верно» или «неверно»,
устойчивость удобно измерять с
использованием четырехклеточной матрицы
сопряженности:

Второе
тестирование

Да

Нет

Первое
тестирование

Да

А

В

Нет

С

Д

Здесь
в клетке А
суммируются частота ответов «Да»,
данных испытуемым при первом и втором
тестировании; в клетке В
суммируются частота ответов «Да»,
данных испытуемым при первом и «Нет»
при втором тестировании; клетке С
суммируются частота ответов «Нет»,
данных испытуемым при первом и «Да»
при втором тестировании; клетке Д
суммируются частота ответов «Нет»,
данных испытуемым при первом и втором
тестировании [1, 11, 15].

В
качестве меры корреляции вычисляется
известный [11] фи-коэффициент:

φ
=
,

При
этом, значимость фи-коэффициента
определяется с помощью критерия
хи-квадрат
по формуле:

.
(а)

Если
вычисленное значение хи-квадрат
выше табличного с одной степенью свободы,
то нулевая гипотеза (о нулевой устойчивости)
отвергается (см. приложение 2).

Удобство
в использовании фи-коэффициента
состоит в том, что он
одновременно оценивает степень
оптимальности
данного
пункта
по силе (трудности):

фи-коэффициент
оказывается тем меньше, чем сильнее
частота ответов «Да» отличается
от частоты ответов «Нет».

В
некоторых случаях подобный анализ
позволяет уточнить
ключ для пункта
:
если пункт получает значимый положительный
фи-коэффициент,
то ключ определяется величиной «+1»,
если пункт получает значимый отрицательный
фи-коэффициент, то величиной «-1».
Если пункт получает незначимый
фи-коэффициент, то его целесообразно
исключить из батареи.

При
«ручных» вычислениях фи-коэффициента
удобно вначале с помощью формулы (а)
определить граничное значение значимого
(по модулю) фи-коэффициента.

При
постоянном (многократном) подсчете
суммарных баллов — ключ для каждого
пункта теста можно определять в виде
более чувствительного, тетрахорического
коэффициента корреляции
(который
также применяется для дихотомических
пунктов) [4]:


,
где A, B, C, D — клетки четырехпольной
таблицы.

В
этом случае в первом столбце таблички
суммируются ответы испытуемых, из
«высокой» группы (т.е. из группы
испытуемых, набравших максимальное
количество баллов), во втором столбце
— из «низкой» (из группы испытуемых,
набравших минимальное количество
баллов).

При
нормальном распределении частот
суммарных баллов «высокая» и
«низкая» группы отсекаются справа
и слева 27% -ними средними квантилями.

Группы
испытуемых

Высокая

Низкая

Да

А

В

Нет

С

D

Для
того, чтобы повысить одномоментную
(синхронную)
надежность
теста, следует из исходной пилотажной
батареи пунктов отбросить те, которые
плохо согласованы с остальными.

Как
отмечалось выше, согласованность всех
пунктов можно вычислить, используя
формулу Кронбаха (для расчета α), или
же, в случае наличия дихотомических
групп, определить с помощью точечного
бисериального коэффициента корреляции,
который учитывает амплитуду отклонения
индивидуальных суммарных баллов от
среднего балла [4]:


,
где


средний балл по «высокой» группе;



средний балл по «низкой» группе;

σ-
стандартное отклонение для суммарных
баллов всех индивидов из выборки;



количество испытуемых в «высокой»
группе;



количество испытуемых в «низкой» группе;

N
— общее количество испытуемых в выборке.

А.
Анастази относит критерий внутренней
согласованности теста к валидности
,
однако, по мнению Столина, если и можно
в данном случае говорить о валидности,
то только в смысле особой внутренней
валидности теста. Однако следует учесть,
что слишком высокая согласованность
снижает внешнюю валидность теста по
критерию, (мы рассмотрим эту зависимость
более подробно при анализе различных
видов «валидности» теста).

Теория
генерализованности

— другой подход к теории надежности. Эта
теория, разработанная Кронбахом, требует
от исследователей соблюдать высокую
точность по отношению к тем заключениям,
которые могут быть сделаны на основе
набора тестовых оценок. Она пытается
идентифицировать все возможные источники
ошибок, которые могут возникнуть при
оценивании, в значительной степени так
же, как это было показано выше для
отдельных заданий теста. Она стремится
оценить каждый из возможных источников
ошибок независимо и внести поправку в
оценку каждого индивидуума с учетом
влияний этих посторонних факторов [10].

Представим
себе, что дети выполнили тест на
правописание в двух ситуациях; данные,
полученные в двух тестированиях, могут
быть проанализированы многими способами.
Например, можно оценить временную
стабильность теста на правописание,
определить, насколько стабильно дети
выполняют буквенный анализ слова, или
составить диаграмму, оценивающую рост
успехов класса в правописании. Проблема
заключается в том, что определение (и
измерение) всех этих переменных — очень
запутанная и громоздкая процедура.
Поскольку важность переменных будет,
вероятно, меняться при переходе от одной
выборки к другой (пенсионеры могут
прилагать меньше усилий для выполнения
тестов способностей, чем студенты,
например), это до сих пор не имеет большого
практического применения.

Один из аспектов применения коэффициента надежности связан с определением стандартной ошибки измерения. Для установления связи между стандартной ошибкой измерения и надежностью теста необходимо преобразовать формулу

и выделить в левой части SЕ2. После преобразования формулы относительно SЕ2 получится выражение SЕ2 = SX2 (1 – rн), или

где SX стандартное отклонение по распределению индивидуальных баллов; rн – коэффициент надежности теста; SE стандартная ошибка измерения. Это выражение обычно используется для вычисления SE по известным величинам rн и SX Что касается сущностного смысла, то SE (standard error of measurement) трактуется как стандартное отклонение результатов испытуемого от его истинного балла, полученное при выполнении им большого числа параллельных форм теста.

Для лучшего уяснения смысла показателя SE можно представить другую гипотетическую ситуацию, когда i-и испытуемый выполнял много раз один и тот же тест. Если предположить, что эффект запоминания отсутствует, то результаты тестирования образуют нормальное распределение вокруг истинного балла Тi со стандартным отклонением SE. На практике SE рассматривается как статистическая величина, отражающая степень точности отдельных измерений, поэтому величину SE используют для определения границ доверительного интервала, внутри которого должен находиться истинный балл оцениваемого ученика группы.

Построение доверительного интервала. Общераспространен подход, когда доверительный интервал выстраивается как две симметричные окрестности (левая и правая) вокруг наблюдаемого показателя ученика, хотя это не совсем верно, поскольку речь должна идти об окрестностях, расположенных слева и справа от истинного балла. Тем не менее этот факт вынуждено игнорируется в прикладных исследованиях в силу отсутствия истинного балла, и доверительный интервал при заданном риске допустить ошибку t =? 0,05, т.е. в пяти случаях из ста, принимается равным (Xi – 1,96SE; Xi + 1,96SE), где ?i наблюдаемый балл i-го испытуемого; 1,96 – константа, табличное число, используемое при t ? 0,05.

Для рассматриваемого ранее примера матрицы тестовых результатов (см. табл. 6.11), коэффициента надежности rн =? 0,78 и стандартного отклонения SX =? 2,62, вычисленного ранее для матрицы, SE будет равно

Тогда доверительный интервал для истинного балла первого ученика со значением Хi = 6 будет (6 – 1,23; 6 + 1,23) или (4,77; 7,23). Истинный балл первого ученика может находиться в любой точке этого интервала.

Интересна геометрическая интерпретация доверительного интервала на оси наблюдаемых баллов, приведенная для балла i-го учащегося. Очевидно, что с ростом SE границы доверительного интервала будут раздвигаться, и вместе с тем будут увеличиваться возможные пределы отклонения истинного балла от наблюдаемых результатов измерения (более правильная с точки зрения теории трактовка: пределы отклонения наблюдаемых баллов от истинной компоненты измерения).

Стандартная ошибка измерения: определение и пример

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


Стандартная ошибка измерения , часто обозначаемая как SE m , оценивает отклонение от «истинного» показателя для индивидуума при повторных измерениях.

Он рассчитывается как:

SE m = s√ 1-R

куда:

  • s: стандартное отклонение измерений
  • R: коэффициент надежности теста.

Обратите внимание, что коэффициент надежности находится в диапазоне от 0 до 1 и рассчитывается путем двукратного проведения теста для многих людей и расчета корреляции между их результатами теста.

Чем выше коэффициент надежности, тем чаще тест дает стабильные результаты.

Пример: расчет стандартной ошибки измерения

Предположим, человек проходит определенный тест 10 раз в течение недели, целью которого является измерение общего интеллекта по шкале от 0 до 100. Он получает следующие баллы:

Очки: 88, 90, 91, 94, 86, 88, 84, 90, 90, 94.

Среднее значение выборки равно 89,5, а стандартное отклонение выборки равно 3,17.

Если известно, что тест имеет коэффициент надежности 0,88, то мы рассчитываем стандартную ошибку измерения как:

SE м = с√1 -R = 3,17√1-0,88 = 1,098

Как использовать SE m для создания доверительных интервалов

Используя стандартную ошибку измерения, мы можем создать доверительный интервал, который, вероятно, будет содержать «истинную» оценку человека по определенному тесту с определенной степенью достоверности.

Если человек получает по тесту оценку x , мы можем использовать следующие формулы для расчета различных доверительных интервалов для этой оценки:

  • 68% доверительный интервал = [ x – SE m , x + SE m ]
  • 95% доверительный интервал = [ x – 2*SE m , x + 2*SE m ]
  • 99% доверительный интервал = [ x – 3*SE m , x + 3*SE m ]

Например, предположим, что человек набрал 92 балла по определенному тесту, который, как известно, имеет SE m 2,5. Мы могли бы рассчитать 95% доверительный интервал как:

  • 95% доверительный интервал = [92 – 2*2,5, 92 + 2*2,5] = [87, 97]

Это означает, что мы на 95% уверены в том, что «истинный» результат этого теста человека находится между 87 и 97.

Надежность и стандартная ошибка измерения

Существует простая зависимость между коэффициентом надежности теста и стандартной ошибкой измерения:

  • Чем выше коэффициент надежности, тем меньше стандартная ошибка измерения.
  • Чем ниже коэффициент надежности, тем выше стандартная ошибка измерения.

Чтобы проиллюстрировать это, рассмотрим человека, который проходит тест 10 раз и имеет стандартное отклонение баллов, равное 2 .

Если тест имеет коэффициент надежности 0,9 , то стандартная ошибка измерения будет рассчитываться как:

  • SE m = s√1 -R = 2√1-0,9 = 0,632

Однако, если тест имеет коэффициент надежности 0,5 , то стандартная ошибка измерения будет рассчитываться как:

  • SE м = с√ 1-R = 2√ 1-,5 = 1,414

Это должно иметь смысл интуитивно: если результаты теста менее надежны, то ошибка измерения «истинного» результата будет выше.

Методы
тестирования

.
Широко распространенные диагностические
методы. Их существует множество, и они
разделяются на группы по следующим
признакам: индивидуальные и групповые
(коллективные), вербальные и невербальные,
количественные и качественные, общие
и специальные и др.

Тесты

являются
специализированными методами
диагностического обследования, применяя
которые, можно получать количественную
или качественную характеристику
изучаемого явления. В отличие от других
методов, они предполагают четкую
процедуру сбора и обработки первичных
данных, а также своеобразие их последующей
интерпретации. Существуют варианты
теста: тест-опросник и тест-задание.

Тест-опросник

тщательно продуманные и проверенные
вопросы, по ответам на которые можно
судить о психологических качествах
испытуемого.

Тест-задание

оценка психологии и поведения человека
на базе того, что он делает. Испытуемый
выполняет специальные задания, по
которым можно судить о наличии или
отсутствии степени развития у него
изучаемого качества.

Положительная
сторона тестов состоит в том, что они
могут применяться к категориям населения,
различающимся по возрасту, культуре,
профессии, жизненному опыту и т.д.
Недостаток их в том, что испытуемый по
желанию может сознательно влиять на
результаты, зная механизм теста.

В
этих случаях применяется тест-проектирование.
Создается определенный тип проекции,
согласно которому неосознаваемые
собственные качества, особенно недостатки,
человек склонен приписывать другим.
Этот тест требует повышенного
интеллектуального уровня как от
испытуемого, так и высокой профессиональной
квалификации со стороны самого диагноста.

Технология социальной работы
Зайнышев И.Г.

Социальная
педагогика и социальная работа сайт

Здоровы
ли вы душевно?

Узнайте
— все ли в порядке у вас с вашим душевным
здоровьем?

Тест
на выявление уровня самооценки

Как
высоко вы цените себя? Пройдите этот
тест чтобы выяснить это!

Зависите
ли вы от общественного мнения?

Пройдите
тест и выясните это!

стандартная
ошибка измерения

Надежность
психодиагностических методик. Стандартная
ошибка измерения. Понятие о методе
измерения ретестовой надежности

Надежность
– одно из трех главных психометрических
свойств любой измерительной
психодиагностической методики (теста).

Надежность
– это помехоустойчивость теста,
независимость его результата от действия
всевозможных случайных
факторов:

а) разнообразие
внешних материальных условий тестирования,
меняющихся от одного испытуемого к
другому;

б) динамичные
внутренние факторы, по-разному действующие
на разных испытуемых в ходе тестирования;

в) информационно-социальные
обстоятельства. Разнообразие и
изменчивость этих факторов так велики,
что они обусловливают появление у
каждого испытуемого непрогнозируемого
по размерам и направлению отклонения
измеренного тестового балла от истинного
тестового балла (который можно было бы,
в принципе, получать в идеальных
условиях). Величина этого отклонения
определяется как «стандартная
ошибка измерения» (Se).

Ошибка
измерения (Se) и надежность измерения
(R), согласно общепринятой психометрической
теории, связаны следующей формулой:

R
= 1 – Se2 / Sx2, (1)

где
Sx – дисперсия тестовых показателей Х.

Лучинин
Алексей Сергеевич

Психодиагностика конспект лекций

стандартная
ошибка измерения
— относительная доля случайного изменения
(дисперсии) измеряемого показателям по
отношению к совокупного изменению этого
показателя (общей дисперсии). Чем выше
СОИ, тем ниже точность и НАДЕЖНОСТЬ
теста.

СТАНДАРТНАЯ
ОШИБКА ИЗМЕРЕНИЯ

(standard
error of measurement)

— статистическая величина, отражающая
степень точности отдельных (педагогических)
измерений; диапазон изменения показателей,
в который попадает теоретический
показатель (например, истинный балл),
при данном выборочном показателе, с
различной степенью вероятности
Информационно просветительский портал
Ханта Мансийского округа

Стандартная Ошибка Измерения

Оценка
степени, в которой можно ожидать, что
определенный набор измерений, полученных
в данной ситуации (например, в тесте или
в одной из нескольких параллельных форм
теста), будет отклоняться от истинных
значений. Обозначается как а (М).
Психологическая энцеклопедия

Основы теории тестов

1. Основные понятия теории тестов

Измерение
или испытание, проводимое с целью
определения состояния или способностей
спортсмена, называется тестом.

Не
всякие измерения могут быть использованы
как тесты, а только те, которые отвечают
специальным требованиям. К ним относятся:

1.
стандартизованность (процедура и условия
тестирования должны быть одинаковыми
во всех случаях применения теста);
2.
надежность;
3. информативность;
4.
наличие системы оценок.

Тесты,
удовлетворяющие требованиям надежности
и информативности, называют добротными
или аутентичными
(греч. аутентико — достоверным образом).

Процесс
испытаний называется тестированием;
полученное в итоге измерения числовое
значение — результатом
тестирования

(или результатом теста). Например, бег
100 м — это тест, процедура проведения
забегов и хронометража — тестирование,
время забега — результат теста.

Тесты,
в основе которых лежат двигательные
задания, называют двигательными
или моторными
. Результатами их могут быть либо
двигательные достижения (время прохождения
дистанции, число повторений, пройденное
расстояние и т.п.), либо физиологические
и биохимические показатели.

Иногда
используется не один, а несколько тестов,
имеющих единую конечную цель (например,
оценку состояния спортсмена в
соревновательном периоде тренировки).
Такая группа тестов называется комплексом
или батареей
тестов
.

Один
и тот же тест, примененный к одним и тем
же исследуемым, должен дать в одинаковых
условиях совпадающие результаты (если
только не изменились сами исследуемые).
Однако при самой строгой стандартизации
и точной аппаратуре результаты
тестирования всегда несколько варьируют.
Например, исследуемый, только что
показавший в тесте становой динамометрии
результат 215 кГ, при повторном выполнении
показывает лишь 190 кГ.

2. Надежность тестов и пути ее определения

Надежностью
теста называется степень совпадения
результатов при повторном тестировании
одних и тех же людей (или других объектов)
в одинаковых условиях.

Вариацию
результатов при повторном тестировании
называют внутри индивидуальной, или
внутри групповой, либо внутриклассовой.

Четыре
основные причины вызывают эту вариацию:

1.
Изменение состояния исследуемых
(утомление, врабатывание, научение,
изменение мотивации, концентрации
внимания и т.п.).
2. Неконтролируемые
изменения внешних условий и аппаратуры
(температура, ветер, влажность, напряжение
в электросети, присутствие посторонних
лиц и т.п.), т.е. все то, что объединяется
термином “случайная ошибка измерения”.
3.
Изменение состояния человека, проводящего
или оценивающего тест (и, конечно, замена
одного экспериментатора или судьи
другим).
4. Несовершенство теста (есть
такие тесты, которые заведомо малонадежные.
Например, если исследуемые выполняют
штрафные броски в баскетбольную корзину,
то даже баскетболист, имеющий высокий
процент попаданий, может случайно
ошибиться при первых бросках).

Основное
различие теории надежности тестов от
теории ошибок измерения состоит в том,
что в теории ошибок измеряемая величина
считается неизменной, а в теории
надежности тестов предполагается, что
она меняется от измерения к измерению.
Например, если необходимо измерить
результат выполненной попытки в прыжках
в длину с разбега, то он вполне определенный
и с течением времени значительно
измениться не может. Конечно, в силу
случайных причин (например, неодинакового
натяжения рулетки) нельзя с идеальной
точностью (скажем до 0,0001 мм) измерить
этот результат. Однако используя более
точный измерительный инструмент
(например, лазерный измеритель), можно
повысить их точность до необходимого
уровня. Вместе с тем, если стоит задача
определить подготовленность прыгуна
на отдельных этапах годичного цикла
тренировки, то самое точное измерение
показанных им результатов мало чем
поможет: ведь они от попытки к попытке
изменятся.

Чтобы
разобраться в идее методов, используемых
для суждения о надежности тестов,
рассмотрим упрощенный пример. Предположим,
что необходимо сравнить результаты
прыжков в длину с места у двух спортсменов
по двум выполненным попыткам. Допустим,
что результаты каждого из спортсменов
варьируют в пределах ± 10 см от средней
величины и равны соответственно 230 ± 10
см (т.е. 220 и 240 см) и 280± 10 см (т.е. 270 и 290
см). В таком случае вывод, конечно, будет
совершенно однозначным: второй спортсмен
превосходит первого (различия между
средними в 50см явно выше случайных
колебаний в ± 10 см). Если же при той же
самой внутригрупповой вариации ( ± 10
см) различие между средними значениями
исследуемых (межгрупповая вариация)
будут маленькими, то сделать вывод будет
гораздо труднее. Допустим, что средние
значения будут примерно равны 220 см (в
одной попытке — 210, в другой — 230 см) и
222 см (212 и 232 см). При этом первый исследуемый
в первой попытке прыгает на 230 см, а
второй — только на 212 см; и создается
впечатление, что первый существенно
сильнее второго. Из этого примера видно,
что основное значение имеет не сама по
себе внутриклассовая изменчивость, а
ее соотношение с межклассовыми различиями.
Одна и та же внутриклассовая изменчивость
дает разную надежность при равных
различиях между классами (в частном
случае между исследуемыми, рис. 14).

Например,
если зарегистрировать у исследуемых
их результаты в каком-либо тесте, повторяя
этот тест в разные дни, причем каждый
день делать по несколько попыток,
периодически меняя экспериментаторов,
то будут иметь место вариации:

а)
от испытуемого к испытуемому;

б)
ото дня ко дню;

в)
от экспериментатора к экспериментатору;

г)
от попытки к попытке.

Дисперсионный
анализ дает возможность выделить и
оценить эти вариации.

Таким
образом, чтобы оценить практически
надежность теста надо, во-первых,
выполнить дисперсионный анализ,
во-вторых, рассчитать внутриклассовый
коэффициент корреляции (коэффициент
надежности).

При
двух попытках величина внутриклассового
коэффициента корреляции практически
совпадает со значениями обычного
коэффициента корреляции между результатами
первой и второй попыток. Поэтому в таких
ситуациях для оценки надежности можно
использовать обычный коэффициент
корреляции (он при этом оценивает
надежность одной, а не двух попыток).

Говоря
о надежности тестов, необходимо различать
их стабильность (воспроизводимость),
согласованность, эквивалентность.

Под
стабильностью
теста понимают воспроизводимость
результатов при его повторении через
определенное время в одинаковых условиях.
Повторное тестирование обычно называют
ретестом.

Согласованность
теста характеризуется независимостью
результатов тестирования от личных
качеств лица, проводящего или оценивающего
тест.

При
выборе теста из определенного числа
однотипных тестов (например, спринтерский
бег на 30, 60 и 100 м) методом параллельных
форм оценивается степень совпадения
результатов. Рассчитанный между
результатами коэффициент корреляции
называют коэффициентом
эквивалентности.

Если
все тесты, входящие в какой-либо комплекс
тестов, высоко эквивалентны, он называется
гомогенным.
Весь этот комплекс измеряет одно какое-то
свойство моторики человека (например,
комплекс, состоящий из прыжков с места
в длину, вверх и тройного; оценивается
уровень развития скоростно-силовых
качеств). Если в комплексе нет эквивалентных
тестов, то есть тесты, входящие в него,
измеряют разные свойства, то он называется
гетерогенным
(например,
комплекс, состоящий из становой
динамометрии, прыжка вверх по Абалакову,
бега на 100 м).

Надежность
тестов может быть повышена до определенной
степени путем:

а)
более строгой стандартизации тестирования;

б)
увеличения числа попыток;

в)
увеличения числа оценщиков (судей,
экспериментов) и повышения согласованности
их мнений;

г)
увеличения числа эквивалентных тестов;

д)
лучшей мотивации исследуемых.

Кубанский
государственный университет физ культуры
спорта и туризма

Популярные
тестовые методики, применяемые в практике
профессионального отбора и тестирования
персонала
:

Проективные
тесты

Тест
Роршаха
.
Испытуемому предъявляются для
интерпретации картинки с абстрактными
изображениями — пятнами различной
конфигурации и цвета (напоминающими
чернильные кляксы). На основании того,
что увидит испытуемый, диагностируются
его скрытые установки, побуждения,
свойства характера.

Тест
Люшера

позволяет исследовать личность работника
путем анализа его субъективных
предпочтений при выборе цветовых
стимулов. В оригинале стимульный материал
представляют 73 карточки различного
цвета, в российской психодиагностике
распространена упрощенная тестовая
методика, применяющая восемь основных
цветов. При этом каждому цвету приписывается
определенное значение. Важен порядок
выбора цветов: первые выбранные цвета
выражают явные цели деятельности
личности и способы их достижения,
последние — подавленные, вытесненные
стремления.

Тематический
апперцептивный тест (ТАТ)

направлен на исследование психических
свойств личности по спонтанному описанию
тестируемым тех или иных стандартных
ситуаций, изображенных на предъявляемых
ему рисунках. Это один из наиболее
известных тестов на мотивацию достижений.
Надежность в практике тестирования
персонала не является доказанной. По
мнению специалистов, ответы на вопросы
ТАТ могут быть подвержены влиянию
сторонних факторов. Тем не менее,
успешность прохождения данного теста
коррелирует как с общими успехами
человека в учебе, так и с его экономическим
преуспеванием.

Тест
Майнера

на завершение предложений позволяет
прогнозировать управленческий и
творческий потенциал менеджеров. Этот
тест состоит из 40 незаконченных
предложений, которые тестируемый должен
дописать самостоятельно. По нему можно
судить о различных аспектах мотивации
менеджерской деятельности. В других
тестах на завершение предлагается
досочинить рассказ или дорисовать
рисунки.

По
критерию измеряемого психологического
качества можно выделить следующие
группы тестов:

Тесты
на уровень интеллекта (тесты на IQ —
интеллектуальные тесты)

Тестов,
измеряющих уровень интеллекта, очень
много, большинство из них происходят
от двух классических методик: теста
Бине-Симона

и теста
Векслера
.
Оба теста прошли испытание на протяжении
70-летней практики их применения и
являются наиболее изученными и надежными.
К примеру, баллы по результатам
словесно-речевых IQ-тестов (тест Векслера)
всегда хорошо коррелируют с успехами
в учебе.

Применяя
тот или иной тест интеллекта, важно
знать, что автор или авторы теста
вкладывают в понятие «интеллект». В
настоящее время психологами выделяется
несколько видов интеллекта: словесно-речевой,
математический, визуально-пространственный,
художественный, двигательный, музыкальный
и прикладной. При этом многие психологи
говорят о так называемом «общем (едином)
интеллекте», позволяющим человеку
довольно эффективно проявлять себя в
разных областях жизнедеятельности.

Тесты
на IQ (коэффициент интеллекта) помогают
выявить наличие отдельных интеллектуальных
способностей человека, в том числе:

  • словесно-речевых;

  • способностей
    оперировать с числами — математический
    интеллект;

  • визуально-пространственных;

  • исполнительских
    (особых) — прикладной интеллект.

Недостатком
интеллектуальных тестов является то,
что они нацелены на получение некоторого
суммарного балла, отражающего
интеллектуальные способности «вообще».
Но за этим суммарным баллом остаются
неразличимыми отдельные сильные и
слабые способности человека. Выполняя
интеллектуальные тесты, человек
использует главным образом конвергентное
мышлени
е.
Это мышление «специализируется» на
решении задач, у которых есть только
один правильный ответ. Однако на многие
вопросы нельзя дать однозначный, верный
или неверный ответ. Например, когда
нужно найти новую генеральную линию
развития фирмы, которая позволила бы
ей обогнать своих конкурентов, или
выработать новый действенный слоган —
в этих случаях у задачи множество
вариантов решения. Некоторые из них
будут лучше, другие хуже (зачастую это
может показать лишь время), но ни один
из них не является единственно верным.
Такие вопросы требуют дивергентного
мышления
.
Тесты на IQ реально зондируют лишь
конвергентное мышление. 

К
тому же высокий коэффициент интеллекта
сам по себе не является гарантией
успешной работы сотрудника. Многое
определяется тем, что требуется для
выполнения конкретной работы, а в этом
случае на первом месте далеко не всегда
выходят интеллектуальные качества. К
примеру, финансовому директору
недостаточно иметь хороший математический
интеллект, ему очень важно уметь верно
оценивать степень риска и принимать
правильные финансовые решения.

Тесты
на личностные качества

Отличительная
особенность данных тестов в том, что в
них оценивается не правильность ответов
тестируемого, а его личностные качества.
Хотя не все стороны характера можно
оценить с помощью тестов, поскольку
каждый человек уникален, но некоторые
личностные черты поддаются количественной
оценке.

В
практике кадровой работы часто
используются MMPI
(Миннесотский многопрофильный личностный
опросник), СМИЛ
(стандартизированный метод исследования
личности), тест
Айзенка
,
16-факторный
опросник Кеттелла

(тест 16PF), тесты
Лири, Стреляу, Леонгарда
,
«рисуночные тесты», тесты цветовых
предпочтений, а также такие экзотические,
как графологические
(анализ почерка)

и физиогномические (анализ черт лица).
Эти тесты могут применяться при
профотборе, если в службе персонала
есть квалифицированные психологи,
способные интерпретировать получаемые
с их помощью данные. При этом следует
учитывать, что ни один из этих тестов
не рассчитывался на специальное
применение в кадровых службах. Личностные
тесты обладают недостатком: как правило
они достаточно громоздки и сложны. В то
же время большинство служб персонала
при определении личностных качеств
кандидата стремятся использовать более
простые тесты.

Многофакторный
метод исследования личности (СМИЛ)

— это модифицированный (адаптированный
к российским условиям) вариант теста
MMPI, разработанного в 40-х годах американскими
психологами Дж. Маккинли и С. Хатэуэем
для профессионального отбора военных
летчиков. Методика построена по типу
опросника, при этом оценка результата
базируется не на прямом анализе ответов
испытуемого, а на данных статистически
подтвержденной значимости каждого
ответа в сравнении со средненормативными
показателями. Одно из важных достоинств
метода состоит в том, что автоматизированный
способ обработки данных практически
исключает зависимость получаемых
результатов от личностных особенностей
и опыта специалиста, проводящего
тестирование. В основу методики положена
статистически достоверная математическая
база.

Тест
эффективен в решении сложных вопросов
профотбора и профориентации, комплектовании
рабочих коллективов, расстановки кадров,
при изучении социального климата в
организациях и на предприятиях. Он
находит активное применение в
профконсультировании и профориентационной
работе психологов.

Тест
Кеттелла (16PF
)
выводит баллы для разных качеств личности
(17 факторов первого порядка). Данные по
некоторым из этих шкал коррелируют друг
с другом, поэтому в итоге образуются 5
факторов (показателей) второго (высшего)
порядка. Полный вариант теста Кеттелла
позволяет исследовать и уровень
интеллекта, и личностные качества. Тест
Кеттелла, а также тест Айзенка наиболее
результативны в диагностике степени
нервозности личности, что профессионально
значимо для некоторых профессий.

Тест
Майерс-Бриггс
,
в основе которого лежит психологическая
теория личности К.Г. Юнга, содержит более
ста утверждений и позволяет описать
личность человека по четырем составляющим:

  1. Экстравертированность
    — Интравертированность;

  2. Осознание
    — Интуиция (что из них для вас более
    значимо, приоритетно);

  3. Размышления
    — Чувства;

  4. Суждения
    — Ощущения.

Однако
этот тест больше подходит для оценки
возможности карьерного роста сотрудников
внутри организации, чем для решения
вопроса о приеме на работу.

На
входном контроле (при приеме на работу)
используют тесты самооценки, например,
тест
Лири
,
личностный
дифференциал

(ЛД) или опросник
деловой направленности

(ОДН) личности, а также СМИЛ,
результаты которого коррелируют с
результатами, полученными другими
методами.

Тесты
на творческое мышление

Существуют
следующие виды:

  1. Тесты
    на генерирование идей;

  2. Тесты
    на межпредметные связи (умение создавать
    «творческие композиции» особенно важно
    в рекламном и маркетинговом деле);

  3. Визуальные
    тесты (на умение создавать визуальные
    каламбуры или рассказы по картинкам);

  4. Тесты
    на «боковое мышление» (которое, в отличие
    от обычного, позволяет взглянуть на
    задачу под нестандартным углом зрения).

Нередко
в тестах на творческое мышление
применяются сюрреалистические либо
иронические рисунки.

Управление
персоналом Словарь-справочник

Погре́шность измере́ния — оценка отклонения величины измеренного значения величины от её истинного значения. Погрешность измерения является характеристикой (мерой) точности измерения.

Поскольку выяснить с абсолютной точностью истинное значение любой величины невозможно, то невозможно и указать величину отклонения измеренного значения от истинного. (Это отклонение принято называть ошибкой измерения. В ряде источников, например, в БСЭ, термины ошибка измерения и погрешность измерения используются как синонимы.) Возможно лишь оценить величину этого отклонения, например, при помощи статистических методов. При этом за истинное значение принимается среднестатистическое значение, полученное при статистической обработке результатов серии измерений. Это полученное значение не является точным, а лишь наиболее вероятным. Поэтому в измерениях необходимо указывать, какова их точность. Для этого вместе с полученным результатом указывается погрешность измерений. Например, запись T=2.8±0.1 c. означает, что истинное значение величины T лежит в интервале от 2.7 с. до 2.9 с. некоторой оговоренной вероятностью (см. доверительный интервал, доверительная вероятность, стандартная ошибка).

В 2006 году на международном уровне был принят новый документ, диктующий условия проведения измерений и установивший новые правила сличения государственных эталонов. Понятие «погрешность» стало устаревать, вместо него было введено понятие «неопределенность измерений».

Содержание

  • 1 Определение погрешности
  • 2 Классификация погрешностей
    • 2.1 По форме представления
    • 2.2 По причине возникновения
    • 2.3 По характеру проявления
    • 2.4 По способу измерения
  • 3 См. также
  • 4 Литература

Определение погрешности

В зависимости от характеристик измеряемой величины для определения погрешности измерений используют различные методы.

  • Метод Корнфельда, заключается в выборе доверительного интервала в пределах от минимального до максимального результата измерений, и погрешность как половина разности между максимальным и минимальным результатом измерения:
Delta x=frac{x_{max}-x_{min}}{2}
  • Средняя квадратическая погрешность:
S =left. sqrt{sum_{i=1}^{n}frac{(x_i-x)^2}{n-1}} right.
  • Средняя квадратическая погрешность среднего арифметического:
S _x= frac{S} {sqrt{n}} = left. sqrt{sum_{i=1}^{n}frac{(x_i-x)^2}{n(n-1)}} right.

Классификация погрешностей

По форме представления

  • Абсолютная погрешностьΔX является оценкой абсолютной ошибки измерения. Величина этой погрешности зависит от способа её вычисления, который, в свою очередь, определяется распределением случайной величины Xmeas. При этом равенство:

ΔX = | XtrueXmeas | ,

где Xtrue — истинное значение, а Xmeas — измеренное значение, должно выполняться с некоторой вероятностью близкой к 1. Если случайная величина Xmeas распределена по нормальному закону, то, обычно, за абсолютную погрешность принимают её среднеквадратичное отклонение. Абсолютная погрешность измеряется в тех же единицах измерения, что и сама величина.

  • Относительная погрешность — отношение абсолютной погрешности к тому значению, которое принимается за истинное:

delta_x =frac{ Delta x}{X}.

Относительная погрешность является безразмерной величиной, либо измеряется в процентах.

  • Приведенная погрешность — относительная погрешность, выраженная отношением абсолютной погрешности средства измерений к условно принятому значению величины, постоянному во всем диапазоне измерений или в части диапазона. Вычисляется по формуле

delta_x =frac{ Delta x}{X_n},

где Xn — нормирующее значение, которое зависит от типа шкалы измерительного прибора и определяется по его градуировке:

— если шкала прибора односторонняя, т.е. нижний предел измерений равен нулю, то Xn определяется равным верхнему пределу измерений;
— если шкала прибора двухсторонняя, то нормирующее значение равно ширине диапазона измерений прибора.

Приведенная погрешность — безразмерная величина (может измеряться в процентах).

По причине возникновения

  • Инструментальные / приборные погрешности — погрешности, которые определяются погрешностями применяемых средств измерений и вызываются несовершенством принципа действия, неточностью градуировки шкалы, ненаглядностью прибора.
  • Методические погрешности — погрешности, обусловленные несовершенством метода, а также упрощениями, положенными в основу методики.
  • Субъективные / операторные / личные погрешности — погрешности, обусловленные степенью внимательности, сосредоточенности, подготовленности и другими качествами оператора.

В технике применяют приборы для измерения лишь с определенной заранее заданной точностью – основной погрешностью, допускаемой нормали в нормальных условиях эксплуатации для данного прибора.

Если прибор работает в условиях, отличных от нормальных, то возникает дополнительная погрешность, увеличивающая общую погрешность прибора. К дополнительным погрешностям относятся: температурная, вызванная отклонением температуры окружающей среды от нормальной, установочная, обусловленная отклонением положения прибора от нормального рабочего положения, и т.п. За нормальную температуру окружающего воздуха принимают 20°С, за нормальное атмосферное давление 01,325 кПа.

Обобщенной характеристикой средств измерения является класс точности, определяемый предельными значениями допускаемых основной и дополнительной погрешностей, а также другими параметрами, влияющими на точность средств измерения; значение параметров установлено стандартами на отдельные виды средств измерений. Класс точности средств измерений характеризует их точностные свойства, но не является непосредственным показателем точности измерений, выполняемых с помощью этих средств, так как точность зависит также от метода измерений и условий их выполнения. Измерительным приборам, пределы допускаемой основной погрешности которых заданы в виде приведенных основных (относительных) погрешностей, присваивают классы точности, выбираемые из ряда следующих чисел: (1; 1,5; 2,0; 2,5; 3,0; 4,0; 5,0; 6,0)*10n, где n = 1; 0; -1; -2 и т.д.

По характеру проявления

  • Случайная погрешность — погрешность, меняющаяся (по величине и по знаку) от измерения к измерению. Случайные погрешности могут быть связаны с несовершенством приборов (трение в механических приборах и т.п.), тряской в городских условиях, с несовершенством объекта измерений (например, при измерении диаметра тонкой проволоки, которая может иметь не совсем круглое сечение в результате несовершенства процесса изготовления), с особенностями самой измеряемой величины (например при измерении количества элементарных частиц, проходящих в минуту через счётчик Гейгера).
  • Систематическая погрешность — погрешность, изменяющаяся во времени по определенному закону (частным случаем является постоянная погрешность, не изменяющаяся с течением времени). Систематические погрешности могут быть связаны с ошибками приборов (неправильная шкала, калибровка и т.п.), неучтёнными экспериментатором.
  • Прогрессирующая (дрейфовая) погрешность — непредсказуемая погрешность, медленно меняющаяся во времени. Она представляет собой нестационарный случайный процесс.
  • Грубая погрешность (промах) — погрешность, возникшая вследствие недосмотра экспериментатора или неисправности аппаратуры (например, если экспериментатор неправильно прочёл номер деления на шкале прибора, если произошло замыкание в электрической цепи).

По способу измерения

  • Погрешность прямых измерений
  • Погрешность косвенных измерений — погрешность вычисляемой (не измеряемой непосредственно) величины:

Если F = F(x1,x2xn), где xi — непосредственно измеряемые независимые величины, имеющие погрешность Δxi, тогда:

Delta F = sqrt{sum_{i=1}^n left(Delta x_i frac{partial F}{partial x_i}right)^2}

См. также

  • Измерение физических величин
  • Класс точности
  • Метрология
  • Система автоматизированного сбора данных со счетчиков по радиоканалу
  • Методы электроаналитической химии

Литература

  • Назаров Н. Г. Метрология. Основные понятия и математические модели. М.: Высшая школа, 2002. 348 с.
  • Лабораторные занятия по физике. Учебное пособие/Гольдин Л. Л., Игошин Ф. Ф., Козел С. М. и др.; под ред. Гольдина Л. Л. — М.: Наука. Главная редакция физико-математичекой литературы, 1983. — 704 с.

Wikimedia Foundation.
2010.

  • Надевать одевать тип ошибки
  • Надевать или одевать какая это ошибка
  • Надевать или одевать вид ошибки
  • Надвигалась страшная кощунственная гроза ошибка
  • Над степью парили кобчики где ошибка