Достоверность теста: Достоверность результатов тестирования и факторы, влияющие на достоверность

Содержание

Достоверность результатов тестирования и факторы, влияющие на достоверность


1 Достоверность теста — способность теста защищать информацию от мотивационных (сознательных и бессознательных) искажений и социальной желательности ответов (это достигается через введение в тест проверочной шкалы лжи).

Проблема достоверности личностных опросников. Факторы, детерминирующие ответы на вопросы. При знакомстве с личностными опросниками, одним из первых возникает вопрос, насколько достоверна информация, получаемая с помощью ответов на разного рода вопросы. Обследуемый вполне может быть неискренним, сознательно вводить в заблуждение или не понять задание, или иметь искаженные представления о себе. Какие факторы детерминируют ответы испытуемых на вопросы?

2 Факторы: фальсификация и установки на ответы

Личностные опросники нередко оказываются объектом критики: в силу того что самоописание позволяет испытуемому дать о себе ложные сведения, легко исказить реальную картину. Естественно, если исходить из предположения о том, что эта возможность всегда или почти всегда реализуется, то становится бессмысленным использование опросников в диагностических целях. Из-за того что ответы могут быть без труда фальсифицированы, ссылаются на опросы одних и тех же лиц, проведенные с разной инструкцией по той же самой шкале. В одном случае просят отвечать, например, подражая какому-либо типу поведения, в другом — правдиво. Однако нет оснований полагать, что у испытуемого обязательно должно быть желание обмануть, и это играет сколь-нибудь важную роль. Ко дню сегодняшнему в психодиагностике накоплено немало данных, указывающих на обратное—стремление обследуемых быть искренними.

Фальсификация ответов, о вероятности которой следует помнить в ситуациях, характеризующихся высокой степенью социального контроля над результатами, полученными обследуемым, встречается крайне редко.[1] Работы последних лет показывают, что многие из применяемых психологами опросников достаточно чувствительны к намеренному искажению истины. Использование разных личностных опросников в трех экспериментальных группах с инструкциями «отвечать честно», «произвести наилучшее впечатление», «произвести наихудшее впечатление», показало, что фальсификация легко обнаруживается. Сознательное искажение сведений о себе, чаще всего возможность, нежели реальность поведения обследуемого. Другое дело — влияние факторов неосознаваемых, но тем не менее существенно воздействующих на процесс «переваривания» вопроса и формирование ответа на него.

К факторам, искажающим достоверность ответов, относятся те, которые имеют установочную природу. Одна из наиболее известных установок, вызвавшая немало дискуссий, — это тенденция к выбору «социально положительного» ответа, того ответа, который предписывается общественными или групповыми нормами. Социально одобряемые ответы, даваемые обследуемыми, не должны быть поняты как нарочитое намерение представить себя в лучшем свете. Их появление обусловлено не сознательной фальсификацией, а неосознанным желанием выглядеть не хуже других.

Сила социально одобряемых ответов связана с более общей потребностью индивида в самозащите, уклонении от критики и социальном согласии. Вместе с тем наличие потребности в помощи, внимании со стороны других людей может привести к выбору тех ответов, которые не соответствуют социальным нормам, неблагоприятны для описания самого себя. Обследуемый; испытывающий потребность в чем-то, для ее удовлетворения склонен представлять себя менее благополучным, нежели на самом деле.[2]

Фактор социальной одобряемости приобретает наиболее существенное значение в тех опросниках, содержание вопросов которых тесно связано с имеющимися в обыденном сознании стереотипами «хороших» и «плохих» черт личности, особенностей поведения. Важным стимулом к социально одобряемым ответам является установление испытуемым зависимости собственного благополучия от результатов исследования. В таком случае действие установки может оказаться настолько сильным, что будет определять едва ли не каждый ответ, а тем самым она окажется единственной измеряемой характеристикой.

Известны способы защиты личностных опросников от стремления испытуемых отвечать в соответствии с тем, что «общепринято» (разработка нейтральных заданий, введение в опросники так называемых «шкал лжи»). Однако эффективность этих мер не настолько высока, чтобы использовать опросники в случаях, способствующих актуализации этой установки, н-р при профотборе высокомотивированных или нежелающих обследоваться лиц.

Социально одобряемые ответы — лишь одна из установок. Еще одна из них установка на согласие это тенденция соглашаться с утверждениями или отвечать на вопросы только «да», независимо от их содержания. Чаще всего установка на согласие проявляется в тех случаях, когда вопросы неоднозначны, неопределенны. Влияние этой установки минимизируется тем, что при составлении опросника добиваются того, чтобы число вопросов, для которых ключевой ответ «да», было равно числу вопросов с ключевым ответом «нет». Другими словами, конструируется сбалансированная шкала. Установка на согласие наименее вероятна в том случае, когда задания понятны, недвусмысленны и, что очень важно, относятся к конкретным формам по ведения.

Другая установка, с которой нередко приходится иметь дело, — установка на неопределенные ответы. Эти ответы иногда называют ответами средней категории, поскольку они находятся как бы между «да» и «нет». Обследуемый склоняется к преимущественному выбору ответов типа «не знаю», «не уверен» или «затрудняюсь ответить». Разумеется, эта установка возникает в том случае, когда предусмотрен промежуточный тип ответа и лучший способ ее избежать — использование дихотомических заданий («да»\нет»). Еще один способ устранения влияния данной установки заключается в формулировании таких вопросов, при ответе на которые выбор средней категории не будет притягателен. Клайн отмечает, неопределенные ответы часто возникают, когда крайние варианты не затрагивают испытуемого, безразличны для него.

Еще одна установка называется установкой на «крайние» ответы. Проявляется при использовании многоэлементной рейтинговой шкалы, по которой предлагается дать ответ на каждое задание. Единственный способ избежать проявления этой установки заключается в отказе от рейтинговых шкал, которые редко используются.

Установка на необычные ответы, проявляется в тенденции давать необщепринятые, необычные ответы. Возникновение этой установки не зависит от содержания и типа предлагаемых обследуемому заданий.

Исследования установок, отмечает А. Анастази, прошли через два этапа. Первоначально установки полагались источником ошибок, и в связи с этим прилагались значительные усилия для устранения их влияния. Позднее эти установки были поняты как индикаторы личностных особенностей и обозначены понятием «стиль ответа».Установка на социально одобряемые ответы, и установка на согласие, и, установка на необычные ответы свойственны разным типам личности. Поэтому результаты, полученные с помощью личностных опросников, даже в том случае, когда действие той или иной установки оказывает определенное влияние на ответы, имеют диагностическое значение, но уже не с точки зрения конкретного содержания заданий, а, как пишет А. Анастази, исходя из их стилевых свойств.

Дополнительно

[1]Фальсификация ответов, о вероятности которой следует помнить в ситуациях, характеризующихся высокой степенью социального контроля над результатами, полученными обследуемым, встречается крайне редко. Для того чтобы убедиться в этом, достаточно представить себе пациента, пришедшего на обследование к психологу с целью индивидуализации медицинского диагноза. Специальные исследования в клинике психических заболеваний показали, что возможность фальсификации ответов больными весьма незначительна. Так, только 11% больных смогли симулировать «нормальный» ММРI-профиль. Некоторые же больные, стремясь выглядеть здоровыми, отвечали на вопросы так, что в конечном счете их личностные характеристики предстали более патологическими, нежели в реальности.

[2] По мнению Дж. Нанели, исследования, в которых изучались социально одобряемые ответы, позволяют сделать следующие заключения:

а) у большинства испытуемых определенного общества наряду с разными личностными особенностями наблюдается известное единство в понимании того, что считать «социально положительным», — поэтому необоснованным, нелогичным является мнение об умышленном искажении испытуемыми своих ответов при использовании личностных опросников;

б) если создать шкалу, состоящую из вопросов, измеряющих различные черты личности, и при этом выдвинуть условие, чтобы испытуемые отвечали на них только «хорошо» или «плохо», а затем рассчитать общий количественный показатель (путем сложения «хороших» ответов и, со знаком минус, «плохих»), то она будет высоко коррелировать с оценками по многим другим личностным опросникам.

Таким образом, получается, что фактором социальной одобряемости можно объяснить значительную долю вариативности в показателях мультифакторных опросников. Более того, усматривается определенная аналогия между фактором социальной одобряемости и G-фактором интеллекта. Но это не означает невозможность выделения других факторов, тех, которые соответствуют измеряемому свойству. Отечественные исследователи отмечают, что при факторизации одномерного опросника почти всегда выделяются два фактора. Один из них соответствует измеряемому свойству, второй — социальной желательности ответа, причем его сила зависит от диагностической ситуации и, как полагают исследователи, уровня подозрительности контингента обследуемых.

Известны способы защиты личностных опросников от стремления испытуемых отвечать в соответствии с тем, что «общепринято» (разработка нейтральных заданий, введение в опросники так называемых «шкал лжи»). Однако эффективность этих мер не настолько высока, чтобы использовать опросники в случаях, способствующих актуализации этой установки, н-р при профотборе высокомотивированных или нежелающих обследоваться лиц. В то же время нельзя и абсолютизировать роль установки на социально одобряемые ответы. Изменения в результатах опроса при переходе от стандартной инструкции к инструкции отвечать так, чтобы «выглядеть в лучшем свете», могут быть расценены как направленность большинства людей на описание их действительного типа поведения.

Заметим также, что так называемое «социально одобряемое поведение» имеет множество аспектов, полный учет которых вряд ли возможен. Исследование больных разной нозологической принадлежности обнаруживает еще большую размытость того, что называется социально одобряемым ответом. Влияние установки на социально одобряемое поведение минимизируется в тех диагностических ситуациях, когда испытуемый явно заинтересован в предоставлении предельно правдивой информации о себе. По мере того как испытуемый из объекта исследования становится активным помощником экспериментатора, «экспертом самого себя», возрастает и достоверность получаемых данных. Традиционная психометрическая модель диагностического обследования, задающая известную отстраненность экспериментатора от испытуемого в процессе обследования, не универсальна и не всегда способствует желаемой объективности результатов.

Как составляют психологические тесты и насколько они достоверны

Психологические тесты пользуются огромной популярностью, поскольку мало что может быть увлекательнее, чем исследовать самого себя, открывать в себе новые грани или узнавать больше о своем характере. Множество сайтов и книг заполнены тестами разного уровня сложности, где любознательные пользователи находят для себя и своих близких все объясняющие диагнозы. Всего несколько кликов и можно внезапно обнаружить в себе социопата или подтвердить свою интроверсию. Но является ли полезной такая самодиагностика, стоит ли доверять психологическим тестам, и используют ли их сами психотерапевты? – Наш сайт взаимопомощи «Люди для людей» разобрался в вопросе и готов поделиться со своими читателями.

 

Разбор стандартного психологического теста

Стандартные психологические тесты состоят из ряда примитивных вопросов, на которые необходимо ответить, а после просчитать баллы и прочитать к ним описание.

Психологические тесты

Стремление человека раскрыть в себе таланты, узнать что-то новое и выявить новые грани — это вполне нормально. Но зачастую люди удивляются, когда пройдя тест, его результат полностью отвечает их характеру и принципам.

;Психологические тесты для женщин

Тесты для девушек наиболее популярны, но предпочтительнее всех те, которые отвечают на вопрос: «Нравлюсь ли я мужчинам?». Каждую девушку беспокоит данный вопрос, несмотря на то, что она сама знает на него ответ и применять в этом случае психологические тесты для девушек абсолютно ни к чему. Но все-таки, ответив на вопросы из теста, получаешь средний результат, где написано: «Вы симпатичны некоторым мужчинам, одни без ума от вас, а других немного пугает ваш характер». В целом, все сошлось: каждой женщине приятно осознавать, что она нравится мужчинам, а по поводу характера многие воспринимают это как преимущество. Если боятся, то значит самодостаточная, независимая и сильная. Также любопытно узнать результат с наименьшим количеством баллов: «Вы у мужской половины вызываете интерес, но у вас имеются некоторые комплексы, способные оттолкнуть». Такой ответ тоже является правдивым, ведь у каждого имеются какие-то комплексы. Прочитаем результат с самыми высокими баллами: «Вы способны понравится любому мужчине и покорить его», и видим, что такой ответ тоже подходит любой девушке.

 

Можно ли доверять психологическим тестам

Можно ли доверять психологическим тестам – вопрос сложный. Дело в том, что отвечая на вопросы, мы получаем лишь общую картину о человеке, которая в целом может применяться к любому.

*Если рассмотреть ситуацию, когда один и тот же психологический тест будет переведен на несколько языков. Исходя из того, что каждая нация имеет свои ценности и привычки, само собой, полученный результат будет значительно отличаться.

 

Как составляют тесты, используемые в психологии и психотерапии

Психологические тесты, используемые в психотерапии, для выявления скрытых черт характера человека и направленные на оказание помощи людям в тех оспектах, где это требуется, существуют. Конечно, чтобы их составить требуется достаточно много ресурсов и времени.

Психологические тесты-узнайте какая вы личность?

Составление теста проходит поэтапно и начинается в первую очередь с определения его целевой аудитории – лексика и сложность вопросов должны соответствовать  группе опрашиваемых. Основной трудностью является максимальное раскрытие каждой из характеристик личности при помощи небольшого количества вопросов. Также зачастую помимо вопросов «по существу» в тест добавляют так называемую «шкалу лжи» — вопросы, способные помочь определить, честно и внимательно ли отвечает испытуемый. То есть это повторы одного вопроса с небольшой переформулировкой.

*Получить честные ответы также можно с помощью искаженного описания теста – опрашиваемый рассчитывая, что его проверяют на что-то одно, о другом будет отвечать правдивее.

Составление вопросов для теста, формирование инструкции и определение временных рамок являются основными этапами. Затем тест проходит проверку на надежность, то есть два варианта результата от одного человека должны быть идентичными, и на валидность – насколько тест отражает действительное положение вещей.

Психологические тесты-инструмент для самодиагностики человека

Особенности психологических тестов, проработанные на стадии его составления, позволяют в результате сформировать инструмент, с помощью которого можно достоверно оценить те или иные свойства клиентов или пациентов. Неудивительно, что действительно «серьезных» тестов не так много.  Ведь большинство специалистов при их создании забывают или не хотят учитывать многие особенности психологического теста.

 

Основные характеристики, которые должны присутствовать в психологическом тесте

Психологический тест в науке – стандартизированное испытание, по полученным ответам которого можно судить и психофизиологических и личностных свойствах тестируемого.

Из этого термина стоит выделить ключевое слово – стандартизированное, что значит, что дело касается испытания, для которого имеется понятная, стандартная и строго выполняемая схема осуществления с одной стороны, и критерии оценивания результатов того, что было измерено – с другой.

Основные психометрические характеристики, которыми должен обладать тест:

  • Валидность.
  • Достоверность.
  • Адаптированность.
  • Надежность.
  • Репрезентативность.

Стоит рассмотреть каждую из вышеперечисленных характеристик более детально.

 

Валидность теста

Валидность теста указывает нам на то, насколько правильно выбранная методика измеряет конкретно то свойство, для анализа которого она предназначена. Это один из основных критериев оценки эффективности каждого психологического теста, потому как диагностика «не того» абсолютно бессмысленна.

Выделяют несколько видов валидности:

  • Содержательная.
  • Эмпирическая.
  • Прогностическая.
  • Концептуальная.

 

Достоверность психологического теста

Достоверность психологического теста указывает нам на то, насколько он защищен от умышленной фальсификации ответов тестирования испытуемым.

Достоверность психологических тестов является наиболее распространенным вопросом, особенно в случаях, когда результаты оценки свойств личности  касаются стороннего заинтересованного лица, например, руководителя.

Среди факторов достоверности теста выделяют:

  • Фактор знания. Показывает, что испытуемый знает о личностных характеристиках, скрытых за суждением, имеется ли такое поведение в реальной жизни, и как такое поведение оценивает общество;
  • Фактор социальной желательности. Для получения точной информаций в настоящем психологическом тесте должна присутствовать шкала лжи, а также возможные варианты ответов идентичной эмоциональной направленности;
  • Фактор индивидуальной практики. Речь идет о мотивации испытуемого при прохождении теста. Если при тестировании от человека требуется определенное поведение, он может давать не реальные, а желаемые поведенческие реакции, что значительно влияет на результаты.

 

Адаптированность

Адаптированность – одно из свойств теста, демонстрирующее, насколько его смысл и возможные результаты отвечают аудитории, для которой они предназначаются. То есть, принимаются ли во внимание национальные, культурные, и ментальные особенности людей, которые учувствуют в конкретном  исследовании. Достаточно часто игнорируется данное свойство. Даже несмотря на то, что адаптация любого иностранного тестирования – главное условие для его проведения в пределах другой страны, этим фактором часто пренебрегает, что вызывает значительные искажения при получении результатов.

 

Надежность психологического теста

Надежность психологического теста – наиболее важна при составлении общей картины правильного понимания результатов опроса. Она отражает внутреннюю согласованность частей теста, и воспроизводимость его результатов и конкретного испытуемого при повторном прохождение. Это значит, что построение надежных психологических тестов должно быть таким, чтобы вопросы не противоречили друг другу, а результаты определенного человека не менялись в течение некоторого времени.

Если тест предназначен для оценивания личностных качеств руководителя, он не подойдет для оценки личностных характеристик студента

Само собой, человек может меняться, но, например, если еще вчера ваш IQ составил 120, а спустя неделю – 70, скорее всего, проблема не в вашем интеллекте, а в надежности результативности используемой методики.

 

Репрезентативность

Репрезентативность или величина выборки стандартизации психологического теста. Такая характеристика определяет возможность применения теста относительно данной популяции опрашиваемых. Например, если тест предназначен для оценивания личностных качеств руководителя, он не подойдет для оценки личностных характеристик студента.

 

*Все психологические тесты направлены на выявление тех или иных качеств человека, которые могли бы приходиться в конкретной ситуации. При этом важно помнить общих тестов не бывает, все они рассчитаны на определенную группу людей. Тем не менее тесты нужны далеко не всегда и если вы честный, отзывчивый и благородный человек стремящийся делать добрые дела – судьба и так вам улыбнется. Наши поступки как бумеранг, где хорошее возвращается в двойне!

Достоверность

Особой разновидностью валидности является ДОСТОВЕРНОСТЬ, которая не всегда выделяется в учебниках по психодиагностике, хотя требует специальных усилий и процедур по обеспечению.

Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от мотивационных искажений и есть достоверность теста. Особенно остро проблема достоверности стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности — наличие в тест-опросниках шкал лжи. Эти шкалы основываются главным образом на феномене социальной желательности — стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные «ловушки», направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент «ноу-хау» (информационного изобретения) и профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензионное соглашение при приобретении теста.

Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (ситуация клиента) и аттестационную (ситуация экспертизы).

Психологические факторы, от которых зависит достоверность самоотчета, условно можно сгруппировать в следующие классы:

  1. Факторы знания.
  2. Фактор социальной желательности.
  3. Факторы индивидуальной тактики.

Фактор социальной желательности.

Обозначает тенденцию испытуемого давать о себе социально одобряемую информацию. Сила этой тенденции зависит как от общей внеситуативной установки испытуемого на морализацию «Я-образа» и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестирования. Однако эта тенденция не будет давать систематического искажения, если испытуемые не смогут разгадать направленность теста-опросника и связать диагностируемое свойство с тем или иным полюсом социальной желательности. Таким образом, действие этого фактора до некоторой степени опосредовано действием факторов знания. Однако при диагностике личностных свойств, тесно связанных с психической «нормальностью» или «социальной успешностью», фактор социальной желательности ответа обусловливает очень серьезные искажения.

Внутренняя согласованность.

Здесь подразумевается действие «Я-концепции» («Я» для себя) и «Я-образа» («Я» для других) на ситуативную тактику испытуемого в момент тестирования. Выполняя тест, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвердить «Я-концепцию» или фальсифицировать определенный «Я-образ» с заданными свойствами. Как правило, в ситуациях высокого социального риска «Я-образ» полностью доминирует: например, преступник при экспертизе стремится прежде всего предстать больным или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом человеке. Точно так же склонны подчеркивать свои трудности и проблемы клиенты, обратившиеся за помощью к психологу или психотерапевту (чтобы вызвать к себе его повышенное внимание). В менее регламентированных ситуациях, наоборот, может доминировать мотивация самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе.

Достоверность теста — Студопедия

Особой разновидностью валидности является ДОСТОВЕРНОСТЬ, которая не всегда выделяется в учебниках по психодиагностике, хотя требует специальных усилий и процедур по обеспечению. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от МОТИВАЦИОННЫХ ИСКАЖЕНИЙ и есть достоверность теста. Особенно. остро проблема достоверности стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности — наличие в тест-опросниках ШКАЛ ЛЖИ. Эти шкалы основываются главным образом на феномене СОЦИАЛЬНОЙ ЖЕЛАТЕЛЬНОСТИ — стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные «ловушки», направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент «ноу-хау» (инфор-

Психодиагностика как научная технология

мационного изобретения) и профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензионное соглашение при приобретении теста.



Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (СИТУАЦИЯ КЛИЕНТА) и аттестационную (СИТУАЦИЯ ЭКСПЕРТИЗЫ). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (как, например, в профориентационной консультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, т. е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.

Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы такие методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы.


Вопросы достоверности и стандартизации тесно связаны между собой. Очень часто даже объективные тесты достижений, если они проходили стандартизацию на добровольцах (в ситуации консультации), должны быть рестандартизированы для того, чтобы их использовали в аттестационной ситуации.

***

В заключение данной главы подчеркнем, что измерение психометрических характеристик теста, конечно, является прежде всего обязанностью разра-

Основы психодиагностики

ботчиков тестов. Но квалифицированный школьный психолог-методист с полным курсом университетского образования должен по своей подготовке уметь самостоятельно провести простейший психометрический эксперимент и пересчитать тестовые нормы, а также психометрические индексы надежности и валиднос-ти теста на своей собственной выборке (в своем регионе, обладающем определенной национально-культурной и социальной спецификой). Без этой проверки никто не может гарантировать, что тест действительно работает в данных условиях.

На сегодня подобная психометрическая работа с тестами облегчается, так как от массы рутинных вычислений специалиста освобождает компьютер. Научная фирма «Гуманитарные технологии» (МГУ) распространяет с 1993 года специализированный пакет программ ТЕСТАН (разработчик — А. Г. Шмелев) для психометрического АНализа ТЕСТов. Задача пользователя такой программы — не тратить время на вычисления, а только содержательно разбираться в том, что означает тот или иной коэффициент.

О перспективах метода тестов в связи с компьютеризацией школы предстоит особый разговор в параграфе 2.6.

Ключевые термины: оптимальная трудность, надежность теста, ошибка измерения, ретестовая надежность, валидность теста, критерий валидное ти, прогностическая валидность, стандартизация теста, выборка стандартизации, линейная стандартизация, конверсионная таблица, репрезентативность тестовых норм, рестандартизация, критериальные нормы, достоверность теста, мо-тивационные искажения, шкалы лжи, социальная желательность, ситуация клиента, ситуация экспертизы,

Психодиагностика как научная технология

Не все тесты одинаково полезны

Почему мы обращаемся к тестам? Потому что хотим знать правду, которую сложно или невозможно просто увидеть, глядя в зеркало или на собеседника. Правду, которая помогала бы нам в достижении желаемого:  повышении по службе, подборе нужного сотрудника, поиске «второй половины». Результаты тестирования – как кусочки паззлов, складывая которые воедино, можно получить целостное представление о человеке.

Но что, если собрать общую картину не получается: например, какие-то части паззла окажутся неподходящими, может их случайно смешали с другой серией, или некоторые утеряны?

Для ребенка такая ситуация – мимолетный источник расстройства. Для взрослого, оценивающего себя и окружающих неверно, ценой может стать карьера, отношения с друзьями, личная жизнь.

Выбирая психологический тест, с определенной целью или ради интереса, задумайтесь, насколько точно и правдиво он отражает то, что вы собираетесь оценить. О том, что можно называть психологическим тестом и как оценивать результаты его прохождения, — и пойдет речь в нашей статье. 

В науке под психологическим тестом подразумевается  стандартизированное испытание, по результатам выполнения которого судят о психофизиологических и личностных свойствах (чертах, способностях, состояниях) тестируемого.

Из данного определения можно выделить ключевое слово – стандартизированное, то есть речь идет об испытании, для которого существует понятная, определенная и строго выполняемая процедура проведения с одной стороны, и критерии оценки результативности того, что было измерено – с другой. Настоящий психологический тест должен обладать  основными психометрическими свойствами: надежностью, валидностью, достоверностью, репрезентативностью и адаптированностью. Рассмотрим каждое из свойств в отдельности.

Надежность – свойство, отражающее внутреннюю согласованность частей психологического теста, а также воспроизводимость результатов тестирования у одного и того же испытуемого при повторном прохождении. Это означает, что вопросы теста не должны противоречить друг другу, а результаты одного человека оставаться идентичными в течение определенного времени.

Конечно, человеку свойственно меняться, но если вчера ваш IQ составлял 120, а через неделю – 80, скорее всего, дело не в ваших интеллектуальных способностях, а в надежности измерения используемой методикой.

Следующее свойство любого психологического теста – валидность.

Валидность теста говорит нам о том, насколько верно данная методика измеряет именно то свойство, для диагностики  которого она предназначена. Валидность является одним из важнейших критериев оценки эффективности любого психологического теста, поскольку измерение «не того» совершенно бессмысленно.

Различают несколько разновидностей валидности. Содержательная валидность теста определяет, насколько его вопросы соответствуют поставленной цели и степени измерения изучаемого свойства. Она определяется группой экспертов в исследуемой области.

Эмпирическая валидность является индикатором того, насколько выбранный тест определяет конкретную психическую особенность или форму поведения человека. Для измерения эмпирической валидности теста вычисляется коэффициент корреляции тестового результата с внешним критерием. То есть подбирается еще одна методика, измеряющая исследуемое свойство личности, но уже доказавшая свою эффективность. Испытуемый тестируется по обеим методикам и полученные результаты проверяются на корреляцию между собой по исследуемому признаку.

Если на момент исследования такого критерия не найдено, эмпирическая валидность определяется в соответствие с реальным поведением человека. Например, при исследовании уровня стресса при приеме на работу, показателем эмпирической валидности теста может выступать степень адаптации на рабочем месте в первые дни.

Прогностическая валидность отражает то, насколько верный прогноз на будущее можно составить на основе результатов тестирования. Это особенно важно для тестовых методик, использующихся в качестве инструмента психодиагностики личности при профессиональной ориентации, а также при отборе и оценке персонала. Прогностическая валидность определяется временем, и, по сути, является основным показателем успешности тестовой методики в своем сегменте.

Концептуальная (конструктивная) валидность – отражает, насколько сильны методологические основания тестовой методики. Она устанавливается путем доказательства правильности теоретических концепций, положенных в основу теста.

Достоверность теста – говорит нам о том, насколько он защищен от сознательной фальсификации результатов тестирования испытуемым.

Вопрос о достоверности теста является, пожалуй, одним из самых распространенных, особенно в тех случаях, когда оценка свойств личности инициирована не самим испытуемым, а сторонним заинтересованным лицом, например, работодателем.

К факторам достоверности теста относятся:

Фактор знания — что испытуемый знает о личностных качествах, скрываемых за суждением, присутствует ли такое поведение в его жизни, и как это поведение оценивается в обществе. Именно поэтому при выборе методики для оценки качеств личности, например, при приеме на работу, работодателю следует выбирать методики, содержание которых сохраняется в тайне и не доступно широкой общественности.

Фактор социальной желательности – тенденция давать о себе социально одобряемую информацию. Для получения достоверной информации хороший психологический тест должен содержать шкалу лжи, а также варианты ответов одинаковой эмоциональной направленности.

Фактор индивидуальной тактики – речь идет о том, с какой мотивацией испытуемый проходит тестирование. В случае если при исследовании от человека требуется показать определенные поведенческие реакции, он может отражать в ответах не реальное, а желаемое поведение, что существенно искажает результаты. В таких случаях защитой тестовой методики от недостоверности является мотивирование испытуемого на получение пользы в первую очередь для него, а не исследователя или сторонних лиц.

Репрезентативность теста или величина выборки стандартизации теста. Данное свойство определяет возможность использования психологического теста применительно к данной популяции испытуемых (определенной категории обследуемых лиц). Например, тест, предназначенный для оценки личностных свойств руководителя не подойдет для оценки личностных свойств студентов или другой категории лиц.

Наконец, адаптированность – свойство теста, отражающее, насколько его содержание и выдаваемые результаты соответствуют популяции, для которой они используются. Иначе говоря, учитываются ли в тестовой методике национальные, культурные, ментальные особенности людей, среди которых проводится исследование. Данное свойство нередко упускается из виду. Особенно это было актуально в 90-е гг. в России, когда на постсоветское пространство хлынул поток психологических тестов из США и Европы. Несмотря на то, что адаптация любого иностранного теста – необходимое условие для его применения в условиях другой страны, этим нередко пренебрегают, что создает существенные искажения при получении и интерпретации результатов.

Итак, становится ясно, что выбрать надежный психологический тест – не так просто, как может показаться на первый взгляд. Если вам нужны правдивые достоверные результаты, придется приложить усилия в поиске подходящей методики. Обращайте внимание на то, кем, когда, при каких условиях и с какими целями создавался тест, как он проверялся и где показал свою эффективность. Тогда полученные результаты смогут принести вам пользу, на которую вы рассчитываете

Ученый раскрыл правду о тестах на коронавирус: почему бывают ошибки

– Денис Владимирович, сориентируйте, пожалуйста, наших читателей в многообразии имеющихся диагностических тестов.

– Самый распространенный тест — на выявление генома вируса. У некоторых вирусов (ВИЧ, грипп, коронавирус) геном представлен не молекулой ДНК, а рибонуклеиновой кислотой — РНК. Но суть теста от этого не меняется, это обычная ДНК-диагностика. В подавляющем большинстве случаев она основана на методе ПЦР — полимеразной цепной реакции. Это самый надежный метод ДНК-диагностики, золотой стандарт определения вирусных инфекций. В среднем исследование занимает 3-4 часа. Но поскольку надо доставить образец в лабораторию, зарегистрировать его и пр., то времени уходит чуть больше. Как правило лаборатории заявляют, что выполнят тест от 8 часов до 2-3 дней. Если некоторые лаборатории заявляют, что «Результат будет сегодня», а другие обещают это только через 3 дня, это связано не с продолжительностью собственно анализа, а с логистикой обработки биоматериала.

– Кто сегодня производит эти тесты?

– На начало апреля в России уже семь производителей тест-систем для ДНК-диагностики имеют регистрационное удостоверение Росздравнадзора (документ, разрешающий применение теста в клинической лабораторной диагностике). Более-менее все они одинаковы по своей чувствительности и специфичности. Хотя самые первые тесты, рекомендованные к применению в феврале, отличались немного пониженной чувствительностью.

– То есть, в том случае, когда один аналог давал положительный результат, указывая на болезнь, другой мог дать отрицательный?

– Да, разные тест-системы могут давать разный ответ из-за разной заявленной производителем чувствительности реагентов. Кроме того, есть и фактор «врача»: в одном случае у пациента могли взять побольше вируса и его система «увидела», в другом — в пробирку попало меньше вирусных частиц, и ответ был ложно-отрицательным.

– Когда нам говорят: подготовлено столько-то единиц тест-систем, что имеется в виду?

– Один тест — это сочетание реагентов, рассчитанное на проведение анализа одного образца биоматериала (одного пациента). Он включает несколько этапов. Первый этап -высвобождение нуклеиновой кислоты из вируса (занимает минут 30-40), потом идет этап обратной транскрипции — превращение РНК в ДНК и ПЦР-амплификации (1,5 часа).

Каждый набор реагентов, как правило, поставляется в комплекте для анализа 96-ти образцов. Поэтому цифры поставленных тест-систем иногда плавают: кто-то считает комплектами, кто-то единицами тестов. Более корректно считать в единицах.

– Еще совсем недавно вроде бы ощущалась нехватка таких ПЦР-тестов. А сегодня нам сообщают, что Россия поставляет тест-системы в 30 стран мира. У нас действительно хватает тестов на всю страну?

– Семь производителей хорошо справляются с производством. У нас исторически хорошие мощности по производству такого рода реагентов.  

– Почему тогда люди порой подолгу ждут результатов? Моя коллега, у которой подозревали инфицирование SARS-CoV-2, ждала результаты анализа больше недели.

– Дело в том, что ещё недели две назад результаты требовалось подтверждать в Новосибирском центре «Вектор». Если в Москве мы обнаруживали положительный образец, должны были контрольную копию доставить в Новосибирск. Пока анализы доставлялись туда, потом обратно, проходило как раз несколько суток. На сегодня отправка второго образца анализа из клиники идет для повторного подтверждения не в Новосибирск, а в московский региональный центр. На это уходит 1,5-2 дня.

– Такая же система действует и в других областях России?

— Да.

– Когда берут мазок, пациенту сообщают, что за тест, кто его производитель?

— Если это не коммерческое исследование, то скорей, нет. Но смею вас заверить, сегодня все тесты уже относятся к разряду высокочувствительных.

– И все-таки, если человек сдал биоматериал на первый анализ, а он дал отрицательный результат, когда ему назначат повторное взятие пробы?

– Через три дня, когда в биологическом образце частиц вируса будет больше. В течение этих трех дней человек должен быть изолирован. Если оба раза тест будет выдавать отрицательный результат, то в этом случае диагноз COVID-19 не ставится.

– Повторный анализ также производят в двух лабораториях?

– Да, по правилам требуется независимое подтверждение в референсной лаборатории.

— А насколько вероятен вариант с ложно-положительным результатом? После него не назначают повторный анализ?

– Вероятность ложно-положительного ответа при двух повторных тестах в разных лабораториях – менее 0,01%, то есть фактически отсутствует.

– В среду Роспотребнадзор объявил о том, что ряд лабораторий начинают в Москве массовый скрининг всех желающих с помощью платной высокочувствительной тест-системы. То есть, любой житель города может заказать диагностику и ему на дом привезут все необходимое.

– Насколько я понимаю, речь идет о том же, что коммерческие лаборатории практиковали и раньше, — оказывали подобные услуги со сбором биопробы на дому.

– Предлагают даже опцию, которая позволила бы пациенту брать у себя биопробы и отправлять в лабораторию…

– Самодеятельность в этом случае может дать некорректный результат. Брать мазок из горла должен врач или обученный лаборант. Если пациент сам не туда попадет, у него может быть ложно-отрицательный ответ.

– Почему мазок берется из носа и из горла?

– Такой на данный момент алгоритм взятия биоматериала, хотя, по сути, более правильным является мазок из горла.

– По крови можно определить болезнь?

– Для способа ПЦР можно использовать как мазок, так и кровь.

– Сейчас все чаще рекламируют некий экспресс-тест для выявления вирусных частиц в виде тест-полосок. Это альтернатива ПЦР?

– Скорей всего, когда речь идет о тест-полосках, имеется в виду ИФА — иммуно-ферментный анализ. Анализ вирусных частиц можно произвести при помощи ИФА, но вряд ли его сегодня будут использовать. Дело в том, что по точности и чувствительности он сильно уступает вышеописанному способу ПЦР. Зато появляются уже подобные тест-полоски для ИФА-теста на наличие антител в крови человека, уже переболевшего COVID-19. Вот они очень эффективны и дают результат через несколько минут.

Поэтому будьте внимательны и при заказе экспресс-тестов внимательно изучайте их предназначение. Кстати, некоторые производители тест-систем для ПЦР-диагностики могут и ее называть экспресс-тестом, в принципе, 3-4 часа, в течение которых она выполняется, это небольшой срок.

Читайте также: «У бессимптомно болевших коронавирусом обнаружились поражения легких»

Репрезентативность, достоверность и дискриминативность психологического теста.

Репрезентативность– одна из ключевых психометрических характеристик теста. Она свидетельствует о возможности использования тестовых норм, выработанных на выборке стандартизации при разработке теста, для всей генеральной совокупности испытуемых, для которых данный тест предназначен.

Репрезентативность означает, что с некоторой определенной статистически погрешностью можно считать, что представленное в выборочной совокупности распределение изучаемых психических свойств соостветствует их реальному распределению.

Для оценки репрезентативности проводится анализ распределения тестовых баллов, полученных при пилотажном тестировании на выборке стандартизации. Обычно при получении кривой нормального распределения делается вывод о том, что тестовые обладают репрезентативностью. Для проверки нормальности распределения используются различные статистические критерии, например критерий Колмогорова-Смирнова. Но нормальность не является необходимым условием репрезентативности. Репрезентативность тестовых норм может достигаться и в отсутствие нормального распределения. Если распределение тестовых баллов отличается от нормального, то для проверки репрезентативности необходимо решить вопрос об устойчивости тестовых норм. Для этого производится расщепление выборки пополам и сравнение распределений тестовых баллов в первой и второй половине выборки. Если не выявлено различий, то распределение тестовых баллов является устойчивым, а тестовые нормы репрезентативными.

Репрезентативность тестовых норм — это возможность использования тестовых норм, полученных по результатам выборочного тестирования, для оценки генеральной совокупности испытуемых. Тест репрезентативен тогда, когда использованная при его разработке выборка обоснована и присущие ей характеристики достаточно равномерно распределены в генеральной совокупности. Чем шире обследованная выборка, чем точнее она отражает структуру генеральной совокупности (по полу, возрасту, уровню образования и т.п.), тем выше репрезентативность тестовых норм.

Репрезентативность позволяет классифицировать результаты тестирования — выделять высокий, средний и низкий уровни выраженности психических свойств. Если тест не репрезентативен, то предлагаемые им оценки выраженности свойств будут неприменимы за пределами выборки стандартизации.

Дискриминативность — это способность отдельных заданий теста и теста в целом дифференцировать обследуемых относительно »максимального» и «минимального» результатов теста. Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d=1).


Точность информации измеряется тем, насколько дробной шкалой являются применяемые метрики, или, другими словами, насколько чувствителен инструмент. Таким образом, это степень приближения результатов измерения к истинному значению измеряемой величины.

Конечно, каждый исследователь должен стремиться получить наиболее точные данные. Однако создание инструмента, обладающего нужной степенью точности, в ряде случаев достаточно трудное дело. Всегда необходимо решить, какая мера точности является допустимой. При определении этой меры исследователь пользуется всем арсеналом теоретических представлений об объекте.

При помощи тщательного конструирования теста можно обеспечить соответствующий уровень дискриминативности, а это именно то, в чем тесты значительно выигрывают по сравнению с другими формами испытаний. В общем, было обнаружено, что в оценке может быть использовано около девяти градаций, а в опросах, вероятно, наиболее эффективно использовать 3 (или пять) градации: ниже среднего, средний уровень и выше среднего. Подобно этому, шкалы ранжирования редко содержат более девяти градаций. Это означает, что испытуемые разбиваются в лучшем случае на девять групп.

Достоверность теста

Особой разновидностью валидности является достоверность, которая требует специальных усилий и процедур по ее обеспечению. Речь идет о сознательных или бессознательных искажениях, которые вносит тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении.

Способность теста защищать информацию от мотивационных искажений испытуемого и есть достоверность теста. Особенно остро эта проблема стоит в случае тестов-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.


Типичный прием обеспечения достоверности — наличие в тест-опросниках шкал лжи. Шкала лжи — это шкала, состоящая из вопросов, касающихся незначительных проступков, которые совершаются большинством людей. Эти шкалы основываются главным образом на феномене социальной желательности — стремлении испытуемых давать в ходе тестирования социально одобряемую информацию.

Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз, будучи более откровенным, либо выполнить другой тест. Многие более специфичные «ловушки», направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста.

Достоверность тестирования тесно связана со степенью доверительности общения с психологом. Здесь принято различать две диагностические ситуации: консультативную (ситуация клиента) и аттестационную (ситуация экспертизы). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (например, в профконсультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, т.е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.

Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы.

Глава 7.3 Срок действия и надежность испытаний

Срок действия и надежность теста 41

Каждый раз, когда в процессе сбора данных используется тест или другое измерительное устройство, важны валидность и надежность этого теста. Точно так же, как мы не использовали бы математический тест для оценки вербальных навыков, мы не хотели бы использовать измерительное устройство для исследования, которое на самом деле не измеряет то, для измерения чего мы предполагаем. В конце концов, мы полагаемся на результаты, чтобы продемонстрировать поддержку или отсутствие поддержки нашей теории, и если методы сбора данных ошибочны, данные, которые мы анализируем, также будут ошибочными.

Срок действия теста.

Действительность — это степень, в которой наш тест или другое измерительное устройство действительно измеряет то, что мы намеревались измерить. Контрольный вопрос «1 + 1 = _____», безусловно, является действительным базовым вопросом сложения, потому что он действительно измеряет способность учащегося выполнять базовое сложение. Он становится менее пригодным для измерения расширенного сложения, потому что, поскольку он обращается к некоторым необходимым знаниям для сложения, он не представляет все знания, необходимые для углубленного понимания сложения.В тесте, предназначенном для измерения знаний по истории Америки, этот вопрос становится совершенно неверным. Возможность складывать две однозначные цифры не имеет ничего общего с историей.

Для многих конструкций или переменных, которые являются искусственными или трудно поддающимися измерению, концепция достоверности становится более сложной. Большинство из нас согласны с тем, что «1 + 1 = _____» будет представлять собой базовое дополнение, но представляет ли этот вопрос также конструкцию интеллекта? Другие конструкции включают мотивацию, депрессию, гнев и практически любые человеческие эмоции или черты характера.Если у нас возникнут трудности с определением конструкции, нам будет еще труднее ее измерить. Конструктивная валидность — это термин, присваиваемый тесту, который точно измеряет конструкт, и существуют различные типы конструктной валидности, которые нам следует учитывать. Три из них, одновременная валидность, валидность контента и прогностическая валидность, обсуждаются ниже.

Одновременная действительность. Параллельная валидность относится к способности измерительного устройства напрямую изменяться с показателем одной и той же конструкции или косвенно с мерой противоположной конструкции.Это позволяет вам показать, что ваш тест действителен, сравнив его с уже действующим тестом. Новый тест интеллекта взрослого, например, имел бы одновременную валидность, если бы он имел высокую положительную корреляцию со шкалой Векслера взрослого интеллекта, поскольку тест Векслера является общепринятой мерой конструкции, которую мы называем интеллектом. Очевидная проблема связана с достоверностью теста, с которым вы сравниваете свой тест. Необходимо сделать некоторые предположения, потому что многие утверждают, что, например, шкала Векслера не является надежным средством измерения интеллекта.

Срок действия содержания. Валидность содержания связана с возможностью теста включать или представлять все содержание определенной конструкции. Вопрос «1 + 1 = ___» может быть действительным основным вопросом сложения. Будет ли он представлять собой все содержание изучения математики? Его можно включить в шкалу интеллекта, но представляет ли он весь интеллект? Ответ на эти вопросы, очевидно, отрицательный. Чтобы разработать достоверный тест интеллекта, должны быть вопросы не только по математике, но также вопросы по вербальному мышлению, аналитическим способностям и всем остальным аспектам конструкции, которую мы называем интеллектом.Нет простого способа определить достоверность контента, кроме экспертного заключения.

Прогнозная достоверность. Для того, чтобы тест мог служить действенным средством проверки на какое-то будущее поведение, он должен иметь прогностическую достоверность. SAT используется отборочными комитетами колледжей как один из способов прогнозирования оценок в колледже. GMAT используется для прогнозирования успеха в бизнес-школе. LSAT используется как средство для прогнозирования успеваемости на юридическом факультете. Основная проблема, связанная с этими и многими другими прогностическими мерами, — это их достоверность, потому что без них они были бы бесполезны.

Мы определяем прогностическую достоверность, вычисляя коэффициент корреляции, сравнивая, например, результаты SAT и оценки в колледже. Если они напрямую связаны, то мы можем сделать прогноз относительно оценок в колледже на основе результатов SAT. Мы можем показать, что студенты, получившие высокие баллы по SAT, обычно получают высокие оценки в колледже.

Проверка надежности.

Надежность является синонимом стабильности теста, исследования, наблюдения или другого средства измерения. Представьте, что вы наступаете на весы в ванной и весите 140 фунтов и обнаруживаете, что ваш вес на тех же весах меняется на 180 фунтов через час и 100 фунтов через час после этого.Основываясь на несостоятельности этой шкалы, любые исследования, основанные на ней, безусловно, будут ненадежными. Подумайте о важном исследовании новой программы диеты, которое полагается на ваши непоследовательные или ненадежные весы в ванной как основной способ сбора информации об изменении веса. Считаете ли вы их результаты точными?

Коэффициент надежности часто является статистикой выбора при определении надежности теста. Этот коэффициент просто представляет собой корреляцию (обсуждается в главе 8), которая измеряет интенсивность и направление взаимосвязи между двумя или более переменными.

Тестирование-повторное тестирование надежности. Надежность теста-ретеста означает согласованность теста между различными администрациями. Для определения коэффициента надежности этого типа один и тот же тест проводится группе испытуемых как минимум в двух разных случаях. Если тест является надежным, баллы, которые каждый студент получает за первое администрирование, должны быть аналогичны баллам за второе. Мы ожидаем, что отношения между первым и вторым администрациями будут иметь высокую положительную корреляцию.

Одной из основных проблем, связанных с надежностью повторного тестирования, является то, что было названо эффектом памяти. Это особенно верно, когда две администрации близки по времени. Например, представьте, что вы проходите короткий тест из 10 вопросов по словарному запасу, а затем через десять минут вас просят выполнить тот же тест. Большинство из нас запомнит наши ответы, и когда мы снова начнем отвечать, мы можем просто ответить так, как мы это делали в первом тесте, вместо того, чтобы внимательно читать вопросы. Это может создать искусственно высокий коэффициент надежности, поскольку испытуемые реагируют на основе своей памяти, а не самого теста.Когда предварительное и последующее тестирование для эксперимента одинаковы, эффект памяти может играть роль в результатах.

Надежность параллельных форм. Один из способов убедиться, что эффекты памяти не возникают, — это использовать разные пре- и посттесты. Однако для того, чтобы использовать эти два теста таким образом, они должны быть параллельны или равны по измеряемым параметрам. Для определения надежности параллельных форм коэффициент надежности рассчитывается по баллам двух показателей, выполненных одной и той же группой испытуемых.Еще раз, мы ожидаем высокой и положительной корреляции, если мы должны сказать, что две формы параллельны.

Надежность между оценщиками. Всякий раз, когда наблюдения за поведением используются в качестве данных в исследованиях, мы хотим убедиться, что эти наблюдения надежны. Один из способов определить это — попросить двух или более наблюдателей оценить одни и те же предметы, а затем сопоставить свои наблюдения. Если, например, оценщик А наблюдал, как ребенок агрессивно ведет себя восемь раз, мы бы хотели, чтобы оценщик Б наблюдал такое же количество агрессивных действий.Если оценщик B стал свидетелем 16 агрессивных действий, то мы знаем, что по крайней мере один из этих двух оценщиков ошибается. Однако, если оценки положительно коррелируют, мы можем быть достаточно уверены, что они измеряют один и тот же конструкт агрессии. Однако это не гарантирует, что они измеряют его правильно, а только то, что они оба измеряют его одинаково.

,

Срок действия теста

Исследования по валидации тестов или валидность теста для оценки перед приемом на работу — это только объективная мера, которая предоставляет доказательства того, что тест или оценка личности
фактически измеряет то, что стремится измерить. Валидация — это не одобрение какого-либо правительственного агентства, а скорее исследование, проведенное и управляемое тестом.
издатель в соответствии с определенными профессиональными стандартами.

Оценка трудоустройства «Успешный» была разработана и подтверждена в соответствии с процедурами, описанными в «Стандартах образовательного и психологического тестирования».
который упоминается в пункте (2) 1607.6 «Минимальные стандарты оценки», Федеральный регистр, том 35, от субботы, 1 августа 1970 г. Следовательно, это не
является дискриминационным и соответствует требованиям E.E.O.C. и другие федеральные правила.

Руководство по надежности и действительности, опубликованное Candidate Resources, Inc., устанавливает юридическое и письменное подтверждение того, что этот тест при приеме на работу был проведен профессионально.
разработаны и валидированы в соответствии с методами валидации Construct и Criterion.Candidate Resources, Inc., будет защищать проверку или содержание
Успешный для любой компании, использующей эту оценку перед приемом на работу, но не может помочь какой-либо компании в результате неправильного использования или злоупотребления Успешным.

Существует пять форм действительности:

  • Конструктивная валидность относится к степени, в которой измерения с одинаковыми именами в разных тестах связаны друг с другом.
    Две вещи, которые сильно коррелируют в личностном тесте, не обязательно идентичны, но дают уверенность в том, что они связаны и являются «конструкцией» или частью
    макияж (например, честность, надежность, общительность и т. д.) физического лица в отношении фактической производительности труда.
  • Параллельная валидность — это такой подход, при котором люди, добившиеся успеха на данной должности в одной компании или отрасли, становятся
    оценили и в целом сгруппировали Верхняя треть, Средняя треть, и Нижняя треть . Затем оцениваются оценки людей, соответствующих каждому из этих диапазонов.
    Собранные и рабочие стандарты Top Third используются для найма, обучения или управления.
  • Прогностическая достоверность , иногда называемая достоверностью критерия , возникает, когда работодатель нанимает людей на работу на основе обычных
    процедуры приема на работу (собеседование, проверки рекомендаций, образование / опыт и т. д.) и в то же время они должны пройти тест перед приемом на работу, но не использует никаких данных
    от этого в решении о приеме на работу. В течение шести месяцев или любого подходящего периода времени после этого проводится оценка перед приемом на работу и устанавливаются контрольные показатели.
    люди, которых наняли на новые рабочие места, которые все еще работают у работодателя и которых работодатель считает успешными.Таким образом, установлены эталонные стандарты работы
    с помощью прогнозного подхода.
  • Достоверность содержимого представляет собой тестирование должностных функций, например, набор текста, математику, дизайн, экзамены CPA, физическую выносливость и т. Д.
    Валидность контента является подходящей стратегией, когда область работы определяется посредством анализа работы путем выявления важных моделей поведения, задач или знаний и
    оценка или тест — это репрезентативный образец поведения, задач или знаний, извлеченных из этой области.Единое руководство по процедурам отбора сотрудников
    заявить, что для демонстрации валидности содержания процедуры выбора пользователь должен показать, что поведение, продемонстрированное в процедуре выбора, является
    репрезентативная выборка поведения на рассматриваемой работе или что процедура отбора обеспечивает репрезентативную выборку рабочего продукта работы.
  • Лицевая валидность — это простейшая форма валидности, которая в основном говорит нам, что тест личности или другой инструмент оценки
    появляется (на первый взгляд), чтобы измерить то, что предполагается измерять.Проще говоря, тест, состоящий из проблем бухгалтерского учета, имел бы силу как
    мера способности добиться успеха в качестве бухгалтера. Фактическая валидность не очень сложна, потому что она основана только на внешнем виде меры. Быть осторожен
    потому что рынок наводнен тестированием личности, имеющим только внешнюю валидность.

Компания Saterfiel & Associates рекомендует установить и использовать последовательный стандартный процесс найма при принятии решений о найме.Информация должна
собираться на каждом этапе стандартного процесса найма, чтобы иметь конкретные и измеримые данные, которые можно использовать при принятии окончательного решения о найме. Оценка перед приемом на работу
использованные должны учитываться не более чем в одной трети решений о найме. Предварительное собеседование, проверка истории работы, результаты углубленного собеседования и оценка
образование, опыт и другие соответствующие факторы также должны быть приняты во внимание.

Согласно Единым руководящим принципам процедуры отбора сотрудников, принятым в 1970-х годах, проверка какой-либо части процесса найма (включая оценки) больше не проводилась.
считается необходимым, если только компания не соблюдает Правило 4/5 ни при найме, ни при продвижении.Следовательно, есть три дополнительных подхода к использованию
оценок:

  1. Установите собственные стандарты успешных рабочих мест для сотрудников, проведя параллельную проверку по классификации должностей. Связывая критерии, связанные с работой, с
    Способности и личностные аспекты оценки, окончательная проверка и относительность работы гарантированы. Кроме того, стандарты Job Benchmark Standards упрощают
    интерпретация и использование оценки перед приемом на работу в процессе приема на работу, поскольку она устанавливает модель для целей приема на работу, продвижения по службе и обучения.
  2. Установите стандарты должностей путем классификации должностей, отвечая на связанные с должностями вопросы о требованиях к работе.
  3. Используйте стандарты оценки рабочих мест для успешных людей, работающих в США. Затем, по прошествии разумного периода времени, сравните успешных людей.
    выбранных эталонных стандартов, используемых для этой работы для подтверждения правильности и / или модификации эталонных стандартов.

Вышеуказанная углубленная проверка не требуется, если вы соблюдаете правило 4/5, описанное ниже.Это правило было обозначено E.E.O.C. как
инструмент вычисления, позволяющий установить основу для определения того, оказывает ли компания негативное влияние на их практику найма.

ПРИМЕР: Из 120 претендентов на работу (в том числе 80 белых и 40 представителей меньшинств) были наняты 48 белых и 12 представителей меньшинств.

48 из 80 белых соискателей =
60%
12 из 40 кандидатов от меньшинств = 30%

Такая модель приема на работу приводит к неблагоприятному отбору меньшинств, поскольку наемников нанимают вдвое меньше, чем белых (или 30/60), тогда как коэффициент найма должен составлять 4/5, как
многие меньшинства как белые.

Вернуться к началу

Гарантируют ли исследования достоверности точность?

Нет, нет. Валидность и надежность идут рука об руку. Я прошел ряд оценок с разными результатами. Многие были очень далеко от цели, но
все они предположительно были проверенными инструментами. Давайте посмотрим, как это часто происходит.

Допустим, компания разработала тест, который измеряет стили общения, и что оценка личности очень эффективна.Проверка
исследования для любого инструмента оценки — это только объективная мера, которая свидетельствует о том, что тест действительно измеряет то, что он предназначен для измерения, и в данном конкретном случае он
это стили общения.

Предположим, что этот конкретный личностный тест позже подвергается определенным внешним модификациям, так что его также можно продать как оценку перед приемом на работу.
личностный тест по-прежнему подкреплен исследованиями валидности, но, если не будут проведены новые исследования валидности, не будет исследований валидности, подтверждающих использование оценки для его
предполагаемая цель в качестве оценки перед приемом на работу.В этом примере предполагаемое использование совершенно очевидно (для измерения стилей общения).

В Единых руководящих указаниях по процедурам отбора сотрудников прямо указано, что доказательства действительности и полезности процедуры отбора должны поддерживать ее оперативную
использовать.

А теперь давайте еще раз посмотрим, где исследования достоверности могут ввести в заблуждение. Все оценки поведения перед приемом на работу основаны на
определенные теоретические модели. Некоторые из этих моделей очень упрощены, потому что они используются больше в учебных целях, чем что-либо еще.Здравый смысл подсказывает нам
что человеческое поведение на самом деле очень сложно, но для приложений обучающего типа нам нужно все упростить.

Если мы посмотрим на руководство по толкованию одной из этих оценок личности, мы узнаем немного информации об использованной поведенческой модели.
«Люди, которые добиваются высоких результатов в доминировании, часто очень изобретательны, очень конкурентоспособны и, как правило, очень жестки в своем мышлении, чрезвычайно плановы и имеют сильные этические принципы.
стандарты.Такие люди часто бывают упорными, упрямыми типами, которым не хватает сочувствия и которые часто отказываются сотрудничать ». Можно ли провести такой тест в отношении
теоретическая модель? Да, может.

Эта оценка личности может оказаться очень эффективной в ситуациях обучения, но ее ограничения очевидны при применении к контексту оценки перед приемом на работу. Если
люди с высоким уровнем доминирования очень изобретательны, тогда мы также должны предположить, что покорным людям не хватает умственных способностей.Из
С практической точки зрения мы знаем, что нет сильной корреляции между когнитивными способностями и доминированием. Мы также знаем, что есть очень доминирующие особи.
с низкими этическими стандартами и покорными людьми с высокими этическими стандартами. С практической точки зрения мы также можем сказать, что доминирующие люди
не обязательно жесткий, конкурентоспособный или плановый.

Я видел, как подобный личностный тест применялся в ряде ситуаций перед приемом на работу, и могу сказать вам, что результаты часто вводят в заблуждение.В одной ситуации
результаты оценки личности показали, что все сотрудники компании преобладали. Наблюдая за поведением этих сотрудников и слушая их,
Я мог сказать, что по крайней мере 50% из них на самом деле имели очень низкое доминирование. Забавно было то, что все эти сотрудники проходили обучение, чтобы попробовать
чтобы уменьшить негативные эффекты их предположительно высокой самоуверенности. Судя по тому, что я мог наблюдать, было бы эффективнее заставить их проявить настойчивость.
повышение квалификации!

Через некоторое время я смог протестировать тех же сотрудников с помощью проверенной оценки перед приемом на работу (Табло), и результаты оценки подтвердили мои наблюдения.Очень немногие из сотрудников доминировали. В основном они получали низкие и средние оценки. У упрощенных поведенческих моделей есть очевидные недостатки.
что группа отдельных поведений сгруппирована вместе. В этом случае личностный тест не измерял истинное доминирование. Он во многом полагался на этику
и конкурентоспособность для измерения доминирования. В предыдущей ситуации выяснилось, что все сотрудники на этой конкретной должности обладают очень сильным характером или
этика.Фактически измерялась этика (гибкость), а не доминирование.

Вернуться к началу

Насколько актуально исследование действительности?

Тот факт, что личностный тест подкреплен исследованиями валидности, сам по себе очень мало значит. Некоторые методы проверки довольно слабые. Некоторая личность
оценки очень просты, поскольку они будут содержать список определенных дескрипторов (таких как дружелюбный, общительный, приятный, конкурентный) и попросят респондента
обведите каждый дескриптор, который описывает себя.Очевидно, что эффективность такого метода имеет ограниченное значение, но исследования достоверности вполне могут показать, что
тест на 90% точен и надежен. Как такое возможно?

На самом деле весь процесс может быть очень упрощенным, поэтому давайте посмотрим на весь процесс (конечно, полностью гипотетический). Кандидату дается тест и
проинструктирован обвести список дескрипторов, которые, по его мнению, точно описывают себя. Компания по тестированию берет эти дескрипторы и расширяет их определения и
затем возвращает отчет кандидату.На последней странице отчета находится анкета, в которой кандидату предлагается оценить точность личностного теста.
отчет и отправьте его обратно издателю тестирования. Кандидат обводит соответствующий диапазон оценки процентиля (от 90 до 100%, от 80 до 89% и т. Д.).

Поскольку это в основном самооценка, при которой кандидат описал себя, насколько вероятно, что он скажет, что полученный отчет об испытании имеет точность менее 90%,
особенно если в личном отчете о нем говорится только положительно? Все полученные ответы затем вводятся в базу данных, которая используется в качестве
текущее исследование валидности.Главное преимущество этого гипотетического личностного теста заключается в том, что на первый взгляд он быстрый и дешевый. Хотя я бы поставил под сомнение общий
эффективность такой программы, она может дать несколько преимуществ. В большинстве случаев это, вероятно, будет немного более точным и объективным, чем когда интервьюер дает соискателю указание «сказать мне
немного о себе ». Это, безусловно, быстрее. В связи с таким тестом я бы хотел спросить, будут ли исследования валидности
соответствовать требованиям «Единых руководящих указаний по процедурам отбора сотрудников», поскольку они относятся к профессиональным стандартам для исследований по валидности.

Вернуться к началу

Был ли тест разработан профессионально?

Исследования валидности на самом деле не так понятны, если у вас нет хорошего опыта в статистике. Если вы чем-то похожи на большинство людей, вы, вероятно,
подозрительно относятся к статистике. Начните с одного простого вопроса. Соответствовали ли процедуры, используемые при валидации, общепринятым профессиональным
стандарты, подобные тем, которые описаны в «Стандартах образовательных и психологических тестов?» Авторитетный издатель тестов обычно где-то делает такое заявление.
в своих брошюрах или руководствах по действию.

Во-вторых, вы должны знать один очень важный факт. Тот факт, что инструмент для тестирования был написан кем-то, имеющим докторскую степень, не обязательно означает, что
инструмент был профессионально разработан или будет соответствовать общепринятым профессиональным стандартам, на которые ранее ссылались. Будьте осторожны
любой личностный тест, который утверждает, что был написан профессионалом, а затем немедленно пытается привести вас к выводу, что он был профессионально разработан без
ссылки на любые исследования по валидации или надежности.Эти две концепции не обязательно идут рука об руку.

Однажды я посетил веб-сайт, который очень эффективно использовал эту тактику. Затем последовала очень длинная статья под заголовком «Действительность». После бесконечного
пролистывая длинную статью, он заканчивал без упоминания действительности, за исключением заголовка. Некоторые люди хитрее, чем коровьи кишки на дверной ручке!

Вернуться к началу

,

Срок действия теста — Психометрические тесты

Что такое срок действия?

Валидность лежит в основе тестирования и оценки, поскольку она узаконивает содержание тестов, а это означает, что информация, полученная из ответов теста, имеет отношение к необходимой теме. Чтобы тест считался «действительным», он должен пройти ряд мер; первая, одновременная валидность, предполагает, что тест может выдержать предыдущий анализ по тому же предмету, это важно, поскольку оно основывается на ранее утвержденных тестах.

Достоверность критерия мера того, насколько хорошо то, что тестируется, может предсказать будущее использование того же рода; то есть личностный тест может предсказать определенное поведение, но он действителен только в том случае, если это поведение позже проявится в реальной жизни.

Прогностическая валидность — аналогично критерию в том, что касается прогностической природы вопроса / задачи в тесте; этот тип часто используется при сравнении результатов тестов по заданию, связанному с работой, с фактическими оценками работника по заданию их работодателем.

Достоверность содержания , в основном, используется в клинической психологии, измеряет оценку того, насколько хорошо оно охватывает всю часть личности или симптомы, на которые проводится тестирование, и требует от властей подтверждения того, что эти « части » составляют всю картину что такое болезнь и т. д.

Конструктивная валидность — , возможно, одно из самых важных в психометрическом тестировании, направлено на проверку того, действительно ли тест проверяет то, для чего он предназначен.

Почему это важно?

Срок действия важен при психометрическом тестировании и процессе приема на работу, поскольку он может дать будущим работодателям хорошее представление о том, как соискатели будут продвигаться на должности, на которую претендуют. Мы надеемся, что различные критерии, удовлетворяемые оценками, должны гарантировать, что для работы будут выбраны только самые лучшие, наиболее подходящие люди; не только это, но если бы тесты были недействительными, для компании было бы пустой тратой времени и денег их использование.

,

Надежность и действительность

Надежность и действительность

Reliability and Validity

Home Up


ИЗУЧЕНИЕ НАДЕЖНОСТИ В АКАДЕМИЧЕСКОЙ ОЦЕНКЕ


Авторы Колин Фелан и Джули Рен, помощники выпускников,
Офис академической оценки UNI (2005-06)


Надежность
— это степень, в которой инструмент оценки обеспечивает стабильную
и стабильные результаты.

Виды надежности

  1. Проверка-повторная проверка надежности
    мера надежности, полученная при проведении одного и того же теста дважды в течение
    период времени для группы лиц. Результаты за время 1 и время 2
    затем можно скоррелировать, чтобы оценить тест на стабильность
    время.

Пример:
Тест, предназначенный для оценки успеваемости студентов по психологии, может быть сдан
группа студентов дважды, вторая администрация, возможно, придет через неделю
после первого.Полученный коэффициент корреляции будет указывать на
стабильность результатов.

  1. Надежность параллельных форм
    является мерой надежности, полученной путем администрирования различных версий
    инструмент оценки (обе версии должны содержать элементы, которые проверяют одинаковые
    конструкция, навыки, база знаний и т. д.) одной и той же группе лиц.
    Затем баллы двух версий можно сопоставить, чтобы оценить
    согласованность результатов в альтернативных версиях.

Пример:
Если вы хотите оценить надежность оценки критического мышления,
вы можете создать большой набор вопросов, относящихся к критическому мышлению и
затем случайным образом разделите вопросы на два набора, которые будут представлять
параллельные формы.

  1. Надежность между экспертами — это
    мера надежности, используемая для оценки степени, в которой разные судьи
    или рейтеры соглашаются в своих оценочных решениях.Межэкспертная надежность
    полезно, потому что наблюдатели не обязательно интерпретируют ответы на
    так же; оценщики могут не согласиться с тем, насколько хорошо определенные ответы или материалы
    продемонстрировать знание оцениваемого конструкта или навыка.

Пример:
Надежность между экспертами может использоваться, когда разные судьи
оценка степени соответствия художественных портфелей определенным стандартам.
Межэкспертная надежность особенно полезна, когда можно принимать во внимание суждения.
относительно субъективно.Таким образом, использование этого типа надежности, вероятно,
быть более вероятным при оценке художественных работ, чем при решении математических задач.

  1. Надежность внутренней согласованности
    мера надежности, используемая для оценки степени, в которой разные
    элементы теста, исследующие одну и ту же конструкцию, дают аналогичные результаты.
    1. Среднее межпозиционное
      корреляция
      — это подтип надежности внутренней согласованности.это
      полученный путем взятия всех элементов теста, которые проверяют одно и то же
      построить (например, понимание прочитанного), определяя корреляцию
      коэффициент для каждой пары предметов, и, наконец, принимая
      среднее всех этих коэффициентов корреляции. Этот последний шаг
      дает среднюю корреляцию между пунктами.

    1. Надежность при разделении половин
      еще один подтип надежности внутренней согласованности.Процесс
      получение половинной надежности начинается с разделения пополам всех
      элементы теста, которые предназначены для исследования той же области знаний
      (например, Вторая мировая война), чтобы сформировать два набора предметов.
      весь тест
      проводится группе лиц, всего
      вычисляется оценка для каждого набора, и, наконец, надежность разделения половин
      получается путем определения корреляции между двумя полными наборами
      баллы.





Срок действия

относится к тому, насколько хорошо тест измеряет то, что он должен измерять.

Почему
это необходимо?

Хотя надежность необходима, только она
не достаточно. Чтобы тест был надежным, он также должен быть действительным. Для
Например, если ваши весы отклонены на 5 фунтов, они будут считывать ваш вес каждый день с помощью
превышение 5 фунтов. Шкала надежна, потому что показывает одно и то же.
веса каждый день, но это недействительно, потому что оно добавляет 5 фунтов к вашему истинному весу.
Это неверный показатель вашего веса.

Типы действия

Пример : Если мера искусства
признательность создается, все предметы должны быть связаны с разными
компоненты и виды искусства.Если вопросы касаются исторического времени
периоды, без ссылки на какое-либо художественное движение, заинтересованные стороны не могут быть
мотивированы приложить все усилия или инвестировать в эту меру, потому что они
Не верю, что это истинная оценка художественной оценки.


2. Срок действия конструкции
используется, чтобы гарантировать, что мера действительно
измерять то, что он предназначен для измерения (т. е. конструкцию), а не другие
переменные. Использование группы экспертов, знакомых с конструкцией, — это способ
который может быть оценен этим типом достоверности.Эксперты могут осмотреть предметы
и решить, что этот конкретный элемент предназначен для измерения. Студенты могут быть
участвуют в этом процессе, чтобы получить их отзывы.

Пример : Женский этюд
Программа может разрабатывать совокупную оценку обучения по основной специальности.
Вопросы написаны со сложной формулировкой и формулировкой. Это может вызвать
тест случайно становится тестом на понимание прочитанного, а не
тест женских исследований. Важно, чтобы мера действительно оценивала
предполагаемая конструкция, а не посторонний фактор.

3. Срок действия, связанный с критерием
используется для прогнозирования будущих или текущих показателей — коррелирует результаты испытаний с
еще один интересующий критерий.

Пример : Если физическая программа
разработал меру для оценки совокупного обучения студентов по основной специальности.
Новый показатель может быть соотнесен со стандартизированным показателем способности в
эта дисциплина, например полевой тест ETS или предметный тест GRE. Выше
соотношение между установленной мерой и новой мерой, тем больше веры
заинтересованные стороны могут иметь в новом инструменте оценки.

Пример : При разработке рубрики
по истории можно было оценить знания студентов по дисциплине. Если
мера может предоставить информацию о том, что учащимся не хватает знаний в определенных
области, например Движение за гражданские права, то этот инструмент оценки
предоставление значимой информации, которая может быть использована для улучшения курса или
программные требования.

5. Срок действия выборки (аналогично
достоверность содержания) гарантирует, что мера охватывает широкий диапазон областей
в рамках исследуемой концепции.Не все можно покрыть, поэтому предметы необходимо
быть отобранным со всех доменов. Возможно, это потребуется выполнить с помощью панели
экспертов, чтобы обеспечить адекватную выборку из области контента.
Кроме того, панель может помочь ограничить предвзятость экспертов (т. Е. Тест, отражающий то, что
человек лично считает, что это наиболее важные или актуальные области).

Пример : При проектировании
оценка успеваемости на театральном факультете, недостаточно
покрывают только вопросы, связанные с актерской деятельностьюДругие области театра, такие как освещение,
звук, должны быть включены все функции режиссеров. Оценка
должен полностью отражать область содержимого.

  1. Убедитесь в своих целях и задачах
    четко определены и введены в действие. Ожидания студентов должны быть
    записанное.
  2. Сопоставьте свою меру оценки с
    ваши цели и задачи. Кроме того, пусть тест будет рассмотрен преподавателями.
    в других школах, чтобы получить обратную связь от сторонней стороны, которая менее
    вложил в инструмент.
  3. Вовлекайте студентов; иметь
    учащиеся просматривают экзамен на предмет проблемных формулировок или других
    трудности.
  4. Если возможно, сравните свои измерения
    с другими показателями или данными, которые могут быть доступны.

Список литературы

Американские исследования в области образования
Ассоциация, Американская психологическая ассоциация, &

Национальный
Совет по измерениям в образовании. (1985). Стандарты образовательных и
психологическое тестирование
. Вашингтон, округ Колумбия: Авторы.

Cozby, P.C. (2001). измерение
Концепции. Методы исследования поведения (7 -е, изд.).

Калифорния:
Издательская компания Mayfield.

Кронбах, Л. Дж. (1971). Проверка теста.
В Р. Л. Торндайке (Ред.). Образовательная

Измерение
(2-е изд.). Вашингтон, округ Колумбия: Американский совет по образованию.

Москаль Б.М., Лейденс Дж. А. (2000).
Разработка критериев оценки: Срок действия и

надежность.
Практическая оценка, исследования и оценка, 7
(10). [Доступно онлайн:
http://pareonline.net/getvn.asp?v=7&n=10].

Центр усовершенствования
Обучение. Как повысить надежность теста и

срок действия:
Последствия для выставления оценок. [Доступно в Интернете: http://oct.sfsu.edu/assessment/evaluating/htmls/improve_rel_val.html].

,

Добавить комментарий

Ваш адрес email не будет опубликован.