Надежность и валидность тестов — справочник студента

  • Надежность и валидность тестов - Справочник студента Пишу на заказ дипломные, курсовые, магистерские работы по психологии, а также рефераты и эссе; делаю контрольные, отчеты по практике и статистические расчеты. Я профессиональный психолог и автор работ по психологии с многолетним стажем. Выступаю как индивидуальный предприниматель (ИП): заключаю договор, выдаю чеки об оплате. Помогаю студентам-психологам более 12 лет (этот сайт существует с 2007). Делаю качественно и быстро. Помогу даже с очень трудными темами. Вы всегда можете узнать у меня, как идут дела с дипломной; оперативно передать пожелания руководителя; спросить то, что не понятно. Я всегда на связи. Опишите ситуацию, и я скажу стоимость написания вашей работы. Надежность и валидность тестов - Справочник студента

В любом эмпирическом исследовании по психологии используются психологические тесты. Часто от студентов требуют указывать данные об их надежности и валидности.

Надежность психологических тестов

В обычной жизни надежность человека или какого-либо предмета означает уверенность в том, что на него можно положиться. Как же проверяют, что на психологический тест можно положиться?

Первый способ проверки надежности психологического теста – анализ устойчивости результатов теста. Действительно, если результаты использования теста на одной и той же выборке существенно не меняются при нескольких тестированиях, то это может служить критерием его надежности.

Повторное тестирование называется ретест. Его проводят с интервалом от недели до года. Затем анализируют корреляции нескольких замеров. Если корреляции между результатами ретестов не ниже 0,76, то такой тест считается надежным.

Недостатки ретестовой проверки надежности психологического теста.

1. Некоторые психологические показатели неустойчивы и изменчивы. Например, измеряя настроение, самочувствие в разное время дня или в разные дни, можно получить разные результаты, и это не будет следствием ненадежности теста.

2. При неоднократном заполнении одного и того же теста испытуемые к нему «привыкают». Они могут помнить свои ответы и отвечать так же. Могут, наоборот, менять ответы в сторону социальной желательности. Таким образом, ретестовая надежность не будет в полной мере отражать надежность теста.

Второй способ проверки надежности психологического теста – анализ согласованности различных частей теста. Например, в тесте один показатель, который диагностируется 10-ю вопросами. Согласованность данного теста определяется высокой корреляцией ответов на каждый вопрос с общим результатом по шкале.

Часто для определения согласованности психологического теста его расщепляют на две части. Можно это сделать, отбирая вопросы через один. Можно разделить первую и вторую половину теста. Далее анализируют корреляции ответов двух расщепленных частей теста. Чем выше корреляция, тем выше согласованность теста и его надежность.

Итак, надежность психологического теста – это характеристика его формальной пригодности для диагностики психологических показателей.

Например, если тест диагностики тревожности надежен, то это значит, что при его использовании на разных выборках, в разное время вы будете получать схожие результаты.

Но будут ли эти результаты характеризовать именно тревожность испытуемых? Надежность психологического теста этого не гарантирует. За это отвечает другой показатель – валидность психологического теста.

Валидность психологических тестов

Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.

Можно выделить два основных способа определения валидности психологических тестов.

Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:

  • провести тестирование испытуемых по новому тесту;
  • выявить самооценку испытуемых по другому тесту (предполагается, что он валиден);
  • рассчитать корреляцию показателей самооценки по двум психодиагностическим методикам;
  • статистически значимая корреляция даст основания говорить о валидности нового теста.

Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.

Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.

Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.

Соотношение надежности и валидности психологических тестов

Надежность теста отражает его качество как метода диагностики, с точки зрения формальных показателей. Без учета содержательного анализа результатов.

Валидность оценивает именно содержательные результаты теста. Насколько они соответствуют реальным психологическим феноменам.

Надежный тест может не быть валидным. Например, тест инициативности может показывать высокую ретестовую надежность и согласованность частей. Однако, с содержательной точки зрения, результаты теста отражают не столько инициативность, сколько силу воли. То есть, надежность данного теста высокая, а валидность низкая.

В практике психологического тестирования надежность тестов с помощью ретеста. Валидность психологических тестов, как правило, проверяется с помощью анализа взаимосвязей с показателями других тестов, измеряющих аналогичные или схожие психологические показатели.

Примеры заключений о надежности и валидности психологически тестов

Тест смысложизненных ориентаций (СЖО)

Надежность СЖО

Надежность теста СЖО проверялась с помощью ретестирования с интервалом в 2 недели (испытуемые — 76 студентов МГУ). Результаты по тесту оказались устойчивы на уровне значимости 5% (р

Источник: http://dip-psi.ru/nadezhnost-i-validnost-testov

QualiTester

Содержание

В крайнем левом столбце таблицы записаны номера тестируемых персон, в самой верхней строке записаны номера тестовых заданий
Знак суммы; в этом столбце суммируется и выводится количество правильных заданий выполненных тестируемым
Экспертная оценка — это оценка, которую выставляет сам преподаватель по десятибальной шкале, исходя из личного мнения о тестируемом, из опыта преподавания; преподавателем не должны овладеть злость, щедрость, обиды, радости, волнения, негодавания или иные проявления отношения к тому или иному тестируемому — иначе результаты анализа теста могут оказаться неудовлетворяующими действительности
  1. Валидность — пригодность тестовых результатов для той цели, ради чего проводилось тестирование.
  2. Валидность — это характеристика способности теста служить поставленной цели измерения.
  3. Валидность — определяет, насколько тест отражает то, что он должен оценивать.

Для оценки валидности теста обычно используют корреляцию между показателями теста и некоторым внешним критерием. При такой оценке очень важно выбрать значимый внешний критерий.

Для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний студентов без использования тестов.

Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех человек.

Основная формула
Надежность и валидность тестов - Справочник студента

количество правильных ответов известно
средняя арифметическая тестовых баллов тестируемых
экспертная оценка известно
среднее арифметическое экспертных оценок
стандартное отклонение количества правильных оценок Надежность и валидность тестов - Справочник студента
стандартное отклонение экспертных оценок
    Надежностью называется характеристика теста, отражающая точность тестовых измерений, а также устойчивость тестовых результатов к действию случайных факторов. Во-первых, тест считается надежным, если он обеспечивает высокую точность измерений. И во-вторых, тест считается надежным, если он дает при повторном выполнении близкие результаты при условии, что подготовка ученика не изменилась за время до повторного выполнения теста. Таким образом будем считать, что надежность теста показывает, на сколько точно тест измеряет знания студентов или другие явления. Надежность характеризует точность теста как измерительного инструмента, устойчивость его к действию помех. Различают два вида надежности:

  1. надежность как устойчивость
  2. надежность как внутреннюю согласованность.

Однако большинство авторов предпочитают рассматривать только надежность как внутреннюю согласованность, так как этот вид измерений требует проведение тестирование только один раз. В случае надежность как внутренняя согласованность проводить тестирование приходится два раза.

Надежность как устойчивость измеряется с помощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после первого тестирования. Для нахождения данной характеристики предлагается использовать формулу Пирсона.

Основная формула (Пирсона)

тестовый балл i-го испытуемого при первом измерении
тестовый балл i-го испытуемого при повторном измерении

Для проверки внутренней согласованности предлагается метод расщепления (автономных частей). При применении метода расщепления тестовую матрицу разбивают на две половины, состоящие из заданий с четными и нечетными номерами. Используя формулу Рюлона, найдем нужный нам коэффициент.

Основная формула (Рюлона)

дисперсия разностей между результатами каждого испытуемого по обеим половинам теста
дисперсия суммарных баллов результата
количество правильных ответов
количество правильных ответов c четным номером
количество правильных ответов c нечетным номером
среднее арифметическое количества правильных ответов
обозначение

Дискриминативность задач определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью.

Другими словами, дискриминативность — способность заданий теста дифференцировать студентов относительно «максимального» или «минимального» результата теста. Определение дискриминативности тестового задания необходимо для того, чтобы поставить заслон некачественным заданиям.

Для вычисления дискриминативности будет применяться метод крайних групп: при расчете дискриминативности тестового задания учитываются результаты наиболее и наименее успешных студентов — это самый простой и наглядный метод вычисления дискриминативности.

Доля членов крайних групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами.

Нижняя граница «отсечения групп» составляет 10% от общего числа испытуемых в выборке, верхняя — 33%. В данном случае будет использоваться 27% группа, так как при таком процентном соотношении достигается максимальная точность определения дискриминативности.

Индекс дискриминации вычисляется как разность между долей лиц, правильно решивших задачу, из «высокопродуктивной» и «низкопродуктивной» групп.

Основная формула (Индекс дискриминации)

общее количество испытуемых крайних группах 27% от всего количества
количество студентов в группе худших, верно выполнивших задание
количество студентов в группе лучших, верно выполнивших задание
номер тестового задания
коэффициент дискриминативоности тестового задания по основной формуле

Интерпретация

Значение коэффициента Интерпретация
от 0.6 до 1 высокая вылидность теста
от 0.3 до 0.6 средняя вылидность теста
меньше 0.3 низкая вылидность теста
Значение коэффициента Интерпретация
от 0.9 до 1 очень высокая надежность теста
от 0.8 до 0.9 высокая надежность тестаЗамечание : если тест разрабатывается профессионалами и его областью применения являются профессионально организованные службы тестирования и центры, то следует считать, что тест имеет низкую надежность.
от 0.7 до 0.8 хорошая надежность теста
меньше 0.7 низкая надежность теста
Замечание 1 : если тест разрабатывается профессионалами и его областью применения являются профессионально организованные службы тестирования и центры, то следует считать, что тест имеет низкую надежность при значении коэффициента менее 0.8.
Замечание 2 : если вы только начали разрабатывать тест и полученное значение коэффициента находится в пределах от 0.46 до 0.7 (тест имеет низкую надежность), то полученный результат свидетельствует о том, что в разрабатываемой методике присутствует некоторое число заданий, которые в силу своей специфичности ведут к снижению значения данного коэффициента.
Значение коэффициента Интерпретация
от 0.3 до 1 задание эффективно
от 0.1 до 0.3 задание следует проанализировать на пригодность использования в тесте (низкая дифференцирующая способность)
меньше 0.1 задание некачественное — лучшая группа отвечает хуже, чем слабая
Читайте также:  Эталонные стратегии развития - справочник студента

Рекомендации для тестолога

  1. Если тест рассматривать как средство контроля качества знаний обучаемых, то, прежде всего, необходимо совершенствовать форму тестовых заданий с целью повышения качества педагогического измерения, включая в тест не только задания с выбором одного правильного ответа, но и выбором нескольких правильных ответов. Безусловно, задания с выбором одного правильного ответа удобно использовать при автоматизированном контроле знаний (так составлены педагогические тесты для централизованного тестирования по математике). Однако с помощью таких заданий далеко не всегда можно качественно проверить знания испытуемых в силу того, что слишком велика вероятность угадывания правильных ответов. Такого недостатка лишены задания с выбором нескольких правильных ответов и задания открытой формы, а интенсивное развитие информационных технологий позволяет включить их в педагогический тест и при автоматизированном контроле знаний.
  2. Если рассматривать тест как средство обучения, предназначенное для формирования системы знаний обучаемых, то в педагогической практике целесообразно использовать комплексы тематических тестов по изучаемой дисциплине. Эти комплексы должны состоять не только из тестов для проверки практических умений и навыков обучаемых, но и из тестов для проверки их теоретических знаний, которые являются ядром формируемой педагогом системы знаний обучаемых.
  3. Если Вы хотите составить тестовые задания, обладающие удовлетворительной дискриминативностью, то необходимо избегать следующего:
    1. излишней сложности и запутанности формулировок;
    2. неоднозначности условий;
    3. очевидности решения;
    4. зависимости результата от памяти или от других индивидуальных особенностей испытуемого, а не от уровня развития тех умений и навыков, для оценки которых разрабатывается тест;
    5. абсурдности, нереальности вариантов ответов;
    6. появления двух и более правильных ответов, не оговоренных в условии.
  4. Если Вы хотите повысить валидность теста, то:
    1. составляйте тестовые задания оптимальной трудности для обеспечения нормального закона распределения баллов по тесту;
    2. проводите экспертизу качества содержания теста;
    3. правильно рассчитывайте оптимальное время выполнения теста;
    4. включайте в тест задания с высокой дискриминативностью.
  5. Если Вы хотите повысить надежность теста, то по возможности устраните влияние на Ваш тест следующих факторов:
    1. субъективизма при оценке результатов выполнения заданий теста, используя для этого задания закрытого типа;
    2. угадывания, которое существенно снижает надежность теста, особенно в тех случаях, когда тестируется группа слабых учеников, которые обычно прибегают к догадке при выполнении наиболее трудных заданий теста;
    3. некорректно сформулированных заданий, поскольку такие задания пропускают сильные ученики, что в целом негативно отражается на надежности теста;
    4. неоправданного выбора весовых коэффициентов;
    5. неоправданной длины теста, так как его надежность растет по мере увеличения длины, и для удовлетворительной, но не хорошей надежности, обычно достаточно 30 тестовых заданий;
    6. отсутствия стандартной инструкции к тесту, так как любые неоднозначности, двусмысленности и отступления от требований стандартизации в инструкции ведут к снижению надежности теста;
    7. источников ненадежности, связанных с испытуемыми, а не с заданиями теста (плохого самочувствия испытуемого, его усталости и скуки, шума в аудитории и т.п.).
  6. Иногда при нахождении коэффициента надежности происходит деление на нуль. Это может произойти, если все испытуемые имеют одинаковое количество правильных и неправильных ответов. Такое редко бывает на практике, скорее всего, произошла утечка ответов. В данном случае следует провести тест повторно.
  7. При нахождении надежности как устойчивости, так же возможен случай, который дает в ответе неопределенность, т.е. происходит деление нуля на нуль. Такое может произойти, когда испытуемый дал одинаковое количество правильных и неправильных ответов на первом и повторном тестировании. Это означает, что тест составлен очень удачно или же наоборот, очень неудачно. Советуем вам проверить другие тестовые характеристиками и, исходя из них, сделать заключение.
  8. При расчете валидности также возможен случай, когда происходит деление на нуль. Это может произойти в том случае, если все испытуемые имеют одинаковое количество правильных и неправильных ответов или, если все экспертные оценки одинаковы. Такой случай редко может произойти на практике, скорее всего, произошла утечка ответов, и данный результат искажен.

Источник: http://tester.quali.me/help.php

Надёжность и валидность теста

⇐ ПредыдущаяСтр 4 из 17Следующая ⇒

Основными показателями качества теста являются надежность и валидность теста. А так как тест является инструментом педагогического измерения, то эти показатели имеют численное значение и определяются с помощью различных методов как в классической теории тестов, так и в современной теории тестов.

  • Надежность — это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.
  • Для оценки надежности нормативно-ориентированного теста используются две группы методов.
  • 1. Двукратное тестирование:
  • – ретестовый метод;
  • – метод параллельных форм.

2. Однократное тестирование (метод расщепления теста).

Оценка надежности чаще всего строится на подсчете корреляции двух наборов результатов выполнения одного и того же теста или двух его параллельных форм. Чем выше корреляция, тем надежнее тест.

Ретестовый метод.

Данный метод оценки надежности предполагает двукратное проведение одного и того же теста в одной группе испытуемых. Повторное тестирование проводится примерно через 2-3 недели, чтобы учащиеся не слишком сильно забыли проверяемый материал и недалеко продвинулись в изучении нового, то есть уровень их учебных достижений остался примерно прежним.

  1. Ретестовый метод основан на подсчете корреляции индивидуальных баллов испытуемых по результатам выполнения первого и второго тестирования.
  2. Коэффициент надежности (коэффициент корреляции Пирсона):
  3. Хорошим коэффициент надежности теста считается, когда показатель колеблется в пределах 0,8 < К < 1.

Данный метод оценки надежности не очень удобен в педагогических измерениях.

Временной фактор играет большую роль: временной промежуток не может быть большим — изменится уровень учебных достижений учащихся, но и не должен быть слишком коротким — испытуемые могут помнить задания теста и ответы на них. И в том и в другом случае результаты измерения нельзя использовать для определения надежности теста.

Метод параллельных форм.

Метод параллельных форм предполагает двукратное тестирование одной и той же группы испытуемых тестами, которые идентичны по содержанию, структуре, включают задания тождественные по трудности, дифференцирующей способности и др., то есть параллельными формами теста.

  • Коэффициент надежности:
  • xi – индивидуальный балл i-ого студента при ответе на тест X
  • yi – индивидуальный балл i-ого студента при ответе на тест Y
  • N – число студентов

Главная трудность применения этого метода в том, что прежде чем использовать параллельную форму теста, разработчику надо создать новый тест, тождественный первому, и доказать идентичность, а это очень трудоемкая процедура. Поэтому этот метод, с практической точки зрения, малоэффективен.

Однократное тестирование (метод расщепления теста).

Этот метод удобен в практическом применении, так как ограничивается однократным тестированием.

Метод расщепления теста основан на допущении параллельности двух половин теста и предполагает деление результатов тестирования на две части: данные по нечетным заданиям теста (Х) и по четным (У).

Корреляция двух половин тестов возрастает по мере роста однородности (гомогенности) теста. Поэтому метод расщепления теста называют методом оценки внутренней согласованности и используют для определения гомогенности теста.

  1. Коэффициент надежности вычисляется по формуле:
  2. , где результат первого тестирования – это результаты по нечетным заданиям, а второго – по четным заданиям.
  3. Так как подсчет надежности (К) ведется по расщепленному тесту, который в два раза короче, то оценка надежности исходного корректируется по формуле Спирмена-Брауна

В практике педагогических измерений часто используется способ оценки надежности с применением формулы Кьюдера-Ричардсона. Она может применяться только в том случае, когда выполнение задания оценивается дихотомически (1 балл — правильно; 0 баллов — неправильно).

Рассмотренные выше методы определения надежности подходят только для оценки нормативно-ориентированных тестов.

По мнению многих тестологов, эти методы нежелательно использовать для вычисления надежности критериально-ориентированного теста, так как дисперсия тестовых баллов в критериально-ориентированном тесте небольшая (здесь не нужна большая дифференциация баллов испытуемых), а соответственно и корреляционная оценка надежности будет низкой.

Поэтому предлагается другая методика оценки надежности. Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, которые соответствуют одному и тому же содержанию.

Практически это выглядит следующим образом. Группа испытуемых выполняет два идентичных теста или два теста объединяются в один, при этом вопросы перемежаются: (1 вариант – 1 вопрос, 2 вариант – 1 вопрос, 1 вариант – 2 вопрос, 2 вариант – 2 вопрос и т. д.).

По итогам тестирования испытуемые делятся на две группы: получившие зачет и не получившие зачет по двум тестам (по частям расщепленного теста). Далее проводится сравнение результатов тестирования по двум вариантам или, во втором случае, по вариантам расщепленного теста.

По результатам теста составляется таблица сопряжения.

Численный показатель коэффициента надежности критериально-ориентированного теста вычисляется с помощью ?-коэффициента корреляции.

  • Вычисляется также ?-коэффициент как показатель критериально-ориентированного теста по формуле:
  • ? = (P — Pc)/(1 — Pc),
  • где P = A + D — доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Pc — вероятность случайного принятия согласованного решения.
  • Pc вычисляется по формуле:
  • Pc = (c + d)(d + b) + (a + b)(c + a)

Каппа-коэффициент может принимать значения от -1 до 1. Если создается тест для аттестации по итогам определенной ступени обучения, то рекомендуется вычислять ? — и ?-коэффициенты. Их величины должны быть больше 0,8 (0,85) и приблизительно равны между собой, что свидетельствует о хорошей надежности теста.

Валидность (от англ. Validity — значимость, обоснованность, пригодность) — это характеристика способности теста служить поставленной цели измерения, то есть способность теста измерять то, для чего он предназначен.

Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста (А. Анастази; А.Н. Майоров): содержательную, критериальную и конструктную (концептуальную) валидность [2].

1. Содержательная валидность (content validity) — соответствие теста как измерительного инструмента той области содержания, знания и умения, которую проверяют данным тестом. В зависимости от выбранного подхода при создании теста предъявляются различные требования к содержательной валидности.

Для критериально-ориентированных тестов одно из требований содержательной валидности — полнота отображения, а в некоторых случаях – детализация проверяемой области содержания.

При нормативно-ориентированном подходе тест можно охарактеризовать как валидный по содержанию, если он будет хорошо дифференцировать испытуемых и отражать самые важные характеристики этого теста.

Валидность по содержанию закладывается в тест уже на этапе работы со спецификацией теста и отбора его содержания. Для педагогических тестов содержательная валидность очень важна и оценивается экспертным путем.

2. Критериальная валидность — это характеристика теста, отражающая обоснованность, значимость его результатов, по сравнению с некоторой внешней переменной (степень соответствия между результатами тестирования и внешним критерием).

Критериальную валидность определяют как корреляцию результатов тестирования с некоторым внешним критерием.

В качестве внешнего критерия могут браться результаты испытуемых по другому тесту, отметки, выставленные по методике традиционного оценивания.

Критериальная валидность, в зависимости от выбранного критерия, может быть текущей (внешний критерий — текущие оценки) или прогностической (критерий — некоторый будущий результат).

Читайте также:  Методика коллективной организаторской деятельности - справочник студента

Для оценки критериальной валидности необходимо составить таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя (-ей). В качестве критерия берем оценки преподавателей при традиционной проверке знаний без использования тестов.

  1. Формула:
  2. sx2 – дисперсия индивидуальных баллов,
  3. N – число студентов.
  4. Критериальная валидность измеряется от –1 до 1, валидность более 0,3 считается удовлетворительной.

⇐ Предыдущая12345678910Следующая ⇒

Рекомендуемые страницы:

Источник: https://lektsia.com/3x3eef.html

Валидность теста

Валидность теста (от англ. valid – пригодный) – критерий качества теста, используемый при выяснении степени достоверности измерения того психического свойства, качества, явления, которое хотят измерить с помощью данного теста.

Различают несколько видов валидность теста:

  • валидность теста конструктная,
  • валидность теста по критерию,
  • валидность теста по содержанию,
  • прогностическая валидность теста и др.

Валидность лучших тестов, выраженная коэффициентами корреляции (линейными, ранговыми и др.) составляет 0,3-0,8. К сожалению, есть случаи, когда тесты применяются без проверки их на в. В результате оказывается, что они бесполезны или даже вредны.

Валидность теста – это показатель степени его эффективности. Она, естественно, меняется в зависимости от контингента людей, которые подвергаются тестированию, и характера их будущей деятельности.

Один и тот же тест может быть высоковалидным для одной ситуации, бесполезным для другой и вредным для третьей.

Валидность теста конструктная

критерий качества теста, используемый при измерении какого-либо сложного психического феномена, имеющего иерархическую структуру, измерить который из-за этого одним актом тестирования невозможно. Так, психодиагностика интеллекта невозможна без предварительного определения понятия «интеллект», его структуры.

Степень соответсвия нашего предварительного понимания и определения интеллекта реальной возможности конкретного теста, степень соответствия структуры интеллеткта структуре теста и есть в.т.к. Она нацелена на определение точности измерения сложных, устойчивых типов поведения, качеств личности, психических явлений.

Валидность теста по критерию

критерий качества теста, с помощью которого можно судить об интересующем нас аспекте психики индивида в настоящем и будущем. Для его определения необходимо сопоставить результаты тестирования с уровнем развития измеряемого признака, качества личности на практике.

Например, для теста на технические способности основным критерием их определения будет выступать техническая деятельность конкретных специалистов, оценка их технических способностей с помощью экспертов, хорошо знающих испытуемых на протяжении достаточно продолжительного времени в интересующем нас аспекте. Оценка должна даваться по шкале порядковой, интервальной или отношений. В лучших тестах в. по критерию, измеренная коэффициентом корреляции, составляет от 0,3 до 0,8. Применение теста оправдано, если валидность по критерию оставляет 0,2-0,25.

Валидность теста по содержанию

критерий качества теста, используемый при вывяснении соответствия его области измеряемых психических явлений. В.т.к. показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров.

Если, например, нужно проверить с помощью теста математическую подготовку абитуриента вуза, то в предлагаемый тест должны быть включены математические задания, для решения которых необходимы знания по всем разделам математики, изучаемым в средней школе.

Таким образом, степень соответствия структуры данного теста структуре программы математических дисциплин, изучаемых в школе, и является валидностью данного теста по содержанию. Естественно, что для обследования лиц, окончивших вузы, предназначаются тесты с иной вялидностью по содержанию.

Валидность теста прогностическая

критерий качества теста, используемый при предсказании характера развития измеряемого параметра в будущем. Одним из самых существенных недостатков подобных тестов является то, что они не учитывают неравномерность развития измеряемого параметра у различных людей в будущем. Данный вид валидности является особо ценным с практической точки зрения.

Валидность эксперимента

критерий качества эксперимента, степень его точности, в зависимости от которой выводы, полученные в его ходе могут быть распространены на всю генеральную совокупность. В.э. позволяет определить насколько всеобщими могут быть выводы, полученные путем исследования ограниченной по времени и обьему выборки. Различают внутреннюю и внешнюю валидность эксперимента.

Валидность эксперимента внешняя

критерий качества эксперимента, в зависимости от которого выводы об определенной тенденции, закономерности развития конкретных психических явлений, личностей, видов деятельности и т.д. могут быть распространены на другие явления и т.д.

в данной или иной сфере. Языком математики это можно сформулировать так: насколько закономерности данного подмножества характерны для всего множества. Для определения границ применения экспериментальных выводов и необходимо определять в.э.в.

Валидность эксперимента внутренняя

критерий качества эксперимента, используемый при выяснении степени достоверности выявленной в результате эксперимента тенденции, закономерности, характерной для данной единицы множества или для всего подмножества элементов генеральной совокупности.

Допустим, исследуя степень влияния освещенности на эффективность производственной деятельности ткачих, психологи обнаружили статистическую зависимость их эффективности работы от частоты смены освещения.

Что является основным фактором повышения эффективности деятельности: смена освещения, внимание экспериментаторов, особое поведение руководителей в период эксперимента или другие факторы? В данном случае психологи пришли к выводу: появление молодых мужчин-исследователй в цехе, где работали женщины, и послужило причиной повышения производительности их труда.

Но ведь могла быть и принята гипотеза о росте производительности ткацкого труда в зависимости от смены освещенности. В.э.в. показывает в какой степени независимая переменная (производительность труда) связана с зависимой (освещенность). Строго научное проведение психологического эксперимента предполагает определение его валидности.

Источник: https://hr-portal.ru/article/validnost-testa

Надежность и валидность

Прежде чем психодиагностические методики могут быть использованы дни практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. Эти требования в психодиагностике складывались годами в процессе работы над тестами и над их совершенствованием.

В результате появилась возможность оградить психологию от подделок, претендующих на то, чтобы называться диагностическими методиками.

К числу основных критериев оценки качества психодиагностических методик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи: А. Анастази. Р.

Торндайк, Е. Хаген.

Ими были разработаны как формальнологический, так и математико-статистический аппараты (прежде всего реляционный метод и факторный анализ) обоснования степени соответствия отмеченным критериям.

В психодиагностике проблемы надежности и валидности методик тесно связаны, тем не менее, существует традиция раздельного изложения этих важнейших характеристик.

Надежность. В традиционной тестологии термин «надежность» означает относительное постоянство: устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как считает А.

Анастази, вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а в конце — 80. Повторное применение надежных методик дает сходные оценки.

При ЭТОМ в определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том, и в другом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы.

Таким образом, можно сказать, что надежность методики — это такой критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Многие авторы пытались составить классификацию таких факторов. Среди них наиболее часто называются следующие:

  • 1) нестабильность диагностируемого свойства;
  • 2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны), нечетко сформулированы указания, как методику предъявлять испытуемым;
  • 3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов);
  • 4) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий);
  • 5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утомление);
  • 6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста.

Одним из важнейших средств повышения надежности психодиагностической методики является единообразие процедуры обследования, его строгая регламентация: одинаковые для исследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т. д.

При такой стандартизации процедуры обследования можно существенно уменьшить влияние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.

На характеристику надежности методик также большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель. Например, показатель надежности может быть искусственно завышен, если в выборке небольшой разброс результатов, то есть если результаты по своим значениям близки друг к другу.

В этом случае при повторном обследовании новые результаты также расположатся тесной группой. Возможные изменения ранговых мест испытуемых будут незначительными, и, следовательно, надежность методики будет высокой.

Такое же неоправданное завышение надежности может возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту.

Тогда эти далеко отстающие друг от друга результаты не будут перекрываться, даже если вмешаются в условия обследования случайные факторы. Поэтому в руководстве обычно дается описание выборки, на которой определялась надежность методики.

Валидность. Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.

Следует заметить, что вопрос о валидности до сегодняшнего дня представляется одним из самых сложных. Наиболее укоренившимся определением понятия является то, которое приведено в книге А.

Анастази: «Валидность теста — понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает».

Валидность по своей сути — это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и различные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется вали- дизацией.

Валидность в первом ее понимании имеет отношение к самой методике, то есть это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая еалидизация.

Итак, при теоретической валидизации психолога интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация.

Читайте также:  Рассмотрение гражданских дел в судах общей юрисдикции - справочник студента

При прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения.

Главный акцент сделан на то, чтобы доказать, что «нечто», измеряемое методикой, имеет связь с определенными областями практики.

Провести теоретическую валидизацию в отличие от прагматической порой оказывается значительно труднее. Не вдаваясь пока в конкретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной), и с ним

79

сравниваются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической эффективности, действенности диагностической методики.

Для определения теоретической валидности найти какой-либо независимый критерий, лежащий вне методики, гораздо труднее. Поэтому на ранних стадиях развития тестологии, когда концепция валидности только складывалась, бытовало интуитивное представление о том, что тест измеряет:

  • 1) методика признавалась валидной на том основании, что то, что она измеряет, это просто «очевидно»;
  • 2) доказательство валидности основывалось на чувстве уверенности исследователя в том, что его метод позволяет «понять испытуемого»;
  • 3) методика рассматривалась как валидная (то есть принималось утверждение, что какой-то тест измеряет такое-то качество) только потому, что ее создатель имеет «очень высокий авторитет», или потому, что та теория, на основании которой строилась методика, очень хорошая.

Принятие на веру голословных утверждений о валидности методики нс могло продолжаться длительное время. Первые проявления действительно научной критики развенчали такой подход: начались поиски научно обоснованных доказательств.

Как уже говорилось, провести теоретическую валидизацию методики — это показать действительно ли методика измеряет именно то свойство, качество, которое она, по замыслу исследователя, должна измерять.

Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие школьников, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, знания).

Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психическими явлениями и их показателями, посредством которых эти психические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.

Не столь сложно осуществить теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с известной, доказанной валидностью. Наличие корреляции между новой и аналогичной старой методикой указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная.

И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психологи получают возможность использовать новый инструмент вместо старого.

Такой прием особенно часто используется в дифференциальной психофизиологии при создании методик диагностики основных свойств нервной системы человека.

Таким образом, качество любой психодиагностической методики зависит от степени ее стандартизированности, надежности и валидности. При разработке любой диагностической методики авторы должны проводить соответствующую проверку и сообщать в руководстве к ее применению полученные результаты.

Источник: https://ozlib.com/801413/psihologiya/nadezhnost_validnost

Надежность и валидность теста — Психология

Первоначальный набор суждений, использованных для построения теста (первичная форма), состоял из 47 самооценок индивидом сво­его психического состояния, с известной долей условности рассмат­ривавшихся как симптомы.

Выделение последних осуществлено на основе анализа психиатрической литературы и концепции предбо-лезненных психических расстройств таким образом, чтобы этот на­бор в достаточной мере отражал «движения» индивида от абсолют­ной нормы к болезненному расстройству.

Выбор симптомов в качестве индикаторов нервно-психической адаптации индивида основан на подходе, выдвинутом еще В.

Гризингером, который утверждал, что диагностическое значение имеют не столько сами симптомы, сколько их истолкование наблюдателем.

Применительно к формализованной психодиагностической процедуре получается: значение симптома в составе теста может не совпа­дать с его клиническим значением и фактически полностью определяется показателями надежности и валидности.

Для приближения формулировок симптомов к языковому опыту респондентов первичная форма теста была апробирована в пилотажном исследовании, охватившем 31 работника объединения (квотная выборка по полу, возрасту и образованию).

Чтобы оценить весь круг необходимых характеристик надежности и валидности теста, была использована исследовательская выборка объемом в 60 человек — пациентов дневного стационара и ночного профилактория клиники Института.

Дискриминативность тестовых суждений. В данной процедуре она соотносится с наличием или отсутствием существующего в действительности нервно-психического заболевания.

Поэтому коэффициенты дискриминации рассчитывались по результатам нсследовательской выборки, где болезнь была клинически верифицирована, а «правильными» считались ответы о наличии симптомов, отличные от нуля, «неправильными» — равные нулю.

Коэффициенты дискриминации, отражающие меру соответствия между ответом на один вопрос и ответами на все вопросы теста, по всем шкалам окончательной формы высоки и приближаются к 1. Таким образом, шкалы окончательной формы теста обладают высокой способностью разделять лиц с высокой и низкой «сырой» оценкой, а тест имеет значительную «внутреннюю» валидность.

Надежность теста. Она определялась путем расчета соответсвующих статистических показателей по результатам деления первичной формы теста на две части с критическим значением коэффи­циента дискриминации, равным 0,85. Коэффициенты надежности определялись по формуле Фланагана; практически для всех симпто­мов окончательной формы теста они высоки.

Валидность по содержанию. Устанавливалась при помощи лич­ностных тестов — MMPI (основные шкалы), теста Кеттелла (форма С)[3] и теста Айзенка (форма А).

Полученные коэффициенты валид­ности выявили значительную опосредованность линейных корреля­ций признаков друг другом.

Поэтому для определения валидности по содержанию был применен факторный анализ (метод главных ком­понент, с ротацией), т. е. этот вид валидности представлен фактор­ной валидностью.

Валидность по критерию. Критерием валидности теста выступа­ла врачебная оценка психического состояния пациентов, вошедших в исследовательскую выборку. Психиатрическая квалификация состояния больных, находящихся на лечении, верифицировалась в условиях клиники Института, поэтому такая оценка выступает как экспертная.

  • Методика оценки была формализованной, использовалась специ­ально разработанная «Карта врачебной оценки». Параметрами оцен­ки были следующие 12 психопатологических радикалов:
  • • шизоидия;
  • • мания;
  • • депрессия;
  • • эпилептоидность;
  • • паранойя (включая параноидию и парафрению);
  • • эксплозивность;
  • • «органичность»;
  • • астения;
  • • истерия;
  • • неврастения;
  • • ананкастия;
  • • деменция (включая малоумие).
  • Оценка давалась по шкале:
  • 1. — полностью отсутствует;
  • 2. — слабо выражено, присутствует в виде кратковременных эпизодов, незначительных нарушений, изменений; определенно не тре­бует психиатрической помощи;
  • 2— выражено заметно, является относительно постоянным фоном основного состояния либо присутствует в форме очерченных кли­нических состояний; само по себе может не вызывать потребно­сти в психиатрической помощи;
  • 3— выражено на уровне развернутой клинической симптоматики, наряду с другими проявлениями характеризует болезненное пси­хопатологическое состояние; определенно требует психиатриче­ской помощи — амбулаторной или в дневном стационаре;
  • 4— выражено ярко, характеризует патологию значительной тяжести, в наибольшей мере определяет клиническое состояние; требует помощи, как правило, в условиях закрытого пспхиатрического стационара.

Большинство радикалов, как показало предварительное обсуждение, понимались врачами одинаково. Трактовавшиеся неоднозначно были подробно описаны в «Инструкции по заполнению карты». По­лученный «профиль» врачебной оценки коррелировал (коэффици­енты линейной корреляции Пирсона) с результатами заполнени первичной формы теста.

Конструктная валидность.Она рассматривалась как соответствие вы деленных симптомов в их связи с показателями по валидизирующи методикам теоретическим психиатрическим взглядам. Симптомы, имею щие высокую внутреннюю и внешнюю валидность по формальны признакам, но противоречащие признанным общепсихиатрическим нозографическим концепциям, отбраковывались.

Ситуационная валидность.Оценивалась путем наблюдения за реакциями респондентов в процессе заполнения первичной форм] теста на стандартизационой выборке. Некоторые суждения (симш мы), адекватно воспринимавшиеся в терапевтической ситуации ст/с ционара или амбулаторного приема, вызывали негативные реакции популяции и были исключены.

Диагностическая валидность.Определялась непосредственно на м териале клинического обследования 78 имеющих психиатричес симптомы представителей популяции. Она равна 0,69.

Таким образом, приведенные данные о надежности и валидное™ теста позволяют сказать, что его применение в качестве диагностиче­ского инструмента вполне обоснованно.

Применение

Интерпретация результатов. Данные объясняются на основе подхода, выдвинутого Ю. А. Александровским, согласно которому ослабление адаптационной психической деятельности клинически выражается в психопатологических образованиях, наблюдаемых при пограничных формах нервно-психических расстройств.

По своему содержанию категории многомерной шкалы адаптации соответствуют группи­ровке состояний психического здоровья, предложенной С. Б. Семичовым, несколько модифицированной для придания континууму «здоровье—болезнь» необходимой однонаправленности.

Содержащие­ся в этой группировке категории идеальной и типологической нормы, включающей конституциональную норму и акцентуации, объедине­ны в одну — «здоровье», а категория болезни объединена с вероят­но болезненным состоянием, поскольку названные крайние гра­дации континуума могут быть корректно диагностированы только клиническим методом.

  1. Приводим величины r-оценок границ категорий полученной мно­гомерной шкалы:
  2. здоровье — -1,80 и менее;
  3. оптимальная адаптация — от -1,79 до -1,04;
  4. непатологическая психическая дезадаптация — от -1,03 до 0,77;
  5. патологическая психическая дезадаптация — от 0,78 до 1,80;
  6. вероятно болезненное состояние — 1,81 и выше.
  7. Таким образом, результаты интерпретации тестовой оценки ин­дивида определяют его место на континууме нервно-психической адаптации.

Ограничения и противопоказания для применения.К противо­показаниям для применения теста относятся состояния выраженного слабоумия обследуемого и нервно-психические расстройства преимущественно психотического регистра.

Ограничения в применении теста накладываются тем, что он обна­руживает состояния нервно-психической дезадаптации, инициально развивающиеся по общеневротическому пути, однако фиксирует начальные формы дезадаптации, возникающей по алкогольному и психо-соматическому путям, где только на более поздних стадиях происхо­дит «обрастание» психиатрической симптоматикой. Для этих целей нервно-психической дезадаптации тест нуждается в оснащении до­полнительными шкалами.

В заключение необходимо подчеркнуть, что тест является достаточ­но высоко обоснованным инструментом диагностики именно уровня нервно-психической адаптации, т. е.

отражает формулируемую в по­нятиях психопатологии количественную сторону процесса адаптации.

Тест не может рассматриваться и применяться в качестве инструмен­та клинической диагностики, поскольку интерпретация результатов его выполнения не предусматривает какой-либо нозологической или синдромологической трактовки состояний дезадаптации.

Контрольные вопросы

1. Чем объясняется необходимость многоэтажных скрининговых процедур при оценке нервно-психического здоровья популяции?

2. Определите сходство и различие понятий нервно-психической и социально-психологической адаптации.

3. Каковы ограничения в применении шкал нервно-психологиче­ской адаптации в популяции?

Рекомендуемая литература

Аванесов В. С. Тесты в социологическом исследовании. М: Наука,1982.

Александровский Ю. А. Состояния психической дезадаптации и их компенсация: Пограничные нервно-психические расстройства. М. Наука, 1976.

Анастази А., Урбипа С. Психологическое тестирование. 7-е изд. СП.Питер, 2003.

Гайда В. К., Захаров В. П. Психологическое тестирование: Учебное пособие. Л.: Изд-во ЛГУ, 1982.

Гризишер В. Душевные болезни. СПб., 1867.

Клшер С. А., Косолапое М. С, Толстова Ю. Н. Шкалирование при сборе и анализе социологической информации. М.: Наука, 1978.

Семичов С. Б. Группировка состояний психического здоровья // Предболезнь и факторы повышенного риска в психоневрологии. Л.,1986. С. 8-17.

Семичов С. Б. Предболезненные психические расстройства. Л.: Meдицина, 1987.

Часть III

Личность

Источник: https://student2.ru/psikhologiya/727470-nadezhnost-i-validnost-testa/

Ссылка на основную публикацию
Adblock
detector