Некорректное тестирование: stokesequation

stokesequation

Некорректное тестирование

Aug 05, 2021 15:20

8 лет назад в качестве вступительного испытания в магистратуру я, как и остальные абитуриенты, сдавал политест.

И этот тест был ужасным. "Ужасным" не в смысле "сложным", а в смысле как тест на проверку знаний.

Click to view

Он содержал 100 вопросов по четырем предметам: английскому языку, математике, сварочным технологиям и металловедению, совмещенному с деталями машин.

В каждом вопросе было четыре варианта ответа, то есть даже для поставленного наугад ответа вероятность попасть в точку 1/4. Это в принципе нормально, но эти варианты зачастую были такими, что несколько из них отметались сразу же. А в отдельных случаях варианты попадались настолько очевидные, что неправильно ответить на вопрос было совершенно невозможно.

Например, в тесте (напоминаю, это тест в магистратуру) был такой вопрос:

Из какого материала изготавливаются шестерни механизмов с высокой нагрузкой?

Пластик
Дерево
Высоколегированная сталь
Алюминий

Даже ребёнок поймет, что дерево и пластик скорее всего не очень подходят для высокой нагрузки. А если ребенок успел хоть раз в жизни погнуть алюминиевую и попытался погнуть стальную проволоку, он однозначно выберет правильный вариант.

Такой вопрос не имеет никакого смысла, на него правильно ответят 99% людей. А тот процент, что не ответит, и на других вопросах завалится. Этот вопрос никого не отсекает. С таким же успехом можно было заодно узнавать у абитуриентов, умеют ли они читать по слогам.

И подобных вопросов с очевидными ответами было довольно много. И, самое обидное, как раз по предметам специальности - металловедению и сварочным технологиям. А это на самом деле очень серьезные и сложные предметы. Да, в тесте были и сложные вопросы, где ответы были неочевидны и их надо было знать или вычислять, но и простых вопросов более чем хватало.

Иронично, что именно вопросы по английскому языку в плане угадывания были самыми сложными. Потому что неправильные варианты содержали в себе грамматические ошибки, для обнаружения которых надо было реально знать правила или быть настасканым в чтении текстов.

Вопросы по математике тоже были относительно сложными, хотя бы потому, что там надо было реально что-то считать и применять правила интегрирования и дифференцирования. Ну и при применении этих правил можно было потерять знак или степень, совершить ошибку.

Чем плохи дурацкие вопросы на тесте?

Каждый простой (и тем более очевидный) вопрос в тесте сдвигает средний результат ближе к 100. А это значит, что каждый такой вопрос увеличивает вклад удачи в итоговый результат тестируемого.

Простой пример: в тесте 10 вопросов, 8 из них очень простых и очевидных, и два реально сложных.

Это значит, что любой проходящий тест наберет минимум 8 баллов. Если оставшиеся два вопроса будут проставлены наугад, то для итоговых баллов будут следующие вероятности:

9/16 для 8 баллов (не угадал)

6/16 для 9 баллов (угадал один)

1/16 для 10 баллов (ууу лакерок)

Теперь рассмотрим умного абитуриента, который знает ответ на один из сложных вопросов. Второй сложный вопрос он ставит наугад. Итоговые вероятности у него будет такими:

3/4 для 9 баллов

1/4 для 10 баллов.

Умных абитуриентов априори меньше чем глупых, допустим, в 4 раза. Итого, если экзамен сдают 80 абитуриентов, из которых 64 глупых и 16 умных, в среднем мы получаем такие вот результаты:

10 баллов: 4 умных и 4 глупых

9 баллов: 16 умных и 24 глупых

Получается, что такой тест никак не отделяет глупых и умных абитуриентов. Конечно, у умного выше шанс набрать более высокий балл, но с точки зрения университета половина получивших высший балл (и поступивших) на самом деле ничего не знает. При этом куча умных и способных людей попала в отсев просто потому, что не повезло.

Поэтому для увеличения надежности системы число вопросов в тестировании увеличивают. По теории вероятностей это очень сильно снижает дисперсию удачи и, как следствие, её вклад в итоговый результат. Но если вопросы сделаны на отвали, то итоговое распределение не меняется никак.

учеба