Теорія відгуку завдання
У психометрії тео́рія ві́дгуку завда́ння[1] (ТВЗ, англ. item response theory, IRT, відома також як тео́рія лате́нтних рис, англ. latent trait theory, си́льна тео́рія і́стинної оці́нки, англ. strong true score theory, та суча́сна тео́рія психометри́чного тестува́ння, англ. modern mental test theory) — це парадигма розробки, аналізу та оцінювання тестів, опитувальників та подібних інструментів, що вимірюють здібності, ставлення чи інші змінні. Це теорія тестування, яка ґрунтується на взаємозв'язку між успішністю осіб на окремому тестовому завданні та рівнем успішності тестованих за загальним показником здібності, для оцінювання якої було це завдання розроблено. Для подання характеристик як завдань, так і іспитників використовують кілька різних статистичних моделей.[2] На відміну від простіших підходів до створення шкал та оцінювання відповідей на опитувальники, теорія відгуку завдання не виходить із того, що всі завдання мають однакову складність. Це відрізняє ТВЗ від, наприклад, лайкертового шкалювання, в якому «всі завдання вважають повтореннями одне одного, або, іншими словами, завдання розглядають як паралельні інструменти».[3] Натомість теорія відгуку завдання враховує складність кожного завдання (характеристичні криві завдань, або ХКЗ, англ. item characteristic curve, ICC) як інформацію, яку слід включати в шкалюванні завдань.
Вона ґрунтується на застосуванні пов'язаних математичних моделей до тестових даних. Оскільки її часто вважають вищою за класичну теорію тестування,[4] їй часто віддають перевагу для розробки шкал у США,[джерело?] особливо коли вимагаються оптимальні рішення, як у так званих тестах з високими ставками, як-то тест для вступу до магістратури (GRE) чи тест для допуску до магістерських програм з менеджменту (GMAT).
Назва теорія відгуку завдання зумовлена зосередженістю цієї теорії на завданні, на відміну від зосередженості на рівень тесту класичної теорії тестування. Таким чином, ТВЗ моделює відгук кожного іспитника заданої кваліфікації на кожне завдання в тесті. Термін завдання узагальнений, і охоплює всі види інформативних завдань. Це можуть бути завдання множинного вибору з неправильними та правильними відповідями, але також поширені й твердження в опитувальниках, які дозволяють респондентам вказувати рівень згоди (як-от шкала оцінювання чи лайкертове шкалювання), або симптоми пацієнта, оцінювані як присутні/відсутні, чи діагностична інформація в складних системах.
ТВЗ ґрунтується на ідеї, що ймовірність правильної/очікуваної відповіді на завдання є математичною функцією параметрів особи та завдання. (Вираз «математична функція параметрів особи та завдання» аналогічний рівнянню Левіна , B = f(P, E), яке стверджує, що поведінка є функцією особи в її середовищі.) Параметр особи зазвичай розглядають як (єдину) латентну рису або вимір. До прикладів належать загальний рівень інтелекту та вираженість певного ставлення. До параметрів, за якими характеризують завдання, належать їхня складність (англ. difficulty, відома також як «розташування», англ. "location", через те, що їх розташовують на шкалі складності); розрізнювальність (англ. discrimination, нахил чи кореляція), яка відображає, наскільки різко рівень успіху осіб змінюється залежно від їхньої здібності; та параметр псевдовідгадуваності (англ. pseudoguessing), який характеризує (нижню) асимптоту, на якій навіть найнездібніші особи матимуть успіх через відгадування (наприклад, 25 % для чисто випадкової відповіді у завданні множинного вибору з чотирма можливими варіантами відповіді).
Аналогічним чином ТВЗ можливо використовувати для вимірювання людської поведінки в соціальних мережах в Інтернеті. Думки, висловлені різними людьми, можливо агрегувати для дослідження за допомогою ТВЗ. Також було оцінено її застосування для класифікування інформації як дезінформації чи достовірної інформації.
Огляд
ред.Концепція функції відгуку завдання існувала ще до 1950 року. Піонерська робота над ТВЗ як теорією відбувалася в 1950-х та 1960-х роках. Три піонери цієї галузі — психометр зі Служби освітніх тестувань (англ. Educational Testing Service, ETS) Фредерік М. Лорд ,[5] данський математик Ґеорг Раш та австрійський соціолог Пауль Лазарсфельд, які проводили дослідження паралельно й незалежно. Серед ключових постатей, які зробили значний внесок у розвиток ТВЗ, слід згадати Бенджаміна Дрейка Райта та Девіда Андріха . Широке використання ТВЗ розпочалося лише наприкінці 1970-х і 1980-х років, коли, з одного боку, практиків почали переконувати у «корисності» та «перевагах» ТВЗ, а з іншого — доступність персональних комп'ютерів надала багатьом дослідникам обчислювальні потужності, необхідні для застосування ТВЗ. У 1990-х роках Маргарет Ву розробила два програмні засоби для аналізу даних досліджень PISA та TIMSS: ACER ConQuest (1998) і пакет R TAM (2010).
Серед іншого, мета ТВЗ полягає у створенні системи для оцінювання ефективності роботи оцінювань та ефективності роботи окремих завдань в оцінюваннях. Найпоширенішим застосуванням ТВЗ є освіта, де психометри використовують її для розробки та проєктування іспитів, підтримування банків завдань для іспитів та вирівнювання[6] (англ. equating) складності завдань для наступних версій іспитів (наприклад, для забезпечення можливості порівняння результатів з плином часу).[7]
Моделі ТВЗ часто називають моделями латентних рис (англ. latent trait models). Термін латентний використовують для підкреслення того, що дискретні відповіді на завдання розглядаються як спостережувані прояви гіпотетичних рис, конструктів чи атрибутів, які безпосередньо не спостерігаються, але мусять бути виведені з проявлених відповідей. Моделі латентних рис розробили в галузі соціології, але вони практично ідентичні моделям ТВЗ.
ТВЗ зазвичай вважають вдосконаленням порівняно з класичною теорією тестування (КТТ). Для завдань, які можливо виконати за допомогою КТТ, ТВЗ зазвичай надає більшу гнучкість і пропонує витонченішу інформацію. Деякі застосування, як-от комп'ютеризоване адаптивне тестування, стають можливими завдяки ТВЗ і не можуть здійснюватися з використанням лише класичної теорії тестування. Ще однією перевагою ТВЗ над КТТ є те, що витонченіша інформація, яку надає ТВЗ, дає можливість дослідникові підвищити надійність оцінювання .
ТВЗ виходить із трьох припущень:
- Одновимірна риса, позначувана через ;
- Локальна незалежність завдань;
- Відповідь особи на завдання можливо змоделювати за допомогою математичної функції відгуку завдання (ФВЗ, англ. item response function, IRF).
Далі, вважають, що рису можливо виміряти за якоюсь шкалою (існування тесту вже виходить з цього), яку зазвичай налаштовують на стандартну шкалу із середнім значенням 0,0 і стандартним відхиленням 1,0. Одновимірність слід розуміти як однорідність, якість, яку потрібно визначити або емпірично довести відповідно до певної мети чи використання, а не як кількість, яку можливо виміряти. «Локальна незалежність» означає (а) що ймовірність використання одного завдання не залежить від використання будь-яких інших завдань і (б) що відповідь на завдання є незалежним рішенням кожного тестованого, тобто відсутнє списування або спільна робота парами чи групами. Питання вимірності зазвичай досліджують за допомогою факторного аналізу, тоді як ФВЗ є основною складовою ТВЗ і центром багатьох досліджень та літератури.
Функція відгуку завдання
ред.Функція відгуку завдання (ФВЗ, англ. item response function, IRF) показує ймовірність того, що особа з певним рівнем здібностей відповість правильно. Особи з нижчим рівнем здібностей мають менше шансів, тоді як особи з високим рівнем здібностей, навпаки, дуже ймовірно дадуть правильну відповідь; наприклад, учні з вищими математичними здібностями з більшою ймовірністю правильно розв'яжуть математичне завдання. Точне значення ймовірності залежить, крім рівня здібностей, від набору параметрів завдання, які використовують у ФВЗ.
Трипараметрова логістична модель
ред.Наприклад, у трипара́метровій логісти́чній моде́лі (3ПЛ, англ. three parameter logistic model, 3PL) ймовірність правильної відповіді на дихотомноме завдання i, зазвичай завдання множинного вибору, становить
де вказує, що здібності особи моделюються як вибірка з нормального розподілу для цілей оцінювання параметрів завдання. Після того як параметри завдання оцінено, оцінюються здібності окремих осіб для звітності. , та це параметри завдання. Вони визначають форму ФВЗ. Рис. 1 показує ідеальну характеристичну криву завдання (ХКЗ) 3ПЛ.
Параметри завдання можливо інтерпретувати як зміну форми стандартної логістичної функції:
Коротко, параметри інтерпретують наступним чином (для зручності індекси пропущено); b найосновніший, тому йде першим:
- b — складність, розташування завдання: середня точка між (мінімум) та 1 (максимум), а також точка, де нахил максимальний.
- a — розрізнювальність, масштаб, нахил: максимальний нахил
- c — псевдовідгадуваність, випадковість, асимптотичний мінімум
Якщо то формули спрощуються до та що означає, що b дорівнює рівню успіху в 50 % (складність), а a (поділений на чотири) є максимальним нахилом (розрізнювальністю), що виникає на рівні успіху в 50 %. Далі, логіт (логарифм шансів ) правильної відповіді дорівнює (за умови ): зокрема, якщо здібність θ дорівнює складності b, шанси на правильну відповідь рівні (1:1, тобто логіт 0). Що більше здібність перевищує складність (або відстає від неї), то вища (або нижча) ймовірність правильної відповіді, причому розрізнювальність a визначає, наскільки швидко збільшуються або зменшуються шанси зі зміною здібності.
Іншими словами, стандартна логістична функція має асимптотичний мінімум 0 ( ), центрована навколо 0 ( , ) і має максимальний нахил Параметр розтягує горизонтальну шкалу, параметр зміщує горизонтальну шкалу, а параметр стискає вертикальну шкалу від до Докладніше це пояснено нижче.
Параметр подає розташування завдання, яке у випадку тестування досягнень називають складністю завдання. Це точка на , де ФВЗ має максимальний нахил і де значення знаходиться посередині між мінімальним значенням та максимальним значенням 1. Завдання в прикладі має середню складність, оскільки =0,0, що близько до центру розподілу. Зауважте, що ця модель масштабує складність завдання та рису особи на одному й тому же континуумі. Таким чином, можна говорити про те, що завдання приблизно таке ж складне, як рівень риси Особи A, або, що рівень риси особи приблизно дорівнює складності Завдання Y, в сенсі того, що успішне виконання завдання відображає певний рівень здібності.
Параметр завдання подає розрізнювальність завдання, тобто ступінь, до якого завдання розрізняє осіб у різних областях латентного континууму. Цей параметр характеризує нахил ФВЗ у точці, де він максимальний. У прикладі завдання має =1,0, що забезпечує доволі добру розрізнювальність; особи з низьким рівнем здібностей мають набагато менший шанс дати правильну відповідь, ніж особи з вищими здібностями. Цей параметр розрізнювальності відповідає ваговому коефіцієнту відповідного завдання чи показника у стандартній зваженій лінійній регресії (звичайних найменших квадратах ) і, таким чином, може бути використаний для створення зваженого індексу показників для некерованого вимірювання латентного поняття.
Для завдань, таких як завдання множинного вибору, параметр використовують для врахування впливу відгадування на ймовірність правильної відповіді. Він вказує ймовірність того, що особи з дуже низькими здібностями правильно відповідатимуть на це завдання випадково, математично виражену як нижня асимптота. У завданні множинного вибору з чотирма варіантами відповідей ФВЗ може виглядати так, як у прикладі; ймовірність вгадати правильну відповідь для кандидата з надзвичайно низькими здібностями становить 1/4, тому буде приблизно 0,25. Цей підхід виходить з того, що всі варіанти відповідей однаково ймовірні, оскільки, якщо один варіант виглядав би безглуздим, навіть особа з найнижчими здібностями могла б його відкинути, тож методи оцінювання параметрів у ТВЗ враховують це і оцінюють на основі спостережуваних даних.[8]
Моделі ТВЗ
ред.Загалом моделі ТВЗ можливо поділити на дві категорії: одновимірні та багатовимірні. Одновимірні моделі вимагають наявності однієї вимірюваної риси (здібності) . Багатовимірні моделі ТВЗ моделюють дані відгуку, що припускають виникнення з кількох рис. Проте, через значно вищу складність, більшість досліджень та застосувань ТВЗ використовують одновимірну модель.
Моделі ТВЗ також можливо класифікувати за кількістю оцінюваних відповідей. Типові завдання множинного вибору дихотомні (англ. dichotomous); навіть якщо завдання має чотири чи п'ять варіантів, його оцінюють лише як правильне/неправильне. Інший клас моделей застосовують до політомних (англ. polytomous) результатів, коли кожній відповіді надається різне значення балу.[9][10] Поширеним прикладом цього є завдання лайкертового типу, наприклад, «Оцініть за шкалою від 1 до 5». Іншим прикладом є оцінювання з частковими балами, для якого можна застосовувати моделі на кшталт політомної моделі Раша .
Кількість параметрів у ТВЗ
ред.Дихотомні моделі ТВЗ описують кількістю параметрів, які вони використовують.[11] Трипараметрову логістичну модель (3ПЛ) називають так через використання нею трьох параметрів завдань. Двопараметрова модель (2ПЛ) виходить з відсутності вгадування в даних, але дозволяє завданням варіюватися за розташуванням ( ) та розрізнювальністю ( ). Однопараметрова модель (1ПЛ) виходить з того, що вгадування є частиною здібності, а всі завдання, які відповідають моделі, мають однакову розрізнювальність, тому завдання описують лише одним параметром ( ). Це означає, що однопараметрові моделі мають властивість специфічної об'єктивності, тобто порядок ранжування складності завдань однаковий для всіх респондентів незалежно від їхніх здібностей, а порядок ранжування здібностей осіб однаковий для завдань незалежно від їхньої складності. Таким чином, 1-параметрові моделі вибірково незалежні, що не є властивістю двопараметрових та трипараметрових моделей. На додачу, теоретично існує й чотирипараметрова модель (4ПЛ), з верхньою асимптотою, позначуваною через , де у 3ПЛ замінюють на . Проте використовують її нечасто. Зауважте, що абетковий порядок параметрів завдань не відповідає їхній практичній чи психометричній важливості; параметр розташування/складності ( ) найважливіший, оскільки входить до всіх трьох моделей. 1ПЛ використовує лише , 2ПЛ використовує та , 3ПЛ додає , а 4ПЛ додає .
Двопараметрова модель еквівалентна трипараметровій моделі з і підходить для тестових завдань, де вгадування правильної відповіді дуже малоймовірне, як-от завдання на заповнення пропусків («Який квадратний корінь з 121?»), або де поняття вгадування незастосовне, наприклад, завдань із вимірювання особистісних рис, ставлень чи інтересів («Мені подобаються бродвейські мюзикли. Згоден/Не згоден»).
Однопараметрова модель виходить не лише з відсутності вгадування (або його неактуальності), а й з еквівалентності всіх завдань з погляду розрізнювальності, аналогічно звичайному факторному аналізу з ідентичними вагами для всіх завдань. Окремі завдання або особи можуть мати вторинні фактори, але їх вважають взаємно незалежними та спільно ортогональними.
Логістичні та нормальні моделі ТВЗ
ред.Альтернативне формулювання будує ФВЗ на основі нормального розподілу ймовірності; такі моделі іноді називають нормально ожайвовими моделями (англ. normal ogive model). Наприклад, формула двопараметрової нормально ожайвової ФВЗ має вигляд
де Φ — інтегральна функція розподілу (ІФР) стандартного нормального розподілу.
Нормально ожайвова модель випливає з припущення нормальної розподіленості похибки вимірювання, й через це теоретично приваблива. Тут — параметр складності завдання. Параметром розрізнювальності є , стандартне відхилення похибки вимірювання для завдання i, порівнянне з .
Нормально ожайвову модель латентної риси можливо оцінювати шляхом факторного аналізу матриці тетрахорних кореляцій між завданнями.[12] Це означає, що технічно можливо оцінити просту модель ТВЗ за допомогою статистичного програмного забезпечення загального призначення.
Масштабуванням параметра здібності можливо зробити так, щоби логістична модель 2ПЛ була дуже близькою до інтегрально нормальної ожайви.[13] Зазвичай ФВЗ логістичної 2ПЛ та нормальної-ожайвової моделей відрізняються ймовірністю не більш ніж на 0,01 по всьому діапазоні функції. Проте найбільша різниця спостерігається на хвостах розподілу, що мають більше впливу на результати.
Модель латентної риси/ТВЗ спочатку розробили з використанням нормальної ожайви, але це вважали занадто обчислювально вимогливим для комп'ютерів того часу (1960-ті роки). Логістичну модель запропонували як простішу альтернативу, й відтоді її широко використовували. Проте в подальшому було показано, що за допомогою стандартних поліноміальних наближень нормальної ІФР[14] нормально ожайвова модель стає не вимогливішою обчислювально за логістичні моделі.[15]
Модель Раша
ред.Модель Раша часто вважають моделлю 1ПЛ ТВЗ. Проте прихильники моделювання за Рашем віддають перевагу розгляду її як цілком іншого підходу до концептуалізації взаємозв'язку між даними та теорією.[16] Як і інші підходи до статистичного моделювання, ТВЗ наголошує на первинності допасованості моделі до спостережуваних даних,[17] тоді як модель Раша підкреслює першорядність вимог до фундаментального вимірювання, де належна допасованість моделі є важливою, але другорядною вимогою, яку слід виконати, перш ніж тест чи інструмент дослідження можна вважати здатним вимірювати рису.[18] Операційно це означає, що підходи ТВЗ містять додаткові параметри моделі для відображення закономірностей, спостережуваних у даних (наприклад, дозволяючи завданням варіюватися за їхньою кореляцією з латентною рисою), тоді як у підході Раша твердження щодо наявності латентної риси можливо вважати чинним лише за умови, що (а) дані допасовуються до моделі Раша, і (б) завдання тесту та іспитники відповідають цій моделі. Тому в моделях Раша недопасовані відгуки потребують діагностики причин цієї недопасованості, й можуть бути вилучені з набору даних, якщо можливо пояснити по суті, чому вони не охоплюють латентну рису.[19] Таким чином, підхід Раша можливо вважати підтверджувальним підходом, на відміну від розвідувальних підходів, які намагаються моделювати спостережувані дані.
Наявність або відсутність параметра вгадування чи псевдовипадковості є основною й іноді суперечливою відмінністю. Підхід ТВЗ містить параметр лівої асимптоти, щоби враховувати вгадування у завданнях множинного вибору, тоді як модель Раша цього не робить, оскільки вважається, що вгадування додає до даних випадково розподілений шум. Оскільки шум розподілений випадково, вважається, що за умови тестування достатньої кількості завдань порядок ранжування осіб за латентною рисою за сирою оцінкою не зміниться, а лише зазнає лінійного масштабування. На противагу цьому, трипараметрова ТВЗ досягає допасованості даних і моделі шляхом вибору моделі, яка відповідає даним,[20] ціною втрати специфічної об'єктивності.
На практиці модель Раша має принаймні дві основні переваги порівняно з підходом ТВЗ. Першою перевагою є першорядність специфічних вимог Раша,[21] які (за умови їх виконання) забезпечують фундаментальне незалежне від особи вимірювання (коли осіб і завдання можна відобразити на одній інваріантній шкалі).[22] Другою перевагою підходу Раша є те, що оцінювання параметрів є простішим у моделях Раша завдяки наявності достатньої статистики, що у цьому застосуванні означає взаємнооднозначне відображення сирих оцінок за кількістю правильних відповідей на оцінки у моделі Раша.[23]
Аналіз допасованості моделі
ред.Цей розділ не містить посилань на джерела. (січень 2025) |
Як і з будь-яким використанням математичних моделей, важливо оцінити допасованість даних до моделі. Якщо недопасованість завдань із будь-якою моделлю пояснюється низькою якістю завдань, наприклад, заплутувальними відволіканнями в тесті множинного вибору, такі завдання може бути вилучено з цієї форми тесту й переписано або замінено в майбутніх формах тесту. Проте, якщо велика кількість недопасованих завдань спостерігається без очевидної причини цієї недопасованості, необхідно буде переглянути конструктивну валідність тесту, а специфікації тесту можуть потребувати переписування. Таким чином, недопасованість надає безцінні діагностичні інструменти для розробників тестів, дозволяючи емпірично перевіряти на основі даних гіпотези, на яких ґрунтуються специфікації тесту.
Для оцінювання допасованості існує кілька методів, як-от статистика хі-квадрат, або її стандартизована версія. Дво- та трипараметрові моделі ТВЗ коригують розрізнювальність завдань, забезпечуючи покращену допасованість даних і моделі, тому статистики допасованості не мають тієї підтверджувальної діагностичної цінності, яка спостерігається в однопараметрових моделях, де ідеалізовану модель задають заздалегідь.
Дані слід вилучати не на підставі недопасованості до моделі, а лише через те, що виявлено конструктивно доречну причину цієї недопасованості, наприклад, якщо не носій англійської мови складає тест із природничих наук, написаний англійською. Можна стверджувати, що такий кандидат не належить до тієї ж сукупності осіб залежно від вимірності тесту, і, хоча вважається, що однопараметрові моделі ТВЗ незалежні від вибірки, вони не незалежні від сукупності, тож така недопасованість є конструктивно доречною й не ставить під сумнів дійсність тесту чи моделі. Такий підхід є важливим інструментом у процесі валідації інструментів. У дво- та трипараметрових моделях, де психометричну модель коригують для допасування до даних, майбутні проведення тесту необхідно перевіряти на допасованість до тієї ж моделі, яку використовували під час початкової валідації, для підтвердження гіпотези, що оцінки з кожного проведення узагальнюються на інші проведення. Якщо ж для кожного проведення задають відмінну модель задля досягнення допасованості даних і моделі, то вимірюються відмінні латентні риси, й стверджувати, що результати тестів порівнянні між проведеннями, неможливо.
Інформація
ред.Одним з основних внесків теорії відгуку завдання є розширення поняття надійності. Традиційно надійність стосується точності вимірювання (тобто ступеня, до якого вимірювання вільне від похибки). Традиційно її вимірюють за допомогою єдиного індексу, який визначають різними способами, як-от відношення дисперсії істинних оцінок до дисперсії спостережуваних оцінок. Цей індекс корисний для характеризування усередненої надійності тесту, наприклад, для порівняння двох тестів. Проте ТВЗ вияснює, що точність вимірювання не є однорідною в усьому діапазоні тестових оцінок. Оцінки на краях діапазону тесту, наприклад, зазвичай мають більшу похибку, ніж оцінки ближче до середини діапазону.
Теорія відгуку завдання просуває поняття інформації завдання і тесту як заміну надійності. Інформація також є функцією параметрів моделі. Наприклад, за теорією інформації за Фішером, інформація завдання у випадку 1ПЛ для дихотомних даних відповіді є просто добутком імовірності правильної відповіді на імовірність неправильної відповіді, або
Стандартна похибка оцінювання (англ. standard error of estimation, SE) є оберненням інформації тесту на заданому рівні риси, що виражається формулою
Таким чином, більша інформація означає меншу похибку вимірювання.
Для інших моделей, як-от дво- та трипараметрових, параметр розрізнювальності відіграє у цій функції важливу роль. Функція інформації завдання для двопараметрової моделі виражається формулою
Функція інформації завдання для трипараметрової моделі має вигляд[24]
Загалом, функції інформації завдань зазвичай мають форму дзвона. Високорозрізнювальні завдання мають високі вузькі функції інформації; вони роблять великий внесок, але у вузькому діапазоні. Менш розрізнювальні завдання надають менше інформації, але над ширшим діапазоном.
Графіки функцій інформації завдань можливо використовувати для оцінювання того, скільки інформації завдання привносить, й у якому діапазоні шкали оцінок. Завдяки локальній незалежності, функції інформації завдань адитивні . Відтак, функція інформації тесту є просто сумою функцій інформації завдань на іспиті. Використовуючи цю властивість разом із великим банком завдань, функціям інформації тесту можливо надавати потрібної форми для дуже точного контролю похибки вимірювання.
Характеризування точності тестових оцінок є, мабуть, центральним питанням у психометричній теорії та головною відмінністю між ТВЗ і КТТ. Результати досліджень у межах ТВЗ виявляють, що поняття надійності з КТТ є спрощенням. Замість надійності ТВЗ пропонує функцію інформації тесту, яка показує ступінь прецизійності на різних значеннях тета, θ.
Ці результати дозволяють психометрам (потенційно) ретельно формувати рівень надійності для різних діапазонів здібності, включаючи ретельно підібрані завдання. Наприклад, у ситуації сертифікації, коли тест може бути лише складено або провалено, з єдиним «прохідним балом», і де фактичний прохідний бал неважливий, можливо розробити дуже ефективний тест, обравши лише завдання, що мають високу інформацію поблизу прохідного балу. Ці завдання зазвичай відповідають завданням, чия складність приблизно відповідає прохідному балу.
Оцінювання
ред.Параметр особи подає величину латентної риси (англ. latent trait) особи, що є людською здатністю чи характеристикою, вимірюваною тестом.[25] Це може бути когнітивна здібність, фізична здібність, навичка, знання, ставлення, особистісна риса тощо.
Оцінка параметра особи — «оцінка» (англ. "score") у тесті за ТВЗ — обчислюється та інтерпретується зовсім інакше, ніж традиційні оцінки, як-от кількість або відсоток правильних відповідей. Загальна кількість правильних відповідей особи не є фактичною оцінкою, яка натомість ґрунтується на ФВЗ, що веде до зваженої оцінки, якщо модель містить параметри розрізнювальності завдань. Фактично її отримують перемноженням функцій відгуку завдань для кожного з завдань для отримання функції правдоподібності (англ. likelihood function), найвища точка якої є оцінкою максимальної правдоподібності . Цю найвищу точку зазвичай оцінюють за допомогою програмного забезпечення ТВЗ, використовуючи метод Ньютона — Рафсона.[26] Хоча оцінювання у ТВЗ значно складніше, для більшості тестів кореляція між оцінкою тета та традиційною оцінкою дуже висока; часто вона становить 0,95 чи більше.[джерело?] Графік оцінок ТВЗ проти традиційних оцінок має форму ожайви, що свідчить про те, що оцінки ТВЗ краще розрізняють осіб на межах діапазону, ніж у середині.
Важливою відмінністю між КТТ і ТВЗ є підхід до врахування похибки вимірювання, індексованої за допомогою стандартної похибки вимірювання. Усі тести, опитувальники та переписи є неточними інструментами; ми ніколи не можемо точно знати істинну оцінку особи, а маємо лише її оцінку, тобто спостережувану оцінку. Існує певна кількість випадкової похибки, яка може як підвищувати, так і знижувати спостережувану оцінку порівняно з істинною. КТТ виходить з того, що обсяг похибки однаковий для кожного іспитника, тоді як ТВЗ дозволяє йому варіюватися.[27]
Крім того, нічого в ТВЗ не заперечує людський розвиток чи вдосконалення та не припускає, що рівень риси є незмінним. Особа може засвоїти навички, знання або навіть так звані «навички складання тестів», що можуть призводити до вищої істинної оцінки. Насправді частина досліджень у межах ТВЗ зосереджується на вимірюванні змін рівня риси.[28]
Порівняння класичної теорії тестування та теорії відгуку завдання
ред.Класична теорія тестування (КТТ) та ТВЗ загалом займаються одними й тими же задачами, але є різними теоретичними підходами та передбачають різні методи. Хоч обидві ці парадигми зазвичай і узгоджуються та взаємодоповнюють одна одну, між ними існує низка відмінностей:
- ТВЗ робить сильніші припущення, ніж КТТ, і в багатьох випадках надає відповідно сильніші висновки; насамперед це стосується характеристик похибки. Звісно, ці результати дійсні лише тоді, коли припущення моделей ТВЗ справджуються.
- Хоч результати КТТ і дозволили отримати важливі практичні висновки, модельно-орієнтована природа ТВЗ надає багато переваг над аналогічними висновками КТТ.
- Процедури оцінювання у КТТ мають перевагу в простоті обчислення (і пояснення), тоді як оцінювання за ТВЗ зазвичай вимагає відносно складних процедур.
- ТВЗ забезпечує кілька вдосконалень у шкалюванні завдань і осіб. Конкретні деталі залежать від моделі ТВЗ, але більшість моделей шкалюють складність завдань і здібності осіб за однією й тією ж метрикою. Тож складність завдання та здібності особи можливо змістовно порівнювати.
- Ще одним вдосконаленням, забезпечуваним ТВЗ, є те, що параметри моделей ТВЗ зазвичай не залежать від вибірки або тесту, тоді як істинна оцінка в КТТ визначається в контексті конкретного тесту. Таким чином, ТВЗ забезпечує значно більшу гнучкість у ситуаціях використання різних вибірок чи виглядів тесту. Ці висновки ТВЗ є засадничими для комп'ютеризованого адаптивного тестування.
Варто також згадати декілька специфічних схожостей між КТТ і ТВЗ, які допомагають зрозуміти відповідність між поняттями. По-перше, Лорд[29] показав, що за припущення, що має нормальний розподіл, розрізнювальність у моделі 2ПЛ є приблизно монотонною функцією точково-бісеріальної кореляції . Зокрема:
де — точково-бісеріальна кореляція завдання i. Таким чином, якщо припущення справджується, то за вищої розрізнювальності зазвичай спостерігатиметься вища точково-бісеріальна кореляція.
Ще однією схожістю є те, що хоча ТВЗ надає стандартну похибку для кожної оцінки й функцію інформації, також можливо отримати індекс для тесту загалом, безпосередньо аналогічний альфі Кронбаха, який називають індексом поділу (англ. separation index). Для цього потрібно почати з розкладу оцінки ТВЗ на істинне розташування та похибку, аналогічно розкладу спостережуваної оцінки на істинну оцінку та похибку в КТТ. Нехай
де — істинне розташування, а — похибка, пов'язана з оцінкою. Тоді є оцінкою стандартного відхилення для особи із заданою зваженою оцінкою, а індекс поділу отримується наступним чином:
де середньоквадратична стандартна похибка оцінки особи дає оцінку дисперсії похибок, , для різних осіб. Стандартні похибки зазвичай отримують як побічний продукт процесу оцінювання. Індекс поділу зазвичай дуже близький за значенням до альфи Кронбаха.[30]
ТВЗ іноді називають сильною теорією істинної оцінки або сучасною теорією психометричного тестування через її сучасніший характер і чіткіше формулювання гіпотез, які в КТТ є неявними.
Втілення
ред.Втілення різних варіацій теорії відгуку завдання доступні в багатьох статистичних програмах і мовах програмування, зокрема в мові програмування R,[31][32][33] та Python.[34]
Див. також
ред.Примітки
ред.- ↑ Колгатін, О.Г.; Колгатіна, Л.С. (2015). Інтерпретація тестових результатів на основі логістичної моделі в табличному процесорі. Теорія та методика навчання математики, фізики, інформатики (укр.). Кривий Ріг: ДВНЗ КНУ. 13 (2): 338—339. doi:10.55056/tmn.v13i2.795.
- ↑ Glossary of Important Assessment and Measurement Terms. National Council on Measurement in Education (англ.). Архів оригіналу за 22 липня 2017.
- ↑ van Alphen, A.; Halfens, R.; Hasman, A.; Imbos, T. (1994). Likert or Rasch? Nothing is more applicable than good theory. Journal of Advanced Nursing (англ.). 20: 196—201. doi:10.1046/j.1365-2648.1994.20010196.x.
- ↑ Embretson та Reise, 2000.
- ↑ ETS Research Overview (англ.). Архів оригіналу за 2 січня 2007.
- ↑ Мудрук, С. (серпень 2015). Вимоги до апробації екзаменаційних завдань та аналітичний супровід апробації. Методичний посібник (PDF) (укр.). USAID, проєкт «Справедливе правосуддя».
- ↑ Hambleton, R. K.; Swaminathan, H.; Rogers, H. J. (1991). Fundamentals of Item Response Theory (англ.). Newbury Park, CA: Sage Press.
- ↑ Bock, R.D.; Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: application of an EM algorithm. Psychometrika (англ.). 46 (4): 443—459. doi:10.1007/BF02293801. S2CID 122123206.
- ↑ Ostini, Remo; Nering, Michael L. (2005). Polytomous Item Response Theory Models. Quantitative Applications in the Social Sciences (англ.). Т. 144. SAGE. ISBN 978-0-7619-3068-6.
- ↑ Nering, Michael L.; Ostini, Remo, ред. (2010). Handbook of polytomous item response theory models (англ.). Taylor & Francis. ISBN 978-0-8058-5992-8.
- ↑ Thissen, D.; Orlando, M. (2001). Item response theory for items scored in two categories. У Thissen, D.; Wainer, H. (ред.). Test Scoring (англ.). Mahwah, NJ: Lawrence Erlbaum Associates, Inc. с. 73—140. doi:10.4324/9781410604729.
- ↑ Jöreskog, K. G.; Sörbom, D. (1988). PRELIS 1 user's manual, version 1 (англ.). Chicago: Scientific Software, Inc.
- ↑ Camilli, Gregory (1994). Origin of the Scaling Constant d = 1.7 in Item Response Theory. Journal of Educational and Behavioral Statistics (англ.). 19 (3): 293—295. doi:10.3102/10769986019003293. S2CID 122401679.
- ↑ Abramowitz, M.; Stegun, I.A. (1972). Handbook of Mathematical Functions (PDF) (англ.). Washington DC: U. S. Government Printing Office. Архів (PDF) оригіналу за 21 вересня 2021.
- ↑ Uebersax, J.S. (December 1999). Probit latent class analysis with dichotomous or ordered category measures: conditional independence/dependence models. Applied Psychological Measurement (англ.). 23 (4): 283—297. doi:10.1177/01466219922031400. S2CID 120497324.
- ↑ Andrich, D (1989). Distinctions between assumptions and requirements in measurement in the Social sciences. У Keats, J.A; Taft, R.; Heath, R.A; Lovibond, S (ред.). Mathematical and Theoretical Systems (англ.). North Holland, Amsterdam: Elsevier Science Publishers. с. 7—16.
- ↑ Steinberg, J. (10 лютого 2000). Frederic Lord, Who Devised Testing Yardstick, Dies at 87. New York Times (англ.).
- ↑ Andrich, D. (January 2004). Controversy and the Rasch model: a characteristic of incompatible paradigms?. Medical Care (англ.). 42 (1): I—7. doi:10.1097/01.mlr.0000103528.48582.7c. PMID 14707751. S2CID 23087904.
- ↑ Smith, R.M. (1990). Theory and practice of fit. Rasch Measurement Transactions (англ.). 3 (4): 78.
- ↑ Zwick, R.; Thayer, D.T.; Wingersky, M. (December 1995). Effect of Rasch calibration on ability and DIF estimation in computer-adaptive tests. Journal of Educational Measurement (англ.). 32 (4): 341—363. doi:10.1111/j.1745-3984.1995.tb00471.x.
- ↑ Rasch, G. (1980) [1960, Copenhagen, Danish Institute for Educational Research]. Probabilistic models for some intelligence and attainment tests (англ.) (вид. expanded edition with foreword and afterword by B.D. Wright). Chicago: The University of Chicago Press.
- ↑ Wright, B.D. (1992). IRT in the 1990s: Which Models Work Best?. Rasch Measurement Transactions (англ.). 6 (1): 196—200.
- ↑ Fischer, G.H.; Molenaar, I.W. (1995). Rasch Models: Foundations, Recent Developments, and Applications (англ.). New York: Springer. doi:10.1007/978-1-4612-4230-7.
- ↑ de Ayala, R.J. (2009). The Theory and Practice of Item Response Theory (англ.). New York, NY: The Guilford Press. с. (6.12), p.144. ISBN 978-1-59385-869-8.
- ↑ Lazarsfeld, P.F; Henry, N.W. (1968). Latent Structure Analysis (англ.). Boston: Houghton Mifflin.
- ↑ Thompson, N.A. (2009). Ability estimation with IRT (PDF) (англ.).
- ↑ Kolen, Michael J.; Zeng, Lingjia; Hanson, Bradley A. (June 1996). Conditional Standard Errors of Measurement for Scale Scores Using IRT. Journal of Educational Measurement (англ.). 33 (2): 129—140. doi:10.1111/j.1745-3984.1996.tb00485.x.
- ↑ Hall, L.A.; McDonald, J.L. (24–28 April 2000). Measuring Change in Teachers' Perceptions of the Impact that Staff Development Has on Teaching. Annual Meeting of the American Educational Research Association (англ.). New Orleans, LA.
- ↑ Lord, 1980.
- ↑ Andrich, D. (1982). An index of person separation in latent trait theory, the traditional KR.20 index, and the Guttman scale response pattern. Education Research and Perspectives (англ.). 9: 95—104.
- ↑ Chalmers, R. Philip (2012). mirt : A Multidimensional Item Response Theory Package for the R Environment. Journal of Statistical Software (англ.). 48 (6). doi:10.18637/jss.v048.i06.
- ↑ Bürkner, Paul-Christian (2021). Bayesian Item Response Modeling in R with brms and Stan. Journal of Statistical Software (англ.). 100 (5). doi:10.18637/jss.v100.i05.
- ↑ Mair, Patrick; Rosseel, Yves; Gruber, Kathrin (15 грудня 2023). CRAN Task View: Psychometric Models and Methods. cran.r-project.org (англ.). Процитовано 3 жовтня 2024.
- ↑ Lalor, John Patrick; Rodriguez, Pedro (January 2023). py-irt : A Scalable Item Response Theory Library for Python. INFORMS Journal on Computing (англ.). 35 (1): 5—13. doi:10.1287/ijoc.2022.1250.
Література
ред.Було написано багато книг, які стосуються теорії відгуку завдання або містять моделі ТВЗ чи подібні до них. Це частковий перелік, зосереджений на текстах, які пропонують глибше занурення в тему.
- Lord, F.M. (1980). Applications of item response theory to practical testing problems (англ.). Mahwah, NJ: Lawrence Erlbaum Associates, Inc. doi:10.4324/9780203056615.
- Ця книга підсумовує багато робіт Лорда у сфері ТВЗ, включно з розділами про взаємозв'язок між ТВЗ і класичними методами, основи ТВЗ, оцінювання та кілька розширених тем. Розділ про оцінювання наразі застарілий, оскільки переважно обговорює метод спільної максимальної правдоподібності замість методу відособленої максимальної правдоподібності, втіленого Дарреллом Боком і його колегами.
- Embretson, Susan E.; Reise, Steven P. (2000). Item Response Theory for Psychologists (англ.). Psychology Press. ISBN 978-0-8058-2819-1.
- Ця книга є доступним вступом до ТВЗ, орієнтованим, як зазначено в назві, на психологів.
- Baker, Frank (2001). The Basics of Item Response Theory (англ.). ERIC Clearinghouse on Assessment and Evaluation, University of Maryland, College Park, MD.
- Ця вступна книга написана одним із піонерів у цій галузі.
- Baker, Frank B.; Kim, Seock-Ho (2004). Item Response Theory: Parameter Estimation Techniques (англ.) (вид. 2nd). Marcel Dekker. ISBN 978-0-8247-5825-7.
- У цій книзі описано різні моделі теорії відгуку завдання та надано докладні пояснення алгоритмів, які можна використовувати для оцінювання параметрів завдань і здібностей. Частини книги доступні онлайн як обмежений попередній перегляд у Google Книгах.
- van der Linden, Wim J.; Hambleton, Ronald K., ред. (1996). Handbook of Modern Item Response Theory (англ.). Springer. ISBN 978-0-387-94661-0.
- Ця книга пропонує всебічний огляд різних популярних моделей ТВЗ. Вона добре підходить для тих, хто вже набув базового розуміння ТВЗ.
- de Boeck, Paul; Wilson, Mark (2004). Explanatory Item Response Models: A Generalized Linear and Nonlinear Approach (англ.). Springer. ISBN 978-0-387-40275-8.
- У цьому томі пропонується інтегроване введення до моделей відгуку завдань, головним чином орієнтоване на практиків, дослідників і студентів.
- Fox, Jean-Paul (2010). Bayesian Item Response Modeling: Theory and Applications (англ.). Springer. ISBN 978-1-4419-0741-7.
- Ця книга обговорює баєсів підхід до моделювання відгуку завдань. Вона буде корисною для тих, хто знайомий із ТВЗ і має інтерес до аналізу даних відгуку завдань із баєсової перспективи.
Посилання
ред.- HISTORY OF ITEM RESPONSE THEORY (up to 1982). University of Illinois at Chicago (англ.).
- A Simple Guide to the Item Response Theory (PDF) (англ.).
- Psychometric Software Downloads (англ.).
- IRT Tutorial (англ.). Архів оригіналу за 10 грудня 2004.
- IRT Tutorial FAQ (англ.).
- An introduction to IRT (англ.).
- The Standards for Educational and Psychological Testing (англ.).
- IRT Command Language (ICL) computer program (англ.). Архів оригіналу за 13 червня 2006.
- IRT Programs from SSI, Inc (англ.). Архів оригіналу за 16 липня 2011.
- Latent Trait Analysis and IRT Models (англ.).
- Rasch analysis (англ.). Архів оригіналу за 25 серпня 2009.
- Rasch Analysis Programs from Winsteps (англ.).
- Item Response Theory (англ.).
- Free IRT software (англ.).
- IRT Packages in R (англ.).
- IRT / EIRT support in Lertap 5 (PDF) (англ.). Архів оригіналу (PDF) за 4 березня 2016.
- Visual IRT analysis and reporting with Xcalibre (англ.).