Pospeschill | Testtheorie, Testkonstruktion, Testevaluation | E-Book | www2.sack.de
E-Book

E-Book, Deutsch, 251 Seiten

Pospeschill Testtheorie, Testkonstruktion, Testevaluation


2. aktualisierte Auflage 2022
ISBN: 978-3-8463-5833-7
Verlag: UTB
Format: EPUB
Kopierschutz: 6 - ePub Watermark

E-Book, Deutsch, 251 Seiten

ISBN: 978-3-8463-5833-7
Verlag: UTB
Format: EPUB
Kopierschutz: 6 - ePub Watermark



Die Theorie, Planung und Überprüfung von Tests ist ein wichtiger, prüfungsrelevanter Bereich im Psychologiestudium. Auch in der späteren Praxis ist es unverzichtbar, Tests richtig anwenden und in ihrem Ergebnis beurteilen zu können. Dieses Buch gibt Studierenden eine verständliche und fundierte Einführung in Kriterien wissenschaftlicher Testgüte, Testentwicklung und Itemkonstruktion, klassische und probabilistische Testtheorie, Testevaluation und Interpretation von Testresultaten. Vertiefende Kapitel beschreiben u. a. den Einsatz von Statistik-Software und die Durchführung von Faktorenanalysen. Mit Schlüsselbegriffen in der Marginalienspalte, Definitionen, Zusammenfassungen und Kontrollfragen bestens zur Prüfungsvorbereitung geeignet!

PD Dr. Markus Pospeschill lehrt und forscht in den Bereichen Methodenlehre, Forschungsmethoden und Psychodiagnostik am Institut für Psychologie der Universität Saarbrücken.
Pospeschill Testtheorie, Testkonstruktion, Testevaluation jetzt bestellen!

Autoren/Hrsg.


Weitere Infos & Material


Hinweise zur Benutzung dieses Lehrbuches 9
Vorwort zur zweiten Auflage 10
Road (Concept) Map 12
I Testtheoretische Grundlagen
1 Kriterien wissenschaftlicher Testgüte 16
1.1 Objektivität 18
1.2 Reliabilität 21
1.3 Validität 24
1.4 Normierung / Testeichung. 28
1.5 Skalierung 30
1.6 Ökonomie / Wirtschaftlichkeit 30
1.7 Nützlichkeit / Utilität 30
1.8 Zumutbarkeit 31
1.9 Unverfälschbarkeit 31
1.10 Testfairness 31
1.11 Vergleichbarkeit 32
1.12 Transparenz 32
2 Testentwicklung 35
2.1 Testplanung. 35
2.1.1 Festlegung der Erhebungsmerkmale 36
2.1.2 Festlegung der Testart 37
2.1.3 Festlegung des Geltungsbereichs 38
2.2 Strategien zur Testentwicklung 40
2.2.1 Rationale Konstruktionsstrategie 40
2.2.2 Externale Konstruktionsstrategie 41
2.2.3 Induktive Konstruktionsstrategie 42
2.2.4 Prototypenansatz. 43
2.2.5 Intuitive Konstruktionsstrategie 43
2.3 Itemkonstruktion 44
2.3.1 Items mit offenem Antwortformat 45
2.3.2 Items mit gebundenem Antwortformat 47
2.4 Fehlerquellen bei der Beantwortung von Items 58
2.4.1 Soziale Erwünschtheit 59
2.4.2 Antworttendenzen 62
2.5 Prinzipien der Itemformulierung 63
2.5.1 Itemarten 64
2.5.2 Itemverständlichkeit. 65
2.5.3 Itemvariabilität. 66
2.6 Erstellung einer Test-Betaversion 67
2.6.1 Testanweisung 67
2.6.2 Anordnung des Itempools 68
2.6.3 Erprobung der Test-Betaversion 69
3 Testevaluation 72
3.1 Datenstruktur der Messungen 72
3.2 Itemschwierigkeit 73
3.2.1 Itemschwierigkeit bei Leistungstests. 74
3.2.2 Itemschwierigkeit bei Persönlichkeitstests 76
3.3 Itemvarianz 77
3.4 Itemtrennschärfe 80
3.4.1 Berechnungen der Trennschärfe 80
3.4.2 Interpretation der Trennschärfe 82
3.4.3 Part-Whole-Korrektur 83
3.4.4 Selektionskennwert 83
3.5 Kriterien der Itemselektion. 85
3.6 Testwertermittlung 86
3.6.1 Testwertermittlung bei Leistungstests 86
3.6.2 Testwertermittlung bei Persönlichkeitstests 87
3.6.3 Statistische Maße 88
3.6.4 Normalisierung schiefer Testwertverteilungen 93
4 Klassische Testtheorie 97
4.1 Axiome der Klassischen Testtheorie 97
4.1.1 Existenzaxiom 97
4.1.2 Verknüpfungsaxiom 98
4.1.3 Unabhängigkeitsaxiom 98
4.1.4 Zusatzannahmen 98
4.1.5 Erläuterungen zum Konzept des Messfehlers 99
4.2 Bestimmung des wahren Testwertes 101
4.3 Bestimmung der wahren Varianz und Fehlervarianz 102
4.4 Bestimmung der Reliabilität 103
4.5 Reliabilität und Testlänge 104
4.6 Standardmessfehler 105
4.7 Konfidenzintervall des wahren Testwertes 107
4.8 Minderungskorrekturen. 107
4.9 Kritik an der Klassischen Testtheorie. 109
4.10 Modellbasierte Methoden zur Schätzung der Reliabilität 113
5 Probabilistische Testtheorie 114
5.1 Manifeste und latente Variablen 114
5.2 Lokale stochastische Unabhängigkeit. 116
5.3 Latent-Trait-Modelle (LTM) 119
5.3.1 Einparameter-Logistisches Modell (1PL) 122
5.3.2 Zweiparameter-Logistisches Modell (2PL) 132
5.3.3 Dreiparameter-Logistisches Modell (3PL) 133
5.4 Latent-Class-Modelle (LCA) 135
5.4.1 Allgemeine Modellgleichung der LCA 136
5.4.2 Parameterschätzung und Modelltests in der LCA 140
5.5 Modellerweiterungen 148
5.5.1 Mixed-Rasch-Modelle 148
5.5.2 Ordinales Rasch-Modell 150
5.6 Adaptives Testen 153
5.6.1 Strategien der Itemauswahl 154
5.6.2 Vor- und Nachteile adaptiven Testens. 156
II Methodische Überprüfung
6 Testgütebestimmung und Interpretation von Testresultaten 160
6.1 Reliabilität 160
6.1.1 Test-Retest-Reliabilität 161
6.1.2 Paralleltest-Reliabilität 163
6.1.3 Splithalf-Reliabilität 165
6.1.4 Interne Konsistenz. 167
6.1.5 Zusammenfassende Würdigung 170
6.2 Validität 177
6.2.1 Inhaltsvalidität 178
6.2.2 Kriteriumsvalidität 181
6.2.3 Konstruktvalidität 183
6.2.4 Zusammenfassende Würdigung 186
6.3 Norm- vs. Kriteriumsorientierung 187
6.3.1 Normorientierte Testwertinterpretation 188
6.3.2 Kriteriumsorientierte Testwertinterpretation 193
7 Faktorenanalyse 199
7.1 Exploratorische Faktorenanalyse 199
7.1.1 Extraktionsmethode 200
7.1.2 Fundamentaltheorem 201
7.1.3 Abbruchkriterien 204
7.1.4 Rotationsmethoden 206
7.1.5 Voraussetzungen zur Durchführung 208
7.2 Konfirmatorische Faktorenanalyse 212
7.2.1 Modellspezifikation 213
7.2.2 Modellidentifikation 216
7.2.3 Modellevaluation 220
7.2.4 Voraussetzungen zur Durchführung 227
7.2.5 Konfirmatorische MTMM-Analyse 231
Anhang
Notationstabelle lateinischer Buchstaben 238
Notationstabelle griechischer Buchstaben: 242
Literatur 243
Sachregister 249


Testentwicklung

Der Prozess der Entstehung eines Tests verläuft von der ersten Testplanung über die Testentwicklung bis hin zur Erstellung und vorläufigen Erprobung einer Vorversion mit dem Ziel der Revision zum finalen Test. Gerade in dieser systematischen Genese liegt die Besonderheit psychometrischer Tests, die psychische Merkmale quantitativ auf der Grundlage testtheoretischer Überlegungen konzipieren und erfassen, systematisch anhand standardisierter Verfahren auswerten und damit eine metrisch vergleichende Diagnostik gewährleisten.

Psychologische Tests weisen aus diesem Grund eine komplexe Struktur auf. Ihre Bestandteile – die Testaufgaben bzw. Items – sind zumeist zahlreich, auf unterschiedliche Facetten eines Konstruktes gerichtet und sollen eine messgenaue Erfassung des Konstruktes unter Minimierung von Messfehlern erlauben. Ziel ist es, über mehrere Items eine Abschätzung der Reliabilität zu erzielen.

2.1 Testplanung

Die Planung eines Tests beginnt grundsätzlich mit Überlegungen, das zu messende Konstrukt möglichst genau zu definieren bzw. seine Charakteristika festzulegen. Dies geschieht im Idealfall auf der Basis eines psychologischen Modells oder einer psychologischen Theorie. Ist dies (noch) nicht möglich, müssen zunächst vorläufige Explikationen oder Arbeitsmodelle reichen, bis sie im Verlauf weiterer Forschungen präzisiert werden können (s. Fisseni, 2004). Auch Befragungen von Experten oder Personengruppen, die besonders hohe oder niedrige Ausprägungen der entsprechenden Fähigkeit oder Eigenschaft aufweisen, können wichtige Hinweise auf verhaltensrelevante Aspekte des Konstruktes liefern.

Definition des
Konstruktes

Zur weiteren Eingrenzung des Konstruktes sollte aus der Literatur (Lehrbüchern, Überblicksartikeln etc.), aus vorhandenen Theorien, empirischen Befunden und eigenen Überlegungen eine Arbeitsdefinition des Konstruktes formuliert werden. Auf der Basis einer psychologischen Theorie und einer ersten Eingrenzung des Konstruktes können dann weitere Entscheidungen hinsichtlich der Natur der Merkmale, der Testart und des angestrebten Geltungsbereiches des Tests getroffen werden.

2.1.1 Festlegung der Erhebungsmerkmale

Qualitäten von Erhebungsmerkmalen

In Abhängigkeit von der psychologischen Theorie und der Operationalisierbarkeit des Konstruktes können die Erhebungsmerkmale verschiedene Qualitäten und Eigenschaften aufweisen.

Qualitative Merkmale (mit kategorialen Ausprägungen) vs. quantitative Merkmale (mit graduellen Abstufungen): Aus der Natur der Merkmale resultieren im ersten Fall nominalskalierte, im zweiten Fall ordinal- oder intervallskalierte Messungen. Qualitative Merkmale unterteilen Personengruppen lediglich anhand einzelner Kategorien (z. B. Geschlecht, Familienstand oder letzter Schulabschluss), während quantitative Merkmale graduell abgestufte Merkmalseinteilungen erlauben (z. B. anhand eines Intelligenzquotienten oder anhand der erreichten Punktezahl in einem Test).

Eindimensionale (nur ein Konstrukt repräsentierende) Merkmale vs. mehrdimensionale (mehr als ein Konstrukt repräsentierende) Merkmale: Fragen zur Ein- oder Mehrdimensionalität eines Konstruktes lassen sich über Exploratorische Faktorenanalysen (EFA) oder andere Korrelationsstatistiken klären und später ggf. in einzelnen Subtests (Untertests) berücksichtigen. Ein typisches Beispiel für ein mehrdimensionales Konstrukt mit verschiedenen Faktoren ist z. B. „Lebensqualität“, mit dem die materiellen und soziokulturellen Lebensbedingungen einzelner Individuen in einer Gesellschaft zusammengefasst werden (u. a. Einkommen, Bildung, Berufschancen, sozialer Status, Gesundheit). Tests, die entsprechend nur ein Konstrukt erfassen, werden als unidimensionale Tests, Tests die mehrere Konstrukte erfassen, als multidimensionale Tests bezeichnet. Letztere zerfallen häufig in sog. Subtests, die wiederum unidimensional sind.

Zeitlich stabile Merkmale (Traits) vs. zeitlich veränderliche Merkmale (States): Persönlichkeitsmerkmale werden als Traits aufgefasst, während situationsabhängige Zustände als States betrachtet werden.

2.1.2 Festlegung der Testart

Wiederum ist in Abhängigkeit vom Konstrukt eine Entscheidung bezüglich der Testart zu treffen (eine genauere Differenzierung findet sich in Pospeschill & Spinath, 2009):

Leistungstests

Fähigkeiten und Leistung

Fähigkeits- und Leistungstests erfassen Konstrukte, die sich auf Dimensionen der kognitiven Leistungsfähigkeit (maximales Leistungsverhalten) beziehen. Zentrale Konstrukte sind hier z. B.: Problemlösefähigkeit, Wissensreproduktion, spezifische Fähigkeiten, Ausdauer, Konzentrationsvermögen. Eine Unterteilung erfolgt nach: Speed- oder Geschwindigkeitstests (mit einfachen Aufgaben, aber mit Begrenzung der Bearbeitungszeit und Bewertung der richtigen Antworten), Power- oder Niveautests (mit schwierigen Aufgaben, ohne Zeitbegrenzung und Bewertung über das Schwierigkeitsniveau der Aufgaben) und Mischformen (Speed-Power-Tests) aus beiden Testarten.

Persönlichkeitstests

Einstellungen und Verhalten

Persönlichkeitstests erfassen das für eine Person typische Verhalten im Zusammenhang mit spezifischen Ausprägungen von Persönlichkeitsmerkmalen (Verhaltensdispositionen), z. B. aktuelle Zustände (wie Angst), Motivation, Interesse, Einstellungen, Meinungen oder spezifische Persönlichkeitseigenschaften. Folgerichtig wird keine Leistung erwartet, sondern eine Selbstauskunft über persönliches Verhalten (Persönlichkeitsfragebogen). Es gibt keine „richtigen“ oder „falschen“ Antworten, sondern nur unterschiedlich hohe Ausprägungen von Merkmalen. Bei der Beantwortung spielen Aspekte der Spontaneität, der Wahrheitstreue und die Motivation der Probanden eine zentrale Rolle. Subjektive Angaben neigen dabei allerdings prinzipiell zur Verfälschbarkeit.

Objektive Persönlichkeitstests

Objektive Persönlichkeitstests besitzen keine Augenscheinvalidität, d. h. die Probanden können aus der Testinstruktion und den Testaufgaben nicht (wirklich) erkennen, was der Test eigentlich misst. Entsprechend wird auf das Merkmal nicht über subjektive Urteile der eigenen Person, sondern über das Verhalten in einer standardisierten Testsituation zurückgeschlossen.

Projektive Verfahren

Projektive Verfahren (sog. Persönlichkeits-Entfaltungstests) erfassen die Gesamtpersönlichkeit anhand qualitativer Marker. Das Testmaterial ist dabei zumeist bildhaft und mehrdeutig. Dadurch soll den Probanden Gelegenheit gegeben werden, unbewusste und verdrängte Bewusstseinsinhalte in dieses Bildmaterial zu projizieren. So gesehen sind auch diese Verfahren für die Probanden undurchschaubar. Projektive Verfahren erfüllen die Testgütekriterien nur in Ausnahmefällen und dienen daher eher zumeist als Explorationshilfen. Vor einer Verwendung ist daher immer zu prüfen, ob sich die benötigten diagnostischen Daten nicht durch alternative Verfahren erheben lassen, deren psychometrische Gütekriterien besser erfüllt sind.

2.1.3 Festlegung des Geltungsbereichs

Der Geltungsbereich legt die Einsatzbereiche und Anwendungsmöglichkeiten eines Tests fest und ist von verschiedenen Faktoren abhängig.

Heterogenität vs. Homogenität von Aufgaben

inhaltliche Vielfalt

Mit Anwachsen des Geltungsbereichs eines Tests müssen auch mehr Informationen erfasst werden, damit die geforderten Kriterien mit ausreichender Genauigkeit vorhergesagt werden können. Dies erhöht allerdings auch die Heterogenität der Aufgaben. Dem steht die Empfehlung gegenüber, den Geltungsbereich unter testtheoretischen Gesichtspunkten möglichst eng zu definieren, also nur gezielte Verhaltens- oder Leistungsaspekte zu erfassen, was wiederum die Anzahl der erfassten Kriterien einschränkt. Damit gewinnen die Aufgaben an Homogenität. Die notwendige Entscheidung hat z. B. Auswirkungen auf die Kriteriumsvalidität, da mit der Auswahl der Aufgaben auch die Kriterien festgelegt werden, die der Test vorhersagen soll.

Analysestichprobe, Eichstichprobe und Personenkreis des Tests

Zielgruppe

Sowohl die Zusammensetzung der Stichprobe zur Erprobung des Tests (Analysestichprobe), zur Gewinnung von Normwerten (Eichstichprobe) sowie eine Entscheidung über die Zielgruppe beeinflussen den Geltungsbereich des Tests maßgeblich. Während die Analysestichprobe der Itemanalyse dient, soll anhand der Eichstichprobe die Validität des Tests festgestellt und eine Normierung der Ergebnisse vorgenommen werden. Beide Stichproben sind unabhängig voneinander zu ziehen. Beide Stichproben (insbesondere die Eichstichprobe) sollten die gleichen Ein- und Ausschlusskriterien erfüllen, die auch für den Personenkreis zutrifft, für den der Test Aussagen treffen will. Ist die avisierte Zielgruppe eher breit angelegt, müssen sich die Items über einen größeren Schwierigkeits- bzw. Merkmalsbereich erstrecken und ggf....


Pospeschill, Markus
PD Dr. Markus Pospeschill lehrt und forscht in den Bereichen Methodenlehre, Forschungsmethoden und Psychodiagnostik am Institut für Psychologie der Universität Saarbrücken.



Ihre Fragen, Wünsche oder Anmerkungen
Vorname*
Nachname*
Ihre E-Mail-Adresse*
Kundennr.
Ihre Nachricht*
Lediglich mit * gekennzeichnete Felder sind Pflichtfelder.
Wenn Sie die im Kontaktformular eingegebenen Daten durch Klick auf den nachfolgenden Button übersenden, erklären Sie sich damit einverstanden, dass wir Ihr Angaben für die Beantwortung Ihrer Anfrage verwenden. Selbstverständlich werden Ihre Daten vertraulich behandelt und nicht an Dritte weitergegeben. Sie können der Verwendung Ihrer Daten jederzeit widersprechen. Das Datenhandling bei Sack Fachmedien erklären wir Ihnen in unserer Datenschutzerklärung.