Читать книгу: «Einführung in die sonderpädagogische Diagnostik», страница 7

Шрифт:

Es besteht im Zusammenhang mit der Interpretation die Gefahr, dass etwa einem Kind ein bestimmtes Verhalten zugeschrieben wird, dass eine gewisse Fixierung erfolgt, deshalb wird gefordert, dass die Interpretation der Testergebnisse – vor allem im pädagogischen Raum – stets auf das Moment der Förderung und Therapie gerichtet sein soll (vgl. Kap. 3.4: Ausführungen über „Förderdiagnose“, ferner Bundschuh 2019).

4.2 Gütekriterien psychologischer Tests – sonder- und heilpädagogische sowie lerntherapeutische Relevanz

In den bisherigen Ausführungen wurden mehrmals Problembereiche tangiert, die z. B. folgende Fragestellungen aufwarfen: Wie zuverlässig ist eigentlich ein Testergebnis? Wie hoch ist die Wahrscheinlichkeit einer Verfälschung von Testergebnissen? Nach welchen Kriterien können Güte und Brauchbarkeit eines Testverfahrens beurteilt werden? Antworten auf solche und ähnliche Fragen muss der förderdiagnostisch arbeitende Pädagoge finden, wenn er in irgendeiner Weise mit psychologischen Tests konfrontiert wird.

Die folgenden Ausführungen stellen den Versuch dar, systematisch die aufgeworfenen Fragen zu behandeln.

In der Literatur, die sich mit Testfragen auseinandersetzt, werden meist auch die Gütekriterien von Tests besprochen. So bei Michel (1971), Kleber (1978), Dieterich (1973), Steinack (1973), Büscher (1974), Zimmermann (1974), Klausmeier und Ripple (1975), Lienert (1998), Ingenkamp und Lissmann (2008) um nur einige zu nennen.

Man könnte fragen, warum in den vorliegenden Ausführungen ebenfalls eine Darstellung der Gütekriterien erfolgt. Die Gütekriterien sollen hier vorgestellt werden, weil:

– die vorliegenden Ausführungen zwar in knapper Form, aber doch umfassend informieren sollen;

– sonder- und heilpädagogische Aspekte in der genannten Literatur zu wenig spezifisch berücksichtigt werden;

– Gütekriterien ein wichtiges Hilfsmittel bei der Einschätzung der Relevanz eines Testverfahrens darstellen;

– eine kritische Betrachtung notwendig ist.

Als Gütekriterien von Tests bezeichnet man:

1. Objektivität

2. Reliabilität (Zuverlässigkeit)

3. Validität (Gültigkeit)

4. Normierung (Eichung)

5. Vergleichbarkeit

6. Ökonomie

7. Nützlichkeit

Lienert vertritt die Meinung, dass zu einem guten Test zunächst die folgenden drei Hauptgütekriterien gehören (1998, 7):

1. Er soll objektiv,

2. reliabel,

3. valide sein.

Vier Nebengütekriterien bezeichnet er als „bedingte Forderungen“ an einen Test:

4. Er soll normiert,

5. vergleichbar,

6. ökonomisch,

7. nützlich sein.

4.2.1 Objektivität

Unter Objektivität versteht man zunächst allgemein „den Grad, in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind. Ein Test wäre demnach vollkommen objektiv, wenn verschiedene Untersucher bei demselben Pbn zu gleichen Ergebnissen gelangten“ (Lienert 1998, 7). Gemeint ist, dass die Ergebnisse von der Person des Testleiters unabhängig sind. Man kann in diesem Zusammenhang auch von „interpersoneller Übereinstimmung“ der Untersucher sprechen. In der Fachsprache wird die Objektivität im testpsychologischen Sinne weiter differenziert und zwar in die Durchführungs-, Auswertungs- und Interpretationsobjektivität sowie in die Forderung nach Objektivität der diagnostischen Konsequenzen (Förderungsansätze).

4.2.1.1 Durchführungs- oder Darbietungsobjektivität

Dieser Objektivitätsaspekt besagt, dass die Testergebnisse unabhängig vom Verhalten des Testleiters sein sollen. Die sozialen Interaktionen müssten demnach auf das in der Instruktion vorgegebene Maß beschränkt bleiben. Es ist allerdings sehr fraglich, ob diese Forderung bei einem Teil der Kinder, mit denen wir es zu tun haben, in vollem Umfang eingehalten werden kann, denn es gibt Problemkinder, die ohne besondere Ermutigung, ohne Lob, vielleicht auch ohne Pausen, nicht testfähig wären (z. B. Kinder mit autistischen Zügen). Andererseits gehört zur Darbietungsobjektivität, dass sich der Testleiter an die Standardisierungsbedingungen hält. So sollte auch die äußerliche Situation für jeden Pb gleich sein.

Erfahrene Testleiter neigen dazu, die Instruktionen nicht zu verlesen, sondern sie aus dem Gedächtnis wiederzugeben. Hierbei könnten sich aber kleinere Veränderungen einschleichen, die erhebliche Auswirkungen auf die Testergebnisse haben. Bei der heutigen Vielzahl von Testverfahren und bei der manchmal nicht unerheblichen Länge von Instruktionen muss dringend empfohlen werden, nicht ohne die vorgegebenen Instruktionen zu arbeiten, weil die Gefahr zusätzlicher Fehlerquellen doch sehr groß ist. Es gibt jedoch auch Testverfahren, bei denen es empfehlenswert erscheint, die Instruktion eindeutig so zu geben, dass der Pb weiß, was von ihm verlangt wird. Zusätzliche Erklärungen oder gegebenenfalls auch Vorzeigen werden nötig. So muss etwa das Kind wissen, wie die von ihm verlangte motorische Übung im Lincoln-Oseretzky-Test in der Hamburger Version oder in der Kurzform 18 (Eggert) vonstattengeht. Ähnlich ist es auch in der Einübungsphase beim Progressiven Matrizentest (Raven) oder bei Teilen des Snijders-Oomen-Tests (S. O. N. von Snijders und Snijders-Oomen). Weiterhin dürfte es gerade bei Problemkindern wichtig sein, bei der Instruktionsphase Blickkontakt mit dem entsprechenden Probanden zu halten; diese Phase sollte nicht völlig monoton und steril ablaufen, vielmehr sollte der Testleiter die Haltung eines Partners einnehmen.

Im Bereich der sonderpädagogischen Diagnostik ergeben sich teilweise schwerwiegende Probleme. So kann es sein, dass die Instruktion nicht für alle Pbn, vor allem auch für milieugeschädigte und sprachgestörte Kinder die gleiche Bedeutung hat. Es ist durchaus denkbar, dass Kinder mit Behinderungen nicht selten Testaufgaben nicht lösen können, weil sie die Instruktionen nur teilweise, falsch oder überhaupt nicht verstehen, vielleicht auch die sprachlichen Voraussetzungen zum Verstehen nicht besitzen.

Nachdem der Sonderpädagoge mit diesem Sachverhalt rechnen muss, ihn kennt, besteht bei ihm die Neigung zu besonderen Erklärungen, Wiederholungen der Testinstruktion mit jeweils anderen Worten und neuer Akzentuierung. Es besteht die Wahrscheinlichkeit, dass die Testleistung – weil eben die Instruktion nicht in ihrer ursprünglichen Form, also standardisiert, gegeben wurde – eine zu gute Bewertung erfährt (Milde-Effekt).

Damit kann die Durchführungsobjektivität nicht mehr als gegeben angesehen werden. Bezüglich der besonderen Problematik im Bereich der sonderpädagogischen Diagnostik scheinen vier Aspekte von Bedeutung zu sein:

1. Bei gut standardisierten, psychometrischen Verfahren muss man die vorgegebenen Instruktionen und Testbedingungen einhalten.

2. Es gibt Verfahren, bei denen zusätzliche Erklärungen in einem bestimmten Rahmen abgegeben werden dürfen bzw. müssen.

3. Bei besonders schwierigen Kindern werden manchmal eine Änderung der zeitlichen Abfolge von Testaufgaben, das Einlegen von Pausen, eine zusätzliche Ermutigung oder Lob nötig sein. Solche Maßnahmen sollten jedoch grundsätzlich im Gutachten vermerkt werden.

4. Es gibt Testverfahren, bei denen bei jüngeren, bei stark gehemmten und bei auf sozialen Kontakt angewiesenen Kindern zusätzliche Motivation oder Ermutigung empfohlen und nahe gelegt wird.

4.2.1.2 Auswertungsobjektivität

Sie bezieht sich auf die Auswertung nach vorgegebenen Regeln. Auswertungsobjektivität ist gegeben, wenn verschiedene unabhängige Auswerter die Testergebnisse in identischer Weise deuten, wenn sie bei gleichen Protokollen zu gleichen Resultaten kommen. Bei Leistungstests, bei Fragebogen, wenn es z. B. um die Unterscheidung „richtig“ oder „falsch“ geht, oder bei gebundenen Aufgaben (z. B. bei „multiple choice“-Verfahren) ist die Auswertungsobjektivität leicht zu sichern. Kaum oder weniger gegeben ist diese Objektivität, wenn offene Aufgaben vorliegen, die freie Antworten zum Ziel haben, wie dies teilweise bei Tests aus der Binet-Reihe (Geschichten zu Bildern erzählen) oder bei wenigen Untertests im Hamburg-Wechsler-Intelligenztest für Kinder der Fall ist (z. B. „Allgemeines Verständnis“, „Wortschatztest“).

Offensichtlich kann die Objektivität der Auswertung auch bei Verfahren gering sein, die Kreativität (Einfallsreichtum, Produktivität) zu erfassen suchen, denn Spontaneität und Kreativität können nur schwer mit dem Kriterium der Objektivität in Einklang gebracht werden.

Die Auswertungsobjektivität ist bei den „Projektiven Verfahren“ nicht gesichert (vgl. Kap. 4.5.2). Auf diese Problematik soll an dieser Stelle jedoch nur hingewiesen werden, sie wird im Zusammenhang mit den verschiedenen Testarten zu diskutieren sein.

4.2.1.3 Interpretationsobjektivität

Hier wird gefordert, dass die Interpretation der Testergebnisse von der Person des Testleiters unabhängig sein soll; aufgrund eines vorliegenden Testbefundes sollen verschiedene unabhängige Fachleute (Psychologen, Sonderpädagogen) zu gleichen Aussagen bezüglich eines Probanden kommen. Die Interpretationsmöglichkeit muss durch exakte Angaben des Testautors klar und konkret dargestellt werden. Man kann wohl nicht ganz der folgenden Darstellung Lienerts zustimmen: „Die Interpretationsobjektivität ist vollkommen und zugleich trivial, wenn es sich um normierte Leistungsteste oder Fragebogen handelt, in welchen die Auswertung einen numerischen Wert liefert, der die Position des Pb entlang der Testskala festlegt …“ (1998, 8). Es gibt Testverfahren, bei denen ein Skalenwert nicht befriedigen kann, so wird im Hand-Dominanz-Test (Steingrüber / Lienert 1976) zwar zum Ausdruck gebracht, in welchem Maße ein Pb Links- oder Rechtshänder ist, man erfährt aber nichts darüber, welcher interpretatorische Wert einer solchen Feststellung beizumessen ist. Damit wurde bereits die Frage nach der diagnostischen Konsequenz oder nach den Förderungsmöglichkeiten angesprochen.

4.2.1.4 Objektivität der „diagnostischen Konsequenzen“ oder der Förderungsansätze

Gemeint ist, dass das Testhandbuch auch Hinweise über Maßnahmen enthalten soll, die aufgrund einer bestimmten Diagnose einzuleiten sind. Das würde bedeuten, dass der Diagnostiker eindeutig wissen müsste, ab welchem Punktwert ein Kind eingeschult werden kann, wann eine Therapie und vielleicht sogar welche Therapie angezeigt ist. Dabei ist allerdings zu bedenken, dass Punktwerte nicht als absolut genommen werden dürfen, dass sie nicht den „wahren Wert“ darstellen, vielmehr mit „Fehlern“ behaftet sind. Die Forderung, dass Maßnahmen unmittelbar von Punktwerten abhängen sollten, wird wohl utopisch sein, es würde bereits genügen, wenn die jeweiligen Testautoren Zusammenhänge zwischen gewissen Grenzbereichen und zu ergreifenden Maßnahmen aufzeigen würden. Gerade auch im Bereich sonderpädagogischer Diagnostik wären solche Hinweise dringend nötig.

Es darf doch wohl nicht die Intention eines Tests sein, die Leistungen von Personen auf Normenskalen einzuordnen und zu klassifizieren, vielmehr geht es um die Konsequenz bestimmter Ergebnisse im Hinblick auf einzuleitende Trainings- und Lernvorgänge, auf Modifikation, auf Förderung ganz allgemein.

Abschließend kann man sagen, dass die Wahrscheinlichkeit einer Verminderung der Objektivität mit dem steigenden Schweregrad von Beeinträchtigungen zunimmt. Unter pädagogischem Aspekt gesehen spielt Objektivität in diesem Problembereich schwere Behinderung an sich überhaupt keine Rolle.

4.2.2 Reliabilität

Im Zusammenhang mit der Reliabilität ist zu fragen, ob das Testverhalten eines Probanden in einem bestimmten Test generalisierbar ist, also ob die Person, die einem Test unterzogen wird, sich bei anderer Gelegenheit, aber gleichen oder ähnlichen Aufgaben auch gleich verhalten würde. Man versteht unter dem Gütekriterium der Testzuverlässigkeit „den Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal mißt, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht (welche Frage ein Problem der Validität ist)“ (Lienert 1998, 9). Wäre also die Reliabilität eines Tests hoch, so dürfte der Testwert eines Probanden kaum schwanken, der Test müsste bei einer Wiederholung unter gleichen Bedingungen zu dem gleichen Ergebnis führen. Etwas verallgemeinert kann man sagen: Ein Test ist zuverlässig, wenn er das, was er zu messen vorgibt, zuverlässig, genau, exakt, gut misst.

Es ist üblich, die Zuverlässigkeit eines Tests als Korrelationskoeffizient anzugeben. Einen Korrelationskoeffizienten kann man als Ausdruck des Zusammenhanges zwischen zwei oder mehreren Variablen bezeichnen. Es wird also im Zusammenhang mit der Reliabilität eine Beziehung hergestellt, z. B. zwischen einer ersten und einer zweiten Untersuchung mit dem gleichen Verfahren oder mit einem Parallelverfahren (Ähnlichkeit mit dem ersten Verfahren ist nachgewiesen).

Ein Korrelationskoeffizient wird mit dem Symbol „r“ bezeichnet. Wird eine Korrelation in Form von rtt dargestellt, so bedeutet dies, dass es sich um eine Korrelation zwischen Tests und Wiederholung, zwischen Testteilen oder zwischen Paralleltests handelt, also um eine „Test-Test-Korrelation“.

Demnach existiert die Reliabilität eines Tests an sich nicht, vielmehr werden nur die Ergebnisse verschiedener methodischer Zugänge zum Ausdruck gebracht.

Um den Begriff der Reliabilität verstehen und Reliabilität interpretieren zu können, muss etwas zu Korrelation allgemein und speziell etwas zum Zuverlässigkeitskoeffizienten ausgesagt werden. Man könnte natürlich auch die Frage stellen, welche Notwendigkeit überhaupt besteht, sich mit der Reliabilität und Korrelation zu beschäftigen. Die Auseinandersetzung mit dieser Problematik ist deshalb wichtig, weil die Höhe der Reliabilität Auskunft darüber gibt, ob man einem Testergebnis vertrauen kann. Ist die Reliabilität eines Tests gering, darf man dem einzelnen Testergebnis nicht vertrauen, denn es könnte fehlerhaft und zufällig entstanden sein.

Der bereits angeführte Korrelationskoeffizient (r) ist so angelegt, dass er Werte zwischen r = +1,00 und r = –1,00 annimmt.

Es kann nicht die Aufgabe dieser Ausführungen sein, den Leser in die Lage zu versetzen, Formeln für Korrelationsberechnungen abzuleiten oder Korrelationen zu berechnen, vielmehr geht es um das Verständnis, um die Interpretation von Korrelationskoeffizienten. Idealtypisch ist das folgende Beispiel:

Ein Lehrer lässt in seiner Klasse zwei Klassenarbeiten schreiben. Drei Extremfälle könnten auftreten:

Fall 1: Die Schüler schneiden bei beiden Arbeiten gleich gut ab. Dies kann man deutlich erkennen, wenn man die Schüler nach der Güte ihrer Leistungen in eine Rangreihe bringt (Abb. 2).

Abb. 2: Korrelationskoeffizient Fall 1

Die Ergebnisse bei der Arbeit 1 sind genauso angeordnet wie bei der Arbeit 2. Höchstmögliche positive Beziehung, Korrelationskoeffizient: r = +1,00 („vollständiger und gleichsinniger Zusammenhang zwischen zwei Messreihen“)

Fall 2: Der beste Schüler bei der Arbeit 1 schneidet bei der Arbeit 2 am schlechtesten ab, der zweitbeste am zweitschlechtesten, der drittbeste am drittschlechtesten usw., und der schlechteste schneidet am besten ab. Den Zusammenhang zwischen diesen Arbeiten kann man als gegenläufig bezeichnen (Abb. 3).

Abb. 3: Korrelationskoeffizient Fall 2

Die Ergebnisse bei der Arbeit 1 sind genau entgegengesetzt angeordnet gegenüber den Ergebnissen bei der Arbeit 2. Höchstmögliche negative Beziehung, Korrelationskoeffizient: r = –1,00 („vollständiger, aber gegenläufiger Zusammenhang“).

Fall 3: Schüler, die in der ersten Arbeit gut abgeschnitten haben, schneiden in der zweiten Arbeit z. T. gut und z. T. schlecht ab, während die schlechten Schüler von Arbeit 1 genauso oft in der 2. Arbeit gut und schlecht abschneiden wie zuvor die guten. Zwischen den Ergebnissen der beiden Arbeiten besteht kein Zusammenhang (Abb. 4).

Abb. 4: Korrelationskoeffizient Fall 3

Die Ergebnisse der Arbeit 1 sind im Vergleich zu den Ergebnissen bei der Arbeit 2 rein zufällig angeordnet. Keine Korrelation: r ~ 0,00 (kein erkennbarer Zusammenhang).

Beispiele für Korrelationsberechnungen können sein: Berechnungen von Zusammenhängen zwischen den Fächern Naturlehre und Rechnen, zwischen Lernbehinderung und Konzentrationsfähigkeit, zwischen den Ergebnissen von Paralleltests, zwischen den Ergebnissen von Testwiederholungen …

Zusammenfassend kann man hervorheben: Man kann den Grad eines Zusammenhanges zwischen den Messreihen von zwei veränderlichen Merkmalen durch einen Korrelationskoeffizienten angeben. Dieser bewegt sich je nach dem Zusammenhang zwischen r = +1,00 und r = –1,00. Praktisch werden diese Werte ganz selten erreicht. Erhielte man einen Korrelationskoeffizienten von r = 0,00, würde dies bedeuten, dass zwischen den beiden Merkmalen kein durch Korrelationskoeffizienten ausdrückbarer Zusammenhang besteht.

Wichtig ist es zu wissen: Der Korrelationskoeffizient kennzeichnet den Grad der Gemeinsamkeit zweier Merkmale.

Den Anteil der Gemeinsamkeit – genauer gesagt handelt es sich hier um Varianzanteile – kann man auch in Prozenten ausdrücken, indem das Quadrat des Korrelationskoeffizienten mit 100 multipliziert wird. Korrelieren z. B. die Ergebnisse eines Intelligenztests mit der Wiederholung dieses Tests mit r = 0,90, dann erfassen sie 100 × 0,902 = 81 %.

Weitere Beispiele:

r = 0,50: Zuverlässigkeitsmaß zwischen beiden Tests: r2 = 25 %

r = 0,30: Zuverlässigkeitsmaß zwischen beiden Tests: r2 = 9 %

r = 0,20: Zuverlässigkeitsmaß zwischen beiden Tests: r2 = 4 %

(r2 wird auch als Zuverlässigkeitsmaß bezeichnet).

Diese Beispiele zeigen, wie niedrig der Grad an Gemeinsamkeit oder auch wie unzuverlässig ein Test misst, wenn der Korrelationskoeffizient unter r = 0,50 liegt.

4.2.2.1 Bedingungen für Reliabilität

1. Stabilität des zu messenden oder gemessenen Merkmals. Das zu messende Merkmal darf sich nicht (rasch) verändern, es muss zumindest relativ stabil sein. (Stimmungen könnten sich – besonders bei manchen Personen – rasch ändern; ebenso Kenntnisse für Prüfungen.) Als relativ stabiles Merkmal kann man die Intelligenz eines Menschen bezeichnen, falls sie nicht durch akute Ereignisse (Alkohol, depressive Verstimmung, starke Frustration …) oder durch andauernde ungünstige Einflüsse (Milieu, fortgesetzte Kindesmisshandlung, Hospitalismus …) in ihrer Entfaltung und damit auch Messbarkeit beeinträchtigt ist. Als relativ stabil kann man sicherlich auch rechtschriftliche und mathematische Fertigkeiten bezeichnen.

2. Gesicherte Objektivität der Durchführung, Auswertung und der Interpretation, der Testbedingungen allgemein.

3. Genügend Aufgaben (Items), damit ein Persönlichkeitsmerkmal auch erschöpfend erfasst wird.

Es ist deutlich geworden, dass zur Bestimmung eines Korrelationskoeffizienten ein Vergleich von Merkmalen (Variablen, Alternativen) durchgeführt werden muss. Je nach Art der Bestimmung der Zuverlässigkeit eines Tests unterscheidet man vier Zugänge: Paralleltest-, Retest-, Split-half-Reliabilität und mittels Konsistenzanalyse.

4.2.2.2 Methoden zur Bestimmung der Zuverlässigkeit eines Tests

Paralleltestmethode: Voraussetzung: Von einem Test müssen zwei gleichwertige Formen vorhanden sein; strenge Vergleichbarkeit dieser Formen.

Bestimmung der Paralleltest-Reliabilität: Der Test wird in seinen zwei Formen (A / B) denselben Personen an zwei nicht weit auseinanderliegenden Zeitpunkten (etwa nächster Tag) zur Lösung vorgelegt. Je genauer die Ergebnisse beider Testdurchführungen übereinstimmen, umso größer ist die Reliabilität. Die Reliabilität wird in Form eines Korrelationskoeffizienten dargestellt.

Forderung an einen guten Test: Paralleltest-Reliabilität von r = 0,85 und mehr.

Beispiele für Tests mit parallelen Formen: Grundintelligenztest von Cattell / Weiss (Formen A / B),

Begabungstest-System (B-T-S) von Horn (Formen A / B).

Für Gruppentests ist das Vorliegen paralleler Formen eine unabdingbare Forderung.

Retestmethode (Testwiederholungsmethode): Bestimmung der Retest-Reliabilität: Derselbe Test wird gleichen Personen zu verschiedenen Zeitpunkten vorgelegt.

Probleme dieser Methode: Wiederholungszeitpunkt muss zeitlich entfernt liegen, damit sich die Personen nicht an frühere Lösungen erinnern können. Liegen die beiden Zeitpunkte jedoch zu weit auseinander, könnten sich die Bedingungen in der Person geändert haben (Motivation, andere Interessen, Entwicklung eines Kindes, Veränderungen – Probleme der Stabilität eines Merkmals).

Forderung: Korrelationskoeffizient bei dieser Methode sollte über r = 0,90 liegen.

Bei einer Reihe von Testverfahren wäre eine zweite Testung nicht möglich, weil sie weniger stabile Merkmale erfassen sollen. Bei solchen Tests berechnet man die

Split-half-Reliabilität (Testhalbierungs-Reliabilität): Notwendigkeit: Bei Tests, die „relativ instabile, flukturierende oder stark übungsabhängige Merkmale erfassen sollen“ – das zu messende Merkmal ändert sich.

Bestimmung der Split-half-Reliabilität: Einmalige Durchführung des entsprechenden Tests.

Aufteilung des Tests in 2 Hälften (Behandlung wie Paralleltests) – Berechnung des Korrelationskoeffizienten zwischen beiden Hälften.

Probleme dieser Methode: Bei der Aufteilung des Tests (Aufgaben mit geraden und ungeraden Nummern) sollten die Testhälften hinsichtlich Trennschärfe und Schwierigkeitsgrad gleich sein.

Forderung: Bei der Korrelation der Ergebnisse beider Testhälften sollte der Reliabilitätskoeffizient r = 0,90 und mehr betragen.

Testhalbierungs- und Paralleltestmethode sind sich ähnlich.

Konsistenzanalyse: Bestimmung (Vorgehen): Jede Testaufgabe wird für sich betrachtet, der Test wird also nicht halbiert, sondern in so viele Teile zerlegt, wie er Aufgaben hat. Der Korrelationskoeffizient geht praktisch aus dem Vergleich jeder Aufgabe mit jeder hervor.

Notwendigkeit: Wenn sich das zu messende Merkmal schnell verändert (vgl. Testhalbierungs-Reliabilität).

Zusammenfassung

1. Reliabilität besagt, dass ein Test bei zeitlich verschiedenen Messungen an gleichen wie an verschiedenen Personen dieselben Fähigkeiten oder Persönlichkeitsmerkmale messen sollte. Ein Test sollte in seiner Funktion als Messinstrument unveränderlich sein, d. h., er soll Stabilität besitzen.

In einer relativ weiten Definition wird zum Ausdruck gebracht, ein Test ist dann zuverlässig, wenn er ein Persönlichkeitsmerkmal exakt, genau und gut misst.

Problem: Aber nicht alle Persönlichkeitsmerkmale sind stabil!

2. Unter Korrelation versteht man den Grad der Gemeinsamkeit zweier Merkmale.

3. Es gibt verschiedene Methoden der Reliabilitätsbestimmung. Die Zuverlässigkeit eines Tests hängt nicht nur von dem jeweiligen Korrelationskoeffizienten, sondern auch von der verwendeten Methode zur Bestimmung dieses Koeffizienten ab.

4. Tests mit einem Zuverlässigkeitskoeffizienten von mindestens rtt = 0,80 können als ausreichend, mit rtt = 0,90 und mehr als gut bezeichnet werden.

Es kann keinesfalls eine annähernd gesicherte Entscheidung bei Einzelpersonen getroffen werden, wenn die Testreliabilität unter 0,80 liegt.

5. Der Reliabilitätskoeffizient stellt eine wesentliche Voraussetzung für die Berechnung des Standardmessfehlers dar.

6. Kritik: Die Forderung nach hoher Reliabilität und der Gedanke an Förderung stehen sich an sich im Wege. Der förderdiagnostisch arbeitende Pädagoge möchte ja erreichen, dass sich etwas ändert.

4.2.3 Validität (Gültigkeit)

G. Lienert versteht unter Validität eines Tests den Grad der Genauigkeit, „mit dem dieser Test dasjenige Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen oder vorhersagen soll, tatsächlich mißt oder vorhersagt“ (1998, 10). Es geht also bei der Genauigkeit um die Frage, ob ein Testverfahren wirklich das misst, was es messen soll oder was es zu messen beansprucht.

Geht es z. B. in einem Test um die Erfassung logischen Denkens, so könnte die Gefahr bestehen, dass ein Kind vielleicht Aufgaben nicht lösen kann, weil es aufgrund mangelnden Sprachverständnisses die Instruktion nicht oder nicht richtig versteht. Das Kind scheitert demnach nicht an der Fähigkeit, die der Test erfassen soll, sondern an sprachlichen Mängeln, die möglicherweise auf die Umwelt zurückzuführen wären. Die Validität eines solchen Tests wäre demnach gering.

Manchmal wird im Zusammenhang mit Validität auch von „Treffsicherheit“ gesprochen, d. h. wie genau oder wie sicher ein Merkmal gemessen wird.

Validität kann nicht als Eigenschaft eines Tests betrachtet werden, vielmehr geht sie hervor aus bestimmten methodischen Vorgehensweisen.

Es besteht – ähnlich wie bei der Reliabilität – die Notwendigkeit, die Gültigkeit eines Tests durch einen Korrelationskoeffizienten auszudrükken, und zwar als Korrelation zwischen dem Testergebnis und einem Kriterium, das wirklich das Merkmal zum Inhalt hat, das der Test erfasst. So könnten z. B. Korrelationen bezüglich der Erfassung von Rechenleistungen zwischen dem Lehrerurteil und einem Rechentest gebildet werden. Man würde dabei voraussetzen, dass das Lehrerurteil richtig ist. Demnach kann auch gesagt werden, dass Gültigkeit gemessen wird durch den Grad, mit dem Testergebnisse mit einem definierten Gültigkeitskriterium übereinstimmen.

Es ist üblich, den Gültigkeitskoeffizienten mit der Bezeichnung rtc auszudrücken, wobei der Index „tc“ darauf hinweist, dass es sich um eine Korrelation zwischen Test (test) und Kriterium (criterion) handelt.

Gewöhnlich liegen Gültigkeitskoeffizienten niedriger als die Zuverlässigkeitskoeffizienten.

Werte über rtc von 0,60 und mehr können als hoch, Werte zwischen 0,40 und 0,60 als mittel und Werte unter 0,40 als niedrig betrachtet werden (vgl. Lienert 1998, 15;). Lienert betont jedoch auch, es ließen sich keine starren Normen bezüglich der Validität einführen, sondern nur Richtlinien aufzeigen. „Es wird dabei deutlich, dass ein relativer Maßstab mehr für sich hat als ein absoluter“ (Lienert 1969, 310). Die angegebenen Gültigkeitsbereiche können demnach nur als Orientierung dienen.

Ein weiteres schwerwiegendes Problem stellt sich im Zusammenhang mit der Validität: Misst der Test das, was derjenige, der den Test anwendet, messen will? Testautoren geben zwar normalerweise an, für welche Zwecke ein Test valide ist, die Entscheidung, welcher Test zur Erfassung eines bestimmten Persönlichkeitsmerkmals Verwendung findet, liegt jedoch beim Untersuchenden.

Bei auftretenden Unsicherheiten dürfte die Hinzunahme weiterer Testverfahren, die dasselbe Merkmal zu messen beanspruchen, zu einer Lösung führen.

Es wurde bereits angedeutet, dass die Validität aus dem Vergleich eines Tests mit einem Kriterium, das tatsächlich das zu messende Merkmal besitzt, hervorgeht. Aufgrund der Vorgehensweisen zur Feststellung der Validität unterscheidet man vier Möglichkeiten: Bestimmung der inhaltlichen Validität, der Übereinstimmungsvalidität, der Vorhersagevalidität und der Konstruktvalidität.

4.2.3.1 Inhaltliche Validität

Vorgehen: Fachleute beurteilen, ob der Test auch tatsächlich das misst, was er messen soll. Der Test selbst repräsentiert also das zu erfassende Persönlichkeitsmerkmal oder die in Frage stehende Eigenschaft. Dieses Verfahren findet zumeist Verwendung bei Schulleistungstests oder ganz allgemein bei lernzielorientierten Tests. Soll beispielsweise die Rechenfertigkeit überprüft werden, so müssten Lehrer feststellen, ob die Auswahl der im Test gestellten Aufgaben tatsächlich repräsentativ für die Erfassung der Rechenfertigkeit ist.

Die Testaufgaben gelten also bei diesem Verfahren als das beste Kriterium für das zu messende Merkmal. Sachverständige können beurteilen, ob die Aufgaben tatsächlich für das zu testende Sachgebiet Relevanz besitzen (Beispiele: Rechtschreibtests, Lesetests, Schreibmaschinentests …).

Sind sich die Beurteiler darüber einig, dass die Testaufgaben tatsächlich die Unterrichtsgebiete und Lernziele erfassen, die von den Lehrplänen angegeben werden, spricht man im schulischen Bereich auch von Lehrplangültigkeit.

Problem: Ist das Kriterium selbst (in diesem Falle also Lehrer, Prüfer) zuverlässig und gültig?

4.2.3.2 Übereinstimmungsgültigkeit (kriterienbezogene Validität)

Voraussetzung: Es muss ein Außenkriterium vorhanden sein, welches das zu erfassende Persönlichkeitsmerkmal direkt oder indirekt repräsentiert oder widerspiegelt. (Außenkriterium: Ein Test, der das entsprechende Merkmal misst oder zum Beispiel Psychotherapeuten, Lehrer …).

Das Außenkriterium muss selbst hinreichende Reliabilität und Validität aufweisen.

Vorgehen: Es wird überprüft, wie gut die Testergebnisse des neukonstruierten Tests mit dem Außenkriterium korrelieren (übereinstimmen). In der Praxis wird gewöhnlich mit einem bereits gut validierten Test verglichen. Bei der Konstruktion eines Intelligenztests wird man überprüfen, wie gut die Ergebnisse dieses Tests mit anderen als valide geltenden Intelligenztests übereinstimmen oder – so meint Ingenkamp – wie gut die Messergebnisse zum Beispiel mit den Leistungen in Schule oder Leben übereinstimmen, da man annehmen könne, dass sich intelligentes Verhalten in Schul- und Lebenserfolg ausdrückt. Die Übereinstimmungsvalidität eines Tests sollte grundsätzlich angegeben sein.

Probleme: Außenkriterium, z. B. Was ist Intelligenz? Angst? Motivation? Es ist fraglich, ob sich intelligentes Verhalten in Schul- und Lebenserfolg ausdrückt.

Beispiele: Der nichtangepasste intelligente Schüler kann scheitern (Verhaltensstörung – Lernstörung); Regimekritiker in Russland haben es schwer – Lebenserfolg? – Berufliche Aussichten intelligenter „Links- oder Rechtsextremisten“!

4.2.3.3 Vorhersagegültigkeit (prognostische Validität)

Vorgehen: Ein Testergebnis wird ermittelt z. B. bezüglich schulischer Leistungen. Es wird damit eine Prognose gestellt von den Testergebnissen auf das zukünftige Lernverhalten z. B. in Realschulen, Gymnasien, aber auch in Förderschulen. Die Vorhersagegültigkeit wird berechnet als Korrelation zwischen der Testleistung und – in unserem Falle – der späteren Schulleistung.