Michael Erhart & Ulrike Ravens-Sieberer
Robert Koch-Institut, Berlin
Eine über verschiedene Personengruppen vergleichbare Messung erfordert, dass
Personen mit gleicher Merkmalsausprägung die Items eines Instrumentes mit
derselben Wahrscheinlichkeit beantworten, unabhängig von ihrer Kultur, ihres
Alter oder ihres Geschlechtes. Dieses Freisein von DIF ist eine Voraussetzung
für brauchbare Schlussfolgerungen hinsichtlich der individuellen
Merkmalsausprägung sowie den Verhältnissen innerhalb und zwischen
Populationen. Wird DIF von Aspekten verursacht die relevant für die zu
messende Eigenschaft sind ("benign DIF" [Roussous & Stout, 1996]) kann neben
dem Itemausschluss eine Korrektur versucht werden.
Dieser Beitrag untersucht die Auswirkungen von DIF-Korrekturen in der
Rasch-skalierten physischen Wohlbefindensskala des KIDSCREEN
Lebensqualität-Instrumentes [Ravens-Sieberer et al., 2005] auf die Validität
und diagnostischen Qualität. Anhand des Datensatzes der KIDSCREEN Feldstudie
(n=21623) wurden für Items mit nachgewiesenem interkulturellen DIF
(logistischer Regressionsansatz [Zumbo, 1999]) separate Schätzungen der
Itemparameter (Partial Credit Model [Masters, 1982]) vor Schätzung der
Personenparameter durchgeführt [Tennant et al., 2004]. Die Validität der
Messwerte wurde in einer Mehrebenenanalyse der linearen Regression von
Lebensqualität-Determinanten auf die Skalenwerte bestimmt. Die diagnostische
Qualität wurde über die Fläche unter der Receiver-Operating-Curve beim
Screening nach Risikogruppen ermittelt.
Die Korrektur des DIF führt zu einer statistisch signifikanten Verbesserung
der Validität (delta-R2) und der diagnostischen Qualität der Skalenwerte. Die
Implikationen dieser Resultate für den Umgang mit "benign DIF" werden
diskutiert.

