0 Daumen
2 Aufrufe

Hallo Leute, ich habe eine Frage zur richtigen Behandlung von missing-values in einem Datensatz:

Ich habe einen Datensatz mit 38100 Einträgen zur Lebenszufriedenheit (die ich erklären möchte), darunter werden auch Angaben zum Einkommen gemacht. Ungefähr 7,5% der Personen haben NA bei Einkommen. Ich habe herausgefunden, dass die Wahrscheinlichkeit beim Einkommen keine Angabe zu tätigen mit der Steigerung der Lebenszufriedenheit zusammenhängt. Je zufriedener eine Person ist, desto eher tätigt sie keine Angabe. Auch ist bekannt, dass ein hohes Einkommen hoch mit der Lebenszufriedenheit korreliert, also Leute die ein hohes Einkommen haben sind zufriedener als solche, die ein geringeres Einkommen haben. Es liegt also mMn der Verdacht nahe, dass Leute mit hohem Einkommen eher dazu geneigt sind, in der Umfrage keine Angabe zu machen. Somit liegt meines Wissens nach MAR, oder vielleicht sogar MNAR vor. Wie soll ich mit diesen Daten umgehen? Ich möchte das Einkommen jedoch nur als Kontrollvariable verwenden und niemals als erklärende Variable in mein Modell einbauen.
Kann und sollte ich MICE verwenden?
Rückfragen beantworte ich gerne.

Danke im Voraus.

Avatar vor von

Ein anderes Problem?

Stell deine Frage

Willkommen bei der Mathelounge! Stell deine Frage einfach und kostenlos

x
Made by a lovely community