Liebe alle,
hiermit möchte ich euch gerne auf mein Stata Ado „SCANDATA“ verweisen, dass ab sofort in Stata heruntergeladen werden kann. Es unterstützt die Datensichtung und –aufbereitung durch die Möglichkeit Variablen zu identifizieren, die bestimmten Kriterien entsprechen. Möglich sind folgende Überprüfungen:
- Die Länge von Variablen- und Wertelabels sowie Variablennamen (es gibt Standardwerte – ab denen bspw. in SPSS oder Stata abgeschnitten wird – , die aber auch individuell angepasst werden können)
- Auffinden von Variablen mit ungelabelten Werten (sofern andere Werte in der Variable gelabelt sind)
- Existenz von Umlauten in Variablen- und Wertelabels sowie dessen Korrektur (z.B. „ä“ wird zu „ae“)
- Existenz von Großbuchstaben in Variablennamen und deren Umwandlung in Kleinbuchstaben
- Identifikation verdächtiger Randverteilungen/Wildcodes. Zu diesem Zweck werden drei Kriterien angelegt, deren Standardeinstellungen ebenfalls nach eigenem Ermessen angepasst werden können. Entspricht eine Variable einem oder allen Kriterien wird es als auffällige Variable aufgenommen. Wichtig ist hierbei, dass dies keine verlässlichen Kriterien sind, da jedes Kriterium völlig zurecht vorliegen könnte ohne, dass es sich um eine fehlerhafte Variable handelt. Es ist daher unumgänglich die Variable trotzdem zu betrachten:
- Anteil der genannten Werte an denen, die im „Label Container“ vorgesehen sind (Grenzwert <1%)
- Die Konzentration vieler Fälle auf einen Wert (könnte auf Filterfehler hinweisen) (Grenzwert >95%)
- Werte, die nur wenige Fälle aufweisen (Grenzwert 1 Fall)
Alle gefundenen Variablen werden in einer übersichtlichen Tabelle nach Kriterium sortiert ausgegeben und in Stata zwischengespeichert, sodass sie weiter bearbeitet/inspiziert werden können.
Ich bin mir sehr bewusst, dass das Ado die Datenaufbereitung und das einzelne Begutachten jeder Variable nicht ersetzen kann denke aber, dass es die Möglichkeit bietet schnell einen Überblick über den Datensatz zu bekommen sowie abschließend zu kontrollieren, ob nicht Fehler möglicherweise unentdeckt geblieben sind.
Installieren lässt sich das Ado recht einfach durch die Eingabe „ssc install scandata“ in die Stata Kommandozeile. Die zugehörige Hilfe, in der ihr weitere Informationen zur genauen Verwendung findet, lässt sich anschließend über „help scandata“ aufrufen.
Über jede Kritik und Anmerkungen, besonders zur Identifikation auffälliger Randverteilungen, würde ich mich sehr freuen. Gerne stehe ich natürlich auch für alle Rückfragen bereit.
Liebe Grüße,
Malte
Nicht schlecht, sehr nettes Tool 🙂
Wir haben es mal drüberlaufen lassen und ganz gut abgeschnitten.
Danke dafür!