EXPLORELABS – Stata Ado zur Unterstützung in der Erschließung von Labels

Vor kurzem habe ich ein neues Ado für Stata beim Statistical Software Component Archive (SSC) veröffentlicht, dass den Prozess der Erschließung von Wertelabels in Datensätzen unterstützt. Es heißt EXPLORELABS und kann wie gewohnt mit dem Befehl “ssc install explorelabs” in der Kommandozeile von Stata heruntergeladen werden.

EXPLORELABS ermöglicht dem Nutzer die Wertelabel einer beliebigen Anzahl von Variablen aus dem Datensatz nach bestimmten Mustern zu betrachten. So können entweder alle Werte, nur negative oder nur eine bestimmte Anzahl an letzten/höchsten Werte ausgegeben werden. Zwei Möglichkeiten des Outputs stehen zur Ansicht der gefundenen Wertelabels zur Verfügung:

  1.  Eine Liste der durchsuchten Variablen und ihren, den Kriterien entsprechenden, Werten (ähnlich zu der Übersicht aus label list).
  2. Eine Häufigkeitsauszählung der verwendeten Wertelabels in den durchsuchten Variablen und deren Codes, die mit dem jeweiligen Wertelabel verknüpft sind.

Doch “Wozu der ganze Kram? Welchen Nutzen hat dies für mich?” werdet ihr euch vielleicht fragen.

Die Stärke des Ado ist es, dass es erlaubt, relativ schnell einen Überlick über den Gebrauch von Wertelabels im Datensatz zu bekommen.  Dies ist dann nützlich, wenn man die Richtigkeit der vorhandenen Labels überprüfen möchte (z.B. simple Rechtschreibung) oder ein altes Missing Schema in ein neues Überführen muss.

Beispiel I – Fehlerkontrolle

Die Häufigkeitsauszählungen weisen auf zwei Probleme hin. Zum einen ist das  Wertelabel “keine Angabe” falsch geschrieben. In einem Wertelabel lautet es fälschlicherweise “kiene Angabe”. Mit der Option “list” und einer spezifischen Labelsuche lässt sich schnell herausbekommen, in welcher Variable dies der Fall ist:

Der Output der Häufigkeiten ist alphabetisch sortiert (leider nach Statalogik, in der erst alle Großbuchstaben dem Alphabet nach und dann alle Kleinbuchstaben kommen) und lässt somit abweichende Schreibweisen schnell erkennen.

Das zweite Problem ist, dass das Label “keine Angabe” nicht nur dem Wert -99 zugewiesen wurde, sondern auch dem Wert -1. Da dies zu Fehlern in der Aufbereitung oder Analyse führen kann, sollte ermittelt werden, ob der Wert rekodiert oder neu gelabelt werden muss. Auch hier kann mittels der List Option die betreffende Variable gefunden werden (explorelabs _all, list  lab(keine Angabe)).

Beispiel II – Labelerschließung

Zuletzt eignet sich das Ado auch für die Erschließung von bestehenden Missing Schemata. Durch die Option “lastvalues” kann der Nutzer bestimmen, wieviele letzte bzw. höchste Werte einer Variable angezeigt werden sollen. In dem hier abgebildeten Beispiel ist zu erkennen, dass die Label “weiß nicht” und “k.A.” häufig die letzten Werte einer Variable belegen (Zumindest zu Beginn. Je nach Variablenanzahl würde dieser Output noch eine Weile weiter gehen. Dies möchte ich euch aber natürlcih ersparen :-))

Diese Verwendungsarten sollen das Ado nur illustrieren und sind natürlich nicht immer für jeden sinnvoll. Ich habe versucht das Ado so zu gestalten, dass es möglichst flexibel ist und daher kreativ in der Erschließung von Labels verwendet werden kann. Ich hoffe, dass dies mir gelungen ist und würde mich über Feedback zu Stolpersteinen und Verbesserungsideen sehr freuen.

Datenwälzende Grüße,

Malte

Veröffentlicht von

Malte Kaukal

Sachbearbeiter bei GESIS - Leibniz Institut für Sozialwissenschaften , Abteilung Datenarchiv, Team National Surveys

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.