In Forschungsdatenzentren wird oft programmiert. Wer programmiert, entwickelt Software. Joel Spolsky definiert in einem älteren und trotzdem lesenswerten Beitrag ein Mindestmaß an Wissen über Zeichensätze und -kodierung: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
Danke, Knut, das ist ein wichtiges Ding. Viel zu wenige Leute wissen, was das mit diesen Encodings soll.
Cooles T-Shirt, übrigens. Wo kann man das kaufen?
Da zum Beispiel: https://www.getdigital.de/scheiss-encoding.html
Vielen Dank für den Link, das ist wirklich ein wichtiges Thema! Speziell bei Python-Skripten kann man sich schon mal die Haare raufen, wenn die Verarbeitung von Textdaten nicht klappt. Ohne basale Kenntnisse um Zeichensätze und -kodierungen dürfte man da nicht mehr weiter kommen. Zum Lösen von Zeichensatzproblemen in Python kann ich auch diesen Beitrag empfehlen: http://gelb.bcom.at/trac/misc/wiki/TutorialsPython/PythonUmlauteUnicodeEncodings
Danke Knut, dass Du das Thema aufgreifst!
Das hat bei uns im IAB auch zu Diskussionen geführt: Mit Version 14 unterstützt Stata nun ja auch (endlich!) Unicode (http://www.stata.com/new-in-stata/unicode/). Was aber auch dazu geführt hat, dass die Zeichensätze in do- und dta-Files seltsam dargestellt wurden.
Hilfreich sind da die “unicode”-Befehle. Um z. B. ein ganzes Verzeichnis mit Stata-Dateien umzustellen kann man folgendes machen:
cd -Verzeichnis mit Dateien die Umkodiert werden sollen-
unicode analyze *
unicode encoding set 8859-1
unicode translate *
(Dank an Sebastian Bähr für den Hinweis!)