Wissen über Zeichensätze und -kodierung

Standard Developer Shirt, Lizenz: (CC BY 2.0), Autor: https://www.flickr.com/photos/acidpix/
Standard Developer Shirt, Lizenz: (CC BY 2.0), Autor: https://www.flickr.com/photos/acidpix/

In Forschungsdatenzentren wird oft programmiert. Wer programmiert, entwickelt Software. Joel Spolsky definiert in einem älteren und trotzdem lesenswerten Beitrag ein Mindestmaß an Wissen über Zeichensätze und -kodierung: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)

Veröffentlicht von

Knut Wenzig

Diplom-Sozialwirt Univ., arbeitet am DIW Berlin im Forschungsdatenzentrum des Sozio-oekonomischen Panels.

4 Gedanken zu „Wissen über Zeichensätze und -kodierung“

  1. Danke, Knut, das ist ein wichtiges Ding. Viel zu wenige Leute wissen, was das mit diesen Encodings soll.

    Cooles T-Shirt, übrigens. Wo kann man das kaufen?

  2. Vielen Dank für den Link, das ist wirklich ein wichtiges Thema! Speziell bei Python-Skripten kann man sich schon mal die Haare raufen, wenn die Verarbeitung von Textdaten nicht klappt. Ohne basale Kenntnisse um Zeichensätze und -kodierungen dürfte man da nicht mehr weiter kommen. Zum Lösen von Zeichensatzproblemen in Python kann ich auch diesen Beitrag empfehlen: http://gelb.bcom.at/trac/misc/wiki/TutorialsPython/PythonUmlauteUnicodeEncodings

  3. Danke Knut, dass Du das Thema aufgreifst!

    Das hat bei uns im IAB auch zu Diskussionen geführt: Mit Version 14 unterstützt Stata nun ja auch (endlich!) Unicode (http://www.stata.com/new-in-stata/unicode/). Was aber auch dazu geführt hat, dass die Zeichensätze in do- und dta-Files seltsam dargestellt wurden.

    Hilfreich sind da die “unicode”-Befehle. Um z. B. ein ganzes Verzeichnis mit Stata-Dateien umzustellen kann man folgendes machen:
    cd -Verzeichnis mit Dateien die Umkodiert werden sollen-
    unicode analyze *
    unicode encoding set 8859-1
    unicode translate *

    (Dank an Sebastian Bähr für den Hinweis!)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.