CSV¶
Der Klassiker in der IT für die Ablage von tabellarischen Informationen mit Comma-separatad Values.
Das Format unterstützt nur einfache 2-dimensionale Datenstrukturen.
Außer einer Internet-Norm (RFC 4180) gibt es keine weiteren Festlegungen für Trennzeichen (Delimiter), Zeichenkodierungen oder die Behandlung von Spaltenüberschriften (Headings).
Stunde,Montag,Dienstag,Mittwoch,Donnerstag,Freitag
1,Mathematik,Deutsch,Englisch,Erdkunde,Politik
2,Sport,Deutsch,Englisch,Sport,Geschichte
3,Sport,"Religion (ev., kath.)",Kunst,,Kunst
Beispiel: Wikipedia CSV
Kommandozeilentools und Online-Ressourcen zu CSV:
xsv- Kommandozeilentool für csv ( https://github.com/BurntSushi/xsv ), welches für diverse Betriebssystem verfügbar istcsvkit - eine Sammlung von CSV-Tools: Github csvkit, Read the Docs csvkit
Python Spezial
Auch bei der Python Skriptverarbeitung wird sehr häufig zu CSV als Datendatei gegriffen. Allerdings hat diese Community sich mit vielen Techniken beschäftigt und so auch für Datendateien moderne Wege gefunden.
Python CSV-Alternativen: Pickle, Parquet, Feather
Die hier genannten Dateikandidaten wurden im Youtube-Video
genauer analysiert.
Hier mal ein Screenshot mit Dateigrößen:
Abb. 77 Python Dataformats¶
Die Lesegeschwindigkeit in diesen Test war für das Einlesen von einer Test-CSV bei 39,3 s und verringerte sich bei den CSV-Alternativen in einen Bereich von 100 bis 500 ms (Millisekunden)!
Für Techniker, die mit großen (größten Datensätzen) zu tun haben, sollte sich also ein Blick auf die alternative Tabellen/Datenauswertung über Python lohnen.