Documentație
Formatul CSV (eng. Comma Separated Variables, adică valori separate prin virgulă) se folosește ca o variantă simplificată a tabelelor de tip Excel. Informațiile sînt scrise pe linii, iar coloanele se separă prin virgulă. De exemplu, într-un fișier CSV putem avea:
titlu_col1, titlu_col2, titlu_col3, titlu_col4
val1_col1, val1_col2, val1_col3, val1_col4
val2_col1, val2_col2, val2_col3, val2_col4
...Ceea ce este echivalent cu tabelul:
val1_col1
val1_col2
val1_col3
val1_col4
val2_col1
val2_col2
val2_col3
val2_col4
Orice separator în afara virgulei se ignoră, deci pentru lizibilitate, multe editoare folosesc spații sau tab-uri pentru separare vizuală. Deci putem scrie, de exemplu:
Oraș, Județ, Populație
Iași, Iași, 100000
București, București 2000000
Craiova, Olt, 2000Preluarea datelor în Python
Putem prelua datele dintr-un fișier CSV folosind modulul csv.
Apoi, avem funcțiile reader și writer, care creează obiecte corespunzătoare.
Observație: Dacă primiți o eroare privitoare la modulul CSV, instalați-l în terminal, cu comanda:
pip install csvExemplu de citire:
Exemplu de scriere:
Resurse
documentația oficială a modulului
csveste aici;un scurt tutorial, aici;
seturi de date:
data.gov -- seturi de date publice de la Guvernul American;
data.world -- necesită cont, gratis;
datahub -- gratis;
Kaggle datasets -- necesită cont, gratis;
Google datasets -- gratis;
Direct de pe GitHub, căutați "dataset" și găsiți, de exemplu, acest repository, de la NY Times.
Last updated