Oggi andiamo a vedere come convertire un file .CSV in un file .PARQUET utilizzando Python, ma prima andiamo a vedere cos'è e a cosa serve un file PARQUET.
FILE PARQUET CHE ROBA È?
"Un file Apache Parquet è un formato di data storage open source utilizzato per i database colonnari nelle query analitiche. Se hai piccoli dataset ma milioni di righe da cercare, potrebbe essere meglio utilizzare un formato colonnare per ottenere performance migliori. I database colonnari memorizzano i dati raggruppando le colonne anziché il database standard basato su righe che raggruppa per righe. Un file Parquet è uno dei diversi formati di storage colonnare."
"Oltre alle performance delle query basate sul modo in cui i file Parquet memorizzano i dati, l'altro vantaggio principale è l'efficienza in termini di costi. I file Apache Parquet sono dotati di compressione e decompressione altamente efficienti, quindi non occupano tanto spazio quanto un file di database standard. Con meno spazio di storage, un'azienda può risparmiare migliaia di dollari in costi di storage."
CONVERTIRE UN FILE .CSV IN UN FILE .PARQUET CON PYTHON
Questo semplice programma va a prendere tutti i file .CSV che trova nella cartella che hai definito come INPUT_FOLDER e lo converte e salva come .PARQUET nella cartella che hai definito su OUTPUT_FOLDER.