Pandas è una libreria Python che fornisce strutture di dati e strumenti di analisi dei dati flessibili e efficienti. Ecco come iniziare a usarlo.
1. Installazione:
Se non l’hai ancora installato, puoi farlo con pip:
```
pip install pandas
```
1. Importazione:
Prima di tutto, devi importare il modulo pandas con la seguente linea di comando:
```
import pandas as pd
```
Usare `pd` è una convenzione standard tra programmatori Python e rende il codice più leggibile.
1. Creazione di un dataframe:
Un dataframe è una struttura di dati bidimensionale, ovvero i dati sono allineati in modo tabulare in righe e colonne. Puoi creare un dataframe da un dizionario Python, liste, tuple, serie, un’altra struttura dataframe e csv.
Esempio:
```
data = {
‘nome’: [‘Gianna’, ‘Marco’, ‘Sofia’, ‘Luca’],
‘età’: [27, 24, 22, 32],
‘città’: [‘Roma’, ‘Milano’, ‘Napoli’, ‘Torino’]
}
df = pd.DataFrame(data)
print(df)
```
1. Lettura di un file CSV:
Pandas fornisce il metodo `read_csv()` per leggere i file CSV e convertirli in dataframe.
```
df = pd.read_csv(‘nomefile.csv’)
```
1. Manipolazione del dataframe:
Pandas offre una vasta gamma di metodi per manipolare i dataframe, come il calcolo della media dei valori in una colonna, la selezione di righe specifiche, la gestione dei dati mancanti, ecc.
Esempio:
```
Nota: Prima di utilizzare il modulo panda, è importante avere familiarità con i concetti di base della programmazione Python, come liste, dizionari e la gestione delle eccezioni. È inoltre utile avere una conoscenza di base dei concetti di data science, come la manipolazione dei dati e l’analisi statistica.