I Due Grandi Obbiettivi

Immagina di essere un meccanico che vuole usare i dati passati per prevedere il futuro delle auto. Nel Machine Learning, dividiamo i problemi in base a cosa vogliamo prevedere (la Label o etichetta Y) e all'obiettivo di minimizzare l'errore su dati non visti:

Classificazione (Sì/No) Domanda: "Questa macchina arriverà a fine anno senza rompersi?" L'Output (Y): È una scelta secca. 0 (No, si rompe) 1 (Sì, funziona).

Nota: per questo scopo si può usare anche la Regressione Logistica, che impiega la funzione Sigmoide per restituire un valore di probabilità (tra 0 e 1), massimizzando la verosimiglianza dei dati osservati (Maximum Likelihood Estimation - MLE).

Regressione (Numeri) Domanda: "Tra quanti anni esattamente si romperà?" L'Output (Y): È un numero reale (R+), come 2.5 anni, 5 anni, 10 anni.

Un esempio è la Regressione Lineare, che prevede valori continui minimizzando l'Errore Quadratico Medio tramite il Metodo dei Minimi Quadrati (calcolando i pesi ottimali con l'Equazione Normale).

Qui meglio spiegati questi ultimi concetti:

Errore Quadratico (o Squared Loss): Immagina che il tuo modello preveda che la macchina si romperà tra 3 anni, ma nella realtà si rompe dopo 5 anni.

Hai fatto un errore di 2 anni. L'errore quadratico consiste semplicemente nel prendere la differenza tra il valore predetto e il valore reale e moltiplicarla per se stessa, elevandola al quadrato (in questo caso, 2^2=4).

Questa operazione matematica viene ripetuta per ogni singola previsione che il modello fa sui tuoi dati di addestramento, calcolando la formula l(h(x),y)=(h(x)−y)2.

Metodo dei Minimi Quadrati: È la tecnica usata dalla Regressione Lineare per capire quale sia la formula (o "linea") perfetta per fare le previsioni.

Il suo obiettivo è trovare i parametri migliori (chiamati pesi) affinché la distanza complessiva tra tutte le previsioni del modello e i veri dati reali sia la più piccola possibile.

Si chiama "minimi quadrati" proprio perché l'algoritmo cerca matematicamente la soluzione in cui la somma di tutti gli errori quadratici calcolati in precedenza raggiunga il valore minimo in assoluto.

Regressione logistica e lineare:

Gli "Attori" del Sistema

Per formalizzare il problema, usiamo delle lettere specifiche. Impara questo vocabolario:

X (Feature/Caratteristiche): Sono i dati che hai in mano. Esempio: Modello (Panda), Km (10.000), Anno (2015).

Y (Label/Etichetta): È la risposta giusta, la verità.

f (Funzione Obiettivo): È la "verità assoluta" che non conosciamo. È la legge universale che decide se una macchina si rompe.

h (Ipotesi): È il tuo modello. È la formula che il computer si inventa, scegliendola da un set di ipotesi (H), per cercare di imitare f.

Esempio trattato a lezione delle Panda

Immagina di avere 3 Fiat Panda identiche: stesso anno (2015), stessi Km (10.000). Realtà: 2 si rompono, 1 no.

Il problema: Se le auto sono identiche nelle feature (X), come può il risultato (Y) essere diverso?

La spiegazione: Le nostre feature non dicono tutto (magari una Panda è stata guidata male, o ha un difetto di fabbrica che non vediamo).

Conclusione: La funzione f non è una formula matematica perfetta, ma una distribuzione di probabilità.

Anche il miglior modello del mondo non avrà mai il 100% di successo.

Ci sarà sempre un po' di errore intrinseco (rumore).

Come misuriamo l'errore e il Trade-off

L'errore totale di un modello si divide in due componenti:

Errore di Approssimazione: Il set di ipotesi H è troppo semplice e non contiene la funzione perfetta (es. mancano i Km dell'auto).