Archivi tag: machine learning

PCA spiegazione per fidanzati/mariti sfortunati prt 2

Non so se la mia spiegazione sulla PCA fosse chiara,non lo so, e ci riprovo.

E’ una tecnica che viene utilizzata molto frequentemente nel campo del Machine Learning, PCA sta a significare Principal Component Analysis.

Ora Immagina.

Per qualche sfortunata ragione, tu devi regalare una borsa alla tua ragazza/moglie/amante (e io nemmeno ai nemici lo auguro).

Immagina.

Tu e la tua conoscenza sul mondo delle borse.

Immagina.

Tu e la tua conoscenza che spazia dal trolley che usi dall’ultima gita a Praga del liceo, che tua madre e la tua ragazza vorrebbero buttare ma per te è ancora funzionante nonostante quella macchina enorme dovuta agli eccessi del tuo amico tale “ER Bresaola”, e finisce allo zaino tecnico porta pc, con esclusione della 24 ore che ti ha regalato Zio Gianni “perché ormai sei grande”.

Immagina.

TU, proprio TU, devi acquistare una borsa, o in romano ‘na borZa.

Photo by Artem Bali on Unsplash

Inizi a classificare i prodotti:

  • Range di costo (5-5000 €)
  • Marca (Cinese Sotto Casa-Mercato di Merce Parallela-Amazon-Alta Moda)
  • Colore(Blu-Rosso-Nero)(In almeno 216 tonalità diverse per colore)
  • Dimensione (Clutch-Trousse-Hobo Bag-Shopping Bag) (miserabile pensavi che si usasse il metro o il cm come da Sistema Internazionale di Unità di Misura)
  • Dove comprarla (Km Da casa tua 0-100km)
  • Come pagarla (Cash-Finanziamento a 20 anni-Bitcoin-Vai a Rubare perché sei povero)
  • Periodo di Analisi Intraperiodale (Primavera-Estate-Autunno-Inverno)
  • Periodo di Analisi Interperiodale (Outlet-Ultima Uscita)

Almeno 8 variabili di scelta, dura eh?

Purtroppo non puoi sottrarti dall’acquisto perché deve farti perdonare.

Non sai il motivo, lo ignori, ma c’è, in quanto uomo sbagli a prescindere e DEVI farti perdonare.

La PCA, ti aiuta a semplificare il problema ed i dati di input per la tua fatidica scelta.

Nel problema in esame alcune variabili sono in qualche modo ridondanti e assimilabili, ad esempio:

  • Come Pagarla
  • Marca
  • Range Di Costo

potrebbero essere aggregate in un’unica nuova variabile.

E’ molto probabile che se vai dal cinese sotto casa puoi aggregare sotto un unico cappello le variabili “Cash-Cinese Sotto Casa-5€” così come se vai ad effettuare l’acquisto in-quella-maison-che-non-va-nominata “Vai a Rubare perché sei povero- maison-che-non-va-nominata-5000€” possono anche loro essere aggregate.

Questo è quello che fa la tecnica PCA.

Stiamo quindi scartando le caratteristiche ridondanti?

No, anche perchè sappiamo benissimo che alla minimo passo falso si  rischia di aprire un caso di stato, tu nella tua classificazione  hai preso in considerazione TUTTE le variabili, ma le hai trasformate attraverso questa tecnica.

Questa domanda è importante perchè nel vecchio articolo parlavo di riduzione, ma questo non significa che scartiamo determinate varibili(in termini matematici stiamo effettuando una combinazione lineare)

La PCA permette di costruire delle nuove variabili aggregate significative nel processo di classificazione basandosi su quelle precedenti.

Con l’esempio precedente siamo passati da 8 variabili a 6.

Inoltre con la nuova trasformazione abbiamo identificato una variabile che può variare sensibilmente da borsa a borsa, questo elemento è di fondamentale importanza perché abbiamo identificato un elemento che permette di differenziare ed identificare (labeling) le varie tipologie.

Dal punto di vista matematico abbiamo identificato la nuova variabile caratterizzata dalla maggior varianza.

E’ per questo che si chiama “Componente Principale”, perchè è la variabile con varianza maggiore.

Ora che sappiamo come classificare le borse quale comprare?

Questo punto esula la tecnica PCA.

Nelle teoria classica del pensiero economico questo problema per l’uomo razionale non si porrebbe.

  • Volume da trasportare
  • Identificazione del costo minimo in rapporto al volume (€/cm3)

Purtroppo, non funziona così tranne nel mondo degli ingegneri, una analisi basata sugli acquisti storici della fidanzata/moglie/amante risolverebbe il problema, ma non è semplice.

“Essere ingegnere è praticamente una malattia. A una donna, moglie d’ingegnere si potrebbe chiedere:  “Signora, suo marito come sta? E’ ancora ingerere?” E lei potrebbe risponere: “No, adesso sta un po’ meglio” -Luciano de Crescenzo – I pensieri di Bellavista

Un’analisi delle frequenze delle caratteristiche degli acquisti passati, magari modellizzata attraverso il teorema di Bayes, potrebbe portarvi ad acquistare la “borsa più frequente” che non è quella “che la farebbe più felice”.

Quello che potete però fare è assegnare dei pesi alle varie variabili e quindi fare un’analisi delle frequenze pesate.

Un metodo potrebbe essere quello di assegnare un peso maggiore alle borse utilizzate il sabato sera, rispetto a quelle utilizzate tutti i giorni.

Scegliete successivamente il modello di borsa con la frequenza pesata maggiore e, con una certa probabilità, avrete scelto l’alternativa che massimizza l’obiettivo (o in altri termini minimizza l’errore).

La descrizione della PCA di questo articolo è estremamente qualitativa e semplifica molte ipotesi alla base. Nel precedente è possibile vedere come cambia la correlazione tra le variabili ed il p-value con un piccolo script in Python.

Quello che farò nell’ultimo post dedicato a questo strumento statistico sarà realizzare una spiegazione estremamente tecnica e sintetica corredata da un’opportuno script in Python.

Grazie per aver letto l’articolo!

Un abbraccio

Andrea

ps se ci sono errori scrivimi pure 🙂

Annunci

Lascia un commento

Archiviato in Ingegneria, Tecnologia

Giugno dolci dati ed ottimizzazioni

La vita è sempre trionfo dell’improbabile e miracolo dell’imprevisto.


Sono tornato da Londra e sicuramente resterò qui in Italia fino a metà Luglio.

Da metà Marzo fino alla prima settimana di Maggio ho lavorato una catena che produce cupcakes Lola.

Il negozio era un chiosco all’interno della stazione di Marylebone, veramente una bella esperienza, mi sono divertito ed ho imparato molto.

 

Dopo una settimana ero responsabile dell’apertura del negozio.

Dopo tre settimane della chiusura

Dopo cinque settimane l’amministratore delegato è venuto a parlarmi perché voleva mettermi a capo di un progetto di riduzione degli sprechi di cibo dandomi accesso a tutti i dati storici sul fatturato e costi della società.

Come è successo?

Curiosità e noia.

La chiusura del negozio prevede la stesura di un report di fine giornata dove vengono inserite da parte dell’operatore (in questo caso io) informazioni relative a:

  • Fatturato effettivo della giornata
  • Target che era stato definito
  • Sprechi (i cupcakes sono freschi e vengono buttati a fine giornata)
  • Cosa l’azienda avrebbe dovuto fare diversamente da qui ad un anno
  • Idee creative che fossero venute in mente durante la giornata

Una cosa che mi aveva colpito mentre lavoravo era la differenza tra Fatturato – Target – Wastage che non sembrava ottimizzata. (spoiler: c’è un ampio margine di miglioramento 🙂 )

Così un giorno in cui c’erano pochi clienti e mi stavo annoiando ho aperto il pc e con largo anticipo ho iniziato a scrivere il report evidenziando che l’ordine quotidiano di dolci effettuato dalla store manager doveva basarsi su un modello predittivo (una regressione lineare) che considerasse una pluralità di variabili (dati storici sulle vendite, condizioni meteo, flusso di persone della stazione) e che c’era la necessità di studiare la correlazione tra le variabili del modello ed i dati storici.

A  seguito del mio report il CEO ha scritto una email alla store manager dicendole che voleva assolutamente parlarmi, mi ha portato a cena, mi ha proposto di occuparmi di realizzare il nuovo progetto per la riduzione degli sprechi di cibo una volta tornato dall’Italia e di fare la mia offerta economica per il progetto.

Attualmente sto lavorando a distanza, mi sto occupando di tutta una fase preliminare di analisi della quantità e qualità di dati effettivamente disponibili.

It’s easier to fool people than to convice them that they’ve been fooled


Oltre a questo progetto di riduzione degli sprechi, giovedì mi è stato proposto un ulteriore progetto sempre su Londra di ottimizzazione e big data, di questo non posso condividere ulteriori dettagli.

E’ un progetto molto complesso e se l’incarico dovesse essere confermato vedrà l’applicazione di almeno tre differenti algoritmi di Machine Learning.

Continua sempre il mio supporto all’Associazione di InnovAction Lab, ma devo essere più presente, siamo ancora in alto mare con il DB (colpa mia), l’ultimo evento su Roma è stato un flop, ma il BBQ di Agosto è già in agenda.

Per non farmi mancare nulla dovrò sistemare alcune questioni amministrative ed operative per l’azienda di famiglia e devo (da almeno due mesi) rifare il sito di Wheelab per raccontare quello che è stato,  il rinnovo del sito mi è stato suggerito e richiesto da molti recruiter.

Gli impegni per Giugno sono tanti, le energie sono sempre le stesse e non dormire sarebbe solo un problema per la produttività.

La produttività è sempre un tema particolare.

La nostra capacità di concentrazione è crollata sensibilmente, in alcuni casi paragonabile a quella di un pesce rosso (http://time.com/3858309/attention-spans-goldfish/) e purtroppo guardiamo lo schermo del cellulare ogni 10-12 minuti, circa 80 volte al giorno(http://www.businessinsider.com/dscout-research-people-touch-cell-phones-2617-times-a-day-2016-7?IR=T).

A ragione di questo ho deciso che temporaneamente per tutto il mese di Giugno non sarò presente sui social network. 

  • Eliminazione di Instagram-Linkedin-Twitter dal cellulare
  • Cambio password di Facebook e disconnessione dell’account

Quando sarà Luglio uscirò dalla caverna.

 

Se ci riuscirò scriverò qualche articolo sugli ultimi libri letti nei mesi passati, sto rispettando abbastanza bene la lista che avevo fatto a Gennaio.

Un abbraccio e grazie per aver letto il mio articolo.

 

Andrea

 

ps se noti qualche errore scrivimi pure

Lascia un commento

Archiviato in riflessioni, Scritti sparsi