Chat GPT, la mia esperienza con un problema di statistica

Chat GPT (Generative Pre-trained Transformer) è un chatbot lanciato da OpenAI a Novembre 2022. Si basa su dei modelli linguistici tecnicamente appartenenti alla famiglia GTP-3. Per poter interagire con l’uomo il chatbot è addestrato e calibrato con tecniche di apprendimento supervisionato (supervised-learning) e per rinforzo (reinforced-learning).

A voi sembrerà una cosa nuova, ma Marco ne parlava a Roma gia nel 2021.

In questo post vi racconto la mia esperienza con un problema di statistica che stavo affrontando nel tempo libero.

Oggi dovevo risolvere un problema nel quale non mi ero imbattuto precedentemente, applicare il test delle ipotesi a delle variabili categoriche.

Immaginate di essere una officina e di avere una campione composto da 5 tipologie di guasti alle macchine. Ognuno di questi guasti con una frequenza di accadimento come segue:

Ora essendo questa distribuzione frutto di un campionamento è naturalmente soggetta ad errore, quindi come fare a essere sicuri che la frequenza di guasti F1 sia effettivamente maggiore di F2 e non frutto di una fluttuazione casuale?

Come possiamo affermare questo anche per la tipologia di guasti F4 ed F3, che sono due frequenze effettivamente diverse, ma differiscono solo per 5 unità?

Onestamente non avevo una risposta e tutt’ora non sono sicuro al 100%

Fatto sta che quella può essere vista come una generalizzazione di una distribuzione binomiale, chiamata distribuzione multinomiale Multinomial distribution – Wikipedia ed è possibile effettuare un test che è il test multinomiale Multinomial test – Wikipedia

Ora per avere conferma di questo approccio ho bussato a 4 porte:

Il professor Martinelli mi ha risposto confermando la bontà dell’approccio.

Chat GPT

Ero molto scettico sulla risposta di Chat GPT perchè non mi sembrava corretta e l’ho voluta prendere cum grano salis. Inoltre la motivazione che mi dava sulla soluzione proposta non era basata su una spiegazione analitico-matematica, ma sulla base del “tutti fanno così” quindi questa è la metodologia più probabile.

C’è da aggiungere che è possibile usare per questo problema il chi-squared test, ma su questo sto approfondendo.

Sicuramente il codice che Chat GPT ha scritto è errato visto che in scipy non c’è il metodo utilizzato per la classe multinomial.

Per ora Chat GPT non è uno strumento che mi convince, sicuramente c’è un potenziale importante che mi affascina, ma è necessario tanto affinamento.

I prossimi passi saranno quelli di approfondire il test chi-squared per capire come possa essere applicato in questo caso ed un approfondimento del test Kolmogorov-Smirnov (perchè mi era stato suggerito da un collega della community di Machine Learning).

Asking Chat CPT to explain hypothesis testing for categorical variables
Ho fornito maggiori informazioni a Chat GPT per poter rispondere con maggiore precisione
In questo caso stavo chiedendo a Chat GTP di scrivere del codice in linguaggio Python
Il metodo .stats() non prodotto da Chat GPT non esiste per la classe multinomial 🙂
La spiegazione che Chat GPT mi ha dato del codice che ha elaborato.

Lascia un commento