Chat GPT (Generative Pre-trained Transformer) è un chatbot lanciato da OpenAI a Novembre 2022. Si basa su dei modelli linguistici tecnicamente appartenenti alla famiglia GTP-3. Per poter interagire con l’uomo il chatbot è addestrato e calibrato con tecniche di apprendimento supervisionato (supervised-learning) e per rinforzo (reinforced-learning).
A voi sembrerà una cosa nuova, ma Marco ne parlava a Roma gia nel 2021.
In questo post vi racconto la mia esperienza con un problema di statistica che stavo affrontando nel tempo libero.
Oggi dovevo risolvere un problema nel quale non mi ero imbattuto precedentemente, applicare il test delle ipotesi a delle variabili categoriche.
Immaginate di essere una officina e di avere una campione composto da 5 tipologie di guasti alle macchine. Ognuno di questi guasti con una frequenza di accadimento come segue:

Ora essendo questa distribuzione frutto di un campionamento è naturalmente soggetta ad errore, quindi come fare a essere sicuri che la frequenza di guasti F1 sia effettivamente maggiore di F2 e non frutto di una fluttuazione casuale?
Come possiamo affermare questo anche per la tipologia di guasti F4 ed F3, che sono due frequenze effettivamente diverse, ma differiscono solo per 5 unità?
Onestamente non avevo una risposta e tutt’ora non sono sicuro al 100%
Fatto sta che quella può essere vista come una generalizzazione di una distribuzione binomiale, chiamata distribuzione multinomiale Multinomial distribution – Wikipedia ed è possibile effettuare un test che è il test multinomiale Multinomial test – Wikipedia
Ora per avere conferma di questo approccio ho bussato a 4 porte:
- Al professor Martinelli, il mio professore di Probabilità e Statistica dell’Università di Roma Tre
- Su Stack Overflow dove ho pubblicato questa domanda
- Alla Community Italiana di Machine Learning (qui il link al gruppo telegram)
- A Chat GPT
Il professor Martinelli mi ha risposto confermando la bontà dell’approccio.
Chat GPT
Ero molto scettico sulla risposta di Chat GPT perchè non mi sembrava corretta e l’ho voluta prendere cum grano salis. Inoltre la motivazione che mi dava sulla soluzione proposta non era basata su una spiegazione analitico-matematica, ma sulla base del “tutti fanno così” quindi questa è la metodologia più probabile.
C’è da aggiungere che è possibile usare per questo problema il chi-squared test, ma su questo sto approfondendo.
Sicuramente il codice che Chat GPT ha scritto è errato visto che in scipy non c’è il metodo utilizzato per la classe multinomial.
Per ora Chat GPT non è uno strumento che mi convince, sicuramente c’è un potenziale importante che mi affascina, ma è necessario tanto affinamento.
I prossimi passi saranno quelli di approfondire il test chi-squared per capire come possa essere applicato in questo caso ed un approfondimento del test Kolmogorov-Smirnov (perchè mi era stato suggerito da un collega della community di Machine Learning).








