ChatGPT ha dimostrato di essere buono in medicina ma cattivo nella programmazione

Nella corsa allo sviluppo di un’intelligenza artificiale avanzata, non tutti i Language Large Model (LLM) sono uguali. Due nuovi studi rivelano notevoli differenze nelle capacità di sistemi popolari come ChatGPT quando vengono testati in complesse attività del mondo reale.

Secondo i ricercatori della Purdue University, ChatGPT lotta anche con sfide di programmazione di base. Il team ha valutato le risposte ChatGPT a più di 500 domande su Stack Overflow, una comunità online per sviluppatori e programmatori, su argomenti come il debug e l’utilizzo delle API.

“La nostra analisi mostra che il 52% delle risposte generate da ChatGPT non sono corrette e il 77% sono verbali”, hanno scritto i ricercatori. Tuttavia, le risposte ChatGPT sono ancora preferite il 39,34% delle volte a causa della loro completezza e del loro stile linguistico chiaro.

Al contrario, A Studio dell’UCLA e della Pepperdine University di Malibu dimostra la capacità di ChatGPT di rispondere a difficili domande sugli esami medici. Quando sono state poste più di 850 domande a scelta multipla in nefrologia, una specialità avanzata in medicina interna, ChatGPT ha ottenuto un punteggio del 73%, che è simile al tasso di successo dei residenti.

Credito immagine: UCLA tramite Arvix

Il team dell’UCLA ha concluso: “L’attuale capacità superiore di GPT-4 di rispondere con precisione a domande a scelta multipla in nefrologia indica l’utilità di modelli di intelligenza artificiale simili e più capaci nelle future applicazioni mediche”.

Claude AI di Anthropic è stato il secondo miglior LLM con il 54,4% di risposte corrette. Il team ha valutato altri LLM open source, ma erano tutt’altro che accettabili, con il punteggio migliore del 25,5% ottenuto da Vicuna.

READ Quali e dove sono i vulcani più pericolosi del mondo?

Allora perché ChatGPT eccelle in medicina ma non è all’altezza nella programmazione? I modelli di machine learning hanno diversi punti di forza, punti Lex Friedman, informatico del Massachusetts Institute of Technology. Claude, il modello dietro le intuizioni mediche di ChatGPT, ha ricevuto ulteriori dati di formazione speciali dal suo creatore, Anthropic. ChatGPT di OpenAI si basava esclusivamente su dati pubblicamente disponibili. I modelli AI possono fare grandi cose se addestrati correttamente su grandi quantità di dati, anche meglio della maggior parte degli altri modelli.

Immagine per gentile concessione: Massachusetts Institute of Technology

Tuttavia, l’intelligenza artificiale non sarà in grado di agire correttamente al di fuori dei parametri in cui è stata addestrata, quindi tenterà di creare contenuti senza previa conoscenza di essi, provocando quelle che sono note come allucinazioni. Se il set di dati del modello AI non include determinati contenuti, non sarai in grado di ottenere buoni risultati in quest’area.

Come spiegano i ricercatori dell’UCLA, “Senza negare l’importanza della potenza computazionale di specifici sistemi LLM, la mancanza di libero accesso a materiali di dati di formazione che non sono attualmente di dominio pubblico rimarrà probabilmente uno degli ostacoli al raggiungimento di prestazioni migliori”. per il prossimo futuro”.

Le scarse prestazioni di codifica di ChatGPT sono coerenti con altre valutazioni. come ho detto prima DecodificareI ricercatori della Stanford University e dell’Università della California, Berkeley, hanno scoperto che il ragionamento visivo e le abilità matematiche di ChatGPT sono diminuite in modo significativo tra marzo e giugno 2022. Sebbene inizialmente abili in numeri primi e puzzle, entro l’estate avevano ottenuto solo il 2% in punti chiave.

READ I Dosfarma Woman Awards premiano le donne nel campo della salute e del benessere

Quindi, sebbene ChatGPT possa lavorare come medico, ha ancora molto da imparare prima di diventare un programmatore esperto. Ma non è lontano dalla verità, dopo tutto, quanti medici conosci che sono anche hacker competenti?

Gaetana Cafaro

“Appassionato di musica. Amante dei social media. Specialista del web. Analista. Organizzatore. Pioniere dei viaggi.”

Italia – Serie A: Parma-Empoli Data 9 | Serie A

L’Italia e la sua economia

Nicole Kidman ha detto che ha dovuto interrompere temporaneamente le riprese del suo nuovo film per non “avere più orgasmi”.

MIR 2025: scadenze, bandi e distribuzione dei posti

Un piano per trasformare poliziotti e soldati in medaglie

Qual è il significato di non cambiare l’immagine di WhatsApp secondo l’intelligenza artificiale?

ChatGPT ha dimostrato di essere buono in medicina ma cattivo nella programmazione

Lascia un commento Annulla risposta

Lascia un commento Annulla risposta

Related News