Introduzione
In un’era segnata dall’innovazione continua e da tecnologie sempre più avanzate, i Large Language Model (LLM) rappresentano a oggi un capitolo fondamentale nella storia dell’intelligenza artificiale (IA). Questi strumenti, sviluppati per comprendere e generare il linguaggio umano in modo preciso e sofisticato, stanno aprendo nuove prospettive nel campo della comunicazione digitale e dell’elaborazione delle informazioni.
In questo articolo cerchiamo di fare un po’ di chiarezza tra le caratteristiche dei diversi tipi di prodotto basati su LLM attualmente sul mercato, le loro funzionalità, le principali differenze e la loro possibile evoluzione futura.
Caratteristiche dei principali prodotti LLM-based
In generale, gli LLM rappresentano un’innovazione nel mondo delle interfacce uomo – macchina, perché sono i primi strumenti diffusi in grado di comprendere in maniera affidabile il linguaggio naturale in una ampia varietà di situazioni. Il linguaggio naturale si differenzia dal linguaggio formale per la forma dei comandi che vengono trasmessi alla macchina: nel caso di linguaggi formali, come DOS o BASH, questi prendono la struttura di righe di comando che devono essere necessariamente precise per ottenere il risultato sperato. Ciò non avviene con i linguaggi naturali, dove l’utente interagisce con la macchina attraverso un linguaggio spontaneo (o “naturale”, appunto) che porta con sé una serie di imprecisioni e errori.
Le due principali tipologie di prodotti LLM-based si suddividono in interfacce conversazionali, ovvero dei chatbot con cui l’utente può interagire attraverso uno scambio di messaggi, e agenti, a cui l’utente può trasmettere una serie di indicazioni che lo strumento deve eseguire, solitamente in serie. Gli esempi più noti di queste due tipologie sono ChatGPT per le interfacce conversazionali e Copilot per gli agenti.
Ma qual è la traiettoria di sviluppo su cui si stanno muovendo questi strumenti?
Come stanno evolvendo i prodotti LLM-based
Abbiamo categorizzato le diverse tipologie di prodotti LLM-based attraverso cinque principali dimensioni:
- la conoscenza del problema;
- l’interazione con l’ambiente;
- l’interazione con altri utenti;
- la fonte di informazioni aggiuntive;
- il formato dell’output.
Nella tabella seguente sono riassunte le principali tipologie.
Aspetti | Assistente Conversazionale | Assistente Conversazionale con RAG | Assistente Conversazionale Single – Purpose | Copilot |
---|---|---|---|---|
1. Conoscenza del problema | Descrizione da parte dell’utente | Descrizione da parte dell’utente | Conoscenza specifica dell’attività | Conoscenza generale del problema |
2. Interazione con l’ambiente | Descrizione dell’ambiente da parte dell’utente | Descrizione dell’ambiente da parte dell’utente | Descrizione dell’ambiente da parte dell’utente | Istruzioni fornite dall’utente su come agire |
3. Interazione con altri utenti | – | – | – | – |
4. Informazioni aggiuntive | Fornite dall’utente | Raggiunge autonomamente informazioni | Fornite dall’utente | – |
5. Formato dell’output | Formato desiderato da parte dell’utente | Formato desiderato da parte dell’utente | Formato specifico preimpostato | Esegue azioni basate sulle istruzioni |
Esempi | ChatGPT Classico | ChatGPT collegato a motore di ricerca o documenti aziendali | Aggiunta commenti a codice sorgente | Tutti i copilot |
La tipologia “standard” di prodotto è rappresentata da un’agente conversazionale che usa un LLM addestrato su dataset di conoscenza generale e con cui l’utente può interagire attraverso uno scambio di messaggi. Questo strumento è in grado di analizzare richieste in linguaggio naturale, elaborare e fornire risposte sulla base della sua conoscenza, fornita dai suoi dati di addestramento. Non è in grado di reperire informazioni da fonti terze in tempo reale. L’esempio tipico sono le prime versioni di ChatGPT “free”.
Questo modello di prodotto, sebbene la sua introduzione sul mercato di larga scala sia stata relativamente recente, è stato ulteriormente potenziato aggiungendo la funzione di RAG – Retrieval Augmented Generation. Grazie ai RAG, lo strumento è in grado di verificare la base di conoscenza confrontandola con fonti terze affidabili per rispondere all’utente in tempo reale, migliorando la qualità delle risposte e limitando i cosiddetti casi di “allucinazione”, dove l’intelligenza artificiale generativa trasmette all’utente informazioni errate o non aggiornate. Le funzionalità di ricerca su Bing dei nuovi ChatGPT nella versione premium e lo strumento concorrente Bard rispondono esattamente a questa categoria, in quanto possono reperire informazioni esterne e fare fact-checking.
In parallelo a questo modello “generalista” stanno sempre di più prendendo piede dei prodotti S.P. (Single Purpose) che offrono una verticalizzazione della conoscenza dello strumento in uno specifico contesto. In questo caso, gli agenti interagiscono con l’utente seguendo le regole e la conoscenza specifica di un argomento, migliorando (auspicabilmente) la qualità delle risposte generate. Le versioni “custom” di ChatGPT permettono proprio di inserire informazioni e regole di contesto e di comportamento allo strumento. Tra i modelli più complessi che rispondono a questa categoria possiamo citare Copilot che – grazie alla conoscenza estensiva dell’applicativo da co-pilotare, è in grado di assistere l’utente in maniera efficace sul preciso compito che si propone.
Il futuro dei prodotti LLM-based
Quali sono le prospettive future di questi strumenti? Gli indizi attualmente disponibili portano a due diverse strade: la prima prevede la trasformazione dei prodotti generalisti a un’interfaccia multiutente, mentre per gli agenti single purpose la probabile evoluzione è da intendersi verso un sempre maggiore grado di autonomia dello strumento nell’esecuzione di task in serie per raggiungere un obiettivo fissato dall’utente. Anche in questo caso abbiamo riassunto le principali tipologie nella tabella sottostante.
Aspetti | Assistente Conversazionale Multi-utente | Agente Autonomo |
---|---|---|
1. Conoscenza del problema | Descrizione da parte dell’utente | Conoscenza intrinseca |
2. Interazione con l’ambiente | Descrizione dell’ambiente da parte dell’utente | Esperienza diretta |
3. Interazione con altri utenti | Decide quali utenti contattare autonomamente | – |
4. Informazioni aggiuntive | Raggiunge autonomamente informazioni | Procurate autonomamente |
5. Formato dell’output | Formato desiderato da parte dell’utente | Output per operare modifiche sull’ambiente |
Esempi | Dory di RES | JENRES |
La principale limitazione degli strumenti conversazionali disponibili è l’impossibilità di condividere informazioni tra più utenti e l’agente. La possibile soluzione porta a un’interfaccia in cui più utenti possono interagire con lo strumento in un flusso di lavoro / conversazione condivisa. Questi strumenti sembrano essere attualmente in fase di sviluppo e potrebbero essere sul mercato in tempi relativamente brevi.
Per i prodotti copilot, invece, l’evoluzione assomiglia molto a quella di un agente sempre più autonomo nell’esecuzione di compiti per raggiungere l’obiettivo posto dall’utente. In questo caso l’utente stesso lascia nelle mani dello strumento lo sviluppo dei diversi passaggi necessari, limitandosi a una funzione di controllo rispetto alla coerenza e la qualità dell’output prodotto. Strumenti di questo tipo cominciano a comparire sul mercato per l’automatizzazione di attività piuttosto contenute ma di complessità sempre maggiore.