La Named Entity Recognition (NER) – in italiano ‘Riconoscimento delle Entità Nominate’ – è una tecnica del Natural Language Processing che si colloca nel campo di studi dell’Information Extraction (estrazione di informazione). Il suo scopo è quello di identificare, estrarre e classificare automaticamente alcune informazioni chiave presenti nei documenti. Ciò permette di ottenere dei dati strutturati utilizzabili dalle macchine per trovare informazioni, estrarre elementi chiave e anche fatti, domande e risposte.
Indice degli argomenti
Named Entity Recognition: Che cos’è?
Nella maggior parte dei casi, i testi di documenti, pagine web, social media, sono in formato non strutturato, ovvero sono contenuti privi di uno schema organizzativo. Ciò rende difficile l’identificazione delle informazioni contenute in essi e il loro utilizzo per scopi futuri.
La NER permette di identificare persone, luoghi, organizzazioni, espressioni temporali, ma anche entità più specifiche come gli ingredienti di una ricetta, le medicine in una prescrizione medica e potenzialmente tutte le entità di cui necessitiamo. La NER è capace di trasformare un dato in formato non strutturato in un dato in formato strutturato. Al fulcro del suo funzionamento vi è una base di conoscenza (knowledge base, KB), ovvero l’insieme dei concetti e delle le entità che possono essere estratte da un documento.
Pensiamo ai dati che circolano all’interno di una realtà aziendale: email, ticket di clienti e impiegati, sondaggi, recensioni su prodotti, post sui vari canali social, moduli di vario genere, ecc.. Sebbene tutti questi testi possano offrire all’azienda una grande quantità di informazioni, analizzare questo materiale manualmente o con tecniche non adeguate, comporta tempi e costi rilevanti. In tale contesto la NER permette di ottenere una serie di informazioni chiave per capire di cosa parla un documento e rappresenta così il primo passo per un’ulteriore analisi dei dati.
NER: come funziona?
Quando leggiamo un testo siamo capaci di individuare le entità in esso presenti. Perciò nella frase:
Mario Rossi è il fondatore di EcoBike un’azienda di biciclette elettriche con sede a Milano.
Mario Rossi = Persona
EcoBike = Organizzazione
Milano = Luogo
Per i computer però non è così facile riconoscere queste entità, soprattutto perché il linguaggio umano è ambiguo. Per esempio la parola “crema” può essere una città, un colore, un cibo, o prodotto farmaceutico.
In tale situazione l’individuazione di parole chiave isolate non basta. Negli ultimi anni, grazie agli avanzamenti nel campo del Natural Language Processing, il processo di estrazione di informazioni è stato agevolato dall’uso di regole, pattern e modelli di apprendimento automatico all’avanguardia. Questi permettono di catturare una serie di caratteristiche linguistiche, sintattiche e semantiche e di far uso del contesto, per superare alcune barriere poste dal linguaggio naturale.
Un sistema di estrazione delle informazioni sviluppato in tal senso permette di tracciare le relazioni tra le entità estratte, disambiguare casi particolari e stabilire relazioni complesse tramite inferenze. Inoltre è possibile collegare tra di loro entità presenti in diverse basi di conoscenza. Per esempio è possibile estrarre tutte gli ingredienti di una ricetta e collegarli alle loro quantità, o tracciare la relazione tra i clienti di un’azienda, i prodotti che acquistano e la loro localizzazione sul territorio.
NER: le sue applicazioni reali
La Named Entity Recognition ha molteplici applicazioni nel mondo reale: in alcuni casi può rappresentare un tool indipendente, altre volte può far parte di sistemi più complessi come quelli di question answering, text summarization, sistemi di raccomandazione e traduzione automatica per citarne alcuni.
Alcuni dei principali campi di applicazione della NER sono:
- Estrazione di dati da contenuti online e archivi
Le case editrici e le testate giornalistiche hanno costantemente a che fare con un importante numero di articoli e documenti da cui è necessario estrarre informazioni. La NER è capace di visionare numerosi articoli e rilevare persone, organizzazioni, luoghi e altri tipi di entità contenuti in esse. I tag ottenuti da questa analisi preliminare possono poi guidare la classificazione automatica degli articoli, la definizione di gerarchie di importanza e l’identificazione dei contenuti.
- Classificare i ticket per il Customer Support
Nel momento in cui si ricevono un numero rilevante di ticket da parte dei clienti potrebbe essere utile sviluppare nuove tecniche per gestire in modo veloce, efficace e scalabile le loro richieste.
Infatti riuscire a taggare automaticamente i ticket in base alle richieste e indirizzarli al personale adatto è vantaggioso sia per il business che per i clienti stessi. Da una parte, infatti, questo crea una riduzione dei costi e del tempo che solitamente si impiega per svolgere questi compiti ripetitivi, dall’altro si migliora la soddisfazione dei clienti.
Si potrà così utilizzare la Named Entity Recognition per estrarre alcune informazioni rilevanti dai ticket, come per esempio nominativi di persone, aziende e prodotti, numeri di serie, clausole particolari, motivazioni del ticket stesso e molto altro.
- Customer Feedback
Le recensioni dei clienti possono offrire importanti informazioni su ciò che piace o non piace o su quali aspetti del business andrebbero migliorati. Ad esempio un’azienda con sedi in varie parti del mondo potrebbe aver necessità di sapere quali sono le opinioni dei clienti sulle diverse sedi e quindi estrarre, tramite NER, la loro localizzazione. O anche: potrebbe voler sapere quale prodotto o modello viene citato più volte nelle recensioni e in che modo. In questo modo sarebbe possibile gestire e organizzare lamentele, commenti negativi o proposte di miglioramento, indirizzando i feedback direttamente al settore che offre quel servizio o prodotto.
- Revisionare e riassumere curriculum
Gli HR spendono diverse ore della giornata per visionare curriculum dei candidati al fine di selezionare quelli con requisiti in linea con la posizione offerta. I curriculum rappresentano un chiaro esempio di dati non strutturati, dove informazioni simili si trovano in formati diversi. Inoltre, spesso i candidati nel descrivere competenze e conoscenze si dilungano in dettagli che allungano le tempistiche di selezione. Grazie alla NER è possibile estrarre da questi documenti diversi tipi di informazioni, da quelle personali a quelle relative all’istruzione o alle esperienze pregresse, velocizzando e ottimizzando in questo modo il processo di selezione del personale.
- Sistemi di raccomandazione
Un’altra importante applicazione della NER è nello lo sviluppo di sistemi di raccomandazione. I sistemi di raccomandazione aiutano a trovare novità e idee in linea con i propri interessi. Grazie alla NER è possibile estrarre le entità più ricorrenti in un articolo e consigliare poi una serie di articoli di contenuto simile. Molte aziende nel campo dei media, ma anche dell’ecommerce sfruttano il potenziale di questa tecnologia, con importanti ripercussioni sul loro business.
Gruppo RES e l’estrazione di informazioni per il settore dell’editoria del food
Il team di Innovazione del Gruppo RES ha recentemente concluso un progetto di estrazione di informazioni da un’ampia raccolta di ricette di cucina. Il progetto è stato gestito in tutte le sue fasi:
- organizzazione dei dati ricevuti dal cliente
- arricchito i dati con informazioni relative agli ingredienti, alle quantità e alle unità di misura relative.
- “allenato” i modelli di apprendimento automatico capaci di estrarre automaticamente questo tipo di informazioni da ricette in italiano e in inglese
Data una nuova ricetta, il sistema sviluppato è capace di riconoscere ed estrarre gli ingredienti e le informazioni ad essa correlate, in modo del tutto automatico. Non solo: la componente di entity linking presente del sistema permette di collegare in modo univoco e senza ambiguità un ingrediente alle relative quantità e unità di misura.
La NER in sintesi
La Named Entity Recognition è uno dei metodi più efficaci per estrarre informazioni chiave da documenti. Esso rappresenta il primo step su cui basare poi ulteriori e più approfondite analisi dei dati. Con la NER si possono estrarre persone, luoghi, organizzazioni, espressioni temporali, nomi di brand e molto altro. Disporre di queste informazioni è molto utile per organizzare i dati non strutturati e individuare informazioni rilevanti.
Uno degli aspetti interessanti di questa metodologia è, inoltre, la sua versatilità e possibilità di applicazione in vari settori di business. La NER può essere infatti utilizzata:
- in campo legale, non solo per trovare entità specifiche, ma anche per anonimizzare documenti, in linea con le normative a tutela della privacy.
- in campo finanziario, nelle attività di risk assessment, ma anche per reperire informazioni all’interno di report e nelle news finanziarie al fine di agevolare i processi decisionali all’interno dell’azienda
- in campo sanitario, per l’estrazione di informazioni riguardo pazienti, terapie, durata e dosaggio. Questo velocizza e snellisce le prassi di accettazione, agevola l’identificazione di una diagnosi e permette al curante di dedicare più tempo al proprio paziente.
- in campo editoriale e dei media per l’analisi, classificazione e gestione di grandi quantità di dati testuali.
Sebbene il processo sottostante sia simile per i diversi ambiti di applicazione, ogni caso ha le sue specifiche e predilige alcuni tipi di algoritmi e approcci.
Gruppo RES ha sviluppato competenze e tecnologie per aiutare le aziende ad estrarre informazioni di valore dai propri dati. Vuoi sapere se è possibile applicare questa tecnologia per una tua necessità? Contattaci.