Document AI è l'uso dell'AI — tra cui il machine learning, il natural language processing (NLP) e l'optical character recognition (OCR) — per estrarre, classificare e comprendere automaticamente le informazioni dai documenti. Altri termini intercambiabili per Document AI includono "document intelligence" e "intelligent document processing" (IDP).
A differenza dell'OCR tradizionale, che converte le immagini di testo in caratteri leggibili dalla macchina, Document AI comprende il contesto e il significato. Sa, ad esempio, che "$1.250,00" che appare accanto a "Totale dovuto" è l'importo di una fattura — non solo un numero su una pagina.
Document AI funziona con diversi tipi di documenti — inclusi file strutturati come fogli di calcolo, documenti semistrutturati come fatture, moduli e ricevute, e file non strutturati come contratti, e-mail e report — per trasformarli in dati utilizzabili.
Questa guida illustra come funziona Document AI, i suoi vantaggi e limiti, come viene utilizzato nei vari settori e come funziona sulla piattaforma Databricks.
Document AI utilizza diverse tecnologie per simulare il modo in cui un essere umano legge un documento. Acquisisce i file, legge i caratteri, interpreta il layout e la lingua, estrae le informazioni rilevanti e le inserisce nei sistemi aziendali. Le fasi di questa pipeline includono:
L'OCR è solo un tassello delle pipeline di AI. L'OCR legge i caratteri, mentre Document AI comprende il contesto e il significato.
| Funzione | OCR | Document AI |
|---|---|---|
| Cosa fa | Converte le immagini di testo in testo leggibile dalla macchina | Estrae, classifica e comprende le informazioni dai documenti |
| Cosa comprende | Caratteri e parole | Significato, contesto e struttura del documento |
| Cosa produce | Testo non elaborato | Dati strutturati, classificazioni di documenti, riassunti e risposte in linguaggio naturale |
| Interpretazione del layout | Produce testo non formattato e non strutturato | Produce dati strutturati mantenendo intatti tabelle, moduli e intestazioni |
| Supporto per scrittura a mano e multiformato | Limitato | Maggiore precisione su diversi tipi di documento |
| Output tipico | Un file .txt o una stringa di caratteri | Campi dati strutturati ed etichettati pronti per i sistemi a valle |
Sebbene l'OCR sia un elemento fondamentale, Document AI è il sistema completo che trasforma i documenti cartacei in dati aziendali utilizzabili.
I sistemi di Document AI gestiscono una serie di attività lungo l'intero ciclo di vita dei documenti:
Il Document AI tradizionale combinava OCR, modelli basati su regole e modelli di machine learning più vecchi. Questi sistemi gestivano bene i formati prevedibili, ma mostravano difficoltà in situazioni non standard, inclusi layout insoliti o scansioni di scarsa qualità.
La moderna document intelligence sovrappone i large language models (LLMs) — modelli di AI in grado di leggere, scrivere e ragionare sul linguaggio — e l'AI generativa allo stack tradizionale, consentendo ai sistemi di riassumere e rispondere alle domande. Possono anche estrarre informazioni da nuovi formati di documento senza esempi di addestramento specifici per l'attività (la cosiddetta estrazione zero-shot). I team possono ottenere i dati di cui hanno bisogno effettuando query in linguaggio naturale invece di scrivere regole per ogni nuovo formato.
Il rischio di allucinazione è il compromesso. Gli LLM possono inventare output non basati sul documento di origine — un problema potenzialmente serio, in particolare nei settori regolamentati. Ciò rende la convalida e la revisione umana essenziali per i flussi di lavoro di Document AI.
Molti settori si basano sui documenti cartacei e Document AI li aiuta a gestirli su scala. I servizi finanziari, la sanità, le assicurazioni, il settore legale, la logistica e il settore pubblico dipendono tutti dalla document intelligence per trasformare i documenti in entrata in dati strutturati e utilizzabili. Ecco alcune delle applicazioni più comuni.
I team di finanza elaborano elevati volumi di documenti strutturati, come fatture, ordini d'acquisto, estratti conto bancari e note spese. Document AI estrae e convalida automaticamente informazioni chiave come nomi dei fornitori, date, importi, codici conto e altro ancora, aggiungendo questi dati ai sistemi di contabilità senza inserimento manuale.
Le operazioni assicurative richiedono un uso intensivo di documenti in ogni fase. Document AI gestisce l'acquisizione, la classificazione e l'estrazione dei dati per documenti quali moduli di richiesta di indennizzo, documenti d'identità, rendiconti finanziari e rapporti sui danni. Ciò accelera la revisione e riduce gli errori, creando al contempo audit trail che supportano i requisiti di conformità.
La sanità si basa sui documenti, che vanno dai moduli di accettazione dei pazienti, documenti di consenso, lettere di dimissione e di referto alle richieste di autorizzazione preventiva. Document AI digitalizza e classifica i documenti, estrae i dati clinici e amministrativi rilevanti e si integra con i sistemi di cartella clinica elettronica (EHR) supportando al contempo la conformità normativa.
I team legali esaminano contratti, documenti normativi e pacchetti di due diligence che possono raggiungere centinaia di pagine. Document AI identifica le clausole chiave, segnala gli obblighi e i termini di rischio, estrae le date e le informazioni sulle controparti ed evidenzia le anomalie per la revisione da parte degli avvocati. Aiuta a ridurre il tempo che gli avvocati dedicano all'estrazione e alla revisione, in modo che possano concentrarsi sull'analisi e sul processo decisionale.
Nel settore dei mutui, i documenti — tra cui domande, verifiche del reddito, valutazioni, perizie e informative di chiusura — provengono da più parti, spesso in formati non coerenti. Document AI estrae, convalida e standardizza i dati chiave, riducendo lo sforzo di elaborazione manuale, abbassando i costi e accelerando il processo.
Le agenzie governative gestiscono servizi per i cittadini come domande, permessi, richieste di prestazioni e documenti d'identità in volumi elevati. Document AI gestisce l'acquisizione e la classificazione, estrae i dati e instrada le domande attraverso le opportune revisioni. Molti di questi documenti contengono informazioni personali sensibili e i sistemi di document intelligence garantiscono controlli sulla privacy e verificabilità durante l'intero processo.
Document AI riduce i tempi di elaborazione, riduce gli errori e abbassa i costi per trasformare i documenti in dati utilizzabili su scala.
I sistemi di document AI offrono funzionalità potenti, ma è importante comprenderne anche i limiti.
La maggior parte dei modelli è addestrata principalmente su documenti in lingua inglese. L'accuratezza diminuisce per le lingue con meno risorse, i documenti in più lingue o le scritture non latine.
La document AI non è immune alla dinamica "garbage-in, garbage-out". Persino i modelli moderni faticano a produrre risultati accurati a partire da documenti sorgente di scarsa qualità, con scansioni a bassa risoluzione, immagini storte, testo sbiadito o forte rumore di fondo.
I modelli di machine learning migliorano con l'esposizione ai dati, quindi la document AI funziona al meglio su tipologie di documenti che compaiono abbastanza frequentemente nei dati di addestramento da poter stabilire pattern affidabili. I formati rari o altamente variabili potrebbero non essere buoni candidati per l'automazione.
Per ottenere un'accuratezza di livello di produzione, i documenti con layout insoliti o domini specializzati richiedono spesso esempi di addestramento annotati che mostrino al modello la corretta estrazione. La configurazione di questo processo richiede tempo e competenze di dominio.
Gli LLM possono inventare output non basati sui documenti sorgente. In contesti ad alto rischio, come la rendicontazione finanziaria, la documentazione clinica o le revisioni legali, queste allucinazioni hanno conseguenze gravi. La validazione delle fonti, il punteggio di confidenza e la revisione umana sono fondamentali per prevenire e mitigare le allucinazioni.
I documenti elaborati dai sistemi di document AI contengono spesso dati personali, finanziari o clinici sensibili. Senza adeguati controlli di data governance (controllo degli accessi, data lineage, log di controllo e policy di conservazione), tali dati diventano un rischio di conformità. Ogni fase della pipeline deve essere governata e verificabile.
La document AI si sovrappone a diverse tecnologie adiacenti. Ecco come si relazionano.
| Termine | Cosa fa | Relazione con la document AI |
|---|---|---|
| OCR (optical character recognition) | Converte le immagini di testo in testo leggibile dalla macchina | Un elemento fondamentale all'interno delle pipeline di document AI |
| ICR (intelligent character recognition) | Legge il testo scritto a mano | Una forma più avanzata di OCR, spesso utilizzata all'interno della document AI |
| IDP (intelligent document processing) | Automazione end-to-end dei flussi di lavoro basati su documenti | Un quasi-sinonimo di document AI |
| RPA (robotic process automation) | Automatizza attività software ripetitive come cliccare e copiare | Spesso associata alla document AI per spostare i dati estratti tra i sistemi |
| Q&A sui documenti basato su LLM | Utilizza un LLM per rispondere a domande su un documento | Una funzionalità all'interno dei moderni sistemi di document AI |
| Generazione di documenti tramite AI | Crea nuovi documenti a partire da prompt o template | Una categoria distinta dalla document AI |
La maggior parte delle organizzazioni esegue la document AI in un sistema e l'analytics e l'AI in un altro. Databricks Document Intelligence unisce questi flussi di lavoro all'interno della più ampia piattaforma Databricks. I documenti vengono elaborati, strutturati e archiviati insieme al resto dei dati aziendali. Tutto è governato tramite Unity Catalog e accessibile a sistemi di analytics, agenti AI e applicazioni, senza richiedere lo spostamento dei dati tra sistemi diversi.
Le funzionalità integrate della piattaforma supportano i flussi di lavoro dei documenti su scala. Le AI Functions possono analizzare e arricchire i documenti direttamente in SQL, mentre il tipo di dati Variant memorizza l'output semistrutturato dei documenti in un formato interrogabile durante il passaggio tra le varie fasi. Lakeflow Jobs orchestra le pipeline di elaborazione dei documenti con tentativi automatici, pianificazione e logica condizionale. Invece di gestire strumenti scollegati e passaggi di consegne complessi, le organizzazioni possono trasformare i documenti in dati governati e pronti per la produzione all'interno di un'unica piattaforma.
La document AI viene utilizzata per aiutare le organizzazioni a estrarre informazioni strutturate dai documenti su scala. Le applicazioni comuni includono l'elaborazione delle fatture, la gestione dei sinistri assicurativi, la digitalizzazione delle cartelle cliniche dei pazienti, la revisione dei contratti, l'istruttoria dei mutui e l'elaborazione dei sussidi pubblici.
No. L'OCR è un componente all'interno di un sistema di document AI che converte i caratteri basati su immagini in testo leggibile dalla macchina. La document AI utilizza il machine learning e il natural language processing (NLP) per identificare ed estrarre informazioni specifiche, ordinare i documenti per tipo, comprenderne la struttura e verificare l'accuratezza dell'output.
La document AI si concentra sull'estrazione e sulla comprensione delle informazioni dai documenti esistenti. La generazione di nuovi documenti (come la stesura di contratti, la produzione di report o la creazione di riassunti) è una funzionalità correlata ma distinta, solitamente basata su modelli di AI generativa.
Sì, con alcune limitazioni. I sistemi moderni utilizzano l'intelligent character recognition (ICR) per elaborare i contenuti scritti a mano. L'accuratezza varia in base alla leggibilità della scrittura, alla qualità del documento e alla diversità degli stili di scrittura nei dati di addestramento.
Un large language model (LLM) è un modello di AI addestrato su grandi quantità di testo per comprendere e generare il linguaggio. La document AI è un sistema più ampio che estrae, classifica e struttura le informazioni dai documenti per creare dati utilizzabili. Gli LLM possono far parte dei flussi di lavoro di document AI, ma sono solo un componente del sistema complessivo.
La document AI trasforma i tuoi documenti (inclusi PDF, moduli, contratti, fatture, report e altro ancora) in dati strutturati e governati in grado di alimentare analytics, AI e flussi di lavoro operativi. Databricks porta la document intelligence nella stessa piattaforma che già utilizzi per dati e AI, eliminando la necessità di spostare i dati tra strumenti e sistemi scollegati.
Scopri in che modo Databricks Document Intelligence trasforma i PDF in dati pronti per la produzione.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.