Hybrid Search: migliorare precisione e affidabilità nel RAG

Nel Retrieval-Augmented Generation (RAG), la qualità della risposta dipende prima di tutto dalla qualità del recupero delle informazioni. Quando i dati aziendali includono codici, sigle, procedure e linguaggio naturale, la ricerca solo semantica non è sufficiente.

Qui entra in gioco la Hybrid Search, una strategia fondamentale per migliorare precisione, recall e affidabilità negli Agenti AI.

Quando l’AI capisce la domanda ma recupera il documento sbagliato

Immagina un cliente che scrive:

“Ho un problema con il codice ERR-7421 dopo l’attivazione del piano Business”

Un Agente AI ben progettato comprende perfettamente:

il contesto (attivazione)
l’intento (risolvere un errore)
il dominio (piano Business)

Eppure può restituire una risposta generica.

Perché succede?

Il problema non è nel modello generativo, ma del retrieval.

In un sistema RAG, la qualità della risposta dipende dalla qualità dei documenti che il retrieval seleziona e passa al modello. Se il retrieval recupera documenti sbagliati, anche il miglior modello linguistico al mondo produrrà una risposta imprecisa.

L’architettura RAG è proprio questo: combinare un modello generativo con una memoria esterna recuperata tramite retrieval, per migliorare la factualità e l’accesso alla conoscenza aggiornata. Ma quella memoria esterna va cercata nel modo giusto.

Cos’è il RAG e perché il retrieval è il punto critico

Prima di parlare di Hybrid Search, vale la pena capire come funziona la pipeline di un sistema RAG.

I passaggi fondamentali sono quattro:

L’utente fa una domanda.
Il sistema cerca i contenuti più rilevanti nella knowledge base.
I contenuti recuperati vengono passati al modello.
Il modello genera una risposta basata su quei contenuti.

Il modello, quindi, non risponde “da solo”. Risponde sulla base dei documenti che riceve.

Se il retrieval recupera documenti sbagliati, parziali o troppo generici, il modello produrrà risposte sbagliate, parziali o generiche. Il retrieval è il punto più critico dell’intera catena.

Cos’è la Hybrid Search

La Hybrid Search è una strategia di retrieval che combina due modi diversi di cercare:

la ricerca semantica (dense vectors), che capisce il significato
la ricerca lessicale (sparse vectors come BM25) che trova match esatti

La prima trova contenuti simili per significato. La seconda trova corrispondenze precise su parole, codici, sigle e termini specifici.

L’obiettivo è semplice: unire comprensione + precisione.

Nessuno dei due approcci, da solo, copre tutti i casi. Combinandoli, il sistema riesce a recuperare documenti rilevanti sia quando l’utente parafrasa un concetto sia quando inserisce un identificativo esatto.

Come funziona la Hybrid Search

La Hybrid Search si basa su tre componenti: dense vectors, sparse vectors e un meccanismo di fusion che combina i risultati.

Dense vectors

I dense vectors sono rappresentazioni numeriche compatte generate da un modello di embedding. Servono a catturare il significato di una frase o di un documento.

Prendiamo due frasi: “Come posso annullare il contratto?” e “Qual è la procedura di recesso?”. Le parole sono diverse, ma il significato è vicino. La ricerca vettoriale basata su dense vectors può quindi recuperare documenti pertinenti anche senza un match lessicale diretto. OpenAI descrive gli embeddings come rappresentazioni che misurano la relatedness tra stringhe di testo e abilitano casi d’uso come search e clustering.

Sparse vectors

Gli sparse vectors rappresentano la presenza e il peso di parole specifiche. Sono “sparse” perché, su un vocabolario molto grande, ogni documento attiva solo alcune dimensioni: quelle relative ai termini presenti o rilevanti. Quindi, in parole più semplici, trova parole esatte.

Sono fondamentali per recuperare:

codici prodotto
codici errore
numeri di pratica
sigle e acronimi
nomi di moduli o parametri
riferimenti normativi
SKU e URL
termini tecnici molto specifici

Fusion

Dopo aver eseguito entrambe le ricerche, il sistema deve unire i risultati. Questa fase si chiama fusion.

I metodi più comuni sono:

Somma pesata dei punteggi: i risultati delle due ricerche ricevono un peso relativo.
Normalizzazione degli score: gli score vengono portati su una scala comune prima di combinarli.
Reciprocal Rank Fusion (RRF): combina i ranking senza bisogno di normalizzare i punteggi, basandosi sulla posizione dei risultati.
Reranking finale: un modello dedicato riordina i risultati combinati per massimizzare la rilevanza.

In pratica, quando arriva una query il flusso è lineare: la domanda dell’utente viene trasformata in un embedding (dense vectors) e, contemporaneamente, analizzata come testo per la ricerca keyword (sparse vectors). Le due ricerche partono in parallelo sulla knowledge base. I risultati vengono poi unificati tramite fusion, i documenti più promettenti vengono selezionati e passati al modello generativo, che produce la risposta finale. Tutto avviene in pochi istanti, ma la qualità di ogni passaggio si riflette direttamente sulla risposta.

Dense vectors vs sparse vectors: la differenza in sintesi

Aspetto	Dense vectors	Sparse vectors
Cosa catturano	Significato, contesto, similarità semantica	Parole esatte, codici, termini specifici
Esempio	“disdire contratto” ≈ “fare recesso”	ERR_403, AB-1290, webhook_retry_limit
Punto di forza	Comprende parafrasi e sinonimi	Non perde identificativi precisi
Limite	Può ignorare dettagli esatti	Non capisce il significato se cambiano le parole
Ruolo nel RAG	Aumenta la comprensione	Aumenta la precisione

Perché è fondamentale negli Agente AI aziendali

In un contesto aziendale, le informazioni non sono fatte solo di concetti. Sono fatte anche di codici, procedure, versioni, prodotti, nomi interni, condizioni contrattuali e abbreviazioni.

Un Agente AI deve saper gestire entrambe le dimensioni.

La ricerca solo semantica è molto forte quando l’utente usa parole diverse da quelle presenti nei documenti. Ma può essere fragile quando la domanda contiene identificativi precisi. La ricerca keyword è forte sugli identificativi, ma può fallire quando l’utente parafrasa o usa linguaggio naturale.

La Hybrid Search serve proprio a compensare questi due limiti. Pinecone descrive l’obiettivo della hybrid search come fusione tra vector search e traditional search, per combinare la performance semantica con l’adattabilità della ricerca tradizionale.

Hybrid Search: come migliora recall e precision

Per capire perché la combinazione funziona, è utile ragionare in termini di recall e precision: due concetti fondamentali nell’information retrieval.

Il recall misura la capacità di recuperare tutti i documenti potenzialmente utili.

La precision misura la capacità di mettere in alto quelli davvero corretti.

In un sistema RAG, servono entrambe: se il recall è basso, il documento giusto non arriva nemmeno al modello; se la precision è bassa, il modello riceve troppo rumore e produce risposte vaghe o fuorvianti.

La dense search contribuisce soprattutto al recall semantico: riesce a trovare contenuti rilevanti anche quando le parole della query non compaiono nel documento. La sparse search contribuisce alla precision lessicale: quando la query contiene un codice, una sigla o un termine esatto, lo valorizza come segnale forte. La fusion prova a ottenere il meglio da entrambe, costruendo una lista di risultati che sia al tempo stesso ampia e precisa.

Cosa succede senza Hybrid Search

Vediamo quattro scenari concreti.

1. Codici errore

Mi compare ERR_AUTH_403 quando provo ad accedere all’area riservata.

Con solo dense search, il sistema potrebbe recuperare contenuti generici su “problemi di accesso” o “credenziali non valide”, perché semanticamente vicini. Con hybrid search, il codice ERR_AUTH_403 pesa come match esatto e porta in alto la procedura specifica.

2. Versioni prodotto

Cosa include il piano PRO-2025 rispetto al piano PRO-2024?

Senza sparse retrieval, il sistema potrebbe concentrarsi sul concetto di “piano pro” e perdere la differenza tra le versioni. Con hybrid search, i codici PRO-2025 e PRO-2024 diventano segnali forti.

3. Parametri tecnici

Come configuro il parametro webhook_retry_limit?

La ricerca semantica può capire “configurazione webhook”, ma non sempre valorizza abbastanza il nome esatto del parametro. La ricerca sparse, invece, trova il parametro preciso. La parte dense aiuta poi a recuperare anche spiegazioni correlate, esempi e procedure equivalenti.

4. Sigle interne o acronimi

Qual è la procedura per escalation L2 su ticket NDD?

Se L2 o NDD sono sigle interne, un modello dense potrebbe non interpretarle correttamente. La componente sparse permette di agganciare il documento esatto anche quando il significato semantico non è evidente.

Il ruolo del modello di embedding

La componente dense della Hybrid Search è tanto buona quanto il modello di embedding che la genera.

Un buon embedding model deve essere scelto considerando prima di tutto la lingua dei contenuti e il dominio aziendale: un modello ottimizzato per l’inglese potrebbe non rappresentare bene l’italiano, e una terminologia specifica richiede modelli capaci di comprenderla. Conta anche la lunghezza dei documenti, alcuni modelli gestiscono meglio testi lunghi, altri sono ottimizzati per frasi brevi, e la presenza di termini tecnici come codici, sigle e abbreviazioni, che possono essere mal rappresentati da modelli generalisti.

Se i contenuti sono in più lingue, serve un modello multilingua. In produzione, costo e latenza diventano vincoli concreti. E c’è un aspetto spesso sottovalutato: la capacità di rappresentare query brevi e documenti lunghi nello stesso spazio semantico, che influisce direttamente sulla qualità del matching.

Per esempio, MTEB, uno dei benchmark più citati per valutare embedding models, copre molti task, lingue e domini proprio perché nessun modello è universalmente migliore in ogni scenario.

Scegliere un embedding model non significa scegliere “il più famoso”, ma quello più adatto al tipo di conoscenza che l’Agente AI deve recuperare. Un sistema customer care in italiano, con procedure, codici e documenti aziendali, ha esigenze diverse da un motore di ricerca per articoli scientifici o da un assistente per codice sorgente.

Oltre la Hybrid Search: cosa serve davvero

La Hybrid Search è importante, ma per essere efficace deve essere accompagnata da altri componenti.

Il primo è il chunking corretto: i documenti vanno divisi in blocchi sensati, non casuali. Un chunk troppo grande diluisce il segnale; uno troppo piccolo perde il contesto. Trovare la granularità giusta è un lavoro di design, non un dettaglio implementativo. Approfondisci con il nostro articolo.

Poi c’è il metadata filtering. Filtri per lingua, prodotto, mercato, versione, data o canale permettono di restringere la ricerca prima ancora di eseguirla, riducendo il rumore e velocizzando il retrieval.

Un altro passaggio fondamentale è il reranking: dopo aver raccolto i candidati migliori, un modello dedicato li riordina per massimizzare la rilevanza.

Infine, servono valutazione continua e monitoraggio delle risposte. Testare su query reali e casi limite, analizzare le conversazioni in cui il retrieval non ha trovato il documento corretto: è così che un sistema RAG migliora nel tempo, non solo al momento del lancio.

Come Userbot affronta il retrieval negli Agenti AI

In Userbot trattiamo il retrieval come una parte centrale del Retriever Agent, non come un dettaglio tecnico nascosto. L’obiettivo non è solo generare una risposta fluida, ma recuperare il contenuto giusto, nel momento giusto, dal documento giusto.

Questo significa lavorare su più livelli.

Il recupero semantico consente di comprendere richieste formulate in linguaggio naturale, anche quando le parole non coincidono con quelle dei documenti. Il recupero lessicale, in parallelo, garantisce che codici, sigle, identificativi e parole chiave vengano trovati con precisione. I risultati delle due ricerche vengono poi combinati tramite ranking e fusion, per portare in alto i documenti più rilevanti.

Ma la pipeline non finisce qui. La scelta del modello di embedding è il fondamento della componente semantica, e va calibrata sul dominio e sulla lingua dei contenuti. Il monitoraggio delle query reali serve a capire dove il sistema funziona e dove serve intervenire. E il miglioramento è progressivo: ogni caso in cui la risposta richiede precisione documentale diventa un’opportunità per affinare il retrieval.

Questo miglioramento è particolarmente evidente nelle richieste che contengono codici specifici, sigle, identificativi di prodotto o nomi tecnici. In questi casi, la sola similarità semantica può recuperare contenuti plausibili ma non esatti. La Hybrid Search riduce concretamente il rischio che l’Agente AI risponda con un contenuto “semanticamente simile” ma non corretto, aumentando la probabilità che il documento giusto venga selezionato già nella fase di retrieval.

Perchè la Hybrid Search è cruciale nel RAG

Nel RAG, la generazione è solo l’ultimo passaggio. Prima c’è una domanda più importante: quali informazioni stiamo dando al modello?

La Hybrid Search nasce per rispondere a questa domanda con un approccio più robusto: cercare per significato, ma anche per precisione. Perché in un contesto aziendale, la differenza tra una risposta utile e una risposta sbagliata può stare in un codice, in una sigla o in una singola parola.

Un Agente AI affidabile non deve solo parlare bene. Deve cercare bene.

Per approfondire:

Weaviate

OpenSearch

Pinecone

Azure AI Search

Qdrant

Cohere

OpenAI

Hybrid Search nel RAG: come migliorare precisione e affidabilità negli Agenti AI

Customer Care Automotive H24: come l’AI gestisce 30.000 richieste l’anno

Agenti AI e lavoro: dalla sequenza all’orchestrazione digitale

Hybrid Search nel RAG: come migliorare precisione e affidabilità negli Agenti AI

Quando l’AI capisce la domanda ma recupera il documento sbagliato

Cos’è il RAG e perché il retrieval è il punto critico

Cos’è la Hybrid Search