← Home | ← Indice Corso

Privacy - Strategie Tecniche di Difesa

Corso LLM - Modulo 5

Autore/Autrice

Edoardo Avenia

Una Premessa Necessaria

Prima di addentrarci negli aspetti tecnici della privacy con gli LLM, è importante che io chiarisca la mia posizione. Sono un tecnico, non un avvocato. Quello che segue è una spiegazione tecnica di come funzionano questi sistemi e quali sono le implicazioni pratiche per la protezione dei dati. Non costituisce consulenza legale. Per questioni di compliance normativa o GDPR, consultate sempre il vostro team legale.

Detto questo, comprendere gli aspetti tecnici è fondamentale. Non potete proteggere ciò che non capite. E la buona notizia è che proteggere i vostri dati quando usate l’AI non è complicato come potreste pensare.

Il Problema Reale: Dove Vanno i Vostri Dati

I rischi della privacy con gli LLM non sono teorici. Prendiamo due esempi recenti che dimostrano cosa può andare storto:

OmniGPT (febbraio 2025)
Il 12 febbraio 2025, CSO Online ha riportato che un hacker ha messo in vendita su BreachForums un archivio contenente oltre 34 milioni di righe di conversazioni utente, 30.000 email e numeri di telefono, oltre a API key e chiavi crypto presumibilmente provenienti da OmniGPT. L’azienda non ha confermato ufficialmente la violazione, e finora nessuna autorità ha annunciato sanzioni in ambito GDPR, sebbene gli analisti ipotizzino conseguenze potenzialmente gravi.

Link alla fonte:
https://www.csoonline.com/article/3822911/hacker-allegedly-puts-massive-omnigpt-breach-data-for-sale-on-the-dark-web.html

DeepSeek – “LLMjacking” (gennaio 2025)
Un database pubblico di DeepSeek, lasciato accessibile su internet senza autenticazione, conteneva oltre 1 milione di record con prompt LLM, chiavi API e altri dati sensibili. I dati sono stati sfruttati da attori malevoli per consumare oltre 2 miliardi di token, causando un danno economico stimato in quasi 50.000 dollari in meno di cinque giorni. L’attacco è stato definito “LLMjacking” per via del furto di accesso a modelli AI tramite credenziali compromesse.

Link alle fonti:
https://sysdig.com/blog/llmjacking-targets-deepseek/
https://hackread.com/hackers-monetize-llmjacking-selling-stolen-ai-access/

Il primo livello è quello immediato: quando inviate un prompt a ChatGPT, Claude o Gemini, i vostri dati viaggiano necessariamente verso i server del provider. È come inviare una email: anche se la connessione è criptata, il contenuto deve essere letto dal server per generare una risposta. Questo significa che i vostri dati esistono, almeno temporaneamente, su computer che non controllate.

Il secondo livello è più subdolo: molti provider utilizzano le conversazioni degli utenti per migliorare i loro modelli. “Migliorare” in questo contesto significa re-training, e il re-training può causare memorizzazione dei vostri dati. Il modello può letteralmente memorizzare frammenti di testo e rigurgitarli mesi dopo. Non è un bug, è una conseguenza di come funziona il deep learning.

Il terzo livello è quello che molti ignorano: i log e la retention dei dati. Anche se il provider promette di non usare i vostri dati per training, questi dati vengono salvati per debugging, compliance, analytics. Per quanto tempo? Chi può accedervi? In quali paesi sono salvati questi backup? L’FTC americana ha investigato OpenAI proprio su questi aspetti, richiedendo informazioni dettagliate su incidenti di sicurezza e gestione dati.

[Fonte: ArentFox Schiff - Leaked FTC Civil Investigative Demand]

L’Anonimizzazione: La Prima e Più Semplice Difesa

La buona notizia è che la soluzione più efficace è anche la più semplice: anonimizzare i dati prima di inviarli. Non dovete diventare esperti di cybersecurity. Dovete solo sviluppare l’abitudine di sostituire informazioni sensibili con placeholder generici.

Prendiamo un esempio concreto. State scrivendo una email di scuse per un cliente arrabbiato. Invece di scrivere “Scrivi una mail di scuse per Mario Rossi della Rossi SpA che si lamenta del ritardo nella consegna del lotto #4521”, scrivete “Scrivi una mail di scuse per un cliente di un’azienda manifatturiera che si lamenta di un ritardo di consegna”. L’AI genererà una risposta altrettanto efficace, ma non avrete esposto dati sensibili.

Per documenti più complessi come fogli Excel, la funzione trova e sostituisci è vostra amica. Prima di caricare quel file con i dati di vendita, sostituite tutti i nomi dei clienti con codici generici. “Acme Corp” diventa “Cliente_001”, “mario.rossi@email.com” diventa “email_001@example.com”. L’analisi funzionerà esattamente allo stesso modo, ma i dati reali non lasceranno mai il vostro computer.

Configurare le Piattaforme per la Privacy

Molte piattaforme LLM offrono impostazioni di privacy, ma sono spesso nascoste o disattivate di default. Prendetevi dieci minuti per configurarle correttamente e risparmierete molti potenziali problemi.

ChatGPT

In ChatGPT, andate in Settings, poi Data Controls. L’opzione cruciale ora si chiama “Improve the model for everyone”. Disattivatela. Questo dice a OpenAI di non usare le vostre conversazioni per addestrare futuri modelli. È un’impostazione fondamentale per uso professionale.

Ma attenzione: queste impostazioni sono legate al dispositivo e al browser che state usando. Se disattivate il training sul vostro laptop, potrebbe essere ancora attivo sull’app del telefono. Ogni volta che accedete da un nuovo dispositivo, controllate di nuovo.

Un’altra feature utilissima sono le chat temporanee. ChatGPT offre modalità “temporanee” dove la conversazione non viene salvata nella cronologia, non aggiorna la “memoria” del modello, e non viene usata per training. È l’equivalente della modalità incognito del browser, perfetta per quei momenti in cui dovete processare dati sensibili.

Altri Provider e Policy Privacy

Ogni provider ha regole diverse sulla privacy:

Claude (Anthropic): Ha politiche di massima privacy di default. Non usa conversazioni per training senza consenso esplicito. Privacy Policy

Gemini (Google): Permette di impostare cancellazione automatica dei dati dopo periodi specifici. Integrato con le policy Google Workspace per account aziendali. Privacy Help

Copilot (Microsoft): Segue le policy Microsoft enterprise, ma le opzioni consumer sono meno trasparenti. Privacy Statement

Importante: Leggete sempre le privacy policy complete. I link sopra sono punti di partenza, ma le policy cambiano frequentemente. Verificate cosa succede ai vostri dati, per quanto vengono conservati, e in quali giurisdizioni.

La “memoria” dei modelli è un’altra area critica. ChatGPT può “ricordare” informazioni dalle conversazioni precedenti per personalizzare le risposte future. Sembra utile, ma può diventare un problema quando il modello confonde informazioni di clienti diversi. Se lavorate con dati di multiple aziende, considerate di disattivare completamente questa funzione. Io personalmente la disattivo sempre.

Soluzioni Enterprise: Quando Serve di Più

Per molte aziende, le impostazioni privacy base non sono sufficienti. Servono garanzie più forti e controllo maggiore.

I piani enterprise di ChatGPT, Claude e Gemini funzionano diversamente dalle versioni consumer. La differenza principale? I vostri dati non vengono mai usati per training. Inoltre, ottenete Data Processing Agreement (DPA) legalmente vincolanti, audit log completi, e certificazioni di compliance. Il costo è maggiore, ma per dati aziendali critici, è un investimento necessario.

Ma ci si può fidare? Le certificazioni esistono (SOC2, ISO 27001), ma la fiducia ultima dipende dalla vostra valutazione del rischio. Molte aziende preferiscono comunque soluzioni on-premise per dati ultra-sensibili.

Deployment Privati nel Cloud

Se usate già servizi cloud, potete mantenere i dati nel vostro ambiente:

Azure OpenAI: Permette di creare endpoint privati all’interno della vostra rete virtuale. I dati viaggiano solo attraverso il backbone privato di Microsoft.

AWS Bedrock: Eseguite modelli AI all’interno del vostro VPC, con tutti i controlli di sicurezza esistenti.

Soluzioni On-Premise e Open Source

Per chi vuole il controllo totale, ad esempio proteggere segreti industriali, ci sono opzioni per eseguire LLM completamente in casa:

Ollama: Tool che semplifica il deployment di modelli open source sui vostri server. Supporta Llama, Mistral, e altri modelli.

Container Sigillati: Google offre Gemini in container cifrati che girano nel vostro datacenter. I pesi del modello rimangono protetti da enclave hardware (AMD SEV, Intel TDX). È come avere il modello in casa ma senza poterlo copiare - il meglio di entrambi i mondi per chi ha requisiti di data residency stringenti.

Il trade-off è che dovete gestire hardware (GPU costose), aggiornamenti e manutenzione. Ma per alcuni settori è l’unica opzione accettabile.

Creare una Cultura della Privacy

Le migliori tecnologie di protezione sono inutili se le persone non le usano. La vera sfida non è tecnica ma culturale.

Un approccio che funziona è il “semaforo” dei dati:

  • Verde: Informazioni pubbliche o già pubblicate - usate qualsiasi LLM
  • Giallo: Dati interni non sensibili - solo LLM con privacy configurata
  • Rosso: Informazioni confidenziali o personali - solo soluzioni private o anonimizzazione completa

Partnership Aziendali e Flessibilità

Molte aziende hanno partnership con certi provider (es. Copilot Microsoft, Google Workspace) che offrono certificazioni e garanzie lato privacy. Questi accordi sono preziosi per dati sensibili - usate sempre il provider aziendale per semaforo rosso e giallo. Ma attenzione: sono spesso i responsabili interni all’azienda che impongono regole eccessivamente rigide come “qui si può usare solo questo strumento”.

Questa rigidità è un errore strategico grave. Costringere i dipendenti a utilizzare solo uno strumento in tutti i casi limita moltissimo la scoperta, gli esperimenti e l’avanzamento dell’azienda. Limita il vantaggio competitivo che questa tecnologia può dare.

Bisogna insegnare ai colleghi a distinguere quali dati è importante non condividere e quali attività possono essere fatte con strumenti diversi. Per il semaforo verde - ricerche pubbliche, traduzioni di documenti trovati online, brainstorming su argomenti generici - la libertà di sperimentazione è fondamentale.

Un esempio concreto: il vostro team di ricerca scientifica. La ricerca può dare in questo momento un vantaggio competitivo enorme, non solo di velocità ma di qualità. Se i ricercatori devono sapere che non possono inserire le vostre formule proprietarie o segreti industriali nei prompt, ma devono essere liberi di fare ricerche generiche come “dammi informazioni sulla molecola XYZ” o “quali sono gli ultimi sviluppi nella sintesi del composto ABC”. Questa libertà non va impedita.

I dipendenti sono persone intelligenti. Se capiscono che i dati privati dei clienti non vanno condivisi nel gruppo WhatsApp del cinema del venerdì sera, possono capire anche quali dati sono sensibili per l’AI. Al massimo, create profili differenziati: chi ha seguito formazione avanzata o dimostra competenza può avere più libertà di sperimentazione.

Una soluzione pratica: quando si sperimenta, usare account aziendali (anche se gratuiti) così che periodicamente si possano controllare le chat per verificare il rispetto della privacy e darsi feedback costruttivo tra colleghi. L’importante è lasciare libertà di esperimentare a chi vuole prendersi questa responsabilità, sempre nel rispetto della privacy dei dati sensibili.

La chiave è la trasparenza. Create una cultura dove:

  • I successi si condividono (“Ho trovato questo prompt che funziona benissimo!”)
  • Gli errori si ammettono (“Ho quasi inviato dati clienti a un tool random!”)
  • I colleghi si aiutano (“Ehi, stai per incollare email e p.iva di un partner commerciale, usa prima l’anonimizzazione”)

Nascondere l’uso di AI tools porta solo a rischi maggiori. Meglio sperimentare alla luce del sole con regole chiare che nell’ombra senza controlli.

I Vostri Diritti e Come Esercitarli

Pochi sanno che i maggiori provider AI hanno portali dedicati alla privacy dove potete esercitare i vostri diritti:

  • OpenAI: privacy.openai.com - Download dati, cancellazione account, rimozione da output
  • Google: Attraverso il vostro Google Account
  • Anthropic: Via email a privacy@anthropic.com

Questi diritti derivano dal GDPR europeo ma molti provider li estendono globalmente. Se scoprite che informazioni sensibili sono finite nel training di un modello, avete il diritto di richiederne la rimozione.

Conclusione: Pragmatismo, Non Paranoia

La privacy con gli LLM non richiede di diventare esperti di sicurezza o di rinunciare ai benefici dell’AI. Richiede consapevolezza e alcune semplici abitudini.

Disattivate sempre il training sui vostri dati - è un click che non vi costa nulla. Anonimizzate prima di inviare quando ci sono dati sensibili. Usate le chat temporanee quando appropriate. Per i dati aziendali, definite policy chiare ma flessibili basate sul livello di rischio.

Ma soprattutto, ricordate che la perfezione non è l’obiettivo. L’obiettivo è ridurre il rischio a livelli accettabili mentre continuate a beneficiare di questi strumenti potenti. Con le giuste precauzioni, potete usare l’AI con fiducia, sapendo che i vostri dati sono protetti quanto ragionevolmente possibile.

La tecnologia continuerà ad evolversi, e con essa le soluzioni di privacy. Rimanete informati, ma non paralizzati.

Prossimo modulo →