11/6/2024

Data:

Web Scraping e AI Generativa: indicazioni dal Garante Privacy per difendere i dati personali

Il Garante Privacy fornisce le direttive per proteggere i dati personali online pubblicati da entità pubbliche e private, agendo come titolari del trattamento, dal web scraping.

web-scraping-ai-generativa-indicazioni-dal-garante-privacy-per-difendere-i-dati-personali

Il Garante Privacy ha emesso il provvedimento n. 329 il 20 maggio 2024, nel quale ha fornito delle direttive per proteggere i dati personali online pubblicati da entità pubbliche e private, agendo come titolari del trattamento, dal web scraping.

Il Web Scraping è la raccolta indiscriminata di dati personali su internet, effettuata da terzi per finalità quali l'addestramento di modelli di Intelligenza Artificiale Generativa (IAG). Il provvedimento considera i contributi ricevuti dall'Autorità durante l'indagine conoscitiva, deliberata lo scorso dicembre.

Il documento propone varie misure concrete da implementare:

  • la creazione di aree riservate, accessibili unicamente mediante registrazione, per limitare la disponibilità pubblica dei dati;
  • l'introduzione di clausole anti-scraping nei termini di servizio dei siti;
  • il monitoraggio del traffico web per rilevare eventuali flussi di dati anomali in entrata e in uscita;
  • l'adozione di misure specifiche contro i bot, utilizzando, tra le altre, tecnologie offerte dalle stesse aziende che effettuano lo scraping (esempio: modifiche al file robots.txt).

Queste misure non sono obbligatorie; i titolari del trattamento dovranno considerare, basandosi sul principio di accountability, se applicarle per prevenire o mitigare selettivamente gli effetti del web scraping. La decisione deve tenere conto di diversi fattori: lo stato dell’arte della tecnologia, i costi di implementazione, in particolare per le piccole e medie imprese (PMI).

Cos’è il Web Scraping?

Il termine "scraping" si riferisce generalmente all'uso di meccanismi automatizzati per estrarre informazioni da sistemi che per loro natura tenderebbero a impedirlo o che non sono stati progettati per facilitare tale estrazione.

La forma più diffusa è il web scraping, che consiste nell'estrazione di informazioni da siti web. Un sito web pubblico può limitare questa estrazione per controllare la divulgazione delle informazioni in termini di tempi e modi specifici. Gli strumenti utilizzati per lo scraping sono generalmente script, ovvero piccoli programmi più o meno intelligenti, che navigano automaticamente in internet a grande velocità, consultando pagine web e seguendo i link in esse contenuti. Durante la navigazione, questi strumenti estraggono dati di interesse e li salvano localmente in un formato strutturato e più facilmente accessibile.

Ad esempio, la maggior parte dei servizi di comparazione dei prezzi impiega i web scraper per acquisire informazioni sui prezzi da vari negozi online. Si considerino le piattaforme che offrono elenchi di hotel e voli, che confrontano i prezzi disponibili su diversi siti web per consentire agli utenti di selezionare l'opzione più vantaggiosa. Un altro esempio è Google, che regolarmente utilizza il "crawling" o scraping del web per indicizzare i siti web.

Questa attività rappresenta una forma di data mining che consiste nell'uso di un software per estrarre dati in modo automatizzato da specifici siti web e pubblicarli, talvolta in forma rielaborata, su altri siti. Il software è programmato per accedere ai dati online in modo sistematico e automatizzato, simulando la navigazione di un utente, filtrando i dati e archiviandoli in un database. Esiste anche uno scraping manuale, che si realizza mediante un processo di copia e incolla di informazioni specifiche, utilizzato per raccogliere e memorizzare dati mirati; questo metodo è meno frequente per grandi volumi di dati a causa dei tempi prolungati necessari per la raccolta e la catalogazione.

In linea di principio, il web scraping non è illegale purché i dati "catturati" siano liberamente accessibili sui siti e utilizzati per scopi statistici o di monitoraggio dei contenuti. Infatti, la maggior parte dei siti web rende i propri dati pubblicamente disponibili a scraper, crawler e altre forme di raccolta automatica di dati. Tuttavia, non tutti i dati disponibili sul web sono destinati al pubblico, pertanto non tutti possono essere estratti legalmente.

L'aspetto cruciale, però, risiede nell'uso che viene fatto dei dati "scaricati" tramite questa attività. In particolare, quando si tratta di dati personali e di proprietà intellettuale, il web scraping può rapidamente trasformarsi in una pratica malevola, configurandosi anche in altre forme illecite.

Nel contesto della protezione dei dati personali, se vengono scaricati dati personali da specifici siti e questi vengono utilizzati in violazione dei principi stabiliti dal Regolamento UE sulla protezione dei dati personali n. 679/2016, l'attività di scraping diventa chiaramente illecita e, in tali situazioni, è necessaria una particolare attenzione. Si consideri, ad esempio, il caso di un host web che renda "accidentalmente" accessibili al pubblico informazioni sugli utenti. Queste potrebbero includere un elenco completo di nomi, indirizzi email e altre informazioni che, sebbene tecnicamente pubbliche, probabilmente non erano intese per essere diffuse.

Anche se tecnicamente legale, raccogliere questi dati, non è la scelta migliore. Il fatto che questi dati siano pubblici non implica automaticamente il consenso al loro scraping da parte dell'host web. Inoltre, una tale pratica potrebbe violare i principi di liceità, correttezza e minimizzazione, fondamentali nella normativa europea sulla protezione dei dati. Il Garante per la privacy, con il provvedimento n. 4 del 14 gennaio 2016, ha proibito a una società l'utilizzo dei dati personali – come nomi, cognomi, indirizzi email e numeri di telefono – di dodici milioni di utenti. Questi dati erano stati raccolti tramite scraping da diverse pagine web. Successivamente, l'azienda aveva creato un proprio sito dove aveva pubblicato le informazioni in forma di elenco telefonico online, accessibile anche ad altre società per scopi di telemarketing.

Indicazioni del Garante Privacy per prevenire o limitare il web scraping

Il Garante privacy ha adottato una posizione simile in un'altra circostanza, come evidenziato dal provvedimento n. 52 del 01/02/2018, in cui è stato vietato a una società di inviare e-mail commerciali a liberi professionisti. Gli indirizzi email e PEC di questi ultimi erano stati raccolti da elenchi di pubblico dominio, ma senza ottenere la necessaria autorizzazione da parte dei legittimi proprietari. Ci sono molti altri casi simili che potrebbero essere citati a supporto di questa linea di condotta.

Nel provvedimento in questione, il Garante propone diverse strategie per prevenire o limitare il web scraping non autorizzato:

  1. Creazione di Aree Riservate - Implementare aree riservate accessibili unicamente mediante registrazione è un'azione organizzativa progettata per restringere la disponibilità pubblica dei dati. Tale pratica aiuta a proteggere i dati da accessi non controllati e diminuisce le possibilità di web scraping. È essenziale, però, attuare questa misura nel rispetto del principio di minimizzazione dei dati, evitando di richiedere agli utenti informazioni non strettamente necessarie durante il processo di registrazione.
  2. Inserimento di Clausole nei Termini di Servizio - Aggiungere clausole specifiche nei Termini di Servizio (ToS) dei siti web che proibiscono esplicitamente l'uso di tecniche di web scraping rappresenta una misura preventiva di tipo giuridico. Queste clausole possono agire come un deterrente legale, fornendo ai gestori dei siti la possibilità di intraprendere azioni legali contro coloro che violano tali disposizioni.
  3. Monitoraggio del Traffico di Rete - Monitorare le richieste HTTP che si ricevono può essere utile per rilevare flussi di dati insoliti, segnalando potenziali attività di scraping. Tecniche come il "Rate Limiting", che limita il numero di richieste provenienti da specifici indirizzi IP, possono aiutare a prevenire attacchi DDoS o eccessi di scraping. Questa misura tecnica contribuisce a incrementare la sicurezza dei dati.
  4. Intervento sui Bot - Il web scraping si avvale prevalentemente dell'uso di bot. Limitare l'accesso di questi bot è un metodo efficace per contrastare il scraping. Tra le tecniche suggerite troviamo:
    • Verifiche CAPTCHA: Queste verifiche richiedono un'azione umana per procedere, ostacolando così l'operatività dei bot.
    • Modifica periodica del markup HTML: Alterare il codice HTML delle pagine web complica il riconoscimento e l'estrazione dei dati da parte dei bot.
    • Incorporazione dei contenuti in oggetti multimediali: Inserire i dati all'interno di immagini o altri media rende l'estrazione automatizzata più complessa, necessitando l'uso di tecnologie di riconoscimento ottico dei caratteri (OCR).

Il Garante evidenzia che, benché nessuna delle misure suggerite sia in grado di prevenire completamente il web scraping, queste rappresentano comunque strumenti efficaci per minimizzare i rischi legati alla raccolta non autorizzata di dati personali. È fondamentale che i titolari del trattamento valutino con attenzione e adottino le misure più appropriate al loro specifico contesto, in linea con i principi di accountability e di protezione dei dati personali stabiliti dal GDPR.

Il provvedimento del Garante costituisce certamente un passo significativo verso la tutela dei dati personali nel contesto del web scraping e dell'intelligenza artificiale, ma chiaramente non è sufficiente da solo.

L'intervento del Garante ha il significativo merito di promuovere una maggiore consapevolezza tra le aziende operanti nel campo dell'intelligenza artificiale. L'inclusione di clausole specifiche nei Termini di Servizio e la possibilità di intraprendere azioni legali contro i trasgressori costituiscono un forte deterrente contro le pratiche di scraping non autorizzato. Anche le raccomandazioni tecniche suggerite possono contribuire significativamente a ridurre l'efficacia del web scraping automatico.

Va però sottolineato che limitare l'accesso ai dati potrebbe rallentare il progresso tecnologico e l'innovazione, specialmente nei settori dove l'accesso ai dati pubblici è essenziale. Inoltre, le misure suggerite richiedono risorse tecniche e finanziarie significative, che potrebbero non essere accessibili a tutte le aziende, in particolare le piccole e medie imprese (PMI).

D'altro canto, l'efficacia reale delle misure legali e tecniche dipende dalla capacità di monitorare e far rispettare le normative. I malintenzionati potrebbero trovare modi per aggirare le protezioni, rendendo necessario un continuo aggiornamento delle misure di sicurezza.

Di conseguenza:

  • È essenziale che le misure di prevenzione e mitigazione siano proporzionate e non eccessivamente gravose. Un approccio equilibrato che consenta l'uso responsabile dei dati, senza compromettere la privacy, può risultare più sostenibile nel lungo termine.
  • Considerando che il web scraping e l'uso dei dati avvengono su scala globale, sarebbe opportuno promuovere una maggiore collaborazione internazionale per stabilire standard e pratiche comuni. Ciò faciliterebbe l'uniformità delle normative e aumenterebbe l'efficacia delle misure di contrasto.
  • Investire in tecnologie avanzate per la protezione dei dati, come la crittografia omomorfica o le tecniche di privacy differenziale, potrebbe creare nuove possibilità per proteggere i dati personali senza precluderne l'uso per l'addestramento di modelli di intelligenza artificiale.

Per approfondimenti o eventuali dubbi su come queste nuove direttive influenzeranno le operazioni aziendali e le migliori prassi per assicurare la conformità, i nostri esperti sono a vostra disposizione. Contattaci e saremo lieti di aiutarti!

Iscriviti alla nostra Newsletter!

Rimani sempre aggiornato e ricevi novità e consigli utili.

Grazie per esserti iscritto alla nostra newsletter.
Ops! Qualcosa è andato storto.

Copyright ©2022 e-cons.it

E-CONS S.R.L.– Via del Lavoro 4 – 35040 Boara Pisani (PD) Tel: 0425-485621 – P.IVA – C.F. – Registro Imprese di Padova N. 01171060294 -PEC: e-cons@legalmail.it – Codice SDI: SUBM70N — Capitale Sociale 25.500 i.v.