Intelligenza artificiale e creazioni “sintetiche”: le intricate questioni di diritto d’autore

Sommario: 1. Premessa – 2. Opere realizzate con o da sistemi AI? – 3. Titolarità dei diritti sulle opere generate con AI – 4. Il problema dei diritti sui materiali utilizzati per l’addestramento – 5. Just another scraping of the internet? – 6. Le cause più interessanti – 7. Le AI copiano le immagini o prendono solo spunto?

1. Premessa

In questi ultimi mesi l’avvento delle piattaforme di intelligenza generativa ha rivoluzionato il mondo della creatività, un settore che fino ad ora era sempre stato ritenuto abbastanza immune dall’automazione. Ormai sappiamo che non è più così e ci rendiamo conto giorno per giorno della velocità con cui stanno evolvendo le cose, fino ad arrivare a una situazione in cui nelle opere intellettuali (testi, immagini, musiche, video, software) non siamo più davvero in grado di riconoscere dove arriva il contributo degli algoritmi e dove invece si ferma l’apporto creativo umano. E ciò con tutte le implicazioni e gli interrogativi in materia di diritto della proprietà intellettuale: una branca del diritto che, appunto, si è sempre fondata sul presupposto che l’attività inventiva e creativa fosse squisitamente di matrice umana.

Nel mio libro “L’autore artificiale. Creatività e proprietà intellettuale nell’era dell’AI”, uscito alla fine di giugno 2023 per i tipi di Ledizioni (vedi libro), ho fatto una serie di riflessioni su come una creatività sempre più mediata da macchine e algoritmi ci obblighi a ripensare il concetto stesso di creatività e di conseguenza buona parte dei principi che il diritto d’autore ha sviluppato in tre secoli di storia e di stratificazione giurisprudenziale; e ho mostrato come esso possa andare in corto circuito di fronte a creazioni in cui buona parte dello sforzo creativo è fatto dalla macchina, lasciando l’uomo in una mera posizione di “avviatore” del processo (input) e di “controllore” sul risultato così ottenuto (output). Per una comprensione più completa delle interessanti questioni emergenti più in generale per il mondo della creatività e della proprietà intellettuale, rimando comunque alla lettura del libro “L’autore artificiale”.

In questi paragrafi però cerco di mettere a fuoco quelli che a mio avviso sono i principali nodi da sciogliere in materia di diritto della proprietà intellettuale e intelligenza artificiale generativa.

2. Opere realizzate con o da sistemi AI?

Può sembrare la classica questione di lana caprina da giurista pignolo, ma la preposizione qui diventa determinante. Le espressioni “opere realizzate con sistemi AI” e “opere realizzate da sistemi AI” hanno una differenza sostanziale e non solo stilistica. Davvero possiamo parlare di opere create da sistemi AI? Oppure è più corretto parlare di opere create da esseri umani servendosi di sistemi AI?

A ben vedere, infatti, esclusi alcuni interessanti casi sperimentali di AI generative non supervisionate, quasi sempre si tratta di processi innescati e governati dall’essere umano; dunque in questi paragrafi partiremo dal postulato che non è la macchina a creare l’output, ma è l’essere umano a crearlo servendosi della macchina, nonostante sia una macchina molto potente e con ampio margine di autonomia.

Possiamo poi disquisire proprio su questo livello di autonomia, ma attualmente la dottrina giuridica prevalente e le prime pronunce giurisprudenziali sono concordi nell’affermare che la macchina non è consapevole di creare, non compie un atto creativo o inventivo in senso proprio; è solo uno strumento in mano all’essere umano che lo aziona, lo guida, ne raccoglie il risultato e decide se il risultato ottenuto è valido per essere pubblicato.

Le battaglie legali portate avanti da Stephen Thaler per poter indicare formalmente un sistema di intelligenza artificiale generativa come autore o come inventore non hanno portato a nulla[1] e si sono rivelate per quello che erano, cioè delle battaglie per lo più di principio, mirate a sollevare il problema in sede giudiziale e dare visibilità al dibattito filosofico e scientifico (indubbiamente interessante) sull’avvento della nuova era della “creatività artificiale”.

Tuttavia il dubbio se davvero vi possa essere una tutela per opere interamente create dalla macchina non è così peregrino, dato che esistono effettivamente casi di sistemi di intelligenza artificiale generativa che agiscono senza alcuna supervisione dell’essere umano. Un esempio illustre è l’installazione artistica “Unsupervised”[2] (appunto “non supervisionata”) progettata da Refik Anadol, new media artist e designer turco-americano, ed esposta nell’hall d’ingresso del MOMA a New York. Su un grande schermo scorrono fluidamente e continuamente immagini astratte generate dalla “macchina” e gli spettatori, in piedi o seduti su apposite panche, possono fermarsi e ammirare l’installazione in azione. Il sistema agisce ininterrottamente da quando l’installazione è stata posizionata e avviata, senza che l’artista o qualcuno dello staff del museo intervengano.

Ecco, su quelle immagini difficilmente potrebbe essere reclamato un diritto di utilizzazione e tanto meno un diritto d’autore in senso pieno, perché la supervisione/selezione umana è totalmente assente (se non appunto in fase di avviamento).

Figura 1 – L’installazione di Anadol presso il MOMA di New York
(fotografia scattata da Simone Aliprandi nell’agosto 2023).

3. Titolarità dei diritti sulle opere generate con AI

Chiarita la questione della preposizione, cerchiamo ora di chiarire chi è il titolare dei diritti di utilizzazione sulle opere generate con AI e iniziamo con il ribadire ciò che abbiamo già accennato: di certo la macchina non può essere titolare di questi diritti. Ciò è deducibile anche con il mero buon senso ma, qualora non fosse sufficiente, è stato chiarito anche in sede giurisprudenziale. I provvedimenti (negativi) ottenuti negli USA da Thaler hanno avuto un discreto riverbero e, pur nella loro “temerarietà”, hanno in effetti avuto il merito di portare a provvedimenti ufficiali che poi hanno rappresentato un punto fermo per la giurisprudenza. Anche le autorità amministrative statunitensi preposte a presidiare il campo dei brevetti per invenzione e il campo del copyright su opere creative hanno avuto modo di esprimersi in documenti ufficiali mantenendo la stessa linea: un software, un algoritmo, un robot, non può essere né inventore né autore dunque non può essere titolare dei rispettivi diritti.

«L’interpretazione del USPTO (United States Patent and Trademark Office) del Patent Act [la legge USA sui brevetti] è stata attentamente considerata ed era coerente con il linguaggio del Patent Act e con la giurisprudenza […]. Di conseguenza, l’interpretazione del USPTO secondo cui un inventore deve essere una persona fisica merita rispetto».

Così si è espressa la Virginia Eastern District Court nella sentenza[3] pronunciata il 2 settembre 2021 sul ricorso di Thaler contro il USPTO, che aveva appunto rifiutato una domanda di brevetto per invenzione in cui come inventore era indicato DABUS (acronimo di Device for the Autonomous Bootstrapping of Unified Sentience), cioè il nome del software di intelligenza artificiale creato dallo stesso Thaler[4]. Orientamento confermato anche dalla giurisprudenza del Regno Unito nel dicembre 2023[5].

A simili conclusioni si è giunti anche sul piano del copyright. Tutti i tentativi di far riconoscere un ruolo autoriale all’intelligenza artificiale sono andati a vuoto. Con la terza edizione del suo Compendium of U.S. Copyright Office Practices pubblicata nel gennaio del 2021[6], il Copyright Office degli Stati Uniti ha preso una netta posizione per mettere fine alla presentazione di domande di tutela che indicavano come autori o come coautori dei sistemi di intelligenza artificiale.

«Il Copyright Act protegge le “opere d’autore originali”. Per qualificarsi come opera d’autore, un’opera deve essere creata da un essere umano. Le opere che non soddisfano questo requisito non sono protette da copyright. Lo U.S. Copyright Office non registrerà le opere prodotte dalla natura, dagli animali o dalle piante. […] Allo stesso modo, l’Ufficio non registrerà le opere prodotte da una macchina o da un semplice processo meccanico che funziona in modo casuale o automatico senza alcun input o intervento creativo da parte di un autore umano» [Estratto della Section 313.2 del Compendium].

Non si può non menzionare anche il caso “apripista” di Zarya of the Dawn[7], un graphic novel creato dall’autrice Kris Kashtanova con ampio supporto dell’AI per la parte grafica (nello specifico Midjourney). Dietro richiesta di registrazione dell’opera da parte della Kashtanova, il Copyright Office degli Stati Uniti ha accordato una sorta di “copyright parziale”, con una tutela limitata al concept dell’opera e alla parte testuale, ma non alle singole immagini generate con AI.

Infine, un interessante e più recente caso giurisprudenziale proviene da un altro importante pezzo di mondo: la Cina. La causa, inerente alla tutela di un’immagine generata con Stable Diffusion, vedeva come attore il signor Li che aveva generato l’immagine e come convenuto un blogger che aveva riutilizzato l’immagine senza previo consenso dell’attore. La Beijing Internet Court ha riconosciuto la titolarità dei diritti all’attore e lo ha fatto attribuendo una particolare centralità al cosiddetto prompt.

Come infatti spiega Alfredo Esposito in commento alla sentenza,

«il Tribunale di Pechino ha osservato che Li ha effettuato un certo grado di investimento intellettuale nella selezione dei testi di richiesta, i cosiddetti prompt, oltre che nell’impostazione dei parametri e nella progettazione della presentazione. L’“originalità” dell’immagine, come ha dichiarato il Tribunale, consta quindi nella selezioni con cui Li ha regolato ripetutamente i parametri per ottenere un’immagine che riflettesse la sua scelta estetica e il suo giudizio personalizzato».[8]

4. Il problema dei diritti sui materiali utilizzati per l’addestramento

Arriviamo al tema su cui il dibattito degli ultimi mesi è più acceso e su cui forse circola il maggior numero di leggende metropolitane: se utilizzo un sistema di AI generativa per creare il mio oggetto di design rischio di commettere una contraffazione inconsapevole perché l’AI è stata addestrata con immagini di altri autori (fotografi, disegnatori, grafici)?

In effetti si tratta di una questione davvero centrale, perché ovviamente se si arrivasse a dire che tutto ciò che è prodotto con sistemi di AI generativa porta con sé una sorta di “bomba a orologeria” fatta di diffide e cause per violazione di diritti esclusivi altrui, ovviamente tutto il nostro bel castello crollerebbe come fosse di sabbia. La chiave di tutto sta nel processo di addestramento dei sistemi AI, i quali per imparare sempre meglio a emulare la creatività umana necessitano di grandi masse di contenuti da cui trarre esempio. Dunque le aziende che realizzano questi sistemi creano dei grandi database di contenuti che poi vengono dati in pasto all’algoritmo per la fase di training.

Da più parti ci si interroga se questi database siano stati acquisiti lecitamente o in violazione di qualche norma o di qualche contratto, con la complicazione non indifferente che le aziende del settore AI non sono (a oggi) tenute a dichiarare come hanno creato questi database. Il tanto discusso regolamento europeo sull’intelligenza artificiale (cosiddetto AI act), al momento ancora in fase di approvazione, dovrebbe agire proprio su questo aspetto, sancendo un obbligo di trasparenza a carico delle aziende creatrici di sistemi AI, che saranno tenute a dichiarare con quali dati e opere creative hanno compiuto l’addestramento. Ovviamente, trattandosi di una norma vigente solo nell’Unione Europea, avrebbe effetto solo sulle aziende del vecchio continente, rendendo la loro vita più complicata rispetto alle loro concorrenti d’oltreoceano.

A ogni modo, anche ora, pur in assenza di tale obbligo di trasparenza e in mancanza di dichiarazioni ufficiali (benché qualche intervista ai responsabili dei vari progetti AI abbia lasciato trasparire qualcosa), non è difficile intuire che buona parte dei contenuti utilizzati per il training siano stati presi dal web, senza particolari distinzioni. E qui casca l’asino, come si dice in linguaggio colloquiale.

5. Just another scraping of the Internet?

Inutile fare gli ingenui e stracciarsi le vesti: l’attività di scraping massivo di informazioni e contenuti dal web è sempre stata fatta con una certa leggerezza, sia da soggetti pubblici sia da soggetti privati; ed è stata fatta in barba alle norme sul copyright, alle norme sulla data protection e ai termini d’uso dei vari siti web, invocando più o meno legittime ragioni di ricerca scientifica, di indagine statistica con sfondo sociale o politico, di sperimentazione tecnologica, anche se il più delle volte si trattava di una meno nobile profilazione degli utenti a scopo commerciale.

Negli anni in cui la buzz word del momento era “big data”, lo scraping sembrava quasi la prassi, senza che nessuno dei titolari dei contenuti si fosse più di tanto indispettito; perché in fondo era un modo per ottenere visibilità, per essere ben indicizzati, per raccogliere follower. Alcuni anni fa, parlando con la responsabile di un importante centro di ricerca, alle mie perplessità da avvocato sulla loro attività di scraping di dati dai principali social media al fine di fare studi sulla cosiddetta sentiment analysis, mi sentii rispondere: “lo sappiamo che non si potrebbe, ma tanto lo fanno tutti…”.

In un’intervista rilasciata a Forbes.com nel settembre 2022 dal fondatore di Midjourney David Holz[9], alla domanda “Com’è stato costruito il vostro dataset?” è stata fornita la seguente risposta:

«È solo un grande scraping di Internet. Utilizziamo i dataset aperti che vengono pubblicati e ci alleniamo su di essi. E direi che è qualcosa che fa il 100% delle persone. Non abbiamo fatto gli schizzinosi».

Mentre alla successiva domanda “Avete chiesto il consenso agli artisti viventi o comunque con opere ancora sotto copyright?” Holz ha risposto:

«No. Non c’è davvero un modo per ottenere cento milioni di immagini e sapere da dove provengono. Sarebbe bello se le immagini contenessero metadati incorporati sul titolare del copyright o qualcosa del genere. Ma non è così; non c’è un registro. Non c’è modo di trovare un’immagine su Internet, risalire automaticamente a un proprietario e quindi avere modo di fare qualsiasi cosa per autenticarla».

L’intervista è suonata come una sorta di ammissione pubblica (e forse ingenua) di una palese leggerezza nella gestione del problema copyright. D’altronde – lo ribadiamo anche in questa sede – nonostante molti per loro ignoranza siano davvero convinti che, se un contenuto è accessibile liberamente sul web, allora è sostanzialmente di tutti e di nessuno (come una sorta di pubblico dominio de facto), il diritto dice tutt’altro.

Ribadiamolo, qualora ce ne fosse ancora bisogno. Un contenuto presente sul web può essere utilizzato lecitamente solo seguendo una di queste strade: a) verificando che sia un contenuto in pubblico dominio, cioè che sia libero da qualsivoglia diritto; b) verificando che sia stato rilasciato con una licenza open (Creative Commons e simili); c) sfruttando uno degli spiragli di libero utilizzo offerti dall’ordinamento (fair use in USA o eccezioni al diritto d’autore in Europa); d) chiedendo e ottenendo licenza dai legittimi titolari dei diritti. Non esiste una quinta opzione. Bisogna quindi vedere se le aziende del settore sono rimaste entro questi confini o se hanno forzato la mano (come d’altronde spesso accade in settori molto innovativi dove il diritto mostra varie aree grigie).

Secondo una teoria seducente ma ancora tutta da verificare in sede giurisprudenziale[10], l’attività di scraping massivo di contenuti del web ai fini dell’addestramento dei sistemi di intelligenza artificiale sarebbe coperta dal fair use statunitense; e, visto che buona parte di queste aziende sottostanno alla legge USA, questo le tranquillizzerebbe.

Per chi non lo sapesse, il fair use è una teoria di matrice giurisprudenziale tipica dell’ordinamento USA secondo la quale, al verificarsi di alcune condizioni, il copyright recede, passa in secondo piano rispetto ad altri diritti più importanti da tutelare come ad esempio il diritto di cronaca, il diritto di satira, il diritto di fare insegnamento e ricerca scientifica. Una delle principali condizioni richieste affinché ci si possa avvalere di questa “copertura” è che l’utilizzo dell’opera sia di tipo “trasformativo” e quindi non vada in concorrenza con lo sfruttamento dell’opera originale.

Ovviamente coloro che stanno dall’altra parte della barricata (autori, editori, case di produzione, agenzie di fotografia, etc.) non sono di questo avviso[11] e si sono già attivati per sostenere le loro ragioni di fronte ai tribunali, cercando di dimostrare invece che quell’attività è coperta dal copyright e quindi richiede una previa autorizzazione da parte dei titolari. Non solo: oltre al copyright in sé, c’è un limite di natura contrattuale: infatti quasi tutti i siti web e le piattaforme social, anche se navigabili liberamente, riportano nei loro termini d’uso un disclaimer che vieta di fare scraping massivo e automatizzato dei contenuti.

Anche oggi in fondo “lo fanno tutti” (pur sapendo che non si potrebbe), ma con una differenza proprio legata all’avvento dei sistemi di AI generativa. Ora i titolari dei diritti percepiscono maggiormente il pericolo di una violazione del copyright e di un’attività concorrenziale che non restituisce nulla in termini né economici né reputazionali, portando invece ricchezza e visibilità ai nuovi protagonisti. Ecco quindi che ora si mettono in campo gli avvocati.

Inoltre, a onor del vero, ci sarebbe da verificare caso per caso come sono stati realizzati questi database destinati all’addestramento. Ad esempio, nel caso dei database di immagini non sempre infatti al loro interno troviamo davvero le immagini; spesso si trovano solo dei descrittori testuali, dei metadati, con l’URL che rimanda al file presente sul sito originario. Tra questi uno dei più grandi e più discussi[12] è LAION-5B (dove 5B sta per “5 billions”, dato che contiene più di cinque miliardi di record), utilizzato per addestrare vari sistemi di AI generativa specializzati in immagini e in particolare il più noto Stable Diffusion.

Nelle FAQ del sito ufficiale del progetto (vedi https://laion.ai/faq/), alla domanda “I dataset LAION rispettano le leggi sul copyright?”, si offre questa risposta:

«I dataset LAION sono semplicemente degli “Internet index”, cioè elenchi di URL che rimandano alle immagini originali insieme agli ALT texts collegati a quelle immagini. Mentre scaricavamo e calcolavamo i CLIP embeddings delle immagini per calcolare i punteggi di somiglianza tra immagini e testi, successivamente abbiamo rimosso tutte le immagini».

Altri database dello stesso tipo sono stati realizzati con metodi simili che dovrebbero ridurre il rischio di violazioni di copyright. Ad esempio, Open Images Dataset V7[13] è il database creato da Google usando le immagini inserite nella piattaforma per fotografi Flickr con una licenza Creative Commons o comunque disponibili in pubblico dominio. Altro esempio è il database Multimedia Commons realizzato da Yahoo! e contenente quasi cento milioni di immagini e quasi un milione di video pubblicati in Flickr con licenze Creative Commons; anch’esso non contiene immagini ma solo metadati e link esterni ai file. La stessa Getty Images, nota per aver avviato una delle prime cause contro le aziende AI, ha concesso licenze che ad alcune condizioni autorizzavano l’addestramento di sistemi AI con le sue immagini.

Figura 2 – Screenshot del database Open Images Dataset V7 in cui si notano i criteri di descrizione e in cui si nota l’assenza delle immagini rimosse dalla fonte originaria (Flickr).

Su questo tema risulta davvero utile l’articolo “Le AI rubano? Sì-no-boh (II°)” di Paolo Dalprato[14] che offre un’ampia panoramica di questi database e di come sono stati costruiti.

6. Le cause più interessanti

Alla data di chiusura in redazione di questo scritto (gennaio 2024), tre sono le cause giudiziali che meritano maggior interesse, sia per gli argomenti messi sul tavolo sia per la rilevanza dei soggetti coinvolti.

La prima è quella che vede Getty Images agire contro Stability AI (l’azienda creatrice di Stable Diffusion). Getty è solita pubblicare le versioni gratuite delle sue fotografie marchiate da un evidente watermark con il suo logo e appunto con la limitazione allo scraping massivo indicata nei termini d’uso del sito. È successo però che molte sintografie (così vengono chiamate in gergo le fotografie sintetiche create con AI) generate con Stable Diffusion riportassero lo stesso watermark o comunque qualcosa di molto simile (si veda l’immagine qui sotto).

Figura 3 – Documento tratto dagli atti processuali di Getty Images nella causa contro Stability AI. A sinistra una fotografia di Getty Images con il caratteristico watermark; a destra una sintografia creata con Stable Diffusion in cui è replicato anche il watermark di Getty Images.

Per gli avvocati di parte attrice questa sarebbe una prova evidente che Stability AI ha addestrato i suoi sistemi grazie a uno scraping massivo dei siti web di Getty. In altre parole Stable Diffusion ha imparato a imitare così bene le fotografie di Getty che riesce a imitarne anche il watermark. Per questa causa non disponiamo ancora di una decisione, ma solo degli atti giudiziari[15] delle parti che sono stati resi pubblici e che risultano davvero molto interessanti; quelli di Getty anche ben argomentati.

La seconda causa è la più recente; è stata avviata a fine dicembre 2023 presso la Corte distrettuale federale di Manhattan e vede come parte attrice il New York Times (rectius, la sua società editrice) e come convenute Microsoft e OpenAI, che avrebbero utilizzato indebitamente e senza permesso gli articoli del noto giornale americano per addestrare i loro sistemi di intelligenza artificiale generativa. Nel complaint[16] gli avvocati del NYT hanno paventato un risarcimento del danno di miliardi di dollari di danni e hanno chiesto la cancellazione di tutti i modelli che si fondano sugli articoli del giornale.

Il problema di fondo è che nelle ultime versione dei chatbot rilasciati dalle due aziende convenute gli output fossero così fedeli agli articoli del NYT al punto da portare gli utenti a non citare più l’opera giornalistica originaria e ad accontentarsi dell’output ricevuto dal chatbot, implicando così non solo un problema di copyright ma anche di concorrenza sleale. Sarà ovviamente fondamentale attendere le memorie difensive delle due convenute e soprattutto le determinazioni del giudice sulla sussistenza o assenza di prove del rapporto di derivazione tra gli articoli del NYT e gli output forniti dai chatbot.

Nel frattempo comunque OpenAI ha espresso il suo punto di vista attraverso un comunicato sul proprio blog[17], la cui estrema sintesi potrebbe essere questa: “la nostra attività di addestramento è coperta dal fair use e comunque il New York Times non sta raccontando tutta la storia”.

La terza causa meritevole di attenzione è già arrivata a un provvedimento del giudice; un provvedimento interlocutorio (l’equivalente della nostra ordinanza), quindi non una sentenza definitiva, ma comunque già un utilissimo riferimento che ci fa capire l’atteggiamento dei giudici americani verso il problema. Si tratta dell’Order on motion to dismiss and strike, pronunciato il 30 ottobre 2023 dalla District court di San Francisco nella causa tra Andersen con altri (attori) e Stability AI con altri (convenuti).

In questo caso ad agire sono Sarah Andersen, Kelly McKernan e Karla Ortiz, autori che sostengono che le loro opere siano state “saccheggiate” senza permesso per addestrare vari sistemi di intelligenza artificiale e dunque chiamano in causa Stability AI, DeviantArt e Midjourney per violazione del copyright, violazione del diritto all’immagine, concorrenza sleale e violazione contrattuale.

Il giudice però non è entrato nel merito della questione dirimente sulla pretesa violazione, limitandosi a stabilire che le argomentazioni avanzate dagli attori non sono sufficienti a dimostrare che vi sia stata una violazione di copyright. Questa risposta “pilatesca” della corte californiana potrebbe lasciarci insoddisfatti; ma in realtà è già una risposta di un certo peso ai fini dell’acceso dibattito che si è innescato. Se mancano prove concrete che gli output delle AI generative riportino elementi creativi derivati da opere preesistenti (cioè quelle utilizzate per il training), forse significa che non sussiste un rapporto di derivazione vero e proprio e quindi non si pone un problema di violazione del copyright. In altre parole, se negli output dell’ AI non ci sono elementi creativi riconducibili alle opere oggetto di training, come si può avviare efficacemente un’azione legale?

7. Le AI copiano le immagini o prendono solo spunto?

Ma quindi le AI generative, quando forniscono il loro output in risposta al prompt inserito dall’utente, copiano davvero le immagini che hanno “digerito” nella fase di addestramento? E se non le copiano, ne riproducono comunque elementi creativi sostanziali in modo da esporre l’utente al rischio di violare (pur inconsapevolmente) il copyright di qualcun altro e di subirne conseguenze legali? La questione è così sentita che alcuni grandi player di questo settore (come Microsoft e Google) hanno scelto di fornire agli utenti dei loro sistemi di AI generativa una sorta di manleva contro eventuali (benché improbabili) pretese da parte di terzi per questioni di proprietà intellettuale. Si tratta in sostanza di un modo per tranquillizzare i propri utenti (in particolare quelli paganti) sul fatto che, scegliendo i propri prodotti, hanno maggiori garanzie di serietà e di trasparenza anche su come è stato svolto il training[18].

Il problema dunque non è così peregrino e affrontarlo correttamente richiede una conoscenza tecnica del funzionamento di questi sistemi che non è alla portata di tutti. Cerchiamo di semplificare e rendere il tutto comprensibile anche per i non addetti ai lavori.

Pensare che l’AI, per rispondere con un’immagine a un input testuale (prompt), vada a cercare qua e là immagini coerenti con la richiesta e ne faccia una specie di “collage” digitale è una tentazione in cui è facile cadere. In realtà il meccanismo è diverso. L’AI risponde non tanto re-impastando cose che ha in una sua fantomatica memoria, quanto proponendo qualcosa che viene generato istantaneamente sulla base di ciò che il sistema ha imparato a fare e che ritiene possa soddisfare meglio la richiesta dell’utente (in ottica probabilistica). Questo spiega in parte il problema delle cosiddette “allucinazioni”: l’AI se non conosce una risposta non sempre risponde fermandosi e segnalando il problema; spesso risponde proponendo qualcosa di molto verosimile benché non vero.

Possiamo quindi dire che, se diamo in pasto a un sistema AI un grande dataset di immagini, esso lo analizza non tanto cercando di “copiare” i vari contenuti, quanto cercando il più possibile di imparare a creare strutture simili, emulando il sistema di apprendimento umano. Nella rete neurale quindi non vengono salvate copie delle immagini, ma di esse viene fatta una proiezione statistica, da esse vengono tratti dei pattern numerici che permetteranno poi all’AI di generare cose credibili, il più possibile simili a quelle che un essere umano creerebbe se chiamato a svolgere lo stesso compito.

Più che un’attività di copia in senso proprio, sembra dunque un’attività di estrazione e reimpiego di dati, che attiene non tanto al campo d’azione del diritto d’autore in senso classico quando al diritto sui generis del costitutore di banche dati; un particolare diritto a tutela delle banche dati istituito dalla direttiva 96/9/CE. Così però ci scontriamo con un ulteriore risvolto di complessità: questo diritto esiste solo nell’UE e non trova un suo equivalente negli USA, patria di buona parte delle tecnologie AI. In sostanza, le aziende americane possono porsi qualche preoccupazione in meno rispetto a quelle europee e avere maggiori speranze di poter far leva sul fair use. Ne consegue che anche sul piano della proprietà intellettuale, il Vecchio Continente si conferma terra non molto favorevole alla crescita di queste tecnologie.

In conclusione, comunque, vedo abbastanza remoto che l’utente possa subire contestazioni di violazione del copyright per il mero utilizzo di AI generative, fatto in buona fede e in linea con i termini d’uso delle varie piattaforme. Il problema del copyright, sempre che si riesca appunto a dimostrare che sussista un rapporto di derivazione tra le opere utilizzate per il training e l’output fornito, riguarderà al massimo la aziende produttrici dei sistemi AI e i titolari dei diritti; e rimarrà sul piano del risarcimento del danno civile.

Difficilmente si potrà chiedere a questi sistemi di tornare indietro, di “disimparare” ciò che hanno imparato a fare; tra l’altro, non credo ciò sia interesse di qualcuno, nemmeno dei titolari dei diritti che invece potrebbero lucrare ampiamente in termini di risarcimenti danni e royalties da un settore in mostruosa crescita.

Rimane poi come ultimo baluardo per i titolari dei diritti sui contenuti utilizzati a fini di addestramento quello della violazione contrattuale di cui abbiamo già trattato; cioè della violazione di quelle clausole inserite nei termini d’uso di siti web e piattaforme di condivisione che vietano lo scraping massivo e automatizzato. Ma in questo caso usciremmo dall’ambito di una vera e propria violazione di copyright e rimarremmo appunto solo sul piano di una violazione contrattuale; un piano sicuramente meno incisivo.

_____________________

Note

[1] Kinsella, E., A Court Shot Down a Computer Scientist’s Latest Attempt to Copyright an A.I.-Created Artwork in a Case That Has Big Implications for A.I. Artists, in Artnet.com; articolo disponibile all’URL https://news.artnet.com/news/court-shot-down-ai-art-copyright-again-2352452.

[2] Si veda il sito https://refikanadol.com/works/unsupervised/.

[3] Per il testo integrale del provvedimento si veda l’URL https://casetext.com/case/thaler-v-hirshfeld. Per un breve commento si veda Ebshara, A., AIs as Inventors: Thaler v. Hirshfeld, in Berkeley Technology Law Journal, gennaio 2022; disponibile all’URL https://btlj.org/2022/01/ais-as-inventors-thaler-v-hirshfeld/.

[4] Alla pagina https://www.ipstars.com/NewsAndAnalysis/The-latest-news-on-the-DABUS-patent-case/Index/7366 sono raccolti gli esiti (tutti negativi) dei tentativi compiuti da Thaler presso gli uffici brevetti di altri paesi.

[5] A tal proposito si legga l’articolo AI cannot be an inventor under UK patent law, rules Supreme Court comparso il 20 dicembre 2023 sul sito dello studio legale Pinsent Masons e disponbile all’URL https://www.pinsentmasons.com/out-law/news/ai-cannot-inventor-under-uk-patent-law-rules-supreme-court

[6] U.S. Copyright Office, Compendium of U.S. Copyright Office Practices (Third Edition); documento disponibile all’URL https://copyright.gov/comp3/docs/compendium.pdf

[7] Per un approfondimento si veda Van Loon, E. & Torres, E., U.S. Copyright Office limits registration for AI-created Zarya of the Dawn graphic novel, marzo 2023; articolo disponibile all’URL https://www.nixonpeabody.com/insights/alerts/2023/03/09/us-copyright-office-limits-registration-for-ai-created-zarya-of-the-dawn-graphic-novel.

[8] Cfr. Esposito, A., IA e copyright: dalla Cina una sentenza innovativa per le regole, articolo pubblicato su Agendadigitale.eu nel dicembre 2023; disponibile all’URL https://www.agendadigitale.eu/cultura-digitale/opere-dellia-e-il-prompt-che-fa-la-differenza-la-svolta-dalla-cina/.

[9] Salkowitz, R., Midjourney Founder David Holz On The Impact Of AI On Art, Imagination And The Creative Economy, articolo pubblicato su Forbes.com il 16 settembre 2022 e disponible all’URL https://www.forbes.com/sites/robsalkowitz/2022/09/16/midjourney-founder-david-holz-on-the-impact-of-ai-on-art-imagination-and-the-creative-economy/.

[10] A tal proposito si legga Coffman, C., Does the Use of Copyrighted Works to Train AI Qualify as a Fair Use?, articolo pubblicato su Copyrightalliance.org nell’aprile 2023; disponibile all’URL https://copyrightalliance.org/copyrighted-works-training-ai-fair-use/

[11] Con questo approccio, si segnala il white paper How the pervasive copying of expressive works to train and fuel generative artificial intelligence systems is copyright infringement and not a fair use, pubblicato dalla News/Media Alliance nell’ottobre 2023 e disponibile all’URL https://www.newsmediaalliance.org/generative-ai-white-paper/

[12] A dicembre 2023 sono emerse polemiche poiché uno studio dello Stanford Internet Observatory ha rivelato che al suo interno risultano indicizzate immagini di chiara provenienza illecita. Cfr. Thiel, D., Identifying and Eliminating CSAM in Generative ML Training Data and Models, Stanford Digital Repository, 2023; documento disponibile all’URL https://purl.stanford.edu/kh752sm9123.

[13] Cfr. https://storage.googleapis.com/openimages/web/index.html.

[14] Articolo disponibile all’URL https://www.ai-for-dummies.it/le-ai-rubano-si-no-boh-ii/.  

[15] Ho raccolto i documenti relativi alle principali cause giudiziali in questo post: https://aliprandi.blogspot.com/2023/05/mai-lawsuit-documents-artificial-intelligence-intellectual-property.html.

[16] Il testo del complaint (cioè l’atto introduttivo del processo) è disponibile all’URL https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf

[17] OpenAI and journalism, blogpost dell’8 gennaio 2024, disponibile all’URL https://openai.com/blog/openai-and-journalism.

[18] A tal proposito si legga l’articolo Brittain, B., Google to defend generative AI users from copyright claims, pubblicato il 12 ottobre 2023 su Reuters.com e disponibile all’URL https://www.reuters.com/technology/google-defend-generative-ai-users-copyright-claims-2023-10-12/.

Su Simone Aliprandi

Avvocato del Foro di Lodi, ha una laurea in giurisprudenza a Pavia (2003), una seconda laurea in Scienze della pubblica amministrazione a Pavia (2008) e un dottorato di ricerca in Società dell’informazione a Milano Bicocca (2012). Si occupa di consulenza, ricerca e formazione nel campo del diritto della proprietà intellettuale e più in generale nel diritto delle tecnologie digitali. È membro fondatore del network di professionisti Array.eu e nel 2005 ha avviato il progetto di divulgazione Copyleft-Italia.it. Svolge attività di docenza presso enti pubblici e privati che si occupano di formazione e ricerca scientifica. Ha all’attivo varie pubblicazioni (sia articoli scientifici sia libri divulgativi) e scrive regolarmente per alcune testate web oltre che sul proprio blog personale. In particolare si segnalano le monografie "Capire il copyright" (Ledizioni, 2012), "Creative Commons: manuale operativo" (Ledizioni, 2013), "SIAE: funzionamento e malfunzionamenti" (Ledizioni, 2015) e "Software licensing & data governance" (Apogeo, 2020). È professore a contratto presso l'ISIA di Firenze dall’anno accademico 2018-2019 a tutt'oggi.