KI og opphavsrett - Tendencast episode 3
Hvem har opphavsretten til materiale generert av KI? Har tilbyderne av KI-modeller rett til å bruke opphavsrettslig vernet materiale til trening av modellene? Advokatene Terje Dahl Svendsen og Harald Bjelke snakker om disse og andre problemstillinger relatert til opphavsrett og KI, inkludert musikkeksempler som «Beyonce-style» og «oAIsis»!
I episoden beskrives flere eksempler som kanskje tar seg noe bedre ut visuelt, så her følger en kort utdyping av noen av de nevnte eksemplene, bilder og linker til der man kan se og lese mer om eksemplene:
I podkasten nevnes at det bare er mennesker som kan skape et åndsverk, slik at det som genereres ("output-en") fra de generative KI-modellene ikke vil kunne være et nytt åndsverk. Et eksempel på dette er et bilde som vant konkurransen Colorado State Fairs digitale kategori. Bildet var generert av Jason Allens 624 prompter gjort i KI-bildegeneratoren Midjourney. Dette ble søkt registrert som åndsverk i USA, der slik registrering er mulig i motsetning til i Norge og i Europa, men registreringsmyndighetene i USA avslo registreringssøknaden med begrunnelse at dette ikke var menneskeskapt bilde.
Et annet eksempel er tegneserieboken Zarya of the Dawn som også ble søkt registrert som opphavsrettsbeskyttet i USA. Her inntas en "faksimile" fra selve begrunnelsen for det delvise avslaget fra United States Copyright Office:
Som det fremgår av begrunnelsen, ble bildene avvist fra registreringen ettersom de var KI-genererte, men selve teksten, handlingen og bildesammenstillingen ble ansett vernet fordi dette stammet fra forfatterens (menneskelige) kreative skapende innsats.
I podkasten nevnes også et par rettssaker som pågår for tiden i USA, som gjaldt protester på at modellene har blitt trent på opphavsrettsbeskyttet materiale. Også for disse eksemplene vil nok det visuelle kunne bidra til å forsterke forståelsen for sakene som nevnes i podkasten.
En av disse, er saken der New York Times har saksøkt OpenAI og Microsoft, for å ha trent på nyhetsartikler inkludert artikler som lå bak betalingsmur. De saksøkte hevder bruken av artiklene til maskinlæring må anses som "fair use". I USA er "fair use" en unntaksregel til eneretten rettighetshaverne har til å fremstille eksemplarer av verkene og gjøre de tilgjengelige for allmennheten. Det er ikke New York Times enig i. I følge klagen/stevningen hadde journalister fra saksøker promptet spørsmål om de ikke kunne få vite hva som sto i de neste avsnittene i en bestemt artikkel, og fikk frem det ene etter det andre avsnittet - selv om man hos New York Times måtte ha abonnement for å kunne lese den aktuelle artikkelen. Innholdet ble presentert gratis av ChatGPT, hvilket mildt sagt kan være egnet til å skade rettighetshavernes økonomiske interesser. Som det fremgår av bildet nedenfor var det omfattende tekstlikhet - og det blir spennende å få avklart hvordan domstolen i New York ser på spørsmålet "fair use" opp mot det at rettighetshaverne skal ha et (økonomisk) incitament til å skape nytt innhold;
En annen rettssak som nevnes, er Getty Images' søksmål mot Stability AI Ltd. for bruken av mange millioner Getty Images-bilder i læringen av KI-bildegeneratoren Stable Diffusion. Det er neppe noen tvil om at læringen har funnet sted, når man ser på bildene nedenfor. Selv om kvaliteten ikke er så god, så ser man at det opprinnelige var et vannmerke "Getty Images" og at bildene er nokså like. Antakeligvis er bestillingen i form av promptingen svært presis og læringsmateriale på akkurat den type bilder så lite, at bildet som genereres av Stable Diffusion fremsto som nokså likt det som ser ut til å være originalen modellen er trent på. Bildene inntatt nedenfor, er hentet fra klagen/stevningen, hvor man kan lese om ytterligere detaljer om denne saken. I likhet med alle de andre sakene som ble nevnt i podkasten, så vil denne saken ta flere år før den er endelig avgjort hvis den ikke forlikes før den tid.
Avslutningsvis i episoden nevnes de norske språkmodellene litt fort og samlet. Blant de er The Norwegian Research Center for AI Innovation (NorwAI) som er den største akademiske satsingen på KI-innovasjon i Norge. Senteret ligger ved NTNU i Trondheim og koordinerer forsknings- og innovasjonsaktiviteter mellom tre universiteter, to forskningsinstitutter og 11 bedrifter. NorwAI har i samarbeid med blant annet Schibsted og DnB utviklet NorGPT. Modellen er trent på norske data på maskinen Idun hos NTNU, og skal være en modell med full åpenhet bygd på norske verdier og språk - som en norsk ChatGPT. Foreløpig tunes og testes den før endelig lansering. Dette kan man lese mer om på NorwAIs sider.
NorwAI har laget mange andre språkmodeller. Den største språkmodellen ved siden - eller over NorGPT - er NorLLM, som i sin første versjon nylig ble lansert (mai 2024). Du kan lese mer om hva NRK skrev om den da.
NORA er et annet norsk forskningsinitiativ, et samarbeid mellom 8 universiteter, 5 høgskoler og 5 forskningsinstitutter innen KI, maskinlæring og robotikk. Gjennom NORA utvikles for tiden NORA.llm, som er et samarbeid mellom Universitetet i Oslo, Nasjonalbiblioteket og Sigma2. NORA.llm skal også være en åpen standard utfordringer til ChatGPT, hvor opphavsrett og personvern skal være godt ivaretatt.
Nasjonalbiblioteket har etter oppdrag fra Regjeringen gjennomført prosjektet Mímir sammen med NorwAI og Language Technology Group ved Universitetet i Oslo. Der har de testet ut nye språkmodeller trent på Nasjonalbibliotekets omfattende arkivmateriale, både med og uten rettighetsbeskyttet materiale - og har kommet til at norsk språkmodell blir bedre med rettighetsbeskyttet materiale enn uten. Dette kan man blant annet lese mer om hos Nasjonalbiblioteket her, og deres første rapport fra september 2024 som nevnes i podkasten og er tilgjengelig her.
Det blir spennende å følge disse norske modellene - og hvorvidt det lykkes å rettighetsklarere det innholdet som trengs for å få en best mulig stor norsk generativ språkmodell.