Pravni usodni dan za Generative AI ChatGPT, če ga ujamejo pri plagiatorstvu ali kršitvi, opozarja na etiko umetne inteligence in pravo na področju umetne inteligence

Ali generativna umetna inteligenca, kot je ChatGPT, trga naša spletna mesta in vsebino, ki so jo ustvarili ljudje? Zavedaj se, bodi … [+] vznemirjen, bodi pripravljen.

getty

Dajte kredit tam, kjer kredit zapade.

To je kanček modre modrosti, v katero ste bili morda vzgojeni, da trdno verjamete. Pravzaprav človek domneva ali si predstavlja, da bi se lahko vsi do neke mere razumno strinjali, da je to pošteno in razumno pravilo v življenju. Ko nekdo naredi nekaj, kar si zasluži priznanje, poskrbite, da bo dobil zasluženo priznanje.

Nasprotno stališče bi se zdelo veliko manj prepričljivo.

Če bi kdo hodil naokoli vztrajal, da mora kredit ne biti priznan, ko zapade kredit, no, lahko trdite, da je takšno prepričanje nevljudno in morda podle. Pogosto se znajdemo glasno vznemirjeni, ko je nekdo, ki je dosegel nekaj pomembnega, ogoljufan. Upam si trditi, da nam je še posebej nenaklonjeno, ko si drugi lažno pripisujejo zasluge za delo drugih. To je vznemirjajoč dvojni udarec. Oseba, ki bi morala dobiti zasluge, nima časa na soncu. Poleg tega prevarant uživa v soju žarometov, čeprav nas napačno zavajajo, da si prisvajajo naše naklonjene naklonjenosti.

Zakaj ves ta diskurz o pridobivanju zaslug na najbolj prave načine in izogibanju napačnim in prezira vrednim načinom?

Ker se zdi, da se soočamo s podobno težavo, ko gre za najnovejšo umetno inteligenco (AI).

Da, trdi se, da se to očitno dogaja prek vrste umetne inteligence, znane kot Generativna AI. Generativna umetna inteligenca, najbolj vroča umetna inteligenca v novicah teh dni, si je že pripisala zasluge za tisto, za kar si ne zasluži pripisati zaslug. In to se bo verjetno poslabšalo, ko bo generativna umetna inteligenca vedno bolj razširjena in uporabljena. Vedno več zaslug se nanaša na generativni AI, medtem ko so na žalost tisti, ki si bogato zaslužijo pravo zaslugo, ostali v prahu.

Moj predlagan način za jasno označevanje tega domnevnega pojava je prek dveh očarljivih besednih zvez:

1) Plagiat v velikem obsegu
2) Kršitev avtorskih pravic v velikem obsegu

Predvidevam, da morda poznate generativno umetno inteligenco zaradi zelo priljubljene aplikacije umetne inteligence, znane kot ChatGPT, ki jo je novembra izdal OpenAI. Za trenutek bom povedal več o generativnem AI in ChatGPT. Zdrži.

Pojdimo takoj k bistvu tega, kar ljudem tako rekoč daje koze.

Nekateri so se vneto pritoževali, da generativna umetna inteligenca potencialno krade ljudi, ki so ustvarili vsebino. Vidite, večina generativnih aplikacij z umetno inteligenco je podatkov, usposobljenih s pregledovanjem podatkov, najdenih v internetu. Na podlagi teh podatkov lahko algoritmi izpilijo obsežno notranje omrežje za ujemanje vzorcev znotraj aplikacije AI, ki lahko nato ustvari navidezno novo vsebino, ki je neverjetno videti, kot da bi jo ustvarila človeška roka in ne del avtomatizacije

Ta izjemen dosežek je v veliki meri posledica uporabe vsebine, skenirane v internetu. Brez obsega in bogastva internetne vsebine kot vira za usposabljanje podatkov bi bil generativni AI skoraj prazen in bi bil malo ali nič zanimiv za uporabo. S tem, ko AI pregleda milijone in milijone spletnih dokumentov in besedil, skupaj z vsemi vrstami povezane vsebine, se ujemanje vzorcev postopoma izpelje, da poskuša posnemati vsebino, ki jo ustvari človek.

Več kot je pregledane vsebine, obstaja verjetnost, da bo ujemanje vzorcev bolj izpopolnjeno in še boljše pri posnemanju, če so vsi ostali enaki.

Tukaj je vprašanje za milijone dolarjev:

Veliko vprašanje: Če imate vi ali drugi v internetu vsebino, na kateri so se usposabljali nekateri generativni programi AI, ki so to storili verjetno brez vašega neposrednega dovoljenja in morda povsem brez vašega zavedanja, bi morali biti upravičeni do kosa pogače glede vrednosti, ki izhaja iz to generativno usposabljanje podatkov AI?

Nekateri odločno trdijo, da je edini pravi odgovor Da, zlasti da si ti ustvarjalci človeških vsebin resnično zaslužijo svoj del akcije. Stvar je v tem, da bi težko našli koga, ki bi dobil svoj pošten delež, in kar je še huje, skoraj nihče ni dobil nobenega deleža. Ustvarjalcem internetnih vsebin, ki so neprostovoljno in nevede prispevali, se v bistvu odreka njihovo upravičeno priznanje.

To bi lahko označili kot kruto in nezaslišano. Pravkar smo razkrili modro modrost, da je treba kredit dati tam, kjer je. V primeru generativne umetne inteligence očitno ni tako. Zdi se, da je dolgoletno in krepostno pravilo o kreditih brezčutno kršeno.

Vau, odgovor gre, popolnoma pretiravate in napačno opisujete situacijo. Seveda je generativni AI pregledal vsebino na internetu. Seveda je bilo to zelo koristno kot del podatkovnega usposabljanja generativnega umetne inteligence. Res je, da današnje impresivne generativne aplikacije AI ne bi bile tako impresivne brez tega premišljenega pristopa. Vendar ste šli predaleč, ko ste rekli, da je treba ustvarjalcem vsebine pripisati kakršne koli posebne zasluge.

Logika je naslednja. Ljudje gredo ven na internet in se iz njega učijo stvari, pri čemer to počnejo rutinsko in brez vsakršnega napora. Oseba, ki bere bloge o vodovodnih inštalacijah in si nato na hitro ogleda prosto dostopne videoposnetke o popravljanju vodovodnih inštalacij, bo morda naslednji dan šla ven in se zaposlila kot vodovodar. Ali morajo dati del svojega nakazila, povezanega z vodovodom, blogerju, ki je pisal o tem, kako napeljati umivalnik? Ali morajo vlogerju, ki je posnel videoposnetek, ki prikazuje korake za popravilo puščajoče kadi, plačati honorar?

Skoraj zagotovo ne.

Podatkovno usposabljanje generativne umetne inteligence je le sredstvo za razvijanje vzorcev. Dokler izhodi generativne umetne inteligence niso zgolj regurgitacija natanko tega, kar je bilo preučeno, lahko prepričljivo trdite, da so se »naučili« in zato niso predmet dodelitve kakršnega koli posebnega zasluga nobenemu posebnemu viru. Razen če ne morete ujeti generativnega umetne inteligence pri izvajanju natančne regurgitacije, so znaki, da se je umetna inteligenca posplošila onkraj katerega koli posebnega vira.

Noben kredit ni dolžan nikomur. Ali pa bi lahko rekli, da gredo zasluge vsem. Zasluge dobijo kolektivna besedila in druge vsebine človeštva, ki jih najdemo na internetu. Vsi dobimo zasluge. Poskušati natančno določiti zasluge določenega vira je nesmiselno. Bodite veseli, da umetna inteligenca napreduje in da bo človeštvo od tega imelo koristi. Te objave na internetu bi se morale počutiti počaščene, da so prispevale k prihodnosti napredka v AI in kako bo to pomagalo človeštvu v večnosti.

Več bom povedal o obeh nasprotujočih si pogledih.

Ali se medtem nagibate k taboru, ki pravi, da je zasluga zapadla in prepozno za tiste, ki imajo spletna mesta na internetu, ali se vam zdi, da nasprotna stran, ki trdi, da so ustvarjalci internetnih vsebin odločno ne biti iztrgan je bolj prepričljiva drža?

Enigma in uganka, vse skupaj.

Razpakirajmo to.

V današnji kolumni bom obravnaval te izražene pomisleke, da generativni AI v bistvu plagiat ali morebiti krši avtorske pravice vsebine, ki je bila objavljena na internetu (ki se obravnava kot pravica intelektualne lastnine ali vprašanje IP). Ogledali si bomo osnovo za te pomisleke. Med to razpravo bom občasno omenil ChatGPT, saj gre za 600-kilogramsko gorilo generativnega umetne inteligence, vendar ne pozabite, da obstaja veliko drugih generativnih aplikacij za umetno inteligenco in da na splošno temeljijo na istih splošnih načelih.

Medtem se morda sprašujete, kaj je pravzaprav generativni AI.

Najprej pokrijmo osnove generativne umetne inteligence, nato pa si lahko natančno ogledamo perečo zadevo.

K vsemu temu pride množica premislekov o etiki umetne inteligence in pravu o umetni inteligenci.

Upoštevajte, da potekajo prizadevanja za vključitev etičnih načel umetne inteligence v razvoj in uporabo aplikacij umetne inteligence. Vse več zaskrbljenih in nekdanjih etikov umetne inteligence poskuša zagotoviti, da prizadevanja za oblikovanje in sprejetje umetne inteligence upoštevajo pogled na delovanje. AI za dobro in preprečevanje AI za slabo. Podobno so predlagani novi zakoni o umetni inteligenci, ki se razpredajo kot možne rešitve za preprečitev, da bi prizadevanja umetne inteligence ogrozila človekove pravice in podobno. Za moje stalno in obsežno pokrivanje etike in prava umetne inteligence glejte povezava tukaj in povezava tukaj, samo da navedem nekaj.

Prizadevamo si za razvoj in razglasitev etičnih zapovedi umetne inteligence, da bi upali preprečili, da bi se družba ujela v nešteto pasti, ki povzročajo umetno inteligenco. Za moje poročanje o etičnih načelih ZN za umetno inteligenco, kot jih je razvilo in podprlo skoraj 200 držav s prizadevanji Unesca, glejte povezava tukaj. Na podoben način se preučujejo novi zakoni o umetni inteligenci, da bi poskušali ohraniti umetno inteligenco na enakomerni ravni. Eden od zadnjih posnetkov je sestavljen iz nabora predlaganih Listina pravic AI ki ga je ameriška Bela hiša pred kratkim izdala za identifikacijo človekovih pravic v dobi umetne inteligence, glej povezava tukaj. Potrebna je vas, da ohranijo umetno inteligenco in razvijalce umetne inteligence na pravi poti in odvrnejo namerna ali naključna prikrita prizadevanja, ki bi lahko spodkopala družbo.

V to razpravo bom prepletel vidike, povezane z etiko umetne inteligence in pravom o umetni inteligenci.

Osnove generativne umetne inteligence

Najbolj znan primer generativne umetne inteligence predstavlja aplikacija umetne inteligence, imenovana ChatGPT. ChatGPT je prišel v javnost že novembra, ko ga je izdalo raziskovalno podjetje AI OpenAI. Odkar je ChatGPT zbral ogromne naslove in presenetljivo presegel svojih petnajst minut slave.

Predvidevam, da ste verjetno že slišali za ChatGPT ali morda celo poznate koga, ki ga je uporabljal.

ChatGPT velja za generativno aplikacijo umetne inteligence, ker kot vnos sprejme nekaj besedila od uporabnika in nato ustvarja ali ustvari rezultat, ki je sestavljen iz eseja. Umetna inteligenca je generator besedila v besedilo, čeprav AI opisujem kot generator besedila v esej, saj to lažje pojasni, za kaj se običajno uporablja. Generativno umetno inteligenco lahko uporabite za sestavljanje dolgih kompozicij ali pa jo pripravite do tega, da ponudi precej kratke jedrnate komentarje. Vse je na vaši ponudbi.

Vse kar morate storiti je, da vnesete poziv in aplikacija AI bo za vas ustvarila esej, ki se poskuša odzvati na vaš poziv. Sestavljeno besedilo se bo zdelo, kot da je esej napisan s človeško roko in umom. Če bi vnesli poziv z napisom "Povej mi o Abrahamu Lincolnu", vam bo generativni AI ponudil esej o Lincolnu. Obstajajo tudi drugi načini generativne umetne inteligence, kot sta besedilo v umetnost in besedilo v video. Tu se bom osredotočil na različico besedila v besedilo.

Vaša prva misel bi morda bila, da se ta generativna sposobnost ne zdi tako pomembna v smislu ustvarjanja esejev. Preprosto lahko opravite spletno iskanje po internetu in brez težav najdete na tone in tone esejev o predsedniku Lincolnu. V primeru generativne umetne inteligence je zanimivo, da je ustvarjeni esej razmeroma edinstven in daje izvirno kompozicijo, ne pa kopijo. Če bi poskušali nekje na spletu najti esej, ki ga je ustvarila umetna inteligenca, ga verjetno ne bi odkrili.

Generativni AI je vnaprej usposobljen in uporablja zapleteno matematično in računsko formulacijo, ki je bila vzpostavljena s preučevanjem vzorcev v napisanih besedah in zgodbah po spletu. Kot rezultat preučevanja na tisoče in milijone pisnih odlomkov lahko umetna inteligenca izbruha nove eseje in zgodbe, ki so mešanica najdenega. Z dodajanjem različnih verjetnostnih funkcij je dobljeno besedilo precej edinstveno v primerjavi s tem, kar je bilo uporabljeno v naboru za usposabljanje.

Glede generativne umetne inteligence obstajajo številni pomisleki.

Ena od ključnih slabosti je, da so lahko v eseje, ki jih ustvari generativna aplikacija AI, vgrajene različne laži, vključno z očitno neresničnimi dejstvi, dejstvi, ki so zavajajoča prikazana, in navideznimi dejstvi, ki so v celoti izmišljena. Ti izmišljeni vidiki se pogosto imenujejo oblika AI halucinacije, krilati stavek, ki ga ne maram, vendar se žal zdi, da vseeno pridobiva na priljubljenosti (za mojo podrobno razlago o tem, zakaj je to zanič in neprimerna terminologija, glejte mojo reportažo na povezava tukaj).

Druga skrb je, da si ljudje zlahka pripišejo zasluge za generativni esej, ki ga je ustvarila umetna inteligenca, čeprav eseja niso sestavili sami. Morda ste že slišali, da so učitelji in šole precej zaskrbljeni zaradi pojava generativnih aplikacij AI. Študenti lahko potencialno uporabljajo generativno umetno inteligenco za pisanje svojih esejev. Če učenec trdi, da je esej napisal lastnoročno, je malo možnosti, da bi učitelj lahko ugotovil, ali ga je namesto tega ponaredila generativna umetna inteligenca. Za mojo analizo tega zmedenega vidika za študente in učitelje si oglejte mojo pokritost na povezava tukaj in povezava tukaj.

Na družabnih omrežjih je bilo nekaj čudnih pretiranih trditev o Generativna AI trdi, da je ta najnovejša različica umetne inteligence v resnici čuteča umetna inteligenca (ne, motijo se!). Tisti, ki se ukvarjajo z etiko umetne inteligence in pravom o umetni inteligenci, so zlasti zaskrbljeni zaradi tega naraščajočega trenda razširjenih trditev. Lahko bi vljudno rekli, da nekateri ljudje pretiravajo, kaj današnja AI dejansko zmore. Predvidevajo, da ima AI zmogljivosti, ki nam jih še ni uspelo doseči. To je žalostno. Še huje, sebi in drugim lahko dovolijo, da se znajdejo v hudih situacijah zaradi predpostavke, da bo umetna inteligenca čuteča ali podobna človeku, da bo lahko ukrepala.

Ne antropomorfizirajte AI.

Če boste to storili, se boste ujeli v lepljivo in trdo past zanašanja, ko pričakujete, da bo AI delal stvari, ki jih ni sposoben izvesti. Glede na to je najnovejša generativna umetna inteligenca razmeroma impresivna glede na to, kaj zmore. Vendar se zavedajte, da obstajajo znatne omejitve, ki bi jih morali vedno upoštevati pri uporabi katere koli generativne aplikacije AI.

Zaenkrat še zadnje opozorilo.

Karkoli vidite ali preberete v generativnem odgovoru umetne inteligence Zdi se, če želite biti posredovani zgolj kot dejstva (datumi, kraji, ljudje itd.), poskrbite, da boste ostali skeptični in bodite pripravljeni še enkrat preveriti, kar vidite.

Da, datume je mogoče izmisliti, kraje je mogoče izmisliti in elementi, za katere običajno pričakujemo, da bodo neoporečni, so vse predmet sumov. Ne verjemite temu, kar berete, in bodite skeptični, ko preučujete kakršne koli generativne eseje ali rezultate AI. Če vam generativna aplikacija za umetno inteligenco pove, da je Abraham Lincoln preletel državo s svojim zasebnim letalom, bi nedvomno vedeli, da je to malarkija. Na žalost se nekateri ljudje morda ne zavedajo, da letal v njegovem času ni bilo, ali pa vedo, a ne opazijo, da je v eseju podana ta nesramna in nezaslišano lažna trditev.

Močan odmerek zdravega skepticizma in vztrajna miselnost nezaupanja bosta vaša najboljša prednost pri uporabi generativne umetne inteligence.

Pripravljeni smo preiti na naslednjo stopnjo tega pojasnjevanja.

Internet in generativna umetna inteligenca sta v tem skupaj

Zdaj, ko ste že razumeli, kaj je generativni AI, lahko raziščemo vznemirljivo vprašanje, ali generativni AI pošteno ali nepravično »izkorišča«, ali bi nekateri rekli očitno izkoriščanje internetne vsebine.

Tukaj so moje štiri ključne teme, ki se nanašajo na to zadevo:

1) Dvojna težava: plagiatorstvo in kršitev avtorskih pravic
2) Poskus dokazati plagiat ali kršitev avtorskih pravic bo poskus
3) Zagovarjanje plagiatorstva ali kršitve avtorskih pravic
4) Zakonite mine čakajo

Pokril bom vsako od teh pomembnih tem in ponudil pronicljive premisleke, o katerih bi morali vsi skrbno premišljevati. Vsaka od teh tem je sestavni del večje uganke. Ne moreš gledati samo enega kosa. Prav tako ne morete gledati nobenega kosa ločeno od drugih kosov.

To je zapleten mozaik in celotno uganko je treba ustrezno harmonično pretehtati.

Dvojna težava: plagiatorstvo in kršitev avtorskih pravic

Dvojna težava, s katero se soočajo tisti, ki izdelujejo in uporabljajo generativno umetno inteligenco, je, da njihovi izdelki morda delajo dve slabi stvari:

1) Plagiatorstvo. Generativno umetno inteligenco bi si lahko razlagali kot plagiat vsebino, ki obstaja na internetu glede na internetno skeniranje, ki je potekalo med usposabljanjem podatkov AI.
2) Kršitev avtorskih pravic. Generativno umetno inteligenco bi lahko označili kot podjetje kršitev avtorskih pravic povezana z internetno vsebino, ki je bila skenirana med usposabljanjem podatkov.

Če pojasnimo, na internetu je veliko več vsebine, kot se dejansko običajno skenira za podatkovno usposabljanje generativne umetne inteligence. Običajno se uporablja le majhen del interneta. Tako lahko predvidoma domnevamo, da katera koli vsebina, ki ni bila skenirana med usposabljanjem podatkov, nima posebnih težav z generativnim AI.

To je sicer nekoliko sporno, saj bi potencialno lahko narisali črto, ki povezuje drugo vsebino, ki je bila skenirana, z vsebino, ki ni bila skenirana. Še en pomemben pogoj je, da tudi če obstaja vsebina, ki ni bila skenirana, se lahko še vedno trdi, da je plagiat in/ali kršena avtorska pravica, če rezultati generativnega umetne inteligence morda pristanejo na istem besedilu. Mislim, da je v vsem tem veliko mehkobe.

Bottom line: Generativna umetna inteligenca je polna morebitnih etičnih in pravnih zagat glede umetne inteligence, ko gre za plagiatorstvo in kršitve avtorskih pravic podpiranje prevladujočih praks usposabljanja podatkov.

Doslej so izdelovalci umetne inteligence in raziskovalci umetne inteligence drsali skozi to precej brez težav, kljub grozečemu in negotovo visečemu meču, ki visi nad njimi. Proti tem praksam je bilo do danes sproženih le nekaj tožb. Morda ste že slišali ali videli članke o takih pravnih postopkih. Eden na primer vključuje podjetji Midjourney in Stability AI za pretvorbo besedila v sliko zaradi kršitve umetniške vsebine, objavljene na internetu. Druga vključuje kršitev besedila v kodo proti GitHubu, Microsoftu in OpenAI zaradi programske opreme Copilot, ki proizvaja aplikacije AI. Getty Images si je prav tako prizadeval preiskovati umetno inteligenco stabilnosti zaradi kršitve besedila v sliko.

Lahko pričakujete, da bo vloženih še več takih tožb.

Trenutno je malo naključno sprožiti te tožbe, saj je rezultat razmeroma neznan. Bo sodišče na strani izdelovalcev umetne inteligence ali bodo zmagali tisti, ki menijo, da je bila njihova vsebina nepošteno izkoriščena? Draga pravna bitka je vedno resna zadeva. Porabo obsežnih pravnih stroškov je treba pretehtati glede na možnosti za zmago ali poraz.

Zdi se, da izdelovalci AI skoraj nimajo druge izbire, kot da se borijo. Če bi se vsaj malo umaknili, je verjetnost, da bi povzročila množico dodatnih tožb (v bistvu bi odprla vrata večjim možnostim, da tudi drugi prevladajo). Ko bo v vodi zakonita kri, se bodo preostali zakoniti morski psi pognali do "lahkega rezultata" in zagotovo bi prišlo do pretresljivega in pretepajočega denarnega prelivanja krvi.

Nekateri verjamejo, da bi morali sprejeti nove zakone o umetni inteligenci, ki bi zaščitili izdelovalce umetne inteligence. Zaščita lahko velja celo za nazaj. Osnova za to je, da če želimo videti generativni napredek umetne inteligence, moramo izdelovalcem umetne inteligence dati nekaj varne cone. Ko bodo tožbe proti izdelovalcem umetne inteligence začele dosegati zmage, če se to zgodi (še ne vemo), je zaskrbljujoče, da bo generativna umetna inteligenca izhlapela, saj nihče ne bo pripravljen podpreti podjetij z umetno inteligenco.

Kot sta spretno poudarila dr. Ilia Kolochenko in Gordon Platt v nedavnem prispevku Bloomberg Law z naslovom »ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI«, Bloomberg Law, februar 2023, sta tu dva bistvena odlomka, ki ponavljata ta stališča:

»Med ameriškimi pravniki in profesorji prava intelektualne lastnine zdaj divja burna razprava o tem, ali nepooblaščeno strganje in kasnejša uporaba avtorsko zaščitenih podatkov pomenita kršitev avtorskih pravic. Če prevlada mnenje pravnikov, ki vidijo kršitve avtorskih pravic v takšni praksi, so lahko uporabniki takšnih sistemov AI odgovorni tudi za sekundarno kršitev in se lahko soočijo s pravnimi posledicami.«
"Za celovito obravnavo izziva bi morali zakonodajalci razmisliti ne le o posodobitvi obstoječe zakonodaje o avtorskih pravicah, temveč tudi o izvajanju sklopa zakonov in predpisov, specifičnih za AI."

Spomnimo se, da smo kot družba vzpostavili pravno zaščito za Širitev interneta, kot je zdaj priča vrhovno sodišče, ki revidira znameniti ali zloglasni oddelek 230. Tako se zdi znotraj razuma in precedensa, da bi bili morda pripravljeni narediti nekaj podobnih zaščit za napredek generativne umetne inteligence. Morda bi se zaščite lahko nastavile začasno in potekle, ko generativni AI doseže določeno vnaprej določeno raven strokovnosti. Lahko bi se oblikovale druge zaščitne določbe.

Kmalu bom objavil svojo analizo o tem, kako bi lahko ocena vrhovnega sodišča in končna odločitev o razdelku 230 vplivala na pojav generativne umetne inteligence. Bodite pozorni na to prihajajočo objavo!

Nazaj na ostro izraženo mnenje, da bi morali pustiti manevrski prostor za družbene tehnološke inovacije, ki vzbujajo strahospoštovanje, znane kot generativna umetna inteligenca. Nekateri bi rekli, da bi morala biti celotna družba kot celota pripravljena to dovoliti za posebne namene napredka generativne umetne inteligence, tudi če je ali se dogaja domnevna kršitev avtorskih pravic.

Upamo, da bodo novi zakoni o AI skrbno oblikovani in prilagojeni podrobnostim, povezanim z usposabljanjem podatkov za generativno AI.

Obstaja veliko protiargumentov za to idejo o oblikovanju novih zakonov o AI v ta namen. Eden od pomislekov je, da bo vsak tak nov zakon o AI odprl vrata za vse vrste kršitev avtorskih pravic. Obžalovali bomo dan, ko smo dovolili, da so novi zakoni o AI pristali v knjigah. Ne glede na to, kako močno se trudite, da bi to omejili le na usposabljanje podatkov AI, bodo drugi potuhnjeno ali premeteno našli vrzeli, ki bodo pomenile neomejeno in razširjeno kršitev avtorskih pravic.

Argumenti se vrtijo.

Eden od argumentov, ki ne drži vode, je povezan s poskusom tožbe same umetne inteligence. Upoštevajte, da sem izdelovalca umetne inteligence ali raziskovalce umetne inteligence omenjal kot krive deležnike. To so ljudje in podjetja. Nekateri predlagajo, da bi morali ciljati na AI kot stranko, ki jo je treba tožiti. V svoji kolumni sem na dolgo razpravljal o tem, da AI še ne pripisujemo pravne osebe, glejte povezava tukaj na primer, zato bi bile takšne tožbe, usmerjene proti AI sami po sebi, zdaj obravnavane kot nesmiselne.

Kot dodatek k vprašanju, koga ali kaj je treba tožiti, to odpira še eno sočno temo.

Predpostavimo, da je določeno generativno aplikacijo AI zasnoval nek izdelovalec AI, ki ga bomo imenovali Widget Company. Widget Company je razmeroma majhno in nima veliko prihodkov, niti veliko sredstev. Tožba proti njim verjetno ne bo prinesla velikega bogastva, ki bi ga morda iskali. Kvečjemu bi imeli le zadovoljstvo, da popravite tisto, kar dojemate kot napačno.

Hočeš iti za velikimi ribami.

Evo, kako bo to nastalo. Proizvajalec umetne inteligence se odloči, da bo svojo generativno umetno inteligenco dal na voljo Big Time Company, velikemu konglomeratu s tonami denarja in tonami sredstev. Tožba z imenom Widget Company bi zdaj imela boljšo tarčo, in sicer tudi z imenovanjem Big Time Company. To je boj Davida in Goljata, v katerem bi bili odvetniki navdušeni. Seveda se bo Big Time Company nedvomno poskušala izmuzniti z ribiškega trnka. Ali lahko to storijo, je spet pravno vprašanje, ki je negotovo, in lahko bi brezupno padli v blato.

Preden gremo dlje o tem, bi rad dobil nekaj bistvenega na mizi o spornih posegih generativne umetne inteligence zaradi podatkovnega usposabljanja. Prepričan sem, da se intuitivno zavedate, da sta plagiat in kršitev avtorskih pravic dve nekoliko različni zveri. Imata veliko skupnega, čeprav se tudi bistveno razlikujeta.

Tukaj je priročen jedrnat opis z univerze Duke, ki pojasnjuje oboje:

»Plagiatorstvo je najbolje definirati kot nepotrjeno uporabo dela druge osebe. Gre za etično vprašanje, ki vključuje dobropis za delo, ki ga vlagatelj ni ustvaril. Nekdo lahko plagiat delo nekoga drugega ne glede na status avtorskih pravic tega dela. Na primer, kljub temu je plagiat kopiranje iz knjige ali članka, ki je prestar, da bi bil še zaščiten z avtorskimi pravicami. Plagiatorstvo je tudi uporaba podatkov, vzetih iz nepotrjenega vira, čeprav dejansko gradivo, kot so podatki, morda ni zaščiteno z avtorskimi pravicami. Plagiatorstvo pa je enostavno ozdravljivo – pravilno navajanje izvirnega vira gradiva.”
»Kršitev avtorskih pravic pa je nepooblaščena uporaba tujega dela. To je pravno vprašanje, ki je odvisno od tega, ali je delo sploh zaščiteno z avtorskimi pravicami, pa tudi od podrobnosti, kot sta količina uporabljenega in namen uporabe. Če kopirate preveč zaščitenega dela ali kopirate za nepooblaščene namene, preprosto priznanje izvirnega vira ne bo rešilo težave. Samo s pridobitvijo predhodnega dovoljenja imetnika avtorskih pravic se lahko izognete tveganju obtožbe zaradi kršitve."

Opozarjam na pomembnost teh dveh skrbi, da boste spoznali, da se lahko zdravila ustrezno razlikujejo. Poleg tega sta oba vpletena v pomisleke, ki prežemajo etiko umetne inteligence in pravo umetne inteligence, zaradi česar ju je enako vredno preučiti.

Raziščimo zatrjevano zdravilo ali rešitev. Videli boste, da lahko pomaga pri eni od dvojnih težav, pri drugi pa ne.

Nekateri so vztrajali, da morajo izdelovalci AI le navesti svoje vire. Ko generativna umetna inteligenca ustvari esej, vključite le specifične citate za vse, kar je navedeno v eseju. Navedite različne URL-je in druge navedbe, katera internetna vsebina je bila uporabljena. Zdi se, da bi jih to osvobodilo pomislekov glede plagiatorstva. Izpisani esej bi verjetno jasno opredelil, kateri viri so bili uporabljeni za besedilo, ki je bilo ustvarjeno.

V tej zahtevani rešitvi je nekaj pomislekov, toda na ravni 30,000 čevljev recimo, da služi kot napol zadovoljivo zdravilo za dilemo o plagiatorstvu. Kot je navedeno zgoraj v razlagi kršitve avtorskih pravic, vas navajanje izvornega gradiva ne spravi nujno iz pasje ute. Ob predpostavki, da je bila vsebina zaščitena z avtorskimi pravicami, in odvisno od drugih dejavnikov, kot je količina materiala, ki je bil uporabljen, se lahko čakajoči meč kršitve avtorskih pravic močno in dokončno zavihti navzdol.

Tukaj je geslo dvojna težava.

Poskus dokazati plagiat ali kršitev avtorskih pravic bo naporen

Dokaži!

To je dobro obrabljen refren, ki smo ga vsi slišali v različnih obdobjih našega življenja.

Saj veš kako to gre. Lahko trdite, da se nekaj dogaja ali se je zgodilo. Morda v srcu veste, da se je to zgodilo. Ko pa gre za pritisk proti potiskanju, moraš imeti dokaz.

V današnjem jeziku morate pokazati prejemki, kot pravijo.

Moje vprašanje za vas je naslednje: Kako bomo dokazljivo dokazali, da je generativni AI neustrezno izkoriščal internetno vsebino?

Človek domneva, da mora biti odgovor enostaven. Prosite ali poveste generativnemu AI, naj pripravi izhodni esej. Nato vzamete esej in ga primerjate s tem, kar lahko najdete na internetu. Če najdete esej, bam, imate generativno AI prikovano na pregovorni zid.

Zdi se, da življenje nikoli ni tako enostavno.

Predstavljajte si, da dobimo generativno umetno inteligenco za izdelavo eseja, ki vsebuje približno 100 besed. Hodimo naokoli in poskušamo doseči vse kotičke in kotičke interneta ter iščemo teh 100 besed. Če najdemo 100 besed, prikazanih v enakem vrstnem redu in na enak način, se zdi, da smo se ujeli v vročem.

Predpostavimo pa, da na internetu najdemo na videz "primerljiv" esej, čeprav se ujema le z 80 od 100 besed. To se morda zdi še vedno dovolj. Toda predstavljajte si, da najdemo le primerek od 10 besed od 100, ki se ujemajo. Je to dovolj, da trdimo, da je prišlo do plagiata ali da je prišlo do kršitve avtorskih pravic?

Sivina obstaja.

Besedilo je tako smešno.

Primerjajte to z okoliščinami pretvorbe besedila v sliko ali besedila v umetnost. Ko generativni AI nudi zmožnost pretvorbe besedila v sliko ali besedilo v umetnost, vnesete besedilni poziv in aplikacija AI ustvari sliko, ki nekoliko temelji na pozivu, ki ste ga posredovali. Slika morda ni podobna nobeni sliki, ki je bila kdaj videna na tem ali katerem koli drugem planetu.

Po drugi strani pa lahko slika spominja na druge slike, ki obstajajo. Lahko pogledamo generativno sliko, ki jo je ustvarila umetna inteligenca, in nekoliko po občutku rečemo, da je zagotovo videti kot neka druga slika, ki smo jo videli prej. Na splošno, vizualna vidikov primerjave in kontrasta se nekoliko lažje lotimo. Ob tem upoštevajte, da ogromne pravne razprave zagotavljajo, kaj je prekrivanje ali podvajanje ene slike iz druge.

Druga podobna situacija je z glasbo. Obstajajo generativne aplikacije AI, ki vam omogočajo vnos besedilnega poziva, rezultat, ki ga ustvari AI, pa je zvočna glasba. Te zmogljivosti umetne inteligence za pretvorbo besedila v zvok ali besedilo v glasbo se šele začenjajo pojavljati. Ena stvar, na katero lahko stavite svoj največji dolar, je, da bo glasba, ki jo proizvaja generativna umetna inteligenca, zelo natančno preučena zaradi kršitev. Zdi se, da vemo, kdaj slišimo glasbeno kršitev, čeprav je to spet zapleteno pravno vprašanje, ki ne temelji le na tem, kako se počutimo glede zaznane reprodukcije.

Dovolite mi še en primer.

Umetna inteligenca, ki generira besedilo v kodo, vam omogoča, da vnesete besedilni poziv in umetna inteligenca bo namesto vas izdelala programsko kodo. To kodo lahko nato uporabite za pripravo računalniškega programa. Kodo lahko uporabite natanko tako, kot je ustvarjena, ali pa se odločite za urejanje in prilagoditev kode, da bo ustrezala vašim potrebam. Prav tako je treba zagotoviti, da je koda primerna in uporabna, saj je možno, da se v ustvarjeni kodi pojavijo napake in laži.

Vaša prva predpostavka bi lahko bila, da se programska koda ne razlikuje od besedila. To je samo besedilo. Seveda je to besedilo, ki zagotavlja določen namen, vendar je še vedno besedilo.

No, ne ravno. Večina programskih jezikov ima strog format in strukturo glede na naravo kodnih stavkov tega jezika. To je v nekem smislu veliko ožje od prosto tekočega naravnega jezika. Glede na to, kako so kodirne izjave oblikovane, ste nekoliko zaprti. Podobno sta zaporedje in način, na katerega se izjave uporabljajo in razporejajo, nekoliko zaprta.

Na splošno je možnost predstavitve, da je bila programska koda plagiat ali kršena, skoraj lažja kot naravni jezik. Torej, ko gre generativni AI skenirati programsko kodo na internetu in pozneje ustvari programsko kodo, bodo možnosti za trditev, da je bila koda očitno ponovljena, relativno bolj prepričljive. To ni zabijanje, zato pričakujte ogorčene bitke.

Moja glavna točka je, da bomo imeli enaka vprašanja etike umetne inteligence in zakona o umetni inteligenci, ki se soočajo z vsemi načini generativne umetne inteligence.

Plagiatorstvo in kršitev avtorskih pravic bo problematično za:

Pretvorba besedila v besedilo ali besedilo v esej
Pretvorba besedila v sliko ali besedilo v umetnost
Pretvorba besedila v zvok ali besedilo v glasbo
Pretvorba besedila v video
Besedilo v kodo
Itd

Vsi so predmet istih skrbi. Nekatere je morda nekoliko lažje "dokazati" kot druge. Vsi bodo imeli svojo vrsto nočnih mor glede etike in prava umetne inteligence.

Zagovarjanje plagiatorstva ali kršitve avtorskih pravic

Za namene razprave se osredotočimo na generativni AI besedila v besedilo ali besedila v esej. Delno to počnem zaradi izjemne priljubljenosti ChatGPT, ki je tip generativne umetne inteligence za pretvorbo besedila v besedilo. Veliko ljudi uporablja ChatGPT, skupaj s številnimi drugimi, ki uporabljajo različne podobne generativne AI aplikacije za pretvorbo besedila v besedilo.

Ali ljudje, ki uporabljajo generativne aplikacije AI, vedo, da se potencialno zanašajo na plagiat ali kršitev avtorskih pravic?

Zdi se dvomljivo, da to počnejo.

Upal bi si trditi, da je prevladujoča predpostavka, da če je generativna aplikacija AI na voljo za uporabo, mora izdelovalec AI ali podjetje, ki je postavilo AI, vedeti ali biti prepričano, da v izdelkih, ki jih ponujajo za uporabo, ni nič slabega. Če ga lahko uporabite, mora biti nad krovom.

Ponovno poglejmo moj prejšnji komentar o tem, kako bomo poskušali dokazati, da določena generativna umetna inteligenca deluje na napačni podlagi glede usposabljanja podatkov.

Dodal bi lahko tudi, da če pri tem ujamemo enega generativnega umetne inteligence, se verjetno povečajo možnosti, da ujamemo druge. Ne trdim, da bi bile vse generativne aplikacije AI v istem čolnu. Toda znašli se bodo v precej surovem morju, ko bo eden od njih prikovan na steno.

Tudi zato se bo neizmerno splačalo spremljati obstoječe tožbe. Prva, ki zmaga v zvezi z zatrjevano kršitvijo, bo, če se to zgodi, verjetno pomenila pogubo za druge generativne aplikacije AI, razen če nekaj ozkosti ne uide širšim zadevam. Tisti, ki izgubijo glede domnevne kršitve, ne pomenijo nujno, da lahko generativne aplikacije AI zvonijo in praznujejo. Lahko se zgodi, da je izguba pripisana drugim dejavnikom, ki niso tako pomembni za druge generativne aplikacije AI itd.

Omenil sem, da če vzamemo 100-besedni esej in poskušamo najti natanko tiste besede v popolnoma enakem zaporedju na internetu, lahko imamo razmeroma trden primer za plagiat ali kršitev avtorskih pravic, če so vsi ostali enaki. Če pa je število besed, ki se ujemajo, malo, se zdi, da smo na tankem ledu.

Rad bi se poglobil v to.

Očiten vidik primerjave je sestavljen iz popolnoma enakih besed v popolnoma enakem zaporedju. To se lahko zgodi za celotne odlomke. To bi bilo priročno opaziti, skoraj kot da bi nam ga dali na srebrnem pladnju.

Lahko bi bili tudi sumljivi, če bi se ujemal le delček besed. Zamisel bi bila ugotoviti, ali so to ključne besede ali morda besede za dopolnjevanje, ki jih lahko takoj odstranimo ali prezremo. Prav tako ne želimo, da nas zavede uporaba besed v njihovem preteklem ali prihodnjem času ali drugačna norčija. Upoštevati je treba tudi te razlike v besedah.

Druga stopnja primerjave bi bila, če besede v veliki meri niso posebej iste besede, vendar se zdi, da besede, tudi v raznolikem stanju, še vedno izražajo iste točke. Na primer, povzetek bo pogosto uporabljal precej podobne besede kot izvirni vir, vendar lahko opazimo, da se zdi, da povzetek temelji na izvirnem viru.

Najtežja raven primerjave bi temeljila na konceptih ali idejah. Predpostavimo, da vidimo esej, ki nima enakih ali podobnih besed za primerjalno osnovo, bistvo ali ideje pa so enake. Priznamo, da zahajamo na grobo ozemlje. Če bi takoj rekli, da so ideje strogo varovane, bi zaprli skoraj vse oblike znanja in širjenja znanja.

Ponovno se lahko obrnemo na priročno razlago Univerze Duke:

»Avtorske pravice ne ščitijo idej, ampak le poseben izraz ideje. Sodišče je na primer odločilo, da Dan Brown, ko je napisal, ni kršil avtorskih pravic prejšnje knjige The Da Vinci Code ker je vse, kar si je izposodil iz prejšnjega dela, osnovne ideje, ne posebnosti zapleta ali dialoga. Ker so avtorske pravice namenjene spodbujanju ustvarjalne produkcije, uporaba idej nekoga drugega za ustvarjanje novega in izvirnega dela podpira namen avtorskih pravic, ne krši jih. Avtorske pravice so potencialno kršene le, če nekdo kopira izraz drugega brez dovoljenja.«
»Da bi se izognili plagiatorstvu, je treba po drugi strani priznati izvor tudi za ideje, ki so si jih izposodili od nekoga drugega, ne glede na to, ali je izraz teh idej izposojen z njimi. Parafraza torej zahteva citiranje, čeprav le redko povzroči težave z avtorskimi pravicami.«

Upoštevajte, kot smo že prej ugotovili razlike med vidiki dvojnih težav.

Torej je uvajanje primerjalnih pristopov v prakso nekaj, kar se dogaja že vrsto let. Razmislite o tem na ta način. Učence, ki pišejo eseje za svoje šolske naloge, bi lahko zamikalo, da bi pograbili vsebino iz interneta in se pretvarjali, da so avtorji besed, ki so prejele Pulitzerjevo nagrado za oceno A.

Učitelji za reševanje tega že dolgo uporabljajo programe za preverjanje plagiatorstva. Učitelj vzame študentov esej in ga vnese v pregledovalnik plagiatorstva. V nekaterih primerih bo celotna šola licencirala uporabo programa za preverjanje plagiatorstva. Kadarkoli študentje oddajo esej, morajo esej najprej poslati programu za preverjanje plagiatorstva. Učitelj je obveščen o poročilih programa.

Na žalost morate biti zelo previdni glede tega, kaj imajo povedati ti programi za preverjanje plagiatorstva. Pomembno je skrbno oceniti, ali so navedene indikacije veljavne. Kot že omenjeno, je zmožnost ugotavljanja, ali je bilo delo kopirano, lahko nejasna. Če nepremišljeno sprejmete rezultat programa preverjanja, lahko študenta lažno obtožite prepisovanja, čeprav tega ni storil. To je lahko dušo sekajoče.

Če nadaljujemo, lahko poskusimo uporabiti programe za preverjanje plagiatorstva na področju testiranja generativnih rezultatov umetne inteligence. Obravnavajte izpisane eseje iz generativne aplikacije AI, kot da jih je napisal študent. Nato ocenimo, kaj pravi preverjevalec plagiatorstva. To naredimo z zrnom soli.

Obstaja nedavna raziskovalna študija, ki je poskušala operacionalizirati te vrste primerjav v kontekstu generativne umetne inteligence prav na ta način. Z vami bi rad pregledal nekaj zanimivih ugotovitev.

Najprej je potrebno dodati nekaj ozadja. Generativni AI se včasih imenuje LLM (veliki jezikovni modeli) ali preprosto LM (jezikovni modeli). Drugič, ChatGPT temelji na različici drugega generativnega paketa AI OpenAI, imenovanega GPT-3.5. Pred GPT-3.5 je bil GPT-3, pred tem pa GPT-2. Dandanes GPT-2 velja za precej primitivnega v primerjavi s poznejšimi serijami in vsi nestrpno pričakujemo prihajajoče razkritje GPT-4, glejte mojo razpravo na povezava tukaj.

Raziskovalna študija, ki jo želim na kratko raziskati, je obsegala preučevanje GPT-2. To se je pomembno zavedati, saj zdaj presegamo zmožnosti GPT-2. Ne delajte nepremišljenih zaključkov glede rezultatov te analize GPT-2. Kljub temu se lahko iz ocene GPT-2 veliko naučimo. Študija nosi naslov "Ali jezikovni modeli plagiarijo?" avtorji Jooyoung Lee, Thai Lee, Jinghui Chen in Dongwon Lee, ki se pojavljajo v ACM WWW '23, 1.–5. maj 2023, Austin, TX, ZDA.

To je njihovo glavno raziskovalno vprašanje:

"V kolikšni meri (ne omejeno na pomnjenje) LM-ji izkoriščajo fraze ali stavke iz svojih vzorcev usposabljanja?"

Uporabili so te tri ravni ali kategorije potencialnega plagiatorstva:

"Dobesedni plagiat: Natančne kopije besed ali besednih zvez brez preoblikovanja."
"Parafraza plagiata: zamenjava sinonimov, preurejanje besed in/ali povratni prevod."
"Plagiatorstvo ideje: predstavitev temeljne vsebine v podaljšani obliki."

GPT-2 je bil dejansko usposobljen za internetne podatke in zato primeren kandidat za to vrsto analize:

»GPT-2 je vnaprej usposobljen za WebText, ki vsebuje več kot 8 milijonov dokumentov, pridobljenih iz 45 milijonov povezav Reddit. Ker OpenAI ni javno izdal WebText, uporabljamo OpenWebText, ki je odprtokodna poustvaritev korpusa WebText. Prejšnja literatura ga je zanesljivo uporabila.«

Izbirne ključne ugotovitve, kot so povzete iz študije, vključujejo:

"Odkrili smo, da vnaprej usposobljene družine GPT-2 res plagiarijo iz OpenWebText."
"Naše ugotovitve kažejo, da fina nastavitev znatno zmanjša primere dobesednega plagiatorstva iz OpenWebText."
„V skladu s Carlinijem et al. in Carlini et al., ugotavljamo, da večji modeli GPT-2 (veliki in xl) na splošno ustvarjajo plagiatizirana zaporedja pogosteje kot manjši.«
"Vendar pa lahko različni LM-ji kažejo različne vzorce plagiatorstva, zato naši rezultati morda ne bodo neposredno posplošeni na druge LM-je, vključno z novejšimi LM-ji, kot sta GPT-3 ali BLOOM."
»Poleg tega je znano, da imajo samodejni detektorji plagiatorstva veliko načinov napak (tako pri lažno negativnih kot lažno pozitivnih rezultatih).
"Glede na to, da je večina podatkov o usposabljanju LM-jev postrgana s spleta, ne da bi bili o tem obveščeni lastniki vsebine, ima njihovo ponavljanje besed, besednih zvez in celo osrednjih idej iz sklopov usposabljanja v ustvarjena besedila etične posledice."

Vsekakor potrebujemo veliko več tovrstnih študij.

Če vas zanima primerjava GPT-2 z GPT-3 glede usposabljanja podatkov, obstaja precejšnje nasprotje.

Po poročanih navedbah je bilo usposabljanje podatkov za GPT-3 veliko obsežnejše:

»Model je bil usposobljen z uporabo besedilnih baz podatkov iz interneta. To je vključevalo ogromnih 570 GB podatkov, pridobljenih iz knjig, spletnih besedil, Wikipedije, člankov in drugih besedil na internetu. Če smo še bolj natančni, je bilo v sistem vnesenih 300 milijard besed” (BBC Science Focus revije, »ChatGPT: Vse, kar morate vedeti o orodju GPT-3 OpenAI« avtor Alex Hughes, februar 2023).

Za tiste, ki vas zanimajo bolj poglobljeni opisi podatkovnega usposabljanja za GPT-3, je tukaj izvleček iz uradne kartice modela GPT-3, objavljene na GitHubu (nazadnje posodobljen datum je september 2020):

»Nabor podatkov za usposabljanje GPT-3 je sestavljen iz besedila, objavljenega na internetu, ali besedila, naloženega na internet (npr. knjige). Internetni podatki, na katerih se je učil in glede na katere je bil doslej ocenjen, vključujejo: (1) različico nabora podatkov CommonCrawl, filtrirano na podlagi podobnosti z visokokakovostnimi referenčnimi korpusi, (2) razširjeno različico nabora podatkov Webtext, (3 ) dva internetna knjižna korpusa in (4) Wikipedia v angleškem jeziku.«
»Glede na podatke o usposabljanju so rezultati in zmogljivost GPT-3 bolj reprezentativni za populacije, povezane z internetom, kot tiste, ki so prepojene z verbalno, nedigitalno kulturo. Prebivalstvo, povezano z internetom, bolj predstavlja razvite države, bogate, mlajše in moške poglede ter je večinoma osredotočeno na ZDA. Bogatejši narodi in prebivalci v razvitih državah kažejo večjo penetracijo interneta. Digitalni razkorak med spoloma kaže tudi, da je manj žensk zastopanih na spletu po vsem svetu. Poleg tega, ker imajo različni deli sveta različne ravni internetne prodornosti in dostopa, nabor podatkov premalo predstavlja manj povezane skupnosti.«

Eden od zaključkov zgornje navedbe o GPT-3 je, da med tistimi, ki izdelujejo generativni AI, velja pravilo, da več internetnih podatkov, kot jih lahko skenirate, povečajo možnosti za izboljšanje ali napredek generativnega AI.

Na to lahko gledate na dva načina.

1) Izboljšana AI. Imeli bomo generativno umetno inteligenco, ki se bo plazila po čim večjem delu interneta. Razburljiv rezultat je, da bo generativni AI boljši, kot je že. Tega se je treba veseliti.
2) Možnost kopiranja v izobilju. Zaradi tega širjenja skeniranja interneta je problem plagiatorstva in kršenja avtorskih pravic nesramno in zanimivo vedno večji. Medtem ko prej ni bilo prizadetih toliko ustvarjalcev vsebine, bo velikost zacvetela. Če ste odvetnik na strani ustvarjalcev vsebin, vam to privabi solze v oči (morda solze zgroženosti ali pa solze veselja, kakšne obete to prinaša v smislu tožb).

Je kozarec napol poln ali napol prazen?

Ti odločaš.

Zakonite mine čakajo

Vprašanje, o katerem morda razmišljate, je, ali se vaša objavljena internetna vsebina šteje za pošteno igro za skeniranje. Če je vaša vsebina za plačilnim zidom, verjetno ni tarča skeniranja, ker je ni mogoče zlahka doseči, odvisno od moči plačljivega zidu.

Predvidevam, da večina vsakdanjih ljudi svoje vsebine ne skriva za plačilnim zidom. Želijo, da je njihova vsebina javno dostopna. Predvidevajo, da si ga bodo ljudje ogledali.

Ali to, da je vaša vsebina javno dostopna, aksiomatično pomeni tudi, da se strinjate, da jo skenira za uporabo generativni AI, ki se usposablja za podatke?

Mogoče ja morda ne.

To je ena tistih pravnih zadev z zavijanjem z očmi.

Če se vrnem k prej omenjenemu Bloombergov zakon avtorji članka omenjajo pomen določil in pogojev (T&C), povezanih s številnimi spletnimi mesti:

»Pravna mina – ki so jo nevede podjetja z umetno inteligenco, ki upravljajo spletne bote za strganje podatkov, močno ignorirala – je skrita v določilih in pogojih, ki so običajno na voljo na javnih spletnih mestih vseh vrst. V nasprotju s trenutno neurejeno zakonodajo o intelektualni lastnini in dilemo o kršitvi avtorskih pravic so pogoji in določila spletnega mesta podprti z dobro uveljavljenim pogodbenim pravom in jih je običajno mogoče uveljavljati na sodišču, pri čemer se zanašajo na zadostno število precedensov.«

Kažejo, da ob predpostavki, da ima vaše spletno mesto stran, povezano z licenciranjem, obstaja velika verjetnost, da bi lahko vsebovala ključno klavzulo, če bi uporabili standardizirano sodobno predlogo:

»Posledično večina standardnih pogojev in določil za spletna mesta – ki so v izobilju na voljo v prostem dostopu – vsebuje klavzulo, ki prepoveduje samodejno strganje podatkov. Ironično je, da so bile takšne prosto dostopne predloge morda uporabljene za usposabljanje ChatGPT. Zato bodo lastniki vsebin morda želeli pregledati svoje Pogoje in določila ter vstaviti ločeno klavzulo, ki odločno prepoveduje kakršno koli uporabo katere koli vsebine s spletnih mest za usposabljanje z umetno inteligenco ali kakršne koli sorodne namene, ne glede na to, ali se zbira ročno ali samodejno, brez predhodnega pisnega dovoljenja lastnika spletnega mesta. .”

V njihovo analizo možnih ukrepov, ki bi jih ustvarjalci vsebine lahko sprejeli glede svojih spletnih mest, je vključen dodaten zagon:

»Zato je lahko uvedba izvršljive pogodbene pogodbe o odškodnini za vsako kršitev klavzule o prepovedi strganja, izboljšana z določbo o prepovedi brez obveznic, sprejemljiva rešitev za tiste avtorje ustvarjalnih vsebin, ki ne želijo zagotoviti sadov svojega intelektualno delo za namene usposabljanja AI, ne da bi bili za to plačani ali vsaj ustrezno zaslužni za svoje delo.«

Morda se o tem posvetujte s svojim odvetnikom.

Nekateri pravijo, da je to ključen način, da poskusite izdelovalcem umetne inteligence povedati, da so ustvarjalci vsebin zelo resni glede zaščite svoje vsebine. Zdi se, da bi zagotovili, da ima vaša licenca pravilno besedilo, opozorilo izdelovalce umetne inteligence.

Drugi pa so nekoliko malodušni. Potrto pravijo, da lahko nadaljujete z najostrejšim in najbolj smrtonosnim pravnim jezikom na svoje spletno mesto, toda na koncu ga bodo izdelovalci umetne inteligence pregledali. Ne boste vedeli, da so to storili. Imeli boste hudič časa, da dokažete, da so. Malo je verjetno, da boste ugotovili, da njihovi rezultati odražajo vašo vsebino. To je težka bitka, ki je ne boste dobili.

Protiargument je, da predajate bitko, še preden se je začela. Če ne obvladate vsaj dovolj pravnega jezika in če jih kdaj ujamete, se bodo izmuznili in se izognili kakršni koli odgovornosti. Vse zato, ker niste objavili pravega pravnega žargona.

Medtem bi bil drug pristop, ki želi pridobiti oprijem, sestavljen iz označevanje vaše spletne strani z nečim, kar pravi, da spletnega mesta ne sme skenirati generativni AI. Zamisel je, da bi oblikovali standardiziran marker. Spletna mesta bi verjetno lahko dodala oznako na svoje mesto. Izdelovalcem umetne inteligence bi rekli, da morajo spremeniti svoje skeniranje podatkov, da preskočijo označena spletna mesta.

Ali je pristop markerjev uspešen? Pomisleki vključujejo stroške pridobitve in objave oznak. Skupaj s tem, ali se bodo izdelovalci AI držali označevalcev in zagotovili, da se bodo izognili skeniranju označenih mest. Druga perspektiva je, da tudi če se izdelovalci umetne inteligence ne strinjajo z oznakami, je to še en zgovoren namig za odhod na sodišče in trditev, da je ustvarjalec vsebine naredil vse, da bi poskušal opozoriti na skeniranje z umetno inteligenco.

Joj, od vsega se ti zvrti v glavi.

zaključek

Nekaj končnih pripomb o tej kočljivi temi.

Ali ste pripravljeni na osupljivo perspektivo celotne te dileme AI kot plagiatorja in kršitelja avtorskih pravic?

Velik del predpostavk o »ulovu« generativne umetne inteligence pri plagiatorstvu ali kršitvi avtorskih pravic je odvisen od odkrivanja rezultatov, ki zelo podobni predhodna dela, kot je vsebina na internetu, ki je bila potencialno skenirana med usposabljanjem podatkov.

Predpostavimo, da je tukaj v igri zvijača deli in vladaj.

Evo, kar mislim.

Če si generativni AI izposodi majhen košček od tukaj in majhen košček od tam ter ju na koncu zmeša skupaj v kakršen koli določen rezultat, so možnosti, da bi lahko imeli trenutek, ki ga imam, izjemno zmanjšane. Noben rezultat se na videz ne bo dvignil do zadostnega praga, da bi lahko z gotovostjo rekli, da je bil posnet iz enega določenega izvornega elementa. Dobljeni esej ali drugi načini izpisa bodo primerljivi le delno. In z običajnim pristopom, ko poskušate trditi, da je prišlo do plagiatorstva ali kršitve avtorskih pravic, morate običajno pokazati več kot nekaj malega, še posebej, če zalogaj ne izstopa in ga je mogoče najti povsod po internetu (nelojalno nižanje cen). morebitno ustrezno dokazno breme poneverbe).

Ali lahko še vedno prepričljivo izjavite, da je usposabljanje podatkov s strani generativne umetne inteligence omagalo spletna mesta in ustvarjalce vsebine, tudi če je predlagani dokaz navidezno nepomemben delež?

Razmisli o tem.

Če se soočamo s potencialno obsežnim plagiatorstvom in kršenjem avtorskih pravic v velikem obsegu, bomo morda morali spremeniti naš pristop k opredelitvi, kaj je plagiatorstvo in/ali kršitev avtorskih pravic. Morda obstaja razlog za plagiatorstvo ali kršenje avtorskih pravic v glavnem ali na splošno. Mozaik, sestavljen iz tisočev ali milijonov drobnih drobcev, bi si lahko razlagal kot zagrešitev takšnih kršitev. Očitna težava pa je, da lahko zaradi tega vse vrste vsebine nenadoma pridejo pod okrilje kršitev. To bi lahko bilo spolzko pobočje.

Težke misli.

Ko smo že pri zajetnih mislih, je Lev Tolstoj, legendarni pisatelj, slavno izjavil: "Edini smisel življenja je služiti človeštvu."

Če vaše spletno mesto in spletna mesta drugih skenirajo za izboljšanje umetne inteligence in čeprav za to ne dobite niti penija, ste morda v tolažbo z gorečim prepričanjem, da prispevate k prihodnosti človeštva? Zdi se, da je to majhna cena.

No, razen če se izkaže, da je umetna inteligenca strašno eksistencialno tveganje, ki izbriše vse ljudi iz obstoja. Ne bi si smeli pripisovati zaslug za to. Predvidevam, da ne bi prispeval k temu grozljivemu izidu. Če pustimo ob strani to katastrofalno napoved, bi morda pomislili, da če izdelovalci umetne inteligence služijo denar s svojo generativno umetno inteligenco in se zdi, da uživajo v dobičkarstvu, bi morali tudi vi dobiti kos pogače. Delite in delite enako. Proizvajalci umetne inteligence bi morali zaprositi za dovoljenje za skeniranje katerega koli spletnega mesta in se nato tudi pogajati o ceni, ki bi jo morali plačati za dovoljenje za skeniranje.

Dajte kredit tam, kjer kredit zapade.

Dajmo zaenkrat zadnjo besedo siru Walterju Scottu: “Oh, kakšno zamotano mrežo pletemo. Ko prvič vadimo zavajanje.«

To morda velja, če verjamete, da gre za prevaro, ali morda ne velja, če mislite, da je vse v redu in popolnoma odkrito in zakonito. Prosim, velikodušno si priznajte priznanje, da ste o tem dobro premislili. Zaslužiš si.

Vir: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- in-ai-zakon/