Sztuczna inteligencja powinna być dobrem publicznym

Trzeba dążyć do tego, by korzyści z rozwoju technologii nie płynęły wyłącznie do wielkich korporacji. Algorytmy i dane, na których opiera się AI, powinny być otwarte i dostępne dla każdego.

GPT, ChatGPT i inne podobne technologie budzą skrajne reakcje. Z jednej strony panuje optymistyczny pogląd, że technologia umożliwi postęp naukowy, przyniesie nowe przydatne aplikacje i ułatwienie życia. Z drugiej strony słyszymy, że AI pozbawi nas pracy i sprawi, że wiele istniejących zawodów zniknie.

Za temat AI zabrali się politycy. W czerwcu 2023 r. Parlament Europejski uchwalił stanowisko negocjacyjne w sprawie Aktu o Sztucznej Inteligencji (https://tvn24.pl/swiat/parlament-europejski-przyjal-stanowisko-negocjacyjne-w-sprawie-aktu-o-sztucznej-inteligencji-7175037 ). Będzie ono jeszcze uzgadniane z Radą Europejską. Zgodnie z intencją PE stanie podstawą przepisów unijnych. Regulacje mają m.in. wprowadzić obowiązek umieszczenia podsumowania danych chronionych prawem autorskim, które zostały wykorzystane do tworzenia danego modelu. Parlament koncentruje się raczej na potencjalnych zagrożeniach, jakie niesie za sobą sztuczna inteligencja.

By zrozumieć rolę praw autorskich w rozwoju algorytmów stojących za GPT, warto najpierw przyjrzeć się, jak w ogóle powstaje tekst generowany przez ChatGPT.

Jak działa GPT?

Chat GPT jest programem komputerowym, który jako wkład otrzymuje tekst, a jego zadaniem jest odgadywanie, jaki inny tekst pasuje do tego, który otrzymał.

Ten mechanizm działania dobrze wyjaśnia eksperyment „New York Times” polegający na trenowaniu GPT na dziełach pisarki Jane Austen (https://www.nytimes.com/interactive/2023/04/26/upshot/gpt-from-scratch.html ). Na początek program otrzymuje krótkie zdanie z jednej powieści i ma dopasować do niego kolejny tekst. Najpierw generuje zupełnie nonsensowne znaki. W tym momencie do treningu wprowadzony zostaje mechanizm oceny wyniku. Program oblicza teraz, jak bardzo jego czysto losowa odpowiedź odbiega od tego, co powinien był wygenerować. Proces jest powtarzany tysiące, miliony razy. Program stopniowo dopasowuje generowany tekst do zapytania, tak by osiągnąć jak najwyższy wynik. Robi to, zachowując skojarzenia pomiędzy generowanymi zdaniami i wynikami. Na koniec treningu program potrafi udzielić sensownej odpowiedzi na zapytanie. Gdy podamy mu jako prompt fragment powieści, sam wygeneruje uzupełnienie. Kolejnym etapem jest fine-tuning, czyli dopracowywanie algorytmu. Gdy treść jest krótka, proces nie trwa długo, ale też jej przydatność będzie ograniczona. W efekcie otrzymujemy generator powieści Jane Austen, który może tworzyć nowe akapity jej książek.

Różnica pomiędzy tym małym modelem z eksperymentu a tymi, których używa OpenAI w ChatGPT, to kwestia skali. ChatGPT jest uczony na milionach tekstów, w praktyce algorytm może wchłaniać dużą część treści z istniejącego Internetu.

W tym momencie pojawia się temat praw autorskich do tych milionów tekstów. Głównym źródłem dla algorytmów jest Wikipedia, ale też wiele portali, blogów, czasopism, być może także czasopismo „Równość”, które właśnie czytamy. Teksty te są udostępniane na różnych licencjach – Wikipedia na licencji Creative Commons, większość twórców jednak zastrzega prawa autorskie. Program gromadzący dane do szkolenia na ogół nie jest w stanie stwierdzić, na jakiej są licencji. Widzi tekst, zapisuje go, a następnie zgromadzone treści zostają użyte do trenowania algorytmu.

Na ten aspekt zwracają uwagę projektowane regulacje unijne. Dane, na których trenowane są algorytmy, mogą być chronione prawem autorskim. Jego rozumienie przez regulatorów jest jednak posunięte do absurdu. Algorytm GPT nie kopiuje tekstu, nie reprodukuje go, a jedynie przetwarza. Wtyczka do przeglądarki może skanować stronę „Równości”, pobierać nowe artykuły, a następnie wygenerować coś na bazie tych tekstów. Na podobnej zasadzie działają zresztą wyszukiwarki internetowe. One też wchodzą na daną stronę, pobierają treść, odnajdują słowa kluczowe, a następnie oferują link do tekstu na swojej stronie i zarabiają na reklamach w wynikach wyszukiwania.

Bruksela jako copyright troll

Próby ochrony prawa własności posunięte do absurdu są czasem określane jako copyright trolling. Firmy posiadające prawa autorskie do jakichś treści śledzą Internet, tropią użytkowników, którzy choćby w minimalny sposób mogli naruszyć ich własność, i następnie grożą procesami, nawet jeśli nie ma ku temu podstaw. Unia Europejska próbuje tu odegrać rolę właśnie takiego trolla praw autorskich, który poszukuje pretekstu do procesów, choć nie ma do tego mocnych przesłanek.

Nietrudno też stwierdzić, w czyim interesie leżą takie regulacje. Redaktorzy tekstów w Wikipedii raczej nie mają nic przeciwko ich wykorzystaniu do trenowania algorytmów. Co innego europejskie i światowe koncerny medialne, dla których AI może być pewnym zagrożeniem. Jeśli każdy będzie musiał płacić tantiemy za automatyczne przeczytanie i wykorzystanie danego tekstu, ograniczy to rozwój algorytmów do wąskiej grupy wielkich korporacji. Microsoft czy Google zapłacą kilkaset milionów dolarów, ale organizacji tworzących oprogramowanie non-profit nie będzie stać na tego rodzaju koszty. W ten sposób regulacje mogą spowolnić rozwój technologii i ograniczyć korzyści, które niesie, do wąskiego grona największych graczy.

Jeszcze innym problemem jest prywatyzacja algorytmów wykorzystywanych w AI, którą takie regulacje mogą wzmocnić. Właściciel GPT OpenAI przez wiele lat publikował wszystkie swoje badania, modele i algorytmy w domenie publicznej. Uległo to jednak zmianie po tym, jak spółkę przejął Microsoft. Choć istnieje wiele innych podobnych modeli dostępnych na otwartych licencjach, za darmo, dla każdego, to jednak na ogół nie są one trenowane na tak dużych zasobach danych jak ten należący do OpenAI. Ograniczenie dostępności danych poprzez przepisy dotyczące praw autorskich sprawi, że dużo trudniej będzie rozwijać alternatywne modele. Koszt ich trenowania znacząco wzrośnie, istniejące modele będą zamknięte na serwerach kilku wielkich korporacji.

Wiedza powinna być wolna

Zamiast iść w stronę ochrony praw autorskich, regulacje powinny obrać przeciwny kierunek. Skoro GPT jest trenowany na danych publicznie dostępnych, to powinniśmy sprawić, by cała technologia – algorytmy, modele, programy – była dostępna w domenie publicznej. Najlepiej, gdyby to rządy lub Unia Europejska uczestniczyły w jej tworzeniu, finansowały państwowe lub społeczne instytuty badawcze, które udostępniałyby swoje badania na otwartych licencjach, za darmo. Z drugiej strony UE może wymagać, by OpenAI publikowało swoje wszystkie modele i algorytmy na otwartych licencjach. W ten sposób korzyści z technologii nie pozostawałyby w rękach prywatnych, a trafiły do obywateli.

Obecny moment można porównać do sytuacji, która miała miejsce przy narodzinach sieci społecznościowych. Wówczas amerykańskie koncerny bardzo szybko zdominowały rynek. W ten sposób fora publiczne, na których toczy się debata na kluczowe dla społeczeństwa tematy, znalazły się w rękach garstki milionerów z USA. Nabycie Twittera przez Elona Muska pokazało, do jakich problemów prowadzi taki model. Amerykański miliarder sympatyzujący z prawicą może decydować o tym, jakie treści zdobędą więcej wyświetleń i które głosy w debacie będą lepiej słyszalne. Właściciel Facebooka Mark Zuckerberg również ma poglądy polityczne (sympatyzuje z demokratami), a cała korporacja – swój profil ideowy.

Najważniejszym problemem Twittera czy Facebooka nie jest to, jakie poglądy wyznają ich właściciele, ale to, że posiadają oni fora, na których toczy się dyskusja. Takie przestrzenie powinny być własnością społeczną. Być może sieci społecznościowe mogłyby być prowadzone przez coś w rodzaju organizacji obywatelskich zarządzanych przez publiczny europejski podmiot, niezależny od nikogo, z radami i zarządami wybieranymi przez użytkowników. Unia Europejska przespała moment na wprowadzenie takich regulacji. Można było próbować tworzyć europejskie media społecznościowe lub odpowiednie prawodawstwo, dopóki Facebook nie był jeszcze monopolistą.

Podobne zagrożenie powstaje w przypadku GPT. Tu również może dojść do sytuacji, że firma posiadająca algorytmy stanie się monopolistą na rynku wiedzy, tak jak Facebook i Twitter stały się w pewnym stopniu monopolistami na rynku komunikacji.

By temu zapobiec, powinniśmy zacząć traktować technologie tak, jak traktujemy inne elementy infrastruktury, np. drogi, kolej, miejsca publiczne. Państwo finansuje budowę dróg, opłaca ich utrzymanie, zapewnia też egzekwowanie przepisów na nich. Na podobnej zasadzie powinno opłacać rozwój i utrzymanie kluczowych technologii, a jednocześnie zagwarantować każdemu równy udział w korzyściach wynikających z postępu. Najistotniejsze jest tu zapewnienie, by wszystkie algorytmy, dane treningowe pozostawały w domenie publicznej, np. na licencji Creative Commons. Każdy obywatel Unii powinien móc z nich korzystać, a profity płynące z technologii nie powinny być zastrzeżone dla wielkich korporacji.