Eine Gefahr bei ChatGPT & Co sehe ich vor allem bei den massiven Urheberrechts- und Lizenzverletzungen.
Nehmen wir mal ChatGPT als Programmcode-Generator.
Welchen massiven Input an Programmcode kann ChatGPT wohl gehabt haben?
Die benötigten gigantischen Mengen an Trainingsdaten für ein derartiges Large Language Model können ganz offensichtlich nur aus dem Programmcode gewonnen werden, der offen im Netz zugänglich ist.
Es handelt sich also sehr wahrscheinlich um den Open Source Code auf github und bei ähnlichen Anbietern.
Typischerweise darf solcher Code nur unter Verweis auf die jeweilige Lizenz wiederverwendet werden. Nicht selten ist er aber sogar mit einer Copyleft-Lizenz (wie GPL) versehen und darf daher nur wiederverwendet werden, wenn dies erneut quelloffen und unter einer kompatiblen Lizenz geschieht.
Nun kann man ChatGPT bitten, zum Beispiel ein Gerüst für einen Compressor in JUCE zu schreiben.
JUCE hat eine duale Lizenz, Programme, die quelloffen im Netz stehen, nutzen zwangsläufig die GPL-Lizenz von JUCE und stehen daher selbst unter der GPL.
ChatGPT kann also seine Fähigkeiten, Programmcode für JUCE zu erzeugen, ausschließlich aus GPL-lizenzierten Quellen erlangt haben.
Aber wird es den Nutzer, der sich einen Compressor in JUCE erzeugen lässt, darauf hinweisen, dass dieser Code nur quelloffen genutzt werden darf?
Nein, wird es nicht.
D.h. ChatGPT stellt derzeit eine Hintertür dar, um Inhalte, die unter einer Copyleft-Lizenz stehen, in closed-source-Programmcode überführen zu können, oder generell um Urheberrechts- und Lizenzverletzungen jeder Art zu kaschieren.
Ich finde dies höchst problematisch.
Das obige Beispiel mit JUCE ist nur eines von vielen, und lässt sich über das Thema Programmcode-Generierung hinaus auch auf die textuellen Inhalte im Web übertragen, die Werke mit einer bestimmten Urheberschaft und unter einer definierten Lizenz darstellen.
Zudem sollte klar sein, dass jeder Gedanke, den jemand von uns öffentlich (wie z.B. hier) in Zukunft äußert, in das Language Model einer AI eingehen kann und wird, die diese Inhalte dann in anonymer Form an zahlende Nutzer weitergibt, die sich dieser Ideen frei bedienen und sie als die eigenen ausgeben können.