Talk Science to Me #62: Big Data and AI

Roman Kern investigates how insights about the real world can be gleaned from large datasets. We spoke about the state of research back in 2023 – but what has changed since then?

Podcast in German only.

Mit Big Data Aussagen über die echte Welt machen. Das ist Roman Kerns Forschungsfeld. Überall werden heute Daten gesammelt und verwendet. Natürlich auch von unterschiedlichen Anwendungen der künstlichen Intelligenz. Aber was hat sich in diesem Bereich seit unserem letzten Interview 2023 geändert? Mein Name ist Birgit Baustetter und ihr hört Talk Science to Me, den Wissenschaftspodcast der TU Graz.

Lieber Roman, vielen Dank, dass du heute wieder hier bist und mit mir zum zweiten Mal schon über die Entwicklungen im Bereich der künstlichen Intelligenz und auch in deinem Forschungsgebiet sprechen wirst. Wir haben uns das letzte Mal 2023 über dieses Thema unterhalten. Seitdem hat sich ja wirklich viel getan, oder?

Roman Kern: Ja, das kann man glaube ich so sagen, dass im Bereich der künstlichen Intelligenz doch das eine oder andere passiert ist. Speziell auch in der öffentlichen Wahrnehmung, dass da sehr, sehr viel passiert ist. Und ja, die Welt ist heute eine andere, als sie noch vor zwei, drei Jahren war.

Du hast gesagt, in der öffentlichen Wahrnehmung hat sich sehr viel verändert. Also in der öffentlichen Wahrnehmung hat man ein bisschen das Gefühl, um künstliche Intelligenz gibt es kein Herumkommen momentan. Es ist überall drin, es wird sehr stark entwickelt, es wird immer mehr, es wird immer besser. Ist es auch in der Wissenschaft so?

Kern: Also zumindest zum Letzteren kann man definitiv ja sagen. Es wird besser, was Good News sind. Also besser jetzt im Sinne von Technologie geht voran, sehr schnell geht sie voran. Speziell was wir sehen in den Bereichen ist, dass natürlich die Qualität, also wenn wir jetzt von einem Chatbot reden, die Qualität der Antworten und so weiter besser wird. Allerdings was wir auch sehr, sehr stark sehen, ist die Anforderungen AI zu betreiben oder künstliche Geräte zu betreiben, immer geringer. Das heißt, die Modelle werden immer effizienter. Und wer es vor ein paar Jahren noch so war, dass man ein großes Datencenter gebraucht hat, nur um AI zu verwenden, ist das heute schon anders. Also wir reden jetzt schon davon, dass man AI und diese großen Foundation Models, von denen wir immer reden, dass man die jetzt auch on the edge betreiben, also auch auf Mobiltelefonen oder Industriecomputern und so weiter. Oder dann auch in kleinen Appliances. Also Geschirrspüler oder so möchte ich noch nicht sagen, aber ich weiß auch nicht, wie ich das da verwenden will. Aber das ist halt ein Technologiesprung, den wir sehen, dass die Modelle einfach besser und effizienter werden. Und dadurch verändern sich auch gewisse Dinge. Und vor allem in der öffentlichen Wahrnehmung ist es ja noch so, dass wir angewiesen sind zu quasi den großen Cloud Provider, Google, OpenAI, Anthropic und so weiter. Aber technologisch gesehen gibt es diese Abhängigkeit einfach nicht mehr.

Weil?

Kern: Weil die Modelle einfach so effizienter geworden sind. Ich kann sie, nicht nur das, was zweitens, was wir sehen, das nennt sich Open Weight. Das ist eben eine Strategie, dass man die Modelle, von denen wir immer reden, dass man die auch zur Verfügung stellt. Das ist auch ein sehr großer Unterschied von großen OS-basierten Cloud-Providern, die ich gerade genannt habe, wo man nur eine Webseite oder eine API zu den Modellen bekommt und letztendlich ist es eine Blackbox, kein Mensch weiß, was da läuft und wie das läuft. Und auf der anderen Seite gibt es Modelle, die Open Weight sind, die kann man quasi downloaden und dann selber verwenden. Kleine Fußnote muss man noch dazu sagen von diesen Modellen, die sind oft quasi nur Open Weight und nicht Open Source. Das heißt, man weiß nicht, wie die gebaut worden sind, auf welchen Trainingsdaten die gebaut sind, und so weiter. Aber effektiv ist es so: Als Consumer kann ich sie downloaden, verwenden und braucht eigentlich kein Cloud mehr dafür, sondern ich kann sie dann lokal nutzen. Also im besten Fall habe ich eine Grafikkarte die sich auch fürs Computerspiel eignet und dann kann ich auch meine Modelle verwenden und das ist natürlich auch für die Forschung good news, weil eben die Anforderungen immer geringer werden. Nicht nur für die Forschung, sondern auch für die Lehre ist das sehr, sehr erfreulich, muss ich sagen. Weil jetzt kann ich meinen Studierenden auch LLMs anbieten im Unterricht. Und da sind wir nicht angewiesen darauf, oder die Studierenden sind nicht darauf angewiesen,dass sie irgendwelche Cloud-APIs verwenden.

Baust du eigentlich selbst KI oder nutzt du KI oder beides?

Kern: Ich würde sagen, alles drei, auch wenn es jetzt nur zwei waren. Weil Nutzung, natürlich ja. Und dann beim Bauen muss man ein bisschen unterscheiden, zwischen dem Bau von echten Foundation Models, das ist wirklich noch viel Arbeit. Und dann gibt es eine Zwischenlösung, quasi Finetuning. Das heißt, wo ich ein bestehendes Modell nehme und dann anpasse auf einen jeweiligen Anwendungszweck. Und das ist Brot und Butter, sage ich jetzt mal, das Finetunen von Modellen. Das ist auch etwas, was ich Unternehmen zum Beispiel rate, dass sie ein Modell nehmen und das an ihre Bedürfnisse hin anpassen. Anpassen heißt einerseits auf die Domäne, das heißt also Inhalte anpassen, allerdings auch aus Verhalten anpassen auf bestimmte Tasks. Weil jetzt gerade haben wir so den Hype von Agentic AI und so weiter. Und das ist auch etwas, wo man relativ low-key, also mit wenig Aufwand, die Modelle für sich anpassen kann. Und zurückzukommen auf das allererste, was ich gesagt habe, mit dem Modelle selber bauen, das ist auch etwas, was wir angehen. Also das heißt wirklich vo Scratch, also von Grund auf Modelle bauen. Das ist etwas, was wir machen müssen im Sinne von auch Kompetenzaufbau. Und das Schöne an der ganzen Angelegenheit, also das für uns Angenehme an der Angelegenheit ist, in der Wissenschaft wissen wir, wie das geht. Also das Wissen ist verfügbar, wie man solche Modelle baut. Also man ist da auf keine Geheimrezepte angewiesen oder das ist nicht ein Wissensvorsprung, den jetzt große Cloud-Provider oder wie Google, Anthropic und so weiter haben. Also klar, die Modelle, die wissen auch noch, wie man die jetzt finetunet und das Letzte rausholt aus dem. Aber das grundsätzliche Wissen, wie man solche AI-Modelle baut, das ist bekannt und das ist aus meiner Sicht good news.

Als wir uns das letzte Mal unterhalten haben, hast du da vor allem aus Sicht eines Data Scientists die großen Datenmengen angeschaut und geschaut, was die über die Menschen aussagen können, über das Verhalten von Menschen, über die Nutzung, jetzt auch von Computern, von künstlicher Intelligenz und so weiter. Hat sich da was geändert bei dir?

Kern: Speziell jetzt aktuell, was mich auch sehr stark interessiert, ist der Einfluss auf die Gesellschaft und auf den öffentlichen Kurs, weil gerade jetzt, wenn wir über diese großen NLP-basierten Modelle, also die LLMs und so weiter, darüber reden, dann stellen sich schöne Herausforderungen für die Gesellschaft.Weil so mächtig diese Modelle auch sind, man kann sie auch für vieles Negatives einsetzen, das jetzt für die Gesellschaft nicht so positiv ist. Und ein Aspekt, den wir auch in der Lehre zum Beispiel uns anschauen, ist Missinformation und Desinformation. Und da kann man einerseits natürlich diese Modelle verwenden, um genau das zu erreichen. Missinformation und Desinformation zu betreiben selber mit Bots und so weiter. Allerdings man kann es auch, diese Technologien auch verwenden, um das zu erkennen.Und das ist auch ein super spannendes Thema. Vielleicht sage ich kurz, was der Unterschied zwischen Missinformation und Desinformation ist. Während Missinformation so falsche Informationen sind, also Fake News, wie man es so sagen würde, heutzutage auch, ist Desinformation die Absicht zu täuschen. Und das ist das Spannende jetzt, zum Beispiel aus linguistischer Sicht, dass ich von der Sprache heraus erkennen kann, ob jemand informieren möchte oder überzeugen möchte. Also bis zu einem gewissen Teil ist das möglich. Aber auch da zeigt sich, dass diese großen Sprachmodelle hier sehr sensibel sind, um sowas zum Beispiel zu ermöglichen, beziehungsweise weiter in die Diskursanalyse zu gehen. Das heißt, wenn man jetzt eine Diskussion hat zwischen zwei Personen, dann kann man da recht gut reinschauen in die Strategien, die jetzt nicht logisch sind, also man spricht von logischen Fehlschlüssen, Logical Fallacies, dann zeigt sich so, dass Menschen in der Regel nicht sonderlich gut sind, diese Fallacies zu erkennen. Also wenn jemand unlogisch argumentiert, dann sind wir als Menschen oft überzeugt von der guten Rhetorik einer Person und Ähnliches. Und die Maschine ist ein bisschen, objektiv ist vielleicht das falsche Wort, aber sie gibt einen anderen Blick auf das Ganze und kann uns helfen, diese Rhetoriken besser zu erkennen. Das ist ein super spannendes Gebiet.

Ist es ein bisschen die Emotionslosigkeit, oder?

Kern: Das ist eine gute Frage, das weiß ich nicht. Also es ist auf jeden Fall ein bisschen ein anderer Ansatz. Gerade weil das Wort Emotion gefallen ist, wir schauen uns jetzt auch Reden von Politikern an. Und da gibt es auch eine Logical Fallacy, die nennt sich Appeal to Emotion. Das heißt, man hat eine Message, die man erzählen möchte und dann verpackt man das Ganze geschickt, also jetzt als Politiker gesprochen, verpackt man das geschickt, dass man das verbindet mit entweder einer positiven Emotion oder mit einer negativen Emotion, je nachdem, was man machen möchte. Ja, genau, um ein bisschen so die Meinung zu beeinflussen, was man so sagt. Und auch da zeigt sich, dass gerade das Appeal to Emotion, so eine sehr logische Fallacy ist, die halt wirklich schwer ist zu erkennen für einen Menschen. Und die Maschine, in dem Fall ein großer Sprachmodell, ist da vielleicht dafür besser geeignet als wir. Aber der Grund dafür, den müssen wir uns noch anschauen.

Wie viel linguistisches Wissen musst du eigentlich haben, um diese Arbeit zu machen?

Kern: Ja, das ist eine gute Frage. Und was ich dann typischerweise darauf sage, ist, meine Disziplin ist Natural Language Processing. Also das ist zumindest ein Teil meiner Forschung. Und das Faszinierende dabei ist, das ist nicht das Gleiche wie Computational Linguistics. Das sind zwei unterschiedliche Gebiete. Und um das zu erklären, sehr stark übertrieben heißt das, Computational Linguists sind Linguisten, die den Computer bedienen. Und NLP sind Computer Scientists, also Informatiker, die Wörter zählen. Also sehr, sehr stark übertrieben. Aber es zeigt ein bisschen, dass gerade aus dem Bereich NLP oft nicht viel linguistisches Wissen da ist. Dennoch zeigt sich, dass Aufgaben auch ohne dieses Wissen recht gut gelöst werden können. Aber gerade bei solchen Themen mit Logical Fallacies und Ähnliches, da ist es schon sehr, sehr nützlich, linguistisches Wissen auch zu haben und das auch anwenden zu können. Aber es ist auch spannend, wenn man sich dann auf den Konferenzen das ansieht, dann gibt es auch so Diskussionen, wenn man miteinander redet, bist du Computer Scientist oder bist du ein Linguist? Und das sieht man auch sehr schön jetzt im Zeitverlauf der letzten, sagen wir, zehn Jahre. Da gibt es eine Konferenz, die ESL-Konferenz, die für uns eine wichtige Konferenz ist. Und wenn man sich das anschaut, wie sich das in den letzten zehn Jahren entwickelt hat, sieht man einerseits, dass die explodiert ist. Also die war letztes Jahr in Wien und da sind tausende von Teilnehmer*innen und tausende von Publikationen, die da präsentiert werden. Ganz im Unterschied zu vor zehn Jahren. Und was man auch gesehen hat, während vor zehn Jahren noch sehr viele linguistische Sessions waren, also letztes Jahr in Wien hätte ich keine bemerkt. Also die Wörterzähler, die sind absolut in der Überzahl aktuell.

Hast du da einen konkreten Grund, warum das so ist? Also ist das einfach alles so viel besser geworden, die Optionen, die du hast als Wissenschafter*in?

Kern: Ja, ich würde mal sagen, es liegt daran, dass es funktioniert. Und einfach, weil der Hype da ist. Also der Hype ist definitiv da bei den großen Sprachmodellen, bei den LLMs. Da hat sich eben gezeigt, das ist eine spezielle Art von General Purpose, die weit über die Grenzen der Sprache Anwendung finden. Das ist auch für meine Forschung total spannend, weil die Forschung nicht mehr auf tabularische Daten oder textuelle Daten beschränkt ist, sondern dass quasi wir, meine ich jetzt meine Community, jetzt auch anfangen, die ganzen Technologien auf einerseits Bilddaten, Computer Vision, Perception und ähnliches anzuwenden, was in der Tradition gar nicht drinnen war. Das heißt, die Technologie eignet sich sehr, sehr gut, auch in andere Bereiche zu gehen. Gerade diese großen Sprachmodelle kann man jetzt anwenden. Wie gesagt, die kommen aus dem Bereich Analyse von Text und die werden jetzt verwendet, um Bilder zu analysieren, Videos zu analysieren, aber auch Zeitreihen-Daten, tabellarische Daten. Und das zeigt sich auch durch der State of the Art für zum Beispiel, um tabellarische Daten zu klassifizieren und ähnliches auch verschoben wird. Und auch da zeigt sich dieser Ansatz, dass man zuerst mit großen Datenmengen trainiert in einem unsupervised, semisupervised Verfahren. Also versucht das Wissen halt nur irgendwie greifbar zu machen. Das ist immer wieder beim Wörterzählen und Wahrscheinlichkeiten abbilden. Und dass dieser Ansatz, dass man zuerst ohne ein Ziel trainiert, man spricht auch dann von Data Models, und das dann mit wenig Daten auf einen Anwendungszweck hin optimiert, dass dieser Ansatz nicht nur für Text sehr gut funktioniert, sondern eben auch für traditionelle Zeitreihen-Daten, Vorhersage von Stromverbrauch oder tabellarische Daten, wo man sehr, sehr heterogene Daten hat und in der Vergangenheit sehr viele Modelle damit Probleme gehabt haben.Und auch da zeigt sich, diese Herangehhensweise lässt sich sehr gut transportieren.

Du hast jetzt sehr oft von großen Datenmengen gesprochen, die auch für das Training von solchen Modellen verwendet werden. Wo kommen diese Daten eigentlich her und wo wird überall Daten abgegriffen, wo man vielleicht gar nicht so dran denkt?

Kern: Ja, also there is no data like more data, wie es so schön heißt. Ein Vorteil von großen Unternehmen, die eine große Rechtsanwaltsabteilung haben, die können da ein bisschen großzügiger umgehen mit dem Sammeln von Daten. Weil effektiv für das Trainieren von so großen spezifischen Sprachmodellen zeigt sich, je mehr Daten wir haben, desto besser ist das. Und es wird überall versucht, die Daten zu akquirieren, wo es nur irgendwie geht. Was sich auch gezeigt hat, die Qualität der Daten spielt zwar eine Rolle, aber im Zweifelsfall ist es hilfreich, mehr Daten zu haben, auch wenn die Qualität vielleicht nicht so gut ist, weil einfach das bisschen, was an Daten mehr da ist, auch schon hilft. Die großen Modell-Provider versuchen natürlich überall Daten zu kriegen, wo sie sie nur irgendwie bekommen. Und das sieht man auch, wie zum Beispiel der Meta-Konzern hier versucht, die Daten von Facebook und Instagram-Usern dafür explizit zu verwenden und ähnliches. Also man könnte auch schelmisch sagen, es ist quasi nicht möglich,ein großes Sprachmodell legal zu bauen, weil man versucht illegal oder zumindest in den Grauzonen, Daten zu sammeln. Und das sieht man, wie gesagt, nicht nur für die großen Sprachmodelle, das sieht man auch für die Modelle, wenn man zum Beispiel Zeitreihen-Daten erkennt, tabellarische Daten und so weiter. Auch da ist es hilfreich, große, große Datenmengen zu haben. Und wenn wir wieder auf Sprache zurückkommen, ein schönes Beispiel ist, wenn ich jetzt ein Modell nur bauen würde für die deutsche Sprache oder nur für die englische Sprache, dann ist es auch hilfreich, jetzt andere Sprachen auch drin zu haben. Also dann wäre es auch hilfreich, Französisch oder Chinesisch oder Mandarin oder sonst irgendwas drin zu haben. Auch dann ist es hilfreich, wenn ich diese Sprache gar nicht verwende. Weil je mehr Daten ich habe, desto hilfreicher ist es immer noch. Wenn man sich das jetzt gesellschaftlich anschaut, wenn man den Bogen jetzt hier spannt, ist schon die Frage, inwieweit ist es okay, dass hier Daten fürs Training von Modellen verwendet werden, die eigentlich ein Copyright haben oder aus Quellen kommen, von denen wir nicht wissen, weil ich vorhin ja Open Weight erwähnt habe. So gut es auch ist, dass man sich die Modelle downloaden kann, wir wissen halt nicht, auf welchen Daten die trainiert worden sind. Wir wissen auch nicht, ob da vielleicht ein Bias drinnen ist oder ähnliches, eine Verzerrung oder vielleicht ein gewolltes Verhalten sogar drinnen ist. Da gibt es interessante Arbeiten, die zeigen, dass man gezielt ein Verhalten in die Daten hineinbringen kann. Und von daher würde es auf jeden Fall Sinn machen, und das sehe ich jetzt auch, dass es hier Initiativen zumindest von Seiten der EU gibt, hier Datenräume zu schaffen, wo halt nachvollziehbare Datenquellen da sind, für das Training von solchen Modellen.

Das wäre gerade noch meine Nachfrage gewesen: Du hast gesagt, dass eben die Qualität der Daten gar nicht so wichtig ist. Es ist immer die Menge. KI wird ja auch oft mit unfairen Entscheidungen dann in Verbindung gebracht. Das kriegt man dann ja nicht raus, oder?

Kern: Jein, will ich mal sagen. Also das ist ein aktiver Teil der Forschung. Sehr spannend. Im ersten Schritt müssen wir mal schauen, gibt es einen Bias ? Und selbst das ist schon, könnte man sagen, eine gebiased Frage. Was ist Bias? Letztendlich ist es sehr häufig eine soziale oder moralische Norm, die man appliziert. Aber es ist auch eine spannende Arbeit, wenn wir über Fairness zum Beispiel reden. Was ist Fairness? Und auch da ist das super spannend, was hier passiert ist, sagen wir jetzt in den letzten 10, 15 Jahren, während in der Gesellschaft im großen Ganzen Fairness einfach als Begriff verwendet wird. Jede*jeder hat so mehr oder weniger ein intuitives Verständnis davon, was Fairness ist. Aber wenn wir als Informatiker jetzt Fairness messen wollen, brauchen wir eine Metrik, ein Maß, mit dem man messen kann. Und da stellt sich heraus, na ja, es gibt nicht die Fairness, sondern es gibt unterschiedliche Arten von Fairness. Wir sprechen da zum Beispiel von individueller Fairness, Gruppen-Fairness und ähnliches. Und da zeigt sich, dass wenn ich das eine haben will, potenziellerweise das andere gar nicht möglich ist. Das heißt, ich mag zum Beispiel Gruppen-Fairness haben. das heißt, ich möchte zum Beispiel zwei Gruppen der Gesellschaft fair behandeln, Männer und Frauen ist das klassische Beispiel. Aber es kann dann sein, dass wenn ich das erreichen möchte, dass individuelle Fairness nicht erreicht wird. Das heißt, da wird dann eine bestimmte Person, Mann oder Frau, vielleicht sogar benachteiligt. Superspannend. Das heißt also, wenn man über Bias oder Fairness spricht und ähnliches, muss man zuerst einmal sagen, wie definiere ich das Ganze oder wie mache ich das Ganze messbar? Und dann kann man im ersten Schritt schauen, ist ein Bias in den Daten drinnen oder gibt es, was auch so eine Diskussion ist, in den chinesischen Modellen vor allem, ist da Zensur drinnen vielleicht? Das erste Mal das messbar zu machen und im nächsten Schritt kann man sich überlegen, was man aktiv dagegen machen kann, wenn man sich sagt, diesen Bias hätte ich gerne nicht. Das kann aber auch allalong bedeuten, dass man die Modelle für gewisse Anwendungszwecke nicht verwendet. Und dann sind wir sehr schnell im Thema der Regulierung, Freedom of Expression, menschliche Würde und ähnliches, von dem sind diese Sachen abgeleitet. Über die Implementation vom EU-Regeln können wir dann sehr viel. Das ist eine andere Diskussion, wie gut oder wie schlecht das abgebildet ist. Grundsätzlich die Herangehensweise finde ich aber sehr gut. Was ich vorhin gemeint habe ist Diskriminierung, dass es eben eine hohe Risikoanwendung wäre, wenn ich jetzt zum Beispiel AI verwende, um zu entscheiden, wer eingestellt wird in einem Unternehmen oder nicht. So automatische CVs oder wie es unlängst war, dass man mit Videokameras Mitarbeiter trackt und dann versucht, die Produktivität abzuleiten und so ähnlich. Also das sind alles so Sachen, die technisch möglich sind, man sich aber wirklich überlegen sollte, ob man das machen will.

Also du hast schon das Gefühl, dass es da in Richtung stärkere Regelungen geht, weil momentan hat man das Gefühl, dass es einfach quer drüber gestreut wird und einfach überall zum Einsatz kommen wird.

Kern: Ja, zurzeit haben wir so eine Art Kakophonie, würde ich das bezeichnen, von unterschiedlichen Meinungen. Ich habe mir zuletzt ein Newssegment im Internet angeschaut aus den USA, wo das Ganze so geframed worden ist, dass gesagt worden ist, entweder du bist für die AI und gegen die AI. Wobei das so war, dass für AI heißt keine Regulierung und gegen AI ist eigentlich AI schon, aber mit Regulierung. Finde ich auch interessant, diese Herangehensweise. Also die Mächtigkeit dieser Tools ist so groß, dass es eine Art von Regulierung geben muss. Aus meiner Sicht nicht verhandelbar. Die Frage ist halt, wie das ausschaut am Ende vom Tag. Und da gibt es halt auch sehr, sehr viele Meinungen und Richtungen. Und aktuell gibt es auch so die Diskussion von Regulierung von AI, gerade in der EU, ob die EU nicht zu weit gegangen wäre mit dem AI und Ähnliches. Und es wird auch diskutiert, dass gewisse Teile erst später in Kraft treten werden.

Ich möchte jetzt nochmal zurückkommen zur Analyse von Text, mit der du dich ja sehr stark beschäftigst. Du hast in unserem ersten Interview erzählt, dass es damals noch recht schwer war, einer KI einen Stil anzutrainieren, den man möchte, der jetzt nicht genau in den Daten abgebildet war, mit denen es trainiert worden ist. Ist es heute noch so?

Kern: Das ist heute eigentlich nicht mehr so. Also das zeigt sich auch, dass es möglich ist, also wenn wir jetzt zum Beispiel von einem Chatbot jetzt mal ausgehen, dass man dem Chatbot gewisses Verhalten beibringt auf eine bestimmte Art und Weise. Da gibt es unterschiedliche Herangehensweisen, wie man das macht. Aber vom Prinzip würde ich schon sagen, dass inzwischen möglich ist, dass hier ein bestimmter Schreibstil verfolgt wird. Es gibt technisch, das ist das Spannende dabei, unterschiedliche Herangehensweisen. Was wir in unserer Gruppe auch machen ist, da geht es nicht direkt um Schreibstil von Individuen, sondern was wir machen, wir versuchen Watermarks zu produzieren. Das heißt also ein LLM produziertiert einen Output. Und dann ist, nachdem man den Text hat, nachvollziehbar, dass der Text von einem großen Sprachmodell produziert worden ist. Möglicherweise sogar, dass man genauer sagen kann, welches Modell das war. Und dazu verstecken wir quasi Informationen im Text. Und unsere Herangensweise ist hier eine stylometrische. Also wir verändern leicht den Stil. Wir haben einen Secret Key. Und mit dem Secret Key entscheiden wir, wie der Text ausschaut. Und da haben wir unterschiedliche Herangehensweisen und eine nennt sich Acrostica. Das ist schon eine uralte Technologie, die 2.000 Jahre alt ist quasi. Und der Trick hier ist, dass man den Anfangsbuchstaben von einem Satz definiert. Und das ist dann mit großen Sprachmodellen möglich. Ich habe einen Secret Key und beschließe, oder derSecret Key sagt mir dann, der nächste Satz muss mit einem T anfangen. Der nächste Satz muss mit einem S anfangen. Und was wir dann machen, wir gehen dann quasi ins Modell hinein, verschieben dann die Wahrscheinlichkeiten, die sogenannten Logits, so dass dann der nächste Satz mit einem T, mit einem S oder ähnliches anfängt. Und das kann man dann später mit statistischen Wahrscheinlichkeiten versuchen zu erkennen. Dann macht man einen statistischen Test und kann sagen, ja, bis zu einer Restwahrscheinlichkeit von X ist es drinnen. Und das funktioniert in Kombination mit anderen Verfahren. Also wir verwenden auch sensormotorische Wörter. Das sind also auch Synonyme, die eigentlich in der Menschenpsychologie einen Übersprung gehabt haben, wo man erkannt hat, unterschiedliche Menschen verwenden unterschiedliche Wörter, um das Gleiche auszudrücken. Und Wörter meint hier unterschiedliche Modalitäten. Also sei es riechen, hören und so weiter, this smells funny, this looks funny und so ähnlich. Das sagt im Wesentlichen das Gleiche aus, aber unterschiedliche sensormotorische Kategorien. Und wenn man so einen Text liest, fällt einem das nicht auf. Aber wenn man weiß, dass man den generiert, dann kann man das auch wieder rausfinden. Und das funktioniert sogar so gut, dass man dann ungefähr nach drei Sätzen schon zu 95 Prozent sagen kann, ob der Text generiert worden ist mit dieser Methode oder nicht. Wobei das nur dasBest-Case-Szenario ist. Was ja dann viel spannender ist, ist, dass ja so häufig Texte noch nachbearbeitet werden. Und da stellt man sich die Frage, wie robust ist so ein Wasserzeichen? Und da gibt es so Ansätze wie zum Beispiel Cyclic Translation, das heißt, man nimmt einen Satz, der von einem LLM generiert worden ist, übersetzt den beispielsweise vom Englischen in Spanische und vom Spanischen wieder zurück ins Englische. Und dann ist die Frage, überlebt ein Wasserzeichen so etwas? Oder Paraphrasing Attacks, dass man Sachen umschreibt strategisch und so weiter. Also aus Sicht von Plagiarismus sehr spannend sowas.

Das sind ja jetzt Sachen, die müssten im Modell an sich eingebaut sein, oder?

Kern: Nicht notwendigerweise. Man kann schon ein Modell nehmen und dann später das Ganze injecten. Da gibt es mehrere Möglichkeiten. Also entweder kann ich den Prompt, mit dem ich da jetzt einen Text generiere, verändern. Das nennt man auch Personification. Und das funktioniert sehr, sehr gut. Ich glaube,das kann jeder bestätigen, der diese Chatbots verwendet, dass man sagt, du bist jetzt ein XY und dann verhält sich das so. Du bist jetzt ein Wissenschafter und dann schreibt das LLM typisch. Und das funktioniert an und für sich sehr gut. Mit dieser Technik kann man auch sehr stark den Bias beeinflussen. Das heißt, wenn man dann sagt, ja, du hast jetzt diese politische Meinung, dann kann man ein LLM schon dazu bringen, dass es diese politische Meinung wiedergibt. Von den Methoden, mit denen man politische Meinungen in ein LLM reinbringen will, ist das eine bessere Methode, wenn man das jetzt machen wollen würde. Und das, was wir machen, ist, wir operieren so, dass wir ein Modell nehmen und das anwenden und in der Anwendung das Modell leicht verändern. Andere Möglichkeit wäre, das nachbearbeiten. Das heißt, dann hat man einfach einen Output und würde den Output nachher bearbeiten. Also es gibt unterschiedliche Stellen. Und was auch möglich wäre, ist, dass man tatsächlich ein Modell trainiert. Das heißt, dass man da schon versucht, das Modell in die eine oder andere Richtung zu bekommen. Da habe ich vorhin mit Finetuning, da habe ich schon diese Technik, mit der man das macht, schon erwähnt. Und da gibt es auch unterschiedliche Herangehensweisen, die auch zum Teil sehr gut funktionieren.

Du hast damals auch erwähnt, dass Large Language Models vor allem einen ganz eigenen Stil haben, zu antworten, zu schreiben, zu generieren, den man auch erkennen kann. Ist das heute auch noch so? Oder müsste man eben sowas einbauen,damit man es noch erkennt?

Kern: Ja, ein solides Jein. Also die LLMs sind ja auch noch für sich so gebaut, dass sie einen bestimmten Stil haben. Das heißt, man kann irgendeinen Unsinn schreiben und das LLM oder der Chatbot wird einem immer noch sagen, ja, was für eine tolle Idee und was für eine gute Art und Weise daran gehen. Und natürlich hat man dann recht, wenn man irgendwas behauptet. Und die LLMs sind genau dafür trainiert. Sie sind eben genau trainiert, der Userin*dem User immer Recht zu geben, immer hilfreich zu erscheinen, auch wenn die Userin*der User Blödsinn schreibt. Ja, ja, irgendwie kann man das schon argumentieren, dass das sinnvoll ist. Aber das ist antrainiert speziell. Und das Faszinierende dabei ist, man kann sogar sehen, wie relevant das ist. Also, das ist ungefähr ein Jahr her. Da ist ein neues Modell rausgekommen, das war damals Lama 4. Und da gibt es, das nennt sich Chatbot Arena oder LLM Arena hat es glaube ich früher geheißen, wo Nutzerinnen und Nutzer halt Modelle miteinander vergleichen können. Also, sie kriegen zwei Antworten, Modell A, Modell B und die Nutzer*innen wissen nicht, was A und B ist. Das ist Doppel-Blind quasi. und müssen sagen, ob ihnen A oder B besser gefällt. Und erst wenn man sich entschieden hat als User*in, dann sieht man welches Modell es war. Und eine Zeit lang war dieses Ranking, das da abgeleitet worden ist, sehr sehr hilfreich, um Modelle miteinander zu vergleichen, weil eben halt die Nutzer*innen nicht gewusst haben, ist es A oder B. Und dann ist Lama 4 released worden und man hat festgestellt, die Version, die dort verglichen wird mit anderen Modellen, ist nicht die gleiche Version, die man sonst auch downloaden kann. Weil die Version, die dort evaluiert worden ist, war so übertrieben freundlich. Wenn man zwischendurch sagt, wie viele R's in Strawberry sind, dann antwortete es: Ach, was für eine süße Frage. Also wirklich quietsch. Wirklich fast unangenehm freundlich. Definitiv unangenehm freundlich für manche Leute. Aber eshat sich gezeigt, das Modell war dann auf Rang 2. Und dann allerdings ist das Modell ausgetauscht worden gegen ein Modell, das weniger stark freundlich ist, aber gleich "intelligent" ist. Und es ist von Rang 2 auf Rang 35 abgerutscht. Das zeigt auch, dass Menschen offensichtlich diese freundliche Art, sehr hilfreiche Art, so stark als Qualitätsmerkmal wahrnehmen, dass sie dann ein Modell, das eigentlich gleich gut ist, sehr, sehr unterschiedlich bewerten. Das heißt also, da ist ein großer Incentive da, Modelle genauso zu bauen. Und das ist, wenn ich zum Beispiel jetzt heutzutage ein LLM verwende, dann verwende ich gerne so die Strategie, dass ich so von beiden Seiten frage. Einmal so insinuiere, ich bin der Meinung A und dann den gleichen, also einen neuen Chat aufmache mit genau der gegenteiligen Meinung. Und das ist oft sehr, sehr interessant, was dann mal rauskommt, weil man kriegt Argumente für beide Seiten.

Ein Thema, das wir damals auch besprochen haben, war, ist KI ein Tool, also ein Werkzeug, das man als Mensch verwendet? Oder ist das wirklich eine Art eigene Entität, die dann ein Problem zum Beispiel im Bereich Jobs sein könnte, was dann zu Jobverlusten führt, was eben Arbeiten übernimmt, wo man dann einfach keine Menschen mehr braucht? Und du hast damals gesagt, du siehst es primär als Tool, also als Werkzeug, das man dann verwendet, das einem einfach die Arbeit erleichtert. Wie siehst du das heute mit den ganzen Entwicklungen, die sich in den letzten Jahren getan haben?

Kern: Ja, ich hoffe, ich sehe es noch gleich. Oder ich hoffe, es ist noch gleich. Aber da ist, glaube ich, auch ein bisschen ein Diskrepanz zwischen öffentlicher Wahrnehmung und dem, was die Technologie wirklich zu leisten entstanden ist. Weil vielleicht nicht in den letzten sechs Monaten, aber davor war es halt sehr stark so, in der öffentlichen Wahrnehmung, dass KI halt Jobs ersetzen kann. Auch dazu geführt hat, dass Firmen angefangen haben einen Hiringstop zu machen, also keine Leute mehr aufzunehmen, speziell junge Berufseinsteiger*innen nicht mehr anzustellen, unter der Annahme, die KI kann das eh alles machen. Und was man in den letzten sechs Monaten und so, halt auch gesehen hat, na ganz stimmt das nicht. Also die KI, so gut sie auch ist, ist aktuell noch so, dass sie aus meiner Sicht zumindest ein Tool ist, das es einzelnen Leuten hilft, effizienter zu sein und speziell mehr zu machen. Das heißt, du kannst in der gleichen Zeit einfach mehr machen und zum Teil die Dinge, wenn du es geschickt einsetzt, auch besser machen, wenn man weiß, was die KI kann und was sie nicht kann. Wie gesagt, was noch nicht funktioniert, ist unter Schlagwort agentic AI , also nicht nur AI-Agents, also Chatbots, die autonom arbeiten, sondern tatsächlich Systeme, die dann in der Lage sind, Probleme in einzelne kleine Aufgaben zu zerteilen und die dann autonom abzuarbeiten. Das ist aktuell noch ein Forschungsthema und ich würde zumindest sagen, dass das im Allgemeinen nicht funktioniert. Speziell, weil wir sehen, dass es viele kleine Schritte braucht und das braucht auch sehr, sehr hohe Qualität in jedem einzelnen Schritt. Und da sehen wir, dass die Modelle einfach zum Teil nicht gut genug sind, um das zu können. Um ein Beispiel zu geben, wo es sehr gut funktioniert ist in der Programmierung. Und ich sage deswegen sehr gut, weil die Leute ja dann gleich sagen würden, ja, schau an, was passiert. Die Qualität geht nach unten. Das stimmt auch. Also man kann effizienter arbeiten, man kann viel, viel schneller Code produzieren. Der Code hat nur eine schlechte Qualität. Und vor allem der Code ist kaum bis gar nicht wartbar. Man spricht dann von Technology Debt und ähnliches. Das zeigt sich dann auch und da haben wir auch dann viel Arbeit gemacht, in dem Fall Masterarbeiten, wo wir uns das angeschaut haben. Es zeigt sich, wenn man selber den Job gut beherrscht, dann ist das eine echte Hilfe. Wenn man allerdings keine Ahnung hat, dann geht das eigentlich so nach hinten los. Das heißt, man kriegt einen Output und wenn er funktioniert ist alles gut. Aber wenn man selber nicht weiß, wie der Code funktioniert, dann hat man keine andere Möglichkeit, wenn er nicht funktionieren sollte, als ein anderes LLM zu verwenden oder es nochmal zu probieren. Aber man hat ja die Fähigkeit verloren, selber einschätzen zu können, wie das funktioniert . Und man kann also selber nicht eingreifen. Und das ist schon noch ein Problem. Von daher würde ich sagen, aktuell sollte es als Tool verwendet werden. Vielleicht gibt es kleine Teilbereiche, wo es darüber hinaus gut funktioniert, aber im Allgemeinen sollte das ein Tool sein. Das ist auch, wenn wir zurückkommen auf die großen Cloud-Provider, auch so deren Heilsversprechen. Das ist, dass die AI demnächst schon so gut sein wird, dass sie alle unsere Jobs quasi übernehmen wird. Und ja, es ist zwar nachvollziehbar, dass man das als Marketing macht, aber auf technischer Ebene ist es noch nicht so weit.

Wo glaubst du, dass das noch hingehen kann? Also welches Potenzial siehst du?

Kern: Also viele Leute reden davon, dass wir mit der aktuellen Technologie, da reden wir hauptsächlich über Transformer-basierte Methoden, dass wir hier so keinen großen Sprung mehr zu erwarten haben, weil uns auch die Daten ausgehen. Die LLMs haben das Internet schon gelesen. Es wird halt immer schwerer, auch noch Daten zu finden, die nicht kompromittiert sind. Das Internet besteht ja inzwischen zu großen Teilen, aber zu einem gewissen Anteil an LLM generierten Texten. Und das weiß man ja auch, dass dann, wenn man quasi den LLM-Output wieder reinfüttert, dass dann die Qualität darunter leidet. Also deswegen sehen manche Leute, dass wir hier zumindest einen Übergang sehen von einer revolutionären Veränderung der Technologien in eine evolutionäre Veränderung, dass wir erwarten können, dass hier inkrementelle Verbesserungen stattfinden. Und das ist auch das, was ich am Anfang gemeint habe. Wir sehen, die Modelle werden immer besser, sie werden aber auch immer spezialisierter. Mit so einem gewissen Teil ist es auch schwer zu sagen, wie gut Modelle sind, weil die Tests, mit denen die Modelle getestet werden, zum Teil auch schon in den Trainingsarten verwendet werden. Benchmaxing nennt sich das unter anderem. Also es wird halt schwer, so etwas auch noch festzustellen, wie weit wir wirklich eine Verbesserung sehen. Aber grundsätzlich kann man sagen, die Technologie ist Effizienzsteigerung. Und man sieht das auch in den letzten Jahren. Es hat früher Monate gebraucht, GPT-2 zu trainieren, also das ist ein bestimmtes Modell. Es hat Monate gebraucht, inzwischen sind wir auf Consumer-Hardware auf zwei oder drei Minuten herunten. Also da hat sich wahnsinnig viel getan, auch die Qualität. Die Modelle werden bei gleicher Qualität immer kleiner und immer effizienter. Deswegen habe ich gemeint, inzwischen können wir schon nachdenken, zumindest in der Forschung, was wäre, wenn die Modelle so klein sind, dass wir das in der Edge betreiben können, in Mobiltelefonen und ähnliches. Und das sind die Verbesserungen, die wir sehen. Was wir auch sicher sehen werden, ist, wie wir mehr rausholen aus den Daten, wie wir die Daten besser verarbeiten. Da haben wir uns natürlich diese Frage gestellt, wieso baut jetzt zum Beispiel die TU Graz kein großes Sprachmodell? Wenn man sich diese Frage stellen würde, was eine sehr gute Frage ist, aus meiner Sicht zumindest. Aber es ist nicht nur eine Forschungsfrage oder wissenschaftliche Frage, sondern auch sehr stark eine Ingenieursfrage, die Datenaufbereitung. Ich brauche dann Leute, die die Daten reinigen, die Daten sammeln, Daten kuratieren und so weiter. Und das ist einfach keine Forschungsfrage. Und das erklärt auch, wieso jetzt nicht nur die TU Graz sich nicht hervortut, den Bau von solchen Modellen, sondern auch große amerikanische Universitäten, die deutlich mehr Geld haben, wieso die da abgehängt werden von kommerziellen Entitäten. Eben weil hier die Schritte, die notwendig sind, eine gewisse Qualität zu erreichen, nicht nur rein wissenschaftlich sind, sondern auch sehr stark ingenieurs- oder anwendungsgetrieben sind.

Gegenfrage, was wäre der Vorteil, wenn man eigenes LLM baut?

Kern: Es hat sehr, sehr viele Vorteile. Es fängt mit Skills an. Das heißt, aus meiner Sicht wäre es sehr wünschenswert, einfach die praktischen Fähigkeiten vor Ort zu haben, einerseits auf der TU Graz, andererseits auch in den Unternehmen, künstliche Intelligenz selber bauen zu können. Also das Wissen, wie man das Ganze macht. Aber wie gesagt, in der Wissenschaft, in der Theorie wissen wir das ja. Es gibt ja Papers dazu und in der Theorie hier kann man das alles machen. Es ist aber immer noch ein Unterschied, ob man es selber macht. Wenn man es selber macht, hat man auch die Möglichkeit, genau was wir schon besprochen haben, die Biases, Diskriminierung und so weiter, dass man das von Grund auf schon mit berücksichtigt. Dass man sich dessen bewusst ist, die Datensätze, die ich verwende, sind speziell aussortiert. Die haben, wenn sie einen Bias haben, ist der Bias bekannt. Ein weiterer großer Vorteil ist, dass man es für gewisse Anwendungszwecke hin optimieren kann. Das heißt, wenn ich weiß, ich möchte meine Modelle jetzt für einen bestimmten Anwendungszweck oder einen bestimmten Bereich einsetzen, dann kann ich das mit berücksichtigen. Und von daher macht das auf jeden Fall Sinn. Und speziell im Zeitalter von digitaler Souveränität, wo man sehr viel geredet hat von Abhängigkeiten und so weiter, wäre das auch hier vermutlich mal ein politischer Wunsch, dass das umgesetzt wird. Also ich wäre auf jeden Fall dabei.

Vielen Dank für das Interview.

Kern: Sehr gerne.

Schön, dass ihr heute wieder dabei wart. In der nächsten Folge spreche ich mit Elisabeth Lex, die für mehr Fairness in künstlicher Intelligenz sorgt.

TU Graz research monthly

Monthly Mewsletter about TU Graz

Subscribe to our Telegram Newsletter

Anfang