Künstliche Neuronale Netze werden bereits heute in der Erkennung von Bildern und Objekten eingesetzt. Allerdings haben sie weniger mit unserem Gehirn zu tun, als ihr Name suggeriert: Zumeist basieren sie auf Algorithmen, die komplexe mathematische Operationen durchführen. Dr. Achim Schilling von der Cognitive Computational Neuroscience Group der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) schlägt einen neuen Weg vor, biologisch inspirierte Neurone in künstliche neuronale Netze zu integrieren und zu trainieren. Wir haben mit dem Physiker und Neurowissenschaftler über seinen Forschungsansatz gesprochen – und darüber, was wir sonst noch von unserem Gehirn lernen können.
Herr Dr. Schilling, Sie beschäftigen sich mit künstlichen neuronalen Netzen. Wo kommen solche Netze zum Einsatz?
Die größte Stärke künstlicher neuronaler Netze liegt in der Mustererkennung. Sie werden häufig für die Klassifizierung von Bildern verwendet, zum Beispiel in der Medizin, um Hautkrebs zu entdecken. Auch für das autonome Fahren sind diese Netze essentiell, weil sie Objekte – andere Fahrzeuge, Hindernisse, Verkehrszeichen – erkennen können. Fortschrittlicheren Algorithmen kann sogar beigebracht werden, Menschen in logischen Spielen zu schlagen. Google hat das zum Beispiel mit Alpha Go bewiesen und für großes Aufsehen gesorgt. Allerdings muss man einschränken, dass all diese KIs nur in exakt einer einzigen Sache gut sind und keinerlei allgemeine Intelligenz besitzen. Unser Gehirn hingegen ist nicht nur in der Lage, Bilder zu klassifizieren, es kann auch Sprache und Handlung verstehen, Prognosen für die Zukunft entwerfen und komplexe motorische Aufgaben ausführen.
Aber es heißt ja, künstliche neuronale Netze seien deshalb so leistungsfähig, weil sie unserem Gehirn nachempfunden sind?
Künstliche neuronale Netze werden häufig als Nachbildung unseres biologischen Gehirns im Computer beschrieben. Tatsächlich aber sind sie nichts anderes als effiziente Algorithmen, die mittels hochkomplexer mathematischer Operationen einen interpretierbaren Wert berechnen. Durch ihre große Anzahl an Parametern – oft mehrere Millionen – können sie jede beliebige mathematische Funktion darstellen. Diese Algorithmen sind deswegen so mächtig, weil wir mittlerweile eine extrem leistungsfähige Hardware haben, auf der wir diese unfassbar großen Matrixoperationen durchführen können. Es wird versucht, ein Problem zu lösen, indem man die Anzahl an zu trainierenden Parametern immer weiter erhöht, was mit dem Bedarf immer größerer Hardwareressourcen einhergeht.
Dann profitieren künstliche neuronale Netze aktuell eher von der Skalierbarkeit der Rechenleistung?
So könnte man es sagen. Dass das mit unserem Gehirn nicht viel zu tun hat, wird schnell klar, wenn man sich allein den Energieverbrauch anschaut: Unser Gehirn braucht nicht mehr Energie als eine 20-Watt-Glühbirne, wohingegen bereits ein Grafikprozessor etwa 200 bis 300 Watt benötigt. Man kann sich kaum vorstellen, wieviel Energie die großen KI-Unternehmen in ihren riesigen Serverfarmen verbrauchen. Trotz all dieser Hardware-Power schaffen sie es nicht einmal ansatzweise, die Funktionalität des Gehirns nachzubilden.
Dennoch sind auch die bekannten künstlichen neuronalen Netze in der Lage zu lernen. Wie muss man sich diesen Prozess vorstellen?
Bleiben wir beim Beispiel der Bildklassifizierung: Hier werden digitale Bilder, die nichts anderes sind als Zahlenmatrizen, in eine mehrstellige binäre Zahl umgewandelt, das sogenannte Label. Das Trainieren eines künstlichen neuronalen Netzes ist also der Versuch, die mathematischen Operationen so durchzuführen, dass ein berechnetes Label einem vorgegebenen Label entspricht. Dabei werden die Parameter des Modells so lange angepasst, bis die Ausgabe des Algorithmus dem Label so gut wie möglich entspricht. Die vielen Parameter sind wie Millionen von Stellschrauben, an denen so lange gedreht wird, bis das Ergebnis passt, also die Fehlerrate minimiert wird.
Worin unterscheidet sich Ihr Ansatz für das Training von künstlichen neuronalen Netzen von herkömmlichen Methoden?
Unser Gehirn ist deswegen so effizient, weil es nicht mit analogen Werten rechnet, sondern mit einer Abfolge von immer gleich hohen Spannungspulsen. Die Information ist nicht in der Stärke dieser Aktionspotentiale, sondern in den zeitlichen Abständen kodiert. Ein neuer Forschungsansatz konzentriert sich deshalb auf sogenannte Leaky-Integrate-and-Fire-Neuronenmodelle, kurz LIF, die den Prozessen im Gehirn viel ähnlicher sind als herkömmliche Neuronenmodelle. Es ist allerdings extrem schwierig, LIF-Neurone zu trainieren. Deswegen wenden wir einen mathematischen Trick an, der es möglich macht, biologisch inspirierte Neurone in künstliche neuronale Netze zu integrieren.
Wie sieht dieser Trick aus?
Unser Trick nennt sich Surrogate-Gradient-Verfahren. Hierbei wird die Ableitung einer Funktion – in unserem Fall die Ausgabefunktion der LIF-Neurone – sozusagen umdefiniert, so dass sie nicht immer den Wert Null hat. Eine Ableitung von Null bedeutet, dass man das Netz nicht trainieren kann, da es unmöglich ist, die Diskrepanz zwischen dem gewünschten und dem tatsächlichem Ausgabewert auf die Neurone im Netz zu verteilen. Man kann die Ableitung natürlich nicht komplett willkürlich wählen, da sonst das Trainieren nicht funktioniert. Die Mathematik dahinter lässt sich vielleicht mit einem Bild verdeutlichen: Man muss beim Trainieren von LIF-Neuronen sozusagen in der Zeit zurückgehen, da es ja darauf ankommt, welche früheren Eingabewerte zu einem bestimmten Ausgabewert geführt haben. Man kann es sich also so vorstellen, dass man durch den künstlichen Gradienten eine Tür öffnet, um Zugriff auf die Vergangenheit zu bekommen.
Können Sie das an einem Beispiel erläutern?
Ein gutes Beispiel ist die Verarbeitung serieller Daten, wie sie etwa gesprochene Sprache darstellt. Wenn wir im alltäglichen Leben einer anderen Person beim Sprechen lauschen, so hören wir einen durchgängigen Strom von Tönen. Unser Gehirn muss aus diesem akustischen Strom Wörter und Sätze identifizieren, um eine Bedeutung des Gesprochenen abzuleiten. Selbst ein kurzes Wort können wir nur klassifizieren, wenn wir beim Hören der zweiten Silbe die erste nicht schon wieder vergessen haben. Deswegen ist das Lernen von seriellen Daten ungleich schwerer als zum Beispiel von Bildern. Man braucht eine Art von Gedächtnis. Die meisten neuronalen Netze, die zur Bildklassifikation verwendet werden, haben das nicht.
Wie schätzen Sie das Potential Ihrer Methode ein?
Man muss dazusagen, dass dieser Ansatz noch relativ jung ist und es noch einige Zeit dauern dürfte, bis man wirklich Anwendungen für das tägliche Leben umsetzen kann. Außerdem ließe sich das Potential unserer Methode deutlich besser ausschöpfen, wenn wir eine Hardware hätten, die auf neuromorphen, also dem Gehirn nachempfundenen Chips basiert. Aus diesem Grund würde ich mir wünschen, dass Neurowissenschaften, KI-Forschung und Ingenieurwissenschaften stärker als bisher miteinander kooperieren.
Wie hat Sie eigentlich zu Ihrer Idee inspiriert?
Ich bin studierter Physiker und habe mich für meine Doktorarbeit den systemischen Neurowissenschaften gewidmet und bin auch nie wieder davon losgekommen. Mein physikalischer Hintergrund hat in mir aber auch immer den Wunsch geweckt, meine experimentelle Forschung mit Computersimulationen zu verbinden. Wir fahren mittlerweile einen multi-perspektivischen und interdisziplinären Ansatz, wobei wir versuchen, KI, Neurowissenschaften und auch Sprachwissenschaften zu verbinden. Die Studie zum Training von LIF-Modellen habe ich zum Beispiel zusammen mit Dr. Richard Gerum von der York Universität in Toronto durchgeführt. Mein Kollege beschäftigt sich vor allem mit dem visuellen System und arbeitet schon sehr lange mit Algorithmen der künstlichen Intelligenz.
An der FAU führen wir auch immer wieder Probandenversuche zur neuronalen Verarbeitung von Sprache durch, um unsere Computermodelle mit der Biologie abzugleichen. Dieser multi-perspektivische Ansatz spiegelt sich in zwei neu gebildeten Forschungsfeldern wider: der „Neurowissenschaftlich inspirierten KI“, die versucht, biologische Prinzipien in die KI-Forschung zu integrieren, und der „Kognitiven Theoretischen Neurowissenschaft“, die genau den umgekehrten Weg geht und versucht, KI-Systeme zu nutzen, um das Gehirn zu verstehen.
Ganz unabhängig vom maschinellen Lernen: Könnte die Funktion unseres Gehirns auch Vorbild für andere technologische Prozesse sein?
Das Gehirn birgt einen fast unberührten Schatz an Erkenntnissen und Prinzipien, die uns sehr viel weiterbringen können. Das betrifft nicht nur die Übertragbarkeit der Gehirnarchitektur auf künstliche neuronale Netze. Ich hatte ja bereits die Energieeffizienz unseres Gehirns im Vergleich zu KI-Systemen erwähnt. Das Prinzip der Sparsamkeit kann noch wesentlich weitergetrieben werden: Vögel beispielsweise haben extrem effizient gepackte Gehirne mit einer Struktur, die sich deutlich von den Säugetieren und somit dem Menschen unterscheidet. Das ist eine Folge evolutionärer Anpassung, schließlich ist ein großer Kopf nicht sehr aerodynamisch. Dennoch können Rabenvögel in manchen kognitiven Aufgaben mit höheren Säugetieren wie Affen mithalten. Manchmal ist es also gut, auf einen etwas puristischeren Ansatz zu setzen, wenn man eine effiziente Lösung anstrebt. Das widerspricht manchen Ansätzen, die wir in der künstlichen Intelligenz verfolgen, fundamental. Oft nutzen wir immer größere PCs, um immer größere neuronale Netze zu trainieren. Das ist nicht unbedingt der Weg, den die Natur gewählt hat.