Um die heterogenen Datenbestände der Umweltbehörden mit KI-/Machine-Learning Methoden besser für intelligente Datenanalysen zu erschließen, ist das BMBF-Forschungsprojekt Simplex4Learning gestartet. Das Forschungsteam entwickelt einen Ansatz, um bei der Analyse umweltbezogener Fragestellungen die Anwendung von KI-Algorithmen in der Breite in die praktische Anwendung zu bringen.
Methoden der Künstlichen Intelligenz (KI) wie Machine Learning (ML) können dazu beitragen, ökologische Phänomene und ihr komplexes Zusammenspiel, wie bei der Ursachen-Wirkung-Forschung in Waldökosystemen, möglichst gut zu verstehen und zu überwachen. Mit ihnen lassen sich Datenbestände aus verschiedenen Quellen intelligent auswerten, fehlende Daten mit Vervollständigungsmethoden generieren, Umweltphänomene prognostizieren oder räumliche Verteilungen besser verstehen. Ihre Anwendung erfordert jedoch vertiefte KI-Expertise, die in Umweltbehörden standardmäßig nicht verfügbar ist. Hier setzt das im Oktober 2023 gestartete Forschungsprojekt Simplex4Learning an.
Entwicklung eines ML-Framework für die Umweltdatenanalyse
Die Idee ist, dass Anwendende über die Benutzungsoberfläche der Datenanalysesoftware disy Cadenza Lern- und Analyseaufgaben mit Daten an eine zu entwickelnde ML-Erweiterung senden, die Zugriff auf zuvor trainierte ML-Modelle bzw. auf übertragbare ML-Modell-Architekturen hat, die in einem ML-Repository abgelegt sind. Die ML-Resultate und generierten Ergebnisse mit Erklärungen können von den Anwendenden durch eine innovative und bedienungsfreundliche Benutzeroberfläche (UI) in der Analyseumgebung visualisiert oder in weiterführende Analyseprozesse eingebunden werden. Durch diesen Ansatz können Anwendende zukünftig aus disy Cadenza heraus KI-Modelle verwenden, ohne dafür selbst vertiefte Kenntnisse zur Anwendung von ML-Algorithmen haben zu müssen. So kommen ML-Methoden in der Breite der praktischen Anwendung und können bei umweltbezogenen Fragestellungen ihren Nutzen entfalten.
Neue Methode für Datenbereitstellung: der Simplex-Ansatz
Um Umweltdaten für das maschinelle Lernen effizient bereitstellen zu können, kommt der Datenhaltung eine Schüsselrolle zu. Der im Rahmen des Projekts weiterzuentwickelnde Simplex-Ansatz des Projektpartners Simplex4Data GmbH ermöglicht die Datenhaltung in einem einheitlich strukturierten Datenpool, der unabhängig von zweckgebundenen Anwendungsfällen ist. Die einheitlich strukturierten Umweltdaten ermöglichen eine effiziente Integration in vorhandene (Geodaten-)Infrastrukturen sowie auch in das zu entwickelnde ML-Framework.