Mit KI verborgene Schätze entdecken
Museum für Naturkunde E-Mail schreiben
KI-gestützte Extraktion von Biodiversitätsdaten aus Sammlungsetiketten
In den Beständen naturhistorischer Sammlungen verbergen sich spannende und aufschlussreiche Biodiversitätsdaten aus historischen Zeiträumen. Sie sind als Vergleichsgrundlage und als Anzeiger für den Zustand von Ökosystemen in der Vergangenheit unentbehrlich. Denn sie geben Aufschluss über die Entwicklung und den Wandel von Biodiversität. Viele dieser Daten sind im Schriftgut naturhistorischer Sammlungen vorhanden – auf Objektetiketten, in Eingangskatalogen oder in Reiseberichten, die bis ins 18. Jahrhundert zurückreichen, aber bislang kaum erschlossen sind.
Textmining für den Umweltschutz
Ziel des Projekts ist die Erstellung einer KI-basierten Anwendung zur Extraktion solcher biodiversitätsbezogenen Daten aus historischen Sammlungsetiketten. Das Projekt KI-gestützte Extraktion von Biodiversitätsdaten aus Sammlungsetiketten des Museums für Naturkunde möchte diese Daten verfügbar machen. Dafür soll eine KI-basierte Anwendung für das Text-Mining aus Sammlungsetiketten entwickelt werden. Diese wird nicht nur erkennen, wo auf dem Etikett welcher Text steht, sondern auch automatisch wissen, ob es sich zum Beispiel um den Art- und Gattungsnamen eines Tieres handelt, um die Angabe eines Fundortes oder Zeitpunkts. So können die in den Sammlungsetiketten enthaltenen Daten digital erfasst und zur Analyse des Biodiversitätswandels genutzt werden.
Unterstützung durch die KI-Ideenwerkstatt für Umweltschutz
Die KI-Ideenwerkstatt für Umweltschutz unterstützt das Projekt, indem sie Rechenkapazität zur Verfügung stellt, einen zusätzlichen Referenzdatensatz erstellt und ein KI-Modell zur automatischen Informationsextraktion aus Digitalisaten trainiert.
Das Pilotprojekt KI-gestützte Extraktion von Biodiversitätsdaten aus Sammlungsetiketten wird in Kooperation mit dem Museum für Naturkunde Berlin weiterentwickelt.
Was fasziniert dich an deinem Pilotprojekt?
„Daten sind nicht gleich Daten. Mich begeistert, dass das Unsichtbare sichtbar wird, wenn viele biodiversitätsrelevante Daten für die Nutzung verfügbar gemacht werden und sie uns auf diese Weise Aufschluss über die Entwicklung und den Wandel von Biodiversität liefern.”
Olha Svezhentseva
Projektsteckbrief
Welches Umweltproblem wollt ihr mit eurem Pilotprojekt lösen?
Die Veränderung der biologischen Vielfalt und die zugrundeliegenden menschlichen Einflussfaktoren sind von hoher Relevanz für den Natur- und Umweltschutz. Ihre Analyse ist die Basis für effektive Maßnahmen gegen Biodiversitätsverlust und für Handlungsempfehlungen an Politik, Wirtschaft und Gesellschaft. Dabei sind historische Biodiversitätsdaten als Indikatoren für den Zustand von Ökosystemen in der Vergangenheit als Benchmarks unentbehrlich.
Solche Daten sind in großer Menge im Schriftgut naturhistorischer Sammlungen vorhanden: als Objektetiketten, in Eingangskatalogen und aus Reiseberichten, die bis ins 18. Jahrhundert zurückreichen. Diese Daten sind aber bislang nur in Einzelfällen erschlossen.
Wir würdet ihr euer Produkt kurz beschreiben?
Ziel des Projekts ist die Erstellung einer KI-basierten Anwendung zur Extraktion solcher biodiversitätsbezogenen Daten aus historischen Sammlungsetiketten. Wir möchten eine Anwendung entwickeln, die die effiziente Informationsextraktion aus Digitalisaten von Sammlungsetiketten unter Verwendung von Methoden der künstlichen Intelligenz realisiert.
Welche positive Umweltauswirkung erzielt ihr mit eurem Produkt?
Der Beitrag des Projekts zum Natur-, Umwelt- bzw. Klimaschutz besteht in der Bereitstellung eines innovativen Werkzeugs, das die biodiversitätsrelevanten Daten in strukturierter Form für eine weitere Nutzung verfügbar macht.
Wie möchtet ihr das Problem mit KI lösen?
Die Anwendung wird als Sequenz mehrerer funktioneller Module realisiert (Informationsextraktionspipeline). Mithilfe von KI werden innerhalb der Informationsextraktionspipeline die funktionellen Module der Layouterkennung, Zeichen- und Handschriftenerkennung auf syntaktischer Ebene (OCR, HTR) sowie die Erkennung von in den Dokumenten bezeichneten Entitäten auf semantischer Ebene (NER) realisiert.
Was macht eure Lösung innovativ?
Die hier angestrebte Informationsextraktion ist aufgrund der Komplexität der Struktur und des Inhalts der natürlichsprachlichen Dokumente erst durch die Entwicklung leistungsfähiger KI-Methoden im Bereich des Text Mining möglich geworden. Computergestützte Informationsextraktion wird erst durch den Einsatz hochdimensionaler Klassifizierungsverfahren möglich und ist mit anderen Ansätzen (z.B. reguläre Ausdrücke) nicht durchführbar.
Wie möchtet ihr eine langfristige Nutzung der KI-Anwendung ermöglichen?
Das Projekt ist Teil der kontinuierlichen Aktivitäten des Museums für Naturkunde im Bereich Sammlungserschließung und -entwicklung. Computergestützte, KI-basierte Technologien werden dabei eine wichtige Rolle spielen, entsprechend gehen wir von einer langjährigen Nutzung der Projektergebnisse auch für Weiterentwicklungen aus.
Als modulare Anwendung zur Informationsextraktion können die Projektergebnisse von anderen Sammlungen nachgenutzt und auf weitere Use Cases ausgeweitet werden, z.B. die Extraktion von Informationen zu biologischen Eigenschaften der Sammlungsobjekte aus textlichen Überlieferungen.
Die im Projekt entwickelten Softwarebestandteile werden open source und unter einer freien Lizenz als Datenpublikationen über die entsprechenden Datenportale des Museums zur Verfügung gestellt.