Zum Hauptinhalt springen
23.06.2025

Open-Source-Lösung verfügbar: KI-gestützte Auswertung von Sammlungsetiketten

Gemeinsam mit dem Museum für Naturkunde Berlin hat die KI-Ideenwerkstatt eine KI-Lösung für die Auswertung historischer Biodiversitätsdaten auf Sammlungsetiketten entwickelt. Der Code der KI-Pipeline ist ab sofort öffentlich zugänglich.

In den Beständen naturhistorischer Sammlungen verbergen sich spannende Biodiversitätsdaten: Sie dokumentieren und archivieren den Zustand vergangener Ökosysteme und geben Aufschluss über die Entwicklung und den Wandel von Biodiversität. Doch viele dieser wertvollen Informationen, die Rückschlüsse auf die Biodiversitätsentwicklung zulassen, schlummern ungesehen auf handschriftlichen Etiketten in Museumsschubladen. Sie zu digitalisieren und nutzbar zu machen erfordert viel Aufwand und Sorgfalt.

Das liegt auch an den großen Datenmengen. Am Beispiel der Sammlung der Schmetterlinge und Köcherfliegen des Museums für Naturkunde Berlin lässt sich ablesen, wie umfangreich Digitalisierungsprojekte in naturhistorischen Sammlungen sein können: Allein in der Sammlung des Museums für Naturkunde Berlin befinden sich ca. 4 Millionen Falter.

Diese Inhalte können nicht angezeigt werden, da die Marketing-Cookies abgelehnt wurden. Klicken Sie hier , um die Cookies zu akzeptieren und den Inhalt anzuzeigen!

Franziska Schuster vom Museum für Naturkunde spricht über das Projekt.

Gemeinsam mit dem Museum für Naturkunde Berlin hat die KI-Ideenwerkstatt für Umweltschutz im letzten Jahr eine KI-Pipeline entwickelt, die es ermöglicht, Metadaten wie Fundort, Jahr, Sammler*innen oder den Artnamen aus Sammlungsetiketten zu digitalisieren. Der Code der KI-Pipeline ist ab sofort öffentlich zugänglich.

Für wen ist die KI-Pipeline gedacht?

Die KI-Pipeline richtet sich an Forschende in Museen, Archiven, Forschungseinrichtungen oder Citizen-Science-Projekten, die Biodiversitätsdaten aus analogen Sammlungen digital erfassen und strukturieren möchten. Der Code steht unter der GNU Public License Version 3 (GPL-3.0) und kann frei verwendet, angepasst und weiterentwickelt werden.

Was macht die KI-Pipeline?

Die KI-Pipeline verarbeitet Fotos von Sammlungsetiketten in mehreren Schritten:

  • Bildvorverarbeitung: Optimierung der Bilder für die weitere Verarbeitung – u.a. durch Normalisierung, Rauschunterdrückung und weitere Transformationen.
  • Layout-Analyse: Erkennung einzelner Etikettenbereiche im Bild durch automatische Segmentierung interessanter Bildbereiche
  • Texterkennung (OCR): Extraktion der Texte aus den segmentierten Bereichen mit Hilfe von KI
  • Semantisches Tagging: Extraktion relevanter Informationen wie Fundorte oder Artbezeichnungen anhand regulärer Ausdrücke und regelbasierter Mustererkennung in Texten
  • Entity Linking: Verknüpfung erkannter Angaben (beispielsweise geografischer) mit externen Datenquellen wie GeoNames

Was steht im Repository?

Das Repository enthält:

  • den vollständigen Quellcode (in Python)
  • eine API zur Verarbeitung von Bilddaten
  • eine integrierte Test- und Evaluationsumgebung
  • eine ausführliche Dokumentation zur Einrichtung und Nutzung
  • Beispielkonfigurationen für Entwicklungs- und Produktionsumgebungen

Technische Umsetzung

Die KI-Pipeline basiert auf Python und nutzt offene und freie Software wie OpenCV, easyOCR, Moondream, spaCy sowie Prefect als Workflow-Manager. Die KI-Pipeline ist für Linux (getestet auf Ubuntu 22.04) optimiert und kann sowohl lokal als auch in einer Docker-Umgebung betrieben werden.

Wie können Interessierte den Code nutzen?

  1. Repository aufrufen:
    Das Projekt ist öffentlich auf GitHub.
  2. Code herunterladen:
    Über den grünen „Code“-Button → „Download ZIP“ oder per Git-Kommando:

    bash
    git clone https://github.com/ki-iw/biodiversitaetsdaten-aus-sammlungsetiketten.git
     
  3. Startanleitung befolgen:
    Die Datei README.md (in englischer Sprache) erklärt die Einrichtung der KI-Pipeline Schritt für Schritt.
  4. Eigene Bilder und Daten verwenden: 
    Organisationen können die Konfiguration zur Verarbeitung individueller Datensätze anpassen. 

“Mit KI verborgene Schätze entdecken” ist eines von fünf KI-Pilotprojekten der KI-Ideenwerkstatt für Umweltschutz. Mit der Veröffentlichung des Codes endet unsere Projektbegleitung. Das Projekt wird jedoch kontinuierlich vom Museum für Naturkunde Berlin weiterentwickelt.

Kontakt

KI-Ideenwerkstatt für Umweltschutz
c/o Impact Hub
Rollbergstr. 28A
12053 Berlin
+49 30 72618 0959 E-Mail schreiben