Objekt-Klassifikation ohne jemals das Objekt gesehen zu haben

Wir haben in vergangenen Blogbeiträgen schon Verschiedenes zu Objekterkennung gelernt. Unter anderem wurde ein Blick auf die Herausforderungen von Computer-Algorithmen geworfen. Wir haben uns unterschiedliche Anwendungsfelder angeschaut und einen Einblick in das Training dieser Algorithmen bekommen. Hier geht es zum Artikel „Einstieg in die Erkennung von Objekten auf Bildern“.

Der Erfolg von Algorithmen zur Objekterkennung ist maßgeblich abhängig von den zum Training herangezogenen Daten. Die Präparation der Daten ist bis heute mit den größten Mühen verbunden. Bisher ist es gelungen den Aufwand enorm zu reduzieren durch datensatzerweiternde Methoden der Bildverarbeitung und durch sogenanntes „Transfer Learning“, bei dem ein Algorithmus mit einem allgemeinen Datensatz „vortrainiert“ wird. Trotz dieser Methoden bleibt der Aufwand immer noch relevant. Zero-Shot-Learning versprechen eine erfolgreiche Klassifikation, ohne je ein vorheriges Beispiel gelernt zu haben. Doch wie ist das möglich?

Erfolgreiche Klassifikation mit Zero-Shot-Learning

Stellen wir uns zunächst folgendes Szenario vor: Wir sitzen vor einem Bild und bekommen die Aufgabe, im dargestellten Bild die Birne zu markieren. Das Problem: Wir haben in diesem fiktiven Szenario noch nie eine Birne gesehen und wissen auch nicht, wie eine Birne aussieht.

Unser Glück jedoch, wir haben einen Computer, der uns den folgenden Text ausgibt: „Eine Birne ist eine Frucht, die normalerweise eine birnenförmige oder tropfenförmige Gestalt aufweist. Sie hat eine glatte, dünne Haut, die je nach Sorte unterschiedliche Farben aufweisen kann, von grün über gelb bis hin zu rot oder braun. Die Größe variiert ebenfalls je nach Sorte, aber im Allgemeinen ist eine Birne etwas größer als ein Apfel. Die Spitze der Birne ist oft etwas schmaler und verjüngt sich leicht, während der untere Teil breiter und runder ist. Die Frucht kann einen kurzen Stiel haben, der am oberen Ende befestigt ist, wo die Birne mit dem Ast verbunden war, als sie noch am Baum wuchs. Wenn du dir eine Birne vorstellst, denk an eine elegante, abgerundete Form mit glatter Haut und einer charakteristischen Verjüngung am Stielende.“ (Ausgabe generiert von ChatGPT, Foto: pixabay)

Mithilfe dieser Beschreibung sind wir nun in der Lage, die Birne auf dem Bild zu finden. Aber warum? Einem neugeborenen Menschen würde diese Beschreibung nicht weiterhelfen, aus zwei Gründen. Zum einen spricht der Neugeborene noch nicht diese Sprache, zum anderen kann sich der Neugeborene noch nichts unter der Beschreibung vorstellen. Der Neugeborene hat noch kein Verständnis von Farben, Formen oder Oberflächenbeschaffenheiten. Im Laufe unseres Lebens lernen wir erst diese Eigenschaften zu verstehen.

Neue Klassen durch Kombination von Komponenten abgeleitet

Dieses Prinzip machen sich die modernen Zero-Shot-Modelle zunutze. Diese Modelle bestehen aus zwei Hauptkomponenten. Die erste Komponente ist ein Modell zur Objekterkennung, welches mit einem allgemeinen Datensatz trainiert wird. So lernt das Modell bestimmte Formen und Farben. Die zweite Komponente in oftmals ein Large-Language-Model (LLM), wie es beispielsweise ChatGPT ist, das die „Birne“ als Eingabe nimmt und die Beschreibung des Objekts an das Modell zur Objekterkennung weitergibt, ähnlich wie es im Beispiel mit uns Menschen der Fall ist.

Zusammenfassend lässt sich sagen, dass neue Klassen durch die Kombination von zuvor gelernten Klassen oder durch die Verwendung von semantischen Informationen oder zusätzlichem Wissen abgeleitet werden.

Mittelstand-Digital Zentrum Spreeland
c/o Brandenburgische Technische Universität Cottbus - Senftenberg
Siemens-Halske-Ring 14 | Lehrgebäude 3A
03046 Cottbus

 

Ansprechpartner:
Randolf Schmitt

Tel.: +49 (0) 355 69 5171
E-Mail: randolf.schmitt@b-tu.de