Erklär mir die Welt - Kamerabasierte Internetrecherche

Im Rahmen einer Projektgruppe (PG 602) wurde eine Anwendung zur Klassifizierung von Fahrzeugen hinsichtlich Modell und Marke entwickelt. Zusätzlich wurde ein Information Retrieval-System integriert, das auf den Erkennungsergebnissen basiert und relevante Informationen aus einer Fahrzeugdatenbank abruft. Das Ziel war es, ein System zu schaffen, das präzise Erkennungsergebnisse liefert und diese in einer benutzerfreundlichen App darstellt.

Mehrschrittiger Ansatz #

Der Ansatz bestand aus mehreren Schritten, die aufeinander aufbauten:

Groberkennung von Fahrzeugen im Bild:
In einem ersten Schritt wurde die Faster-RCNN-Architektur eingesetzt, um Fahrzeuge grob im Bild zu lokalisieren. Faster-RCNN wurde aufgrund seiner Effizienz und Präzision in der Objektlokalisierung ausgewählt.
Feinerkennung und Klassifizierung zu Marke und Modell:
Nach der Lokalisierung der Fahrzeuge erfolgte die Klassifizierung mithilfe eines ResNet-Modells, das die spezifische Marke und das Modell des Fahrzeugs identifiziert. Die Verwendung von ResNet erlaubte es, komplexe visuelle Merkmale zu erfassen, die für die genaue Unterscheidung der Fahrzeugtypen entscheidend waren.
Information Retrieval basierend auf den Erkennungsergebnissen:
Die erkannten Fahrzeugmarken und -modelle wurden genutzt, um relevante Informationen wie technische Daten, Baujahre und Varianten aus einer eigens aufgebauten Fahrzeugdatenbank abzurufen. Dieses System ermöglichte es, die Klassifizierungsergebnisse mit zusätzlichem Kontext zu versehen und dem Benutzer weiterführende Informationen bereitzustellen.
Darstellung der Ergebnisse in einer App:
Die Benutzeroberfläche wurde in PyQt entwickelt und ermöglichte eine intuitive Darstellung der Ergebnisse. Der Nutzer konnte ein Bild hochladen, das Fahrzeug klassifizieren lassen und anschließend die zugehörigen Fahrzeugdaten einsehen.

graph TB A[Fahrzeugbild] --> B[Faster-RCNN Groberkennung] B --> C[ResNet Klassifizierung] C --> D[Information Retrieval]

Für die Entwicklung wurden Caffe als Deep Learning Framework eingesetzt.
Die Wahl fiel auf dieses Framework aufgrund seiner damaligen gängigen Verbreitung und Verfügbarkeit.

Zur Datenvorverarbeitung wurde zusätzlich noch intensiv Augmentierung zur Datenerweiterung eingesetzt: Dazu gehörten beispielsweise Rotation, Skalierung und Helligkeits- und Farbanpassungen der Bilder.

Die Entwicklung der Anwendung erfolgte mit Scrum. In regelmäßigen Sprints wurden die einzelnen Komponenten entwickelt, getestet und iterativ verbessert und dem Stakeholder vorgestellt.

Fazit #

Die entwickelte Anwendung kombiniert moderne Deep Learning-Algorithmen mit einem effektiven Information Retrieval-System. Dank der Faster-RCNN-Architektur und des ResNet-Modells war es möglich, Fahrzeuge präzise zu klassifizieren und zusätzliche Informationen aus einer Datenbank abzurufen. Die intuitive Benutzeroberfläche in PyQt ermöglicht eine einfache und schnelle Nutzung der Anwendung.

Tätigkeiten #

Implementierung und Realisierung eines Objekterkenners mithilfe des Deep Learning Frameworks Caffe und der Faster-RCNN-Architektur
Implementierung eines RestNets zur Feinklassifizierung der Fahrzeuge
Zeitweises Projektmanagement und Leitung eines 10-köpfigen Teams
Erstellung eines eigenen Auto-Datensatzes
Augmentierung des erstellten Datensatzes
Verfassen diverser Dokumentationen und Berichte