Tiefe neuronale Netze (DNN) setzten sich innerhalb der letzten Jahre als Quasi-Standard im Bereich der automatischen Bild-, Sprach-, und Texterkennung durch. Die Parameteranzahl solcher Systemebeträgt in der Regel mehrere 10-100 Millionen Parameter, was erhebliche Speicher- und Rechenressourcen erfordert.

Das Problem verstärkt sich, wenn unterschiedliche Netze parallel für verschiedene Aufgaben (z.B. zur Sprach- und Sprechererkennung) oder, bei multimodaler Klassifikation, für unterschiedliche Sensoren, zeitgleich ausgewertet werden sollen.

Solche Netze müssen deshalb auf leistungsfähigen Rechnern oft auch verteilt Vorhersagen treffen, die anschließend wieder aggregiert werden. Im Kontext eingebetteter Systeme oder bei Mobilgeräten ist der Einsatz von Cloudtechnologien daher unausweichlich. Damit einhergehende negative Aspekte sind eine höhere Latenz, sowie eine nicht permanent verfügbare Internetverbindung (z.B. im Automotive Bereich).

Bei echtzeitkritischen Systemen sind von neuronalen Netzen durchgeführte Berechnungen nicht garantiert. Zusätzlich belastet ein erhöhtes Datenaufkommen die Infrastruktur und es gibt wachsende Zweifel an der Datensicherheit. Aus diesem Grund ist die lokale Inferenz neuronaler Netze insbesondere auf eingebetteten Systemen (DSP, SoC, TPU) ein wichtiger Forschungsbereich.

Die Marktführer für Cloudlösungen und Smartphones arbeiten aus oben genannten Gründen an sog. on-device Lösungen, auch unter Zuhilfenahme von Spezialhardware.  Beispiele sind hier neben Apple (CoreML auf A13) vor allem Amazon und Google, die seit letztem Jahr verstärkt an lokalen Lösungen ihrer digitalen Assistenten arbeiten. Ein wachsendes Interesse besteht für den Einsatz des maschinellen Lernens in sicherheitskritischen und echtzeitfähigen Systemen oder für die Verarbeitung besonders schützenswerter Daten.

Bei diesen Themen ist eine hardwarenahe KI auf eingebetteten Systemen von besonderer Bedeutung. Dieses Forschungsvorhaben widmet sich dem Thema der Speicher- und Rechenoptimierung neuronaler Netze für den Einsatz auf eingebetteten Systemen und behandelt die Fragestellung, wie unterschiedliche neuronale Netze durch ein einzelnes Netz ersetzt bzw. fusioniert werden können. Außerdem wird geprüft inwieweit durch eine geeignete Kombination mit Kompressionsansätzen zusätzliche Ressourcen eingespart werden können.