Reinforcement Learning für Recommendation Engines | prudsys

Kontrolltheorie für Empfehlungsmaschinen

Herkömmliche Empfehlungsmaschinen - insbesondere auf Warenkorbanalyse und Collaborative Filtering basierende Systeme - beruhen zumeist auf der Annahme, dass Content, welcher (basierend auf der Analyse des Nutzerverhaltens) am wahrscheinlichsten vom Nutzer ausgewählt wird, diesem auch empfohlen werden sollte. Obgleich sich diese Annahme empirisch bewährt hat, sollte sie dennoch kritisch hinterfragt werden: Warum einem Nutzer etwas empfehlen, was dieser wahrscheinlich ohnehin ausgewählt hätte?
  
Die Herausforderung besteht somit darin, beim Thema Empfehlungen von einer statistischen zu einer Kontroll-theoretischen Sichtweise überzugehen, gewissermaßen „kybernetisch“ zu denken. Ein zentrales Framework stellt das Reinforcement Learning (RL) dar, welches wesentlich auf Methoden der Dynamischen Programmierung beruht, aber besonders den Aspekt des Echtzeit-Lernens untersucht. 

RL passt zunächst sehr gut auf das Thema Empfehlungsberechnung. Insbesondere erlaubt es das Problem derart praxisnah zu formulieren, dass eine definierbare Zielgröße wie Umsatz oder Gewinn maximiert wird. Hierbei betrachtet RL immer die Ketten aller Folgetransaktionen und arbeitet somit nicht nur zielorientiert, sondern auch langfristig und nachhaltig.
 
Die Herausforderung bei der Nutzung des Reinforcement Learning für Empfehlungen besteht darin, das Verfahren für die extrem dünnbesetzen Transaktionsdaten zügig konvergieren zu lassen. Hierzu werden robuste Approximations-Architekturen benötigt, wobei hierarchische Verfahren eine Schlüsselrolle spielen. Die prudsys AG beschäftigt sich seit 2004 mit diesem Thema und erzielte herausragende Ergebnisse. Aktuelle Forschungen beschäftigen sich vorrangig mit der Erweiterung der Approximations-Architektur.

Forschungsschwerpunkte

  • Approximations-Architekturen
  • Algebraisches Multigrid, Diffusion-Wavelets
  • Matrix- und Tensorfaktorisierung
  • Kontrolltheorie
  • Kombination mit Suchverfahren
  • Verteiltes Lernen

Vorteile

  • Feedback fließt in Lernen ein, steuer-theoretischer Ansatz
  • Maximierung einer vorgegebenen Zielgröße
  • Optimierung über die gesamte Kette zukünftiger Nutzeraktionen („planend“)
  • Wechselspiel aus Verwertung und Exploration
  • Konsistente Operator-basierte Theorie
  • Nahtlose Kombination aus Offline- und Online-Lernen

OEM-Anwendung

Alle prudsys Verfahren sind auch in der prudsys Algorithmen-Bibliothek XELOPES erhältlich und können damit nahtlos in Drittanwendungen integriert werden.

Patente

"Verfahren zur schnellen Klassifikation und Regression über elektronisch gespeicherte Daten basierend auf Dünnen Gittern"
Deutsches Patent- und Markenamt AZ: 100 35 099.2 

Vorrichtung und Verfahren zum Erzeugen eines Klassifikators für das automatische Sortieren von Objekten"
Deutsches Patent- und Markenamt AZ: 101 34 926.2
U.S. Patent: US 6,757,584 B2 

"Method and apparatus for determining a set of large sequences from an electronic data base"
U.S. Patent: US 7,209,910 B2