Algorithmen

Innovation inside
Erfahren Sie mehr

XELOPES

prudsys embedded
XELOPES Bibliothek

Forschung & Entwicklung

Forschung bewegt
scientific board
Patente

x
Reinforcement Learning

Reinforcement Learning

x

Funktion

Herkömmliche Empfehlungsmaschinen - insbesondere auf Warenkorbanalyse und Collaborative Filtering basierende Systeme - beruhen zumeist auf der Annahme, dass Content, welcher (basierend auf der Analyse des Nutzerverhaltens) am wahrscheinlichsten vom Nutzer ausgewählt wird, auch empfohlen werden soll. Obgleich sich diese Annahme empirisch bewährte, stellt sie dennoch nicht den optimalen Ansatz dar.

Die tatsächliche Aufgabe im Realtime Analytics besteht darin, dem Nutzer den bzgl. einer zu maximierenden Zielgröße optimalen Content zu empfehlen. Indem ein Realtime-Analytics-System aus dem Wechselspiel von Analyse und Aktion lernt, stellt es eine neue Qualität des Lernens dar. Diese Aufgabe wird durch Reinforcement Learning (RL) adressiert, welches auf Verfahren des Dynamic Programming (mathematisches Gebiet der optimalen Steuerung) basiert. RL wird u.a. zur Steuerung autonomer Systeme wie z.B. Roboter benutzt, aber auch für selbstlernende Spiele wie Backgammon oder neuerdings Schach.

Reinforcement Learning basiert wesentlich auf dem Wechselspiel von bewährten, guten Aktionen und neuen, unerprobten Aktionen. Die Nutzung bewährter Aktionen wird als "exploit" bezeichnet (Ausnutzung), wohingegen neue Aktionen "explore" (Erforschung) genannt werden. Das richtige Wechselspiel von "exploit" und "explore" stellt einen Schwerpunkt des RL dar.

Weiterhin werden unter Nutzung von Markov-Ansätzen nicht einfach die stärksten Aktionen ausgewählt, sondern diejenigen, welche die mutmaßlichen Ketten aller Folgetransaktionen maximieren. Daher agieren RL-Verfahren langfristig und nachhaltig.

Reinforcement Learning kann zunächst - vergleichbar mit klassischem Data Mining - aus rein historischen Transaktionen offline lernen. Die zentralen RL-Verfahren lernen hingegen online - also über die unmittelbare Interaktion mit dem Nutzer. Aufgrund des konsistenten theoretischen Frameworks des RL können beide Lernarten kombiniert werden: Basierend auf historischen Transaktionen werden im Offline-Modus die initialen Lernmodelle erstellt und danach im Online-Modus kontinuierlich verbessert.

Vorteile

  • Optimierung über die gesamte Kette zukünftiger Nutzeraktionen
  • Systematische Tests zur Erforschung des Kundenverhaltens (Exploration")
  • Kombination aus Verfahren des Offline- und Online-Lernens
  • Konsistente Operator-basierte Theorie

Eine wichtige Erweiterung des prudsys-Konzepts stellt das Hierarchische Reinforcement Learning dar. Hierbei findet das Lernen gleichzeitig auf mehreren Ebenen einer Hierarchie statt, was zu einer höheren Lerngeschwindigkeit und besseren Interpretierbarkeit der Modelle führt.

Integration

Reinforcement Learning ist das zentrale Framework der prudsys RDE. Diese beinhaltet eine Vielzahl von RL-Verfahren insbesondere als Offline-, Online- und Batch-Online-Varianten (d.h. Anwendung modifizierter Online-Verfahren auf historische Daten) sowie hierarchische RL-Erweiterungen. Hierbei wird RL nicht nur für Empfehlungen eingesetzt, sondern auch zu weitreichenderen Aufgaben wie der dynamischen Preisoptimierung (Algorithmen zur dynamischen Disposition und Preisoptimierung). Alle RL-Learning-Verfahren sind in der XELOPES-Bibliothek enthalten und können somit in unterschiedlichste Anwendungen integriert werden.

x
x x x