Algoritmi

Dentro l'innovazione
di più

XELOPES

prudsys embedded
XELOPES Biblioteca

Ricerca & Sviluppo

Unità di ricerca progresso
Comitato scientifico
Brevetti

x
Reinforcement Learning

Reinforcement Learning

x

Funzione

I motori di raccomandazione convenzionali, specialmente quelli basati su analisi carrello e filtri collaborativi, sono basati sul concetto che il prodotto che va raccomandato è quello che il cliente abbia più probabilità di scegliere (sulla base di analisi dei comportamenti degli utenti). Questo non è il migliore approccio nemmeno nei casi in cui il principio è stato provato empiricamente.
Lo scopo della analisi in real time invece è di raccomandare contenuti all'utente che coincide di più con parametri ottimizzati. Un sistema di analisi real time impara dall'interazione tra analisi e azione e quindi richiede una qualità differente di apprendimento. Le analisi di apprendimento in real time sono gestite da Reinforcement Learning (RL), un metodo basato sulla programmazione dinamica, un'area matematica utilizzata per il controllo ottimizzato. RL è utilizzato per il controllo di sistemi indipendenti come quelli usati dai robots e anche da giochi come backgammon e più recentemente gli scacchi. 
Reinforcement Learning è basato primariamente sull'interazione tra comprovate buone azioni e nuove azioni non testate. L'uso di azioni comprovate è definito ''exploit''  mentre l'uso di azioni non testate è conosciuto come ''explore''. RI fornisce la perfetta interazione tra ''exploit'' e ''explore''.

Le formulazioni di Markov sono quindi utilizzate per selezionare non solo le azioni più forti, ma anche quelle che massimizzeranno la presunta catena di azioni seguenti. I metodi RL sono a lungo termine e permanenti.
Ciò in cui RL è affine al classico data mining è l'apprendimento da dati storici ordinari offline. I principali metodi di RL imparano online (ad esempio dalla stretta interazione con l'utente). Grazie alla sua strutture teoretica uniforme, RL può combinare entrambe le tipologie di apprendimento: il modello di apprendimento iniziale è creato sulla base delle transazioni storiche in modalità offline. Il modello è poi continuativamente migliorato in modalità online.

Vantaggi

  • Ottimizzazione sull'intera sequenza delle azioni future dell'utente
  • Test sistematici per investigare il comportamento degli utenti (exploration)
  • Combinazione di metodi di apprendimento online ed offline
  • Teoria basata sull'operatore uniforme

Un 'importante add-on al sistema prudsys di apprendimento rinforzato gerarchico. Qui l'apprendimento ha luogo simultaneamente su multipli livelli di gerarchia. Questo aumenta la velocità di apprendimento e migliora l'interpretabilità dei modelli.

 

Integrazione

L'apprendimento Reinforcement Learning forma la struttura centrale di prudsys RDE. Contiene un grande numero di varianti online, offline, batch online dei processi RL e add-ons gerarchici di RL. (la modalità batch online è una procedure user-modified online sui dati storici). Qui RL non è utilizzata solo per la preparazione di raccomandazioni ma per un ampio spettro di funzioni per l'ottimizzazione dinamica dei prezzi (Algoritmi per la pianificazione e l'ottimizzazione dinamica dei prezzi). Tutti i metodi RL sono inclusi nella XELOPES library e possono essere incorporati in un'ampia gamma di altre applicazioni.

x
x x x