Thursday, January 22, 2009

Il passaggio dalla Business Intelligence di primo livello a quella avanzata (parte terza): il processo di auto-apprendimento del sistema

Continuando l’approfondimento sulla business intelligence di livello avanzato, ritengo sia interessante esplodere il concetto di auto-apprendimento dei sistemi.

Come si è detto nei post precedenti il valore costituito dalla competenza dell’esperto è complementare a qualunque base dati, per quanto esaustiva, che una azienda abbia potuto predisporre per descrivere la propria conoscenza, sopratutto perché l’aumento delle informazioni disponibili, conseguente alla rivoluzione digitale, ha reso ancor più determinante la capacità interpretativa dei dati dell'esperto al fine di estrarre informazione di sintesi.

Al tempo stesso questa capacità risulta sempre meno utilizzabile in maniera non automatica con il crescere delle informazioni da esaminare ed è difficilmente formalizzabile, ma gli strumenti basati su modelli statistici contribuiscono a rendere “computabile” questo know how implicito. Vediamo per esempio come potrebbe funzionare un modello basato sull’analisi discriminante.

L’analisi discriminante tenta di identificare le variabili che, appunto, “discriminano”, l’appartenenza ad un gruppo piuttosto che un altro e ad individuare le funzioni lineari che meglio descrivono e chiariscono l’appartenenza ad un gruppo. Si tratta in definitiva delle sommatorie di variabili indipendenti “pesate”, con un processo che è finalizzato all’individuazione di set di pesi che, meglio di altri, collochino un evento descritto dalle variabile in un gruppo piuttosto che un altro. In definitiva si ricerca cosa differenzia in sostanza i due gruppi.

L’analisi discriminante è basata sull’esplorazione di un set di casi, in cui gli eventi vengono suddivisi in gruppi logici ed il percorso di apprendimento consiste proprio nell’identificazione dei pesi delle possibili funzioni lineari che descrivono gli eventi, con la individuazione di quelle che minimizzano quanto più possibile l’area grigia cui possono appartenere eventi dei gruppi distinti.

La definizione dei casi campione è il modo in cui l’esperto comunica al sistema la propria conoscenza e ne determina il percorso di apprendimento. Alla fine di questo il sistema è in grado di analizzare nuovi eventi ed assegnare loro uno scoring, la probabilità che l’evento appartenga ad un insieme o ad un altro.

Ma rifacciamo un passo indietro, ovvero a come avviene il trasferimento di competenza. Il primo step è costituito dalla “segmentazione” ovvero lo studio delle informazioni presenti per individuare quali sono le categorie di informazioni in grado di rappresentare gli eventi e se esistono dati storici adeguati ad attivare il processo di auto apprendimento.

La “selezione” delle variabili consiste nella ricognizione delle stesse per identificare quelle rilevanti ai fini dello studio in oggetto.

Occorre osservare che diventa determinante la corretta identificazione delle variabili e l’eventuale correlazione tra esse perché si possa realmente valutare il peso discriminate delle singola variabile

Il processo di apprendimento termina con la validazione dei modelli con l’applicazione degli stessi ad un numero significativo di casi campione per determinare, sempre con tecniche statistiche, la rilevanza dell’errore atteso.

In realtà, potenzialmente, il processo prosegue durante l’esercizio stesso del sistema perché possono essere definiti degli ulteriori punti di sincronizzazione del sistema, nei quali i risultati stessi dell’attività di analisi possono essere forniti al sistema come feedback, per ampliare/aggiornare i casi campione e rifinire ulteriormente i modelli, variando eventualmente i pesi, in relazione alle modifiche introdotte dal tempo sul corso degli eventi.

Questa caratteristica di continua ricorsività costituisce evidentemente un ulteriore plus di questo approccio che non è più statico o modificato su precisa e formale analisi dell’uomo che interviene a cambiare le impostazioni iniziali, ma è lo strumento stesso che offre la base informativa ed i mezzi per avviare un processo di revisione.

I casi cui tale metodo può essere utilizzato sono moltissimi nella abituale operatività aziendale, a fini “repressivi” e di indagine, ovvero determinare che un certo evento sia fraudolento o nocivo (tentativo di frode o di intrusione, possibilità che un cliente non restituisca un prestito, possibilità che stia per verificarsi un crash di un servizio critico) di “allerta” commerciale (comportamento che indica la propensione di un cliente ad abbandonare un il suo fornitore, appartenenza di una persona ad un target specifico).

No comments:

Post a Comment