Come il data gap limita l'intelligenza artificiale
I dati sono la benzina dell'intelligenza artificiale, ma come la benzina inquinata può distruggere i motori delle nostre auto, così dati inquinati distruggono L'AI
In questi giorni ho letto questo report “DATA AND ANALYTICS LEADERSHIP ANNUAL EXECUTIVE SURVEY 2023” realizzato da Wavestone NewVantage Partners intervistando senior data e analytics executives di aziende appartenenti alla lista Fortune 1000: 1000 aziende quotate selezionate da Fortune magazine in base al fatturato generato nell’anno fiscale 2022.
Non trovo i dati di questa survey particolarmente rilevanti perché intervista 116 manager pari al 11,6% delle aziende presenti nella lista fortune, ma rimane comunque interessante analizzare i risultati:
Solo il 24% delle aziende si considera data-driven
Solo il 21% ritiene di avere una cultura del dato
Solo il 24% ritiene di avere processi per un uso etico e responsabile del dato
Sono aziende americane tra le più importanti per fatturato in cui il data gap, cioè l’incapacità di raccogliere e gestire dati di qualità, è preoccupante: il 79% ritiene di non avere cultura del dato.
In questo tessuto aziendale si sta diffondendo una visione dell’intelligenza artificiale concentrata al risultato finale, senza visione di come ottenerlo. L’AI è il nuovo hype del momento su cui tutti stanno saltando, soprattutto chi non ha esperienza e conoscenza di campo.
Quello descritto è una provocazione, ma analizzando il recente passato, ho individuato schemi simili:
il web3 rivoluzionerà l’esperienza online delle masse grazie alla decentralizzazione a scapito delle big tech.
Il metaverso rivoluziona le nostre vite online ed offline regalandoci nuove incredibili esperienze
La realtà virtuale diventa omnipresente nella nostra vita di tutti i giorni
Le crypto valute rivoluzionano il mercato finanziario e l’economia reale
Il social audio cancellerà tutti gli altri social
Sono cinque tecnologie tutte molto promettenti, ma che ad oggi non hanno raggiunto la rivoluzione di mercato prevista dai diversi influencer di settore.
Prevedo la stessa strada per l’AI: vedo troppi “influencers” salire sul carro di ChatGPT, visto come la rivoluzione alla portata di tutti.
Trovo questo momento più grave dei precedenti: il machine learning già oggi risolve molti problemi di un’azienda, ma non è magia, necessità di dati, molti dati. Senza una cultura del dato potremmo trovarci tra qualche anno/mese con la percezione che l’intelligenza artificiale abbia mancato le sue promesse e non sia così versatile, cancellando gli investimenti che oggi stanno arrivando in quantità. Dietro al possibile fallimento il vero problema non saranno i modelli o le metodologie dell’IA, ma la mancanza di dati di qualità.
La mancanza di dati genera 5 principali problemi in un modello di machine learning:
Bias: un bias è il risultato di un’analisi non completamente corretta. Un’analista è guidato dalla sua esperienza e potendo solo analizzare un numero piccolo di dati nella sua bellissima umanità, potrebbe presentare risultati non oggettivi, ma sbilanciati verso una certa visione, verso certe soluzioni che ha già utilizzato in passato. La stesso problema può influenzare un modello di machine learning se il training è eseguito su dati non completi: il modello risponderà in modo non corretto. Ad esempio un modello per consigliare la miglior tonalità di rossetto allenato su fotografie di sole donne caucasiche potrebbe suggerire abbinamenti non corretti con etnie diverse o con persone transgender
Imprecisione: un modello non allenato su dati di alta qualità potrebbe prendere decisioni o fare previsioni non correte. Ad esempio un modello per previsioni meteo allenato esclusivamente su dati dell’Europa continentale, difficilmente potrebbe fare previsioni corrette per Sicilia, Sardegna, o per l’Italia circondante dal Mar Mediterraneo
Mancanza di generalizzazione: Un modello allenato su un set di dati limitati, potrebbe non riuscire ad analizzare in modo corretto situazioni nuove. Un modello di riconoscimento della calligrafia, ad esempio, allenato su qualche migliaio di stili di scrittura in stampatello, difficilmente sarà in grado di riconoscere la scrittura corsiva
Overfitting: modelli allenati su un insieme di dati limitati invece di imparare, memorizzano i diversi casi e rispondono in modo corretto solo quando incontrato i dati di training. Un modello allenato a distinguere gli animali nella savana “overfitta” quando nell’immagini analizzate trova le specie utilizzate per il training e non riconosce animali di specie non presenti nel training ritenendo lo spazio analizzato privo di forme di vita.
Decisioni ingiuste: se alleniamo un modello su dati che non riflettono accuratamente le diversità di popolazione e comunità presenti nel mondo reale, esso può prendere decisioni ingiuste. Uso un iperbole per spiegare questo tipo di problemi. Se un’azienda di sicurezza utilizzasse solo le immagini di uomini bianchi per indicare persone oneste e solo immagini di sud americani per indicare gli spacciatori di droga, probabilmente il modello non consiglierebbe di fermare alcun spacciatore maschio di carnagione bianca e richiederebbe di fermare tutti gli uomini di business di origini sud americane credendoli spacciatori
Quelli descritti sono i principali errori generati da una gestione del dato distante dalla perfezione. Immaginate di sviluppare un modello semplice com un Life Time Value predictor per un’ecommerce con queste caratteristiche:
Non raccoglie dati di Google Analytics puliti
Non è in grado di mantenere la qualità dei dati di Google Analytics tra una release del sito e l’altra
la connessione tra i clienti sul CMS e i clienti nel CRM non è costruita con una chiave stabile e facile da mantenere
Il processo di acquisizione dei lead online e la vendita via agenti sul territorio non è controllato e definito
Quali sono le probabilità di avere in questa azienda un dato storico pulito per fare il training del nostro modello? Basse, molto basse
Prima di pianificare la costruzione del modello, sarà necessario sistemare i punti sopra elencati uno ad uno dotandosi di processi in grado di garantire una pulizia ed una qualità del dato costante.
Una Data Strategy non è esclusivamente individuare quali dati sono necessari per raggiungere gli obiettivi di business, ma anche introdurre processi per controllare e gestire la qualità del dato
Concludo con un esempio semplice: un Hotel
Obiettivo di business: verificare il successo delle campagne di advertising.
Il tracking delle conversioni sarà la soluzione individuata da molti per raggiungere l’obiettivo, ma i tag delle piattaforme di advertising non raccolgono il dato di prenotazioni completo. Un hotel riceve numerose prenotazioni via email, via telefono, attraverso i portali di comparazione (Le OTA per gli addetti ai lavori): il tracciamento dell’advertising raccoglie esclusivamente quelle prenotazioni portate direttamente dall’advertising (dopo un click su un annuncio), ma questa è solo una parte del business.
Un hotel è uno degli esempi più adatti per capire la necessità di sistematizzare la raccolta dati. Ho provato ad immaginare i processi necessari per avere una qualità del dato buona all’interno di un hotel, non sono lo stato dell’arte, ma un esempio da cui partire per gestire un caso reale.
È necessario un processo per raccogliere
da dove è arrivata una prenotazione (booking engine, email, telefono, persona che si è presentata in reception…)
la data in cui è stata fatta la prenotazione (ben diversa dal periodo di soggiorno del eventuale acquisto) per poter attribuire al giusto periodo costi e potenziali ricavi
l’annullamento di una prenotazione
la fonte di traffico per le prenotazioni online e le richieste di preventivo
si dovrà trasportare la fonte di traffico per le richieste di preventivo andate a buon fine nella prenotazione
come il cliente ha conosciuto la struttura
i periodi di offerta divisi per canale
le informazioni relative alla forme di advertising utilizzate sui portati di comparazione per influenzare il ranking della struttura
Tutte informazioni che possono essere raccolte manualmente dal personale addetto alla prenotazione sul gestionale. Qual é il nemico più grande di questo processo?
I periodi di punta, ad esempio Luglio e Agosto, quando il personale non avrà il tempo di prestare attenzione al processo e reperire tutte le informazioni. Informazioni che andranno perse minando la qualità del dato e la capacità di misurare il ROI reale delle campagne di advertising.
Il dato è il faro guida di ogni business, dobbiamo imparare a prendercene cura.
Link della settimana
Audi inserisce le metriche di attenzione nella valutazione delle campagne di advertising
Si parla tanto di guida autonoma di Tesla, notizia di questi giorni Mercedes è stata la prima a raggiungere la guida autonoma level 3 negli stati uniti, ma CNH ha presentato un trattore elettrico con guida autonoma
Audi utilizza l’intelligenza artificiale al servizio del design
- analizza come l'intelligenza artificiale potrebbe influenza la SEO (in realtà l’analisi è molto più ampia, non perdetela)
- racconta come il software SiteZeus sia utilizzato da Jack In The Box per individuare dove aprire gli store fisici grazie all'intelligenza artificiale