Per facilitare e guidare l’adozione di un modello Data & Algo driven è necessaria una Data Strategy
No data, No party. Nell’attuale era digitale cosa di fatto rende possibile la digitalizzazione? Uno studio di IDC indica che dal 2021 al 2025 il “tasso di crescita dei dati è pari al 23% annuo”, con una creazione di circa 175 Zettabyte (ZB) entro il 2025. Per avere un’idea di cosa questo significhi, basti pensare che un singolo zettabyte equivale a un trilione di gigabyte o, come descrive Wikipedia, “uno zettabyte è così grande che ci vorrebbero circa un milione di supercomputer (o un miliardo di potenti computer domestici) per memorizzare questa quantità di dati“.
Occorre però prestare attenzione alla crescita esponenziale dei dati (reali e sintetici) quando è assente una opportuna Data Strategy e Data Governance. Nell’attuale scenario di creazione continua di nuovi dati è fondamentale che la Data Strategy sia allineata con la Business Strategy e con la mission e purpose aziendale.
I dati sono oggi sempre più in real-time, over connessi tra loro ed in streaming. Per comprendere le nuove relazioni tra tutti i dati, non strutturati o semi-strutturati, è fondamentale abilitare un accesso Data self-service e innovativi strumenti di analisi.
Una moderna ed attuale Data Strategy ha l’ambizione di velocizzare la creazione di valore attraverso gli algoritmi e scalare trasversalmente la condivisione degli insight. E poi rendere fruibili e comprensibili verso tutti i prodotti il valore degli Algo e possibilmente risparmiare i costi di gestione favorendo una decentralizzazione del dato.
Data Management at Scale
Ora più che mai, le organizzazioni devono ripensare la gestione dei dati se vogliono continuare a mantenere una posizione di leadership, orientandosi verso un approccio «cooperativo» e «federato» in modo da perseguire il giusto equilibrio tra «autonomia» di dominio e governance «unitaria e olistica».
In Cerved vogliamo continuare a essere il player di dati numero #1 in Italia e non solo al fine di potenziare l’intelligence su rischio di credito e marketing per le aziende, autorità pubbliche e istituzioni finanziarie. Vogliamo arricchire continuamente e velocemente il nostro patrimonio informativo. Lo facciamo ricercando nuove fonti dati, sia core che alternative per identificare tutti i segnali possibili che possono contribuire a costruire Algoritmi di valore per i clienti.
Ecco che per ottenere valore dai dati su larga scala in organizzazioni complesse il paradigma Data Mesh (Il termine data mesh è stato definito per la prima volta da Zhamak Dehghani nel 2019) si rivela un approccio emergente socio-tecnologico. Questo si concentra sul decentramento per condividere e gestire i data asset e che permette di:
– mitigare la complessità, la volatilità e l’incertezza
– sostenere l’agilità di fronte alla crescita
– aumentare il rapporto tra valore e investimento sul data asset
I pilastri su cui si poggia il framework del Data Mesh sono:
– Domain Driver ownership. La piena ownership del dato in capo ai teams di sviluppo per controllare e condividere i dati che vengono prodotti in modo sicuro, trasparente e distribuito.
– Data as a Product. I dati diventano un prodotto e su questi esistono visione e strategia, sono roadmap di prodotto che parte dalla ricerca e sviluppo fino al rilascio e manutenzione. Il dato-prodotto è la base di partenza dei data scientist per creare valore attraverso gli algoritmi.
– Selfe-serve Data Infrastructure. Eliminazione dei constraints per la fornitura dei dati e velocizzazione dell’utilizzo dei dati verso i consumatori (e.g. Data Scientist).
– Federate Computational Governance. Un modello di governance computazionale federato, scalabile e sicuro che mantenga i controlli globali aumentando al contempo l’adattabilità locale
In Data we trust: Data-centric AI
Le tecnologie (cloud, AI, etc.) stanno:
Tutto questo avviene sempre più velocemente e la gestione dei dati assume un ruolo primario a supporto di un nuovo approccio per il miglioramento dei modelli di Intelligenza Artificiale. Il ruolo predominante dei dati ed il loro riconoscimento come tale all’interno delle comunità Data Science è sempre più importante, rispetto alle componenti strong del machine learning.
Lo stesso Andrew Ng, CEO and Founder of LandingAI, rinomato leader in ambito di AI ha recentemente declinato un nuovo movimento chiamato Data-Centric AI in cui tutto il processo di costruzione e test delle componenti di AI è focalizzato sulla centralità dei dati. “Data-centric AI is the discipline of systematically engineering the data used to build an AI system. This consists of systematically changing/enhancing the datasets to improve the accuracy of your AI system (i.e. cleaning, cleansing, pre-processing, balancing, augmentation) rather than model-centric operations (i.e. hyper-parameters selection, architectural changes). (Fonte: Towards Data Science).
Data & AI Ethics for “Trustworthy AI” (European AI Act, Data Act, Data Governance Act)
Legalità, l’IA deve ottemperare a tutte le leggi e a tutti i regolamenti applicabili (es. direttive europee antidiscriminazione, diritti dei consumatori) così come l’utilizzo, l’accesso e la conservazione dei dati è sottoposto a normative sempre più specifiche e stringenti (es. GDPR, diritti dei consumatori).
Eticità, l’IA deve assicurare l’adesione a principi e valori etici indicati dalla società, secondo quanto esposto in un apposito manifesto. Il rispetto delle leggi, seppure basilare, non è sufficiente a garantire l’affidabilità, l’eticità e la sostenibilità. Bisogna garantire algoritmi equi e sempre più spiegabili, in modo da prevenire eventuali danni che possono essere generati e va inquadrata una governance strutturata, che valuti anche la tracciabilità degli output e anche eventuali responsabilità e impatti.
Robustezza, dal punto di vista tecnico e sociale poiché, anche con le migliori intenzioni, i sistemi di IA possono causare danni non intenzionali.