MEDIA

Metadata driven e linguaggi condivisi: a che punto siamo?

Alessandro Capezzuoli, funzionario ISTAT e responsabile osservatorio dati professioni e competenze Aidr

Dei metadati si parla sempre poco, forse perché il prefisso “meta”  viene associato inconsciamente al suo significato originario ( μετά  «con, dopo») e alla conseguente connotazione di un concetto ad ambiti  eterei e inafferrabili, come possono essere la metafisica o le  metafore.

Probabilmente, la parola stessa, metadato, non suscita  grande interesse come le parole blockchain, big data e machine  learning.

La definizione riduttiva che si dà ai metadati, le  informazioni che descrivono i dati, non aiuta a comprendere pienamente  la loro funzione: sembra si riferiscano a qualcosa di secondario  rispetto ai dati, di cui si potrebbe fare a meno.

Bisognerebbe  aggiungere alla definizione che senza i metadati un dato perde il suo  significato, non ha più consistenza e non può essere letto  correttamente.

Ridurre la funzione dei metadati a un ambito esclusivamente  “descrittivo” è una sottovalutazione pericolosa. In primo luogo perché  la funzione descrittiva si riferisce non a uno ma a diversi aspetti,  che possono comprendere il contenuto, la struttura e il contesto  relativi ai dati.

Proprio per questo motivo, non esiste un solo tipo  di metadati. Ci sono i metadati descrittivi, che sono costituiti da un  set di descrizioni normalizzate, utili per identificare i dati e nei  sistemi di ricerca semantica che fanno uso dei Linked Open Data.

I  metadati strutturali, invece, descrivono l’architettura e le relazioni  interne e sono essenziali per utilizzare correttamente i dati.

Poi ci  sono i metadati gestionali, che comprendono informazioni tecniche  quali possono essere i formati o l’ambiente tecnologico adottato.

Basta questa panoramica generale, e, per gli addetti ai lavori, le  parole XSD e JSON Object, per intuire le enormi potenzialità associate  ai metadati.

Se è relativamente semplice immaginare un sistema data  driven, non è altrettanto semplice pensare all’uso dei metadati per  prendere delle decisioni. L’immaginazione, però, può assumere una  forma precisa, se viene supportata da un esempio pratico.

Supponiamo,  ipoteticamente, che in qualche parte del mondo ci sia un’epidemia  fuori controllo e che questo fenomeno sia misurato attraverso un  metodo scientifico rigoroso che rilevi il numero e le dinamiche dei  contagi e dei decessi.

Supponiamo che, attraverso questi “numeri”, si  evidenzi un rischio di contagio elevato nei ristoranti e che i  ristoranti siano frequentati principalmente da una precisa fascia di  popolazione costituita da maschi over 70.

Per ridurre i rischi, si  potrebbe pensare di chiudere i ristoranti, oppure di vietare  l’ingresso agli individui goderecci e inclini al vizio di mangiare.

Nel primo caso, servirebbero dei metadati attraverso i quali  descrivere precipuamente le attività economiche, allo scopo di  individuare le aziende che si occupano di somministrare cibo e  bevande.

Nel secondo caso, servirebbe un archivio della popolazione da  cui estrarre un elenco di nomi a cui inviare la comunicazione “Vietato  entrare nei ristoranti”.

In entrambi i casi, per prendere una  decisione, servirebbero dei metadati descrittivi e strutturali di  qualità. Questo esempio, senz’altro riduttivo, permette di avviare  numerose riflessioni sul ruolo dei metadati.

La chiusura dei  ristoranti, nel periodo di massimo rischio Covid, è stata decisa  attraverso l’adozione della classificazione statistica ATECO, ovvero  un insieme di classi e descrittori che identificano più o meno  precisamente le attività economiche svolte dalle aziende.

Si può  discutere certamente sulla “purezza” statistica di un sistema  classificatorio, ma non si può negare che la chiusura dei ristoranti  sia stata guidata dai metadati.

Analogamente, se si fosse optato per  vietare l’accesso ai ristoranti a una certa fascia di popolazione, i  metadati avrebbero avuto un ruolo chiave nella selezione degli  individui.

I due scenari fanno emergere degli aspetti che al momento  non fanno parte del dibattito pubblico: la governance dei metadati,  l’adozione di “linguaggi” condivisi per descrivere i dati, o più in  generale i fenomeni scientifici, e la qualità dei metadati.

La scelta  di chiudere i ristoranti è stata possibile fondamentalmente per un  motivo: tutte le aziende possiedono un codice ATECO che fa riferimento  a un solo sistema di classificazioni condiviso, quindi è stato  relativamente semplice individuare le aziende a cui era associato il  codice 56.10.11 – Ristorazione con somministrazione .

Lo stesso  provvedimento avrebbe potuto essere inapplicabile in un contesto in  cui ogni regione avesse adottato un sistema classificatorio  differente, magari meno rigoroso, e decontestualizzato dagli altri.

Chi si occupa di metadati conosce bene le difficoltà che si incontrano  nell’integrazione di banche dati diverse in cui, per esempio, il  genere viene indicato in modo diverso, M/F, Maschio/Femmina, 0/1, 1/  2, oppure il territorio viene codificato sulla base di classificazioni  differenti in termini metodologici e temporali.

Purtroppo, non è  sempre possibile costruire un sistema di metadati uniforme: a volte  dipende dalla chiusura mentale dei produttori di dati rispetto  all’esterno, a volte da vere o presunte rivendicazioni di maggiore (o  minore) rigore scientifico di un set di metadati rispetto a un altro,  altre volte dall’adozione di procedure o serie storiche che non  possono essere interrotte.

L’utilizzo condiviso di metadati di qualità  è tutt’altro che banale e spesso viene ostacolato da questioni  politiche e non metodologiche. Se si circoscrive l’ambito di utilizzo  dei metadati al mercato del lavoro e alle professioni, emerge uno  scenario desolante: da una parte c’è la classificazione internazionale  ISCO (International Standard Classification of Occupation), che si  presterebbe molto bene a descrivere, con un linguaggio condiviso e di  qualità, le professioni e la loro rappresentazione sotto molteplici  aspetti, dall’altra ci sono gli interessi di parte, le caste, gli  egocentrismi e le scarse conoscenze della materia, che ne ostacolano  l’applicazione.

Il risultato è che il reclutamento, in particolare nel  settore pubblico, soffre di una carenza strutturale ormai da molti  anni, in un momento storico in cui non è possibile permetterselo. Per  questo, sarebbe auspicabile che all’ordine del giorno del tema  “trasformazione digitale” venga inserita la voce “Metadati,  governance, condivisione e qualità”.

Pulsante per tornare all'inizio