Thursday, July 31, 2014

Linked Open Data e Open Data. Il problema dell'accessibilità posto da Wired

Era un po’ che non scrivevo ma complice una forzata inattività e un articolo su Wired mi ritrovo finalmente alla console di amministrazione del mio blog. Per trasparenza dichiaro subito: lavoro per la azienda che ha collaborato a realizzare (non io personalmente) il portale dati.camera.it, quello che Wired, con una certa decisione, ha criticato attraverso il suo data & business editor Guido Romeo.

Non è mia intenzione difendere le scelte della divisione IT della Camera dei Deputati ("Purtroppo questa attenzione all’accesso e alla partecipazione dei cittadini sembra non permeare tutti gli uffici della Camera e, in particolare, gli uffici tecnici") ma il tono dell’articolo rende evidente che sulla questione degli Open Data si genera un po’ di confusione, le stesse obiezioni di Guido Romeo le avevo lette, all’uscita del portale, su un forum di “smanettoni”, segno evidente che il tema è decisamente complesso e oggettivamente oscuro ai più. Ma questo capita sempre nella fasi iniziali (iniziali?) di una tecnologia innovativa allora forse più che polemizzare con l’uno o con l’altro è utile provare a fare chiarezza, il tema più interessante (per me) è:

a cosa servono i Linked Open Data? 

Il tema di discussione posto esiste, ovvero l’accessibilità degli strumenti Open Data, ma gli argomenti di polemica sono esposti in maniera un po’ bizzarra al punto da far riflettere sul perché l’articolo abbia seguito questa costruzione. Wired è certamente un giornale che parla di tecnologia uscendo fuori dagli schemi, provando a immaginare spesso il futuro digitale in maniera visionaria. Perché scrivere allora della tecnologia Linked Data come una tecnologia sconosciuta usata da pochi?

Linked Open Data tecnologia sconosciuta????

Tim Berners Lee, anzi sir Tim Berners Lee, ha di fatto inventato il web che oggi conosciamo cercando di descrivere un approccio alla condivisione della conoscenza basato sul concetto di “Linked” e “Data” (la celebre “proposal” di 25 anni fa al CERN), il governo Britannico, all’avanguardia negli Open Data, ha finanziato l’ODI e la sua “utopia” con milioni di sterline e TBL lo hanno voluto addirittura alla cerimonia di inaugurazione delle Olimpiadi a Londra. Le start-up finanziate infine sono una concreta testimonianza che i LOD sono si un’opportunità di trasparenza ma anche un’opportunità di business.



I Linked Data sono un'opportunità anche in Italia


L’articolo quindi è il segnale che occorrono dei chiarimenti sul tema ma su Wired (che personalmente leggo da quando non esisteva neppure la versione italiana) mi sarebbe piaciuto leggere un approfondimento su cosa sono i Linked Open Data e ancor di più  le storie delle aziende italiane che lavorano nel mondo dei linked data, i loro piani per il futuro e magari sul come sperano di internazionalizzare le loro esperienze in un segmento dell’IT in cui per fortuna l’Italia non è indietro anni luce, anche grazie alle scelte di soggetti quali la Camera dei Deputati.

Open Data => Row Data

Il modo in cui è stato affrontato il problema invece non aiuta a discutere il problema stesso, ovvero differenza tra dato pubblico, dato accessibile e dato riusabile preferendo una approccio più “sensazionalistico”. Gli Open Data sono una grande rivoluzione ma il concetto rivoluzionario non è pubblicare dati in formati semistrutturati come i CSV, l’innovazione consiste nel fatto che, in particolare da parte della Pubblica Amministrazione, si pubblichino “row data” ovvero dati grezzi che posso re-interpretare, che siano pubblicati in HTML o CSV (anche se il CSV è ovviamente meglio) in fondo fa poca differenza, mentre c’è una differenza abissale tra il pubblicare dati in modo non immediatamente riutilizzabile come CSV o dare piuttosto strumenti potenti di lettura e interpretazione.

Il giornalista di Wired cercava gli incarichi dei Deputati in un file excel, questi dati non sono dati elementari, sono già una selezione dei dati disponibili, ma allora chi decide cosa o come pubblicare? I dati tornano a essere soggetti alla mediazione del loro produttore. Smettono di essere realmente liberi.

Du gust is megl che one

Non si tratta di avere l’uno o l’altro, quanto piuttosto di avere a disposizione quanti più strumenti possibili, da quelli più facilmente accessibili a quelli più potenti

-Quale motivo può spingere un utente medio a cercare nel portale dati.camera.it informazioni che può agevolmente trovare, con strumenti user friendly nell’archivio della Camera? 
-Nessuno! 
-Avere un file excel può obiettare il giornalista coscienzioso.. 
-No! ricerco i miei dati, uso il tasto sinistro, trascino il mouse per evidenziare, un po’ di sano e robusto cut and paste e voilà il gioco è fatto, mi costruisco tutte le mie viste personalizzate senza impazzire a capire come ricavare dati da 50 fogli excel con 450 relazioni incrociate o senza imparare SPARQL e senza dover essere uno smanettone.

(p.s.perdonatemi la semplifcazione)

Se una ricerca che pubblichi i dati che mi interessano (come io desidero) non c'è probabilmente non troverò neppure un file di dati analogo e quindi avrei bisogno di costruire la mia vista. In questo mi aiutano i linked data.

Dati riusabili

Ma fin qui siamo ancora a livello di “dato pubblico” e “dato accessibile” ovvero un dato utilizzabile (anche da un utente senza una grande scolarizzazione informatica come Guido Romeo giustamente richiede) perché pubblicato e ricercabile.

Allora perché spendere tante energie per SPARQL? 

Qui finalmente parliamo di dato riusabile, di dato che posso arricchire con tutta l’informazione universale disponibile del Semantic Web, incrociandola on line, per esempio, con DBpedia e data.gov.uk. Questo dato è costruito per essere machine readable, ovvero si possono costruire applicazioni o query in grado di estrarre conoscenza implicita che l’uomo, pur interpretando il contesto meglio di un computer, non può estrarre da solo a causa della mole e della complessità delle informazioni.

LOD, il re è nudo

Chi pubblica “anche” LOD è nudo, dice agli altri fate quello che volete (e che potete) con i miei dati. Non un’alternativa ma un arricchimento. Non è roba per smanettoni o elitaria, è una possibilità in più che altrimenti non avrei.

Avremmo mai scritto che è inutile costruire pneumatici perché un uomo comune non può ripararselo mentre una ruota in legno si? La ruota di legno, il mio caro csv, lo utilizzo per ottenere certi risultati, se devo correre veloce comprerò un pneumatico e fa nulla se per utilizzarlo devo chiamare il gommista smanettone.

Certo tutti i risultati sono migliorabili e le critiche hanno proprio la funzione di stimolo ma allora le domande potrebbero anche essere:

  • chi afferma di pubblicare open data fino a che punto si è realmente spinto? 
  • Ha fatto veramente in modo che i suoi dati siano riusabili da tutti e nella maniera più completa? 
  • Come posso favorire la nascita di applicazioni che aiutano l’emersione di nuovi modi di navigare i dati anche per un utente medio (p.s. la Camera dei Deputati questa domanda se l’è posta e l’hackathon citato nell’articolo è una delle possibili risposte) ? 

Linked Data for Enterprise

L’equivoco sull’utilizzo degli Open Data finisce per nascondere quello che io ritengo essere una tra le cose più interessanti… posso rendere più efficiente un’organizzazione enterprise sfruttando i Linked Data anche solo al suo interno?

Questa è veramente una sfida innovativa, garantire all’interno di una organizzazione la completa interoperabilità dell’informazione sottraendola alla mediazione del singolo data provider, delle sue visioni particolari dei dati, sottraendola all’utilizzo di tecnologie proprietarie per garantire nel tempo il reale possesso della conoscenza all’organizzazione che la genera. Una filosofia innovativa e unica che la Camera dei Deputati ha sposato.

Può essere un modello un’organizzazione realmente open e linked? 

Wired che dici, parliamo anche di questo?