Thursday, July 31, 2014

Linked Open Data e Open Data. Il problema dell'accessibilità posto da Wired

Era un po’ che non scrivevo ma complice una forzata inattività e un articolo su Wired mi ritrovo finalmente alla console di amministrazione del mio blog. Per trasparenza dichiaro subito: lavoro per la azienda che ha collaborato a realizzare (non io personalmente) il portale dati.camera.it, quello che Wired, con una certa decisione, ha criticato attraverso il suo data & business editor Guido Romeo.

Non è mia intenzione difendere le scelte della divisione IT della Camera dei Deputati ("Purtroppo questa attenzione all’accesso e alla partecipazione dei cittadini sembra non permeare tutti gli uffici della Camera e, in particolare, gli uffici tecnici") ma il tono dell’articolo rende evidente che sulla questione degli Open Data si genera un po’ di confusione, le stesse obiezioni di Guido Romeo le avevo lette, all’uscita del portale, su un forum di “smanettoni”, segno evidente che il tema è decisamente complesso e oggettivamente oscuro ai più. Ma questo capita sempre nella fasi iniziali (iniziali?) di una tecnologia innovativa allora forse più che polemizzare con l’uno o con l’altro è utile provare a fare chiarezza, il tema più interessante (per me) è:

a cosa servono i Linked Open Data? 

Il tema di discussione posto esiste, ovvero l’accessibilità degli strumenti Open Data, ma gli argomenti di polemica sono esposti in maniera un po’ bizzarra al punto da far riflettere sul perché l’articolo abbia seguito questa costruzione. Wired è certamente un giornale che parla di tecnologia uscendo fuori dagli schemi, provando a immaginare spesso il futuro digitale in maniera visionaria. Perché scrivere allora della tecnologia Linked Data come una tecnologia sconosciuta usata da pochi?

Linked Open Data tecnologia sconosciuta????

Tim Berners Lee, anzi sir Tim Berners Lee, ha di fatto inventato il web che oggi conosciamo cercando di descrivere un approccio alla condivisione della conoscenza basato sul concetto di “Linked” e “Data” (la celebre “proposal” di 25 anni fa al CERN), il governo Britannico, all’avanguardia negli Open Data, ha finanziato l’ODI e la sua “utopia” con milioni di sterline e TBL lo hanno voluto addirittura alla cerimonia di inaugurazione delle Olimpiadi a Londra. Le start-up finanziate infine sono una concreta testimonianza che i LOD sono si un’opportunità di trasparenza ma anche un’opportunità di business.



I Linked Data sono un'opportunità anche in Italia


L’articolo quindi è il segnale che occorrono dei chiarimenti sul tema ma su Wired (che personalmente leggo da quando non esisteva neppure la versione italiana) mi sarebbe piaciuto leggere un approfondimento su cosa sono i Linked Open Data e ancor di più  le storie delle aziende italiane che lavorano nel mondo dei linked data, i loro piani per il futuro e magari sul come sperano di internazionalizzare le loro esperienze in un segmento dell’IT in cui per fortuna l’Italia non è indietro anni luce, anche grazie alle scelte di soggetti quali la Camera dei Deputati.

Open Data => Row Data

Il modo in cui è stato affrontato il problema invece non aiuta a discutere il problema stesso, ovvero differenza tra dato pubblico, dato accessibile e dato riusabile preferendo una approccio più “sensazionalistico”. Gli Open Data sono una grande rivoluzione ma il concetto rivoluzionario non è pubblicare dati in formati semistrutturati come i CSV, l’innovazione consiste nel fatto che, in particolare da parte della Pubblica Amministrazione, si pubblichino “row data” ovvero dati grezzi che posso re-interpretare, che siano pubblicati in HTML o CSV (anche se il CSV è ovviamente meglio) in fondo fa poca differenza, mentre c’è una differenza abissale tra il pubblicare dati in modo non immediatamente riutilizzabile come CSV o dare piuttosto strumenti potenti di lettura e interpretazione.

Il giornalista di Wired cercava gli incarichi dei Deputati in un file excel, questi dati non sono dati elementari, sono già una selezione dei dati disponibili, ma allora chi decide cosa o come pubblicare? I dati tornano a essere soggetti alla mediazione del loro produttore. Smettono di essere realmente liberi.

Du gust is megl che one

Non si tratta di avere l’uno o l’altro, quanto piuttosto di avere a disposizione quanti più strumenti possibili, da quelli più facilmente accessibili a quelli più potenti

-Quale motivo può spingere un utente medio a cercare nel portale dati.camera.it informazioni che può agevolmente trovare, con strumenti user friendly nell’archivio della Camera? 
-Nessuno! 
-Avere un file excel può obiettare il giornalista coscienzioso.. 
-No! ricerco i miei dati, uso il tasto sinistro, trascino il mouse per evidenziare, un po’ di sano e robusto cut and paste e voilà il gioco è fatto, mi costruisco tutte le mie viste personalizzate senza impazzire a capire come ricavare dati da 50 fogli excel con 450 relazioni incrociate o senza imparare SPARQL e senza dover essere uno smanettone.

(p.s.perdonatemi la semplifcazione)

Se una ricerca che pubblichi i dati che mi interessano (come io desidero) non c'è probabilmente non troverò neppure un file di dati analogo e quindi avrei bisogno di costruire la mia vista. In questo mi aiutano i linked data.

Dati riusabili

Ma fin qui siamo ancora a livello di “dato pubblico” e “dato accessibile” ovvero un dato utilizzabile (anche da un utente senza una grande scolarizzazione informatica come Guido Romeo giustamente richiede) perché pubblicato e ricercabile.

Allora perché spendere tante energie per SPARQL? 

Qui finalmente parliamo di dato riusabile, di dato che posso arricchire con tutta l’informazione universale disponibile del Semantic Web, incrociandola on line, per esempio, con DBpedia e data.gov.uk. Questo dato è costruito per essere machine readable, ovvero si possono costruire applicazioni o query in grado di estrarre conoscenza implicita che l’uomo, pur interpretando il contesto meglio di un computer, non può estrarre da solo a causa della mole e della complessità delle informazioni.

LOD, il re è nudo

Chi pubblica “anche” LOD è nudo, dice agli altri fate quello che volete (e che potete) con i miei dati. Non un’alternativa ma un arricchimento. Non è roba per smanettoni o elitaria, è una possibilità in più che altrimenti non avrei.

Avremmo mai scritto che è inutile costruire pneumatici perché un uomo comune non può ripararselo mentre una ruota in legno si? La ruota di legno, il mio caro csv, lo utilizzo per ottenere certi risultati, se devo correre veloce comprerò un pneumatico e fa nulla se per utilizzarlo devo chiamare il gommista smanettone.

Certo tutti i risultati sono migliorabili e le critiche hanno proprio la funzione di stimolo ma allora le domande potrebbero anche essere:

  • chi afferma di pubblicare open data fino a che punto si è realmente spinto? 
  • Ha fatto veramente in modo che i suoi dati siano riusabili da tutti e nella maniera più completa? 
  • Come posso favorire la nascita di applicazioni che aiutano l’emersione di nuovi modi di navigare i dati anche per un utente medio (p.s. la Camera dei Deputati questa domanda se l’è posta e l’hackathon citato nell’articolo è una delle possibili risposte) ? 

Linked Data for Enterprise

L’equivoco sull’utilizzo degli Open Data finisce per nascondere quello che io ritengo essere una tra le cose più interessanti… posso rendere più efficiente un’organizzazione enterprise sfruttando i Linked Data anche solo al suo interno?

Questa è veramente una sfida innovativa, garantire all’interno di una organizzazione la completa interoperabilità dell’informazione sottraendola alla mediazione del singolo data provider, delle sue visioni particolari dei dati, sottraendola all’utilizzo di tecnologie proprietarie per garantire nel tempo il reale possesso della conoscenza all’organizzazione che la genera. Una filosofia innovativa e unica che la Camera dei Deputati ha sposato.

Può essere un modello un’organizzazione realmente open e linked? 

Wired che dici, parliamo anche di questo?

Sunday, February 23, 2014

Il progetto CDEC per i Linked Open Data dalla Shoah in Italy Ontology alla Ontologia sulle Persecuzioni


Nella mia vita professionale ho avuto la fortuna di partecipare a progetti che mi hanno appassionato e che mi hanno fatto sentire fortunato, perchè hanno arricchito il tempo trascorso al lavoro di stimoli positivi.

Il progetto del Centro di Documentazione Ebraica Contemporanea (CDEC) di Milano è l'ultimo di questi in ordine di tempo e l'annuncio di venerdi al convegno del W3C sulla pubblicazione della prima versione dell'ontologia sulla Shoah in Italia  ne è uno degli obiettivi più significativi.

I primi Linked Data sulla Shoah
Il progetto CDEC è molto ampio e ambizioso e prevede la costruzione di una Digital Library di documenti, fotografie e audiovisivi ma la parte più innovativa è la pubblicazione, in formato Linked Open Data, di grande parte della banca dati. Laura Brazzo di CDEC e la collega Silvia Mazzini hanno presentato il primissimo esperimento al LOD2014 e in particolare hanno raccontato la metodologia con la quale si è pervenuti alla definizione di una prima versione dell'ontologia sulla Shoah in Italia.

Quando è partita la fase relativa ai LOD abbiamo cercato esperienze simili per confrontarci con  il lavoro fatto da altri e con un po' di sorpresa abbiamo scoperto che il progetto CDEC appariva essere il primo in questo campo e ciò ha accresciuto in noi il senso di responsabilità nella realizzazione di questa fase, nonchè il piacere di prendere parte a un progetto il cui impatto internazionale era ulteriormente nobilitato dalla valenza innovativa di questa scelta.

I Linked Data sono la nuova frontiera che spinge verso il Web of Data, ovvero il web nel quale le informazioni saranno veramente riutilizzabili e "linked", ovvero interconnesse tra di loro in maniera tale da poter generare nuova conoscenza da tutto quello che verrà messo in rete con questa tecnologia. Il video che segue può essere un utile introduzione per approfondire

 

The Ontology of Shoah in Italy
la preparazione dell'ontologia non è stato un percorso ne semplice ne breve anche per la meticolosa attenzione a ogni dettaglio che gli studiosi del CDEC, Michele Sarfatti, Liliana Picciotto e Laura Brazzo che hanno dedicato nel trasmettere la loro competenza in questo lavoro. Le difficoltà sono nate spesso anche da difficoltà linguistiche che rendono più complessa la concettualizzazione semantica o la sua corretta interpretazione all'esterno.

L'ontologia è descritta in inglese ma solo per fare un esempio i termini Shoah e Holocaust sono usati con differente intensità in Europa piuttosto che nei paesi anglosassoni così come il termine sopravvissuto, "survivor", presenta differenti accezioni a seconda del paese in cui viene utilizzato.

Viceversa proprio i linked data hanno contribuito a disambiguare differenze determinate da problemi linguistici. Gli archivi del CDEC interconnessi con quelli dell'Archivio Centrale dello Stato, relativi agli ebrei stranieri internati in Italia (archivio 4 bis), hanno permesso di identificare persone con dati anagrafici differenti.
E' il caso di Huato Labi, censito negli archivi statali come Vittorio (trasposizione in italiano di Huato), ma univocamente indentificabile grazie agli altri dati anagrafini e alla relazione "Father of" Grazia Labi.

Non è solo in questo il valore della pubblicazione dei LOD perchè quando saranno disponibili tutti i dati del CDEC sarà possibile ampliare enormemente lo spettro della ricerca sul tema della persecuzione antiebraica, incrociandoli  con quelli di altre fonti che sono e saranno disponibili come i dati del fondo Direzione Generale Demografia e Razza sempre di ACS. Oltre agli 8000 deportati negli archivi del CDEC sono censiti migliaia di soccorritori e antifasciti, sono state raccolte migliaia di foto e interviste ai sopravvissuti, tutto materiale presto a disposizione.

L'architettura dell'ontologia si fonda sulle classi "person" e "persecution" che evidenziano in qualche modo anche l'approccio della ricostruzione fatta dal CDEC, ovvero la narrazione della Shoah attraverso il racconto delle persone e delle loro vicissitudini. 


L'ontologia formalizza i concetti degli arresti, dei trasferimenti nei campi di internamento o nei campi di concentramento all'estero, nonchè, purtroppo ovviamente, l'esito finale di tale persecuzione, che nella maggior parte dei casi coincide con il trasferimento all'ultimo campo di sterminio.




I passaggi, georeferenziati, sono stati minuziosamente registrati nei decenni scorsi negli archivi e i linked data offrono una modalità di accesso e navigazione, non disponibile prima, di enorme potenzialità, come rende immediatamente evidente l'utilizzo del browser open source per linked data Lodlive
Sono più di 8.000 le persone individuate i cui nomi sono già pubblicati sia nel "Libro della Shoah" di Liliana Picciotto che sul sito i www.nomidellashoa.it ma oggi la loro pubblicazione LOD offre nuove possibilità proprio grazie al completamento naturale che si otterrà con tutte le altre informazioni disponibili.

The World Shoah Ontology.. a persecution ontology
L'ontologia realizzata dal CDEC ha una propria connotazione geografica precisa (l'Italia) perchè le informazioni sono relative a persone ed eventi accaduti nel nostro Paese e anche la formalizzazione dei concetti riflette questa tipicizzazione. Ci sono tipologie di eventi che caratterizzano l'esperienza specifica di ogni nazione e questi concetti dovranno essere introdotti nell'ontologia per ampliare il dominio di osservazione

C'è quindi da augurarsi che il progetto CDEC sia da stimolo per altre istituzioni internazionali affinchè sia possibile, sempre di più, espandere la disponibilità di informazioni LOD e la formalizzazione dei concetti in una ontologia, questa volta complessiva sulla Shoah. 


Questo potrebbe essere considerato ancora un obiettivo parziale perchè la Shoah è una delle purtroppo ricorrenti persecuzioni cui sono soggetti molte popolazioni del mondo e quindi un ulteriore passaggio potrebbe essere quello di procedere con un ulteriore livello di astrazione della rappresentazione formale, favorendo nuove metodologie di studio e conservazione della conoscenza sul fenomeno più generale delle persecuzioni delle minoranze e delle migrazioni da ciò derivanti.


Il mio personale coinvolgimento 
Il tema della discriminazione e della persecuzione dei più deboli è un tema che sento particolarmente, a prescindere di chi e per che cosa sia di volta in volta nei panni della vittima, senza alcuna distinzione ne religiosa ne politica.

Le persecuzioni antiebraiche sono state uno dei momenti più drammatici della nostra storia contemporanea purtroppo non l'unico, negli stessi anni ci furono atti contro la popolazione ROM e prima e dopo, eccidi e migrazioni di interi popoli privati della terra in cui erano nati.
Il mio lavoro nel mondo dei Beni Culturali mi porta ad avere a che fare con la salvaguardia della storia e del ricordo ma in questo caso l'attività di conservazione della memoria è un atto dovuto per consentire alla prossime generazioni di riconoscere, fin dalla loro nascita, i germi della discriminazione.

Approfondire il progetto CDEC
Il progetto ha una prospettiva a 360 gradi per ottimizzare le attività del Centro al fine di  migliorare l'attività di ricerca all'interno ma anche di massimizzare la condivisione di conoscenza con l'esterno.

Non approfondirò qui il progetto nel suo complesso, realizzato con un combinato di strumenti, xDams, openDams e Lodlive, che assolvono a verticali mansioni specialistiche ma integrati tutti in un unico strumento di lavoro. Chi desidera sapere di più può leggere direttamente sul sito di xDams.org maggiori dettagli.

Thursday, February 20, 2014

Al convegno del W3C il Keynote di Diego Camarda sui Linked Open Data in Italia

Fine settimana all'insegna dei Linked Open Data: giovedi e venerdi a Roma il W3C, in collaborazione con il CNR, ha organizzato un convegno internazionale LOD2014 con la presenza di Phil Archer e sabato c'è l'International Open Data Day.

Il convegno, cominciato oggi, è ospitato dall'Archivio Centrale dello Stato a Roma e la keynote session ha visto l'intervento, dopo Phil Archer del W3C, di Diego Camarda, collega in regesta.exe e punto di riferimento dei nostri progetti LOD. E' per me una necessità di trasparenza chiarire questo aspetto ma è stato anche un motivo in più per ascoltare la sua presentazione.

L'intervento verteva sullo stato dell'arte in Italia ed è stata l'occasione per ribadire l'esigenza, per chi pubblica LOD, di predisporre un endpoint interrogabile. Il concetto, più volte ribadito, fornisce il discrimine tra i "dati aperti" e il loro effettivo utilizzo nelle forme auspicate per la costruzione del Web of Data.

L'analisi stessa è stata circoscritta a realtà che soddisfacevano questo primissimo ed essenziale requisito, nella slide che segue Diego ha definito un punto di partenza per l'osservazione dell'evoluzione dei LOD in Italia


Queste sono le realtà che nel 2012 pubblicavano LOD mediante endpoint nel 2012 mentre nella slide successiva Diego ha riassunto la sua osservazione immediatamente pre-convegno, in quanto questi giorni saranno certamente forieri di molte novità.

La prima elementare constatazione riguarda la ristrettezza del dominio di osservazione e in fondo anche la rilevazione di una limitata crescita, indice che ancora siamo in una fase "esplorativa" nei confronti del Web of Data, con un marcato (e limitato) accento istituzionale e accademico.

I LOD in Italia in numeri

Diego ha affrontato prima l'aspetto quantitativo, per conoscere quanto è stato pubblicato dopo aver scoperto da "chi". L'ha fatto alla sua maniera, esponendo dati ricavati grazie a un software sviluppato per l'occasione e che è a disposizione di tutti. I risultati sono i seguenti.

Questi dati, oltra a dare il senso della dimensione del fenomeno, cominciano a dare però anche informazioni sulla natura dello stesso e di come le realtà che pubblicano LOD trasferiscono il proprio approccio sui Linked Open Data, la natura "enciclopedica" di DBpedia o la trasposizione delle definzione degli standard di Cultura Italia.



Le due slide precedenti,con l'elaborazione delle relazioni e il rendering in un grafo, danno evidenza dei diversi approcci. 
L'analisi di Diego Camarda si è spostata poi sulle relazioni esistenti tra i vari endpont per capire il grado di potenziale interoperabilità e qui balza all'occhio come la LOD Cloud italiana sia ancora un po' povera, al punto che alcuni nodi del grafo ne appaiono di fatto staccati.

La qualità dei servizi offerti

L'ultima parte del key-note si è poi concentrata sulla qualità degli strumenti offerti e qui invece il panorama è apparentemente più confortante perchè i valori appartengono tutti alla sfera positiva, forse anche grazie all'utilizzo di tool già compliant con tali requisiti.

E' stato ribadito che il Web of Data è un obiettivo e che tale obiettivo ha come punto di riferimento essenzialmente le macchine, ovvero si cerca di trasformare i documenti in dati e concetti machine readable. L'idea, molto semplice (?!), non è in realtà ben chiara ai più, forse per la tendenza a comunicare tutto ciò come un grande passo in avanti per tutti gli utenti del web e questo genera attese di strumenti di facile consultazione

Ok humans alse are important (!)

La sostanza è (ovviamente) questa ma passa, soprattutto, per la potenziale capacità che i computer avranno di elaborare dati delocalizzatii e forniti da provider differenti. Nella reltà gli utenti saranno i beneficiari di tali elaborazioni e non direttamente della disponibilità dei raw data.
Dopo questa premessa però ci si è preoccupati anche di capire quale è comunque la distanza tra i dati in formato machine readable e un semplice netsurfer, ovvero se i soggetti che pubblicano i dati offrono almeno elementare modo di consultazione. La risposta è in questa slide che fotografa la situazioneesistente.

L'attesa per la conclusione ha lasciato poi un po' di spazio alla suspense nel sapere un eventuale giudizio di merito ma in questo caso i dati di Diego erano "classified"!!!

Diego Camarda lavora per regesta.exe e ha partecipato a tre importantissimi progetti in ambito Linked Open Data in Italia, ovvero le esperienze della Camera dei Deputati, dell'Archivio Centrale dello Stato e di Reload, finalista lo scorso anno al LodLam a Montreal. Con Silvia Mazzina e Alessandro Antonuccio ha dato vita al progetto open source Lodlive, un browser di linked data che viene utilizzato anche all'estero e in Italia da DBpedia.

Chi desidera approfondire trova qui le slide di Diego mentre domani la seconda giornata vedrà un interessante annuncio di un nuovo endpoint focalizzato su un tema di grandissimo interesse ovvero la storia delle persecuzioni antiebraiche tra il 1943 e il 1945. Il progetto realizzato da regesta per il Centro di Documentazione Ebraca Contemporanea di Milano (CDEC) è il primo, a noi conociuto, che applica il paradigma degli open data alla condivisione della conoscenza sul tema della Shoah.

P.S. Phil Archer tweets



Gli Endpoint Italiani

Archivio Centrale dello Stato http://dati.acs.beniculturali.it/sparql
Camera dei Deputati      http://dati.camera.it/sparql
CNR     http://data.cnr.it/sparql-proxy
Comune di Firenze       http://linkeddata.comune.fi.it:8080/sparql
CulturaItalia     http://dati.culturaitalia.it/sparql
DBpedia Italia    http://it.dbpedia.org/sparql
Progetto Reload     http://lod.xdams.org/sparql
Provincia Carbonia Iglesias     http://www.provincia.carboniaiglesias.it/sparql
Ragioneria Generale dello Stato      http://dwrgsweb-lb.rgs.mef.gov.it/DWRGSXL/sparql
Senato della Repubblica     http://dati.senato.it/sparql
SPCdata     http://spcdata.digitpa.gov.it:8899/sparql