Sunday, February 23, 2014

Il progetto CDEC per i Linked Open Data dalla Shoah in Italy Ontology alla Ontologia sulle Persecuzioni


Nella mia vita professionale ho avuto la fortuna di partecipare a progetti che mi hanno appassionato e che mi hanno fatto sentire fortunato, perchè hanno arricchito il tempo trascorso al lavoro di stimoli positivi.

Il progetto del Centro di Documentazione Ebraica Contemporanea (CDEC) di Milano è l'ultimo di questi in ordine di tempo e l'annuncio di venerdi al convegno del W3C sulla pubblicazione della prima versione dell'ontologia sulla Shoah in Italia  ne è uno degli obiettivi più significativi.

I primi Linked Data sulla Shoah
Il progetto CDEC è molto ampio e ambizioso e prevede la costruzione di una Digital Library di documenti, fotografie e audiovisivi ma la parte più innovativa è la pubblicazione, in formato Linked Open Data, di grande parte della banca dati. Laura Brazzo di CDEC e la collega Silvia Mazzini hanno presentato il primissimo esperimento al LOD2014 e in particolare hanno raccontato la metodologia con la quale si è pervenuti alla definizione di una prima versione dell'ontologia sulla Shoah in Italia.

Quando è partita la fase relativa ai LOD abbiamo cercato esperienze simili per confrontarci con  il lavoro fatto da altri e con un po' di sorpresa abbiamo scoperto che il progetto CDEC appariva essere il primo in questo campo e ciò ha accresciuto in noi il senso di responsabilità nella realizzazione di questa fase, nonchè il piacere di prendere parte a un progetto il cui impatto internazionale era ulteriormente nobilitato dalla valenza innovativa di questa scelta.

I Linked Data sono la nuova frontiera che spinge verso il Web of Data, ovvero il web nel quale le informazioni saranno veramente riutilizzabili e "linked", ovvero interconnesse tra di loro in maniera tale da poter generare nuova conoscenza da tutto quello che verrà messo in rete con questa tecnologia. Il video che segue può essere un utile introduzione per approfondire

 

The Ontology of Shoah in Italy
la preparazione dell'ontologia non è stato un percorso ne semplice ne breve anche per la meticolosa attenzione a ogni dettaglio che gli studiosi del CDEC, Michele Sarfatti, Liliana Picciotto e Laura Brazzo che hanno dedicato nel trasmettere la loro competenza in questo lavoro. Le difficoltà sono nate spesso anche da difficoltà linguistiche che rendono più complessa la concettualizzazione semantica o la sua corretta interpretazione all'esterno.

L'ontologia è descritta in inglese ma solo per fare un esempio i termini Shoah e Holocaust sono usati con differente intensità in Europa piuttosto che nei paesi anglosassoni così come il termine sopravvissuto, "survivor", presenta differenti accezioni a seconda del paese in cui viene utilizzato.

Viceversa proprio i linked data hanno contribuito a disambiguare differenze determinate da problemi linguistici. Gli archivi del CDEC interconnessi con quelli dell'Archivio Centrale dello Stato, relativi agli ebrei stranieri internati in Italia (archivio 4 bis), hanno permesso di identificare persone con dati anagrafici differenti.
E' il caso di Huato Labi, censito negli archivi statali come Vittorio (trasposizione in italiano di Huato), ma univocamente indentificabile grazie agli altri dati anagrafini e alla relazione "Father of" Grazia Labi.

Non è solo in questo il valore della pubblicazione dei LOD perchè quando saranno disponibili tutti i dati del CDEC sarà possibile ampliare enormemente lo spettro della ricerca sul tema della persecuzione antiebraica, incrociandoli  con quelli di altre fonti che sono e saranno disponibili come i dati del fondo Direzione Generale Demografia e Razza sempre di ACS. Oltre agli 8000 deportati negli archivi del CDEC sono censiti migliaia di soccorritori e antifasciti, sono state raccolte migliaia di foto e interviste ai sopravvissuti, tutto materiale presto a disposizione.

L'architettura dell'ontologia si fonda sulle classi "person" e "persecution" che evidenziano in qualche modo anche l'approccio della ricostruzione fatta dal CDEC, ovvero la narrazione della Shoah attraverso il racconto delle persone e delle loro vicissitudini. 


L'ontologia formalizza i concetti degli arresti, dei trasferimenti nei campi di internamento o nei campi di concentramento all'estero, nonchè, purtroppo ovviamente, l'esito finale di tale persecuzione, che nella maggior parte dei casi coincide con il trasferimento all'ultimo campo di sterminio.




I passaggi, georeferenziati, sono stati minuziosamente registrati nei decenni scorsi negli archivi e i linked data offrono una modalità di accesso e navigazione, non disponibile prima, di enorme potenzialità, come rende immediatamente evidente l'utilizzo del browser open source per linked data Lodlive
Sono più di 8.000 le persone individuate i cui nomi sono già pubblicati sia nel "Libro della Shoah" di Liliana Picciotto che sul sito i www.nomidellashoa.it ma oggi la loro pubblicazione LOD offre nuove possibilità proprio grazie al completamento naturale che si otterrà con tutte le altre informazioni disponibili.

The World Shoah Ontology.. a persecution ontology
L'ontologia realizzata dal CDEC ha una propria connotazione geografica precisa (l'Italia) perchè le informazioni sono relative a persone ed eventi accaduti nel nostro Paese e anche la formalizzazione dei concetti riflette questa tipicizzazione. Ci sono tipologie di eventi che caratterizzano l'esperienza specifica di ogni nazione e questi concetti dovranno essere introdotti nell'ontologia per ampliare il dominio di osservazione

C'è quindi da augurarsi che il progetto CDEC sia da stimolo per altre istituzioni internazionali affinchè sia possibile, sempre di più, espandere la disponibilità di informazioni LOD e la formalizzazione dei concetti in una ontologia, questa volta complessiva sulla Shoah. 


Questo potrebbe essere considerato ancora un obiettivo parziale perchè la Shoah è una delle purtroppo ricorrenti persecuzioni cui sono soggetti molte popolazioni del mondo e quindi un ulteriore passaggio potrebbe essere quello di procedere con un ulteriore livello di astrazione della rappresentazione formale, favorendo nuove metodologie di studio e conservazione della conoscenza sul fenomeno più generale delle persecuzioni delle minoranze e delle migrazioni da ciò derivanti.


Il mio personale coinvolgimento 
Il tema della discriminazione e della persecuzione dei più deboli è un tema che sento particolarmente, a prescindere di chi e per che cosa sia di volta in volta nei panni della vittima, senza alcuna distinzione ne religiosa ne politica.

Le persecuzioni antiebraiche sono state uno dei momenti più drammatici della nostra storia contemporanea purtroppo non l'unico, negli stessi anni ci furono atti contro la popolazione ROM e prima e dopo, eccidi e migrazioni di interi popoli privati della terra in cui erano nati.
Il mio lavoro nel mondo dei Beni Culturali mi porta ad avere a che fare con la salvaguardia della storia e del ricordo ma in questo caso l'attività di conservazione della memoria è un atto dovuto per consentire alla prossime generazioni di riconoscere, fin dalla loro nascita, i germi della discriminazione.

Approfondire il progetto CDEC
Il progetto ha una prospettiva a 360 gradi per ottimizzare le attività del Centro al fine di  migliorare l'attività di ricerca all'interno ma anche di massimizzare la condivisione di conoscenza con l'esterno.

Non approfondirò qui il progetto nel suo complesso, realizzato con un combinato di strumenti, xDams, openDams e Lodlive, che assolvono a verticali mansioni specialistiche ma integrati tutti in un unico strumento di lavoro. Chi desidera sapere di più può leggere direttamente sul sito di xDams.org maggiori dettagli.

Thursday, February 20, 2014

Al convegno del W3C il Keynote di Diego Camarda sui Linked Open Data in Italia

Fine settimana all'insegna dei Linked Open Data: giovedi e venerdi a Roma il W3C, in collaborazione con il CNR, ha organizzato un convegno internazionale LOD2014 con la presenza di Phil Archer e sabato c'è l'International Open Data Day.

Il convegno, cominciato oggi, è ospitato dall'Archivio Centrale dello Stato a Roma e la keynote session ha visto l'intervento, dopo Phil Archer del W3C, di Diego Camarda, collega in regesta.exe e punto di riferimento dei nostri progetti LOD. E' per me una necessità di trasparenza chiarire questo aspetto ma è stato anche un motivo in più per ascoltare la sua presentazione.

L'intervento verteva sullo stato dell'arte in Italia ed è stata l'occasione per ribadire l'esigenza, per chi pubblica LOD, di predisporre un endpoint interrogabile. Il concetto, più volte ribadito, fornisce il discrimine tra i "dati aperti" e il loro effettivo utilizzo nelle forme auspicate per la costruzione del Web of Data.

L'analisi stessa è stata circoscritta a realtà che soddisfacevano questo primissimo ed essenziale requisito, nella slide che segue Diego ha definito un punto di partenza per l'osservazione dell'evoluzione dei LOD in Italia


Queste sono le realtà che nel 2012 pubblicavano LOD mediante endpoint nel 2012 mentre nella slide successiva Diego ha riassunto la sua osservazione immediatamente pre-convegno, in quanto questi giorni saranno certamente forieri di molte novità.

La prima elementare constatazione riguarda la ristrettezza del dominio di osservazione e in fondo anche la rilevazione di una limitata crescita, indice che ancora siamo in una fase "esplorativa" nei confronti del Web of Data, con un marcato (e limitato) accento istituzionale e accademico.

I LOD in Italia in numeri

Diego ha affrontato prima l'aspetto quantitativo, per conoscere quanto è stato pubblicato dopo aver scoperto da "chi". L'ha fatto alla sua maniera, esponendo dati ricavati grazie a un software sviluppato per l'occasione e che è a disposizione di tutti. I risultati sono i seguenti.

Questi dati, oltra a dare il senso della dimensione del fenomeno, cominciano a dare però anche informazioni sulla natura dello stesso e di come le realtà che pubblicano LOD trasferiscono il proprio approccio sui Linked Open Data, la natura "enciclopedica" di DBpedia o la trasposizione delle definzione degli standard di Cultura Italia.



Le due slide precedenti,con l'elaborazione delle relazioni e il rendering in un grafo, danno evidenza dei diversi approcci. 
L'analisi di Diego Camarda si è spostata poi sulle relazioni esistenti tra i vari endpont per capire il grado di potenziale interoperabilità e qui balza all'occhio come la LOD Cloud italiana sia ancora un po' povera, al punto che alcuni nodi del grafo ne appaiono di fatto staccati.

La qualità dei servizi offerti

L'ultima parte del key-note si è poi concentrata sulla qualità degli strumenti offerti e qui invece il panorama è apparentemente più confortante perchè i valori appartengono tutti alla sfera positiva, forse anche grazie all'utilizzo di tool già compliant con tali requisiti.

E' stato ribadito che il Web of Data è un obiettivo e che tale obiettivo ha come punto di riferimento essenzialmente le macchine, ovvero si cerca di trasformare i documenti in dati e concetti machine readable. L'idea, molto semplice (?!), non è in realtà ben chiara ai più, forse per la tendenza a comunicare tutto ciò come un grande passo in avanti per tutti gli utenti del web e questo genera attese di strumenti di facile consultazione

Ok humans alse are important (!)

La sostanza è (ovviamente) questa ma passa, soprattutto, per la potenziale capacità che i computer avranno di elaborare dati delocalizzatii e forniti da provider differenti. Nella reltà gli utenti saranno i beneficiari di tali elaborazioni e non direttamente della disponibilità dei raw data.
Dopo questa premessa però ci si è preoccupati anche di capire quale è comunque la distanza tra i dati in formato machine readable e un semplice netsurfer, ovvero se i soggetti che pubblicano i dati offrono almeno elementare modo di consultazione. La risposta è in questa slide che fotografa la situazioneesistente.

L'attesa per la conclusione ha lasciato poi un po' di spazio alla suspense nel sapere un eventuale giudizio di merito ma in questo caso i dati di Diego erano "classified"!!!

Diego Camarda lavora per regesta.exe e ha partecipato a tre importantissimi progetti in ambito Linked Open Data in Italia, ovvero le esperienze della Camera dei Deputati, dell'Archivio Centrale dello Stato e di Reload, finalista lo scorso anno al LodLam a Montreal. Con Silvia Mazzina e Alessandro Antonuccio ha dato vita al progetto open source Lodlive, un browser di linked data che viene utilizzato anche all'estero e in Italia da DBpedia.

Chi desidera approfondire trova qui le slide di Diego mentre domani la seconda giornata vedrà un interessante annuncio di un nuovo endpoint focalizzato su un tema di grandissimo interesse ovvero la storia delle persecuzioni antiebraiche tra il 1943 e il 1945. Il progetto realizzato da regesta per il Centro di Documentazione Ebraca Contemporanea di Milano (CDEC) è il primo, a noi conociuto, che applica il paradigma degli open data alla condivisione della conoscenza sul tema della Shoah.

P.S. Phil Archer tweets



Gli Endpoint Italiani

Archivio Centrale dello Stato http://dati.acs.beniculturali.it/sparql
Camera dei Deputati      http://dati.camera.it/sparql
CNR     http://data.cnr.it/sparql-proxy
Comune di Firenze       http://linkeddata.comune.fi.it:8080/sparql
CulturaItalia     http://dati.culturaitalia.it/sparql
DBpedia Italia    http://it.dbpedia.org/sparql
Progetto Reload     http://lod.xdams.org/sparql
Provincia Carbonia Iglesias     http://www.provincia.carboniaiglesias.it/sparql
Ragioneria Generale dello Stato      http://dwrgsweb-lb.rgs.mef.gov.it/DWRGSXL/sparql
Senato della Repubblica     http://dati.senato.it/sparql
SPCdata     http://spcdata.digitpa.gov.it:8899/sparql