Tuesday, December 27, 2011

Il web: siamo sicuri che quelli che ne scrivono abbiano le competenze per descrivere ciò che succede?

In questi giorni sulla Rete ha avuto vasto eco la notizia degli Open Data della Camera dei Deputati di cui abbiamo parlato al precedente post, con interpretazioni diametralmente opposte, per cui mi sembra interessante approfondire ulteriormente la discussione.

I commenti sono positivi nella maggior parte dei casi, anzi molti hanno posto un accento fin troppo enfatico sul concetto di “trasparenza”, mentre su altri siti si è discusso circa la facilità di impiego di tali informazioni, obiettando che il loro uso non sia agevole per tutti, oppure lamentando una presunta mancanza di standard o una certa complessità di linguaggio.

Quel che lascia perplessi è che alcune di queste affermazioni vengono pubblicate su siti il cui nome contiene riferimenti al mondo dell’informatica e quindi dai quali ci si aspetta una profonda competenza e conoscenza di tali tematiche, mentre il contenuto degli stessi tradisce una diversa realtà.

Affermare che non è chiaro a quali standard fare riferimento per interpretare le informazioni e all’interno dello stesso post parlare di OWL (standard per la descrizione delle ontologie, definito nel 2004 dal W3C, massimo organismo per la descrizione di standard sul web) e dell’ontologia appositamente creata e pubblicata indica che non è chiaro a cosa questi strumenti servano.

Affermare che informazioni in XML non siano leggibili è altrettanto incomprensibile ma soprattutto affermare che il semplice cittadino non saprebbe come accedere a queste informazioni è assolutamente fuorviante, proprio per il “semplice cittadino”.

Occorre infatti specificare che gli Open Data non sono informazioni “ulteriori” ma sono le medesime informazioni, pubblicate generalmente su un portale (in questo caso l’Archivio Storico della Camera dei Deputati), e rese disponibili anche in formato “puro”, come semplice dato appunto. Dire quindi che l’utente meno esperto non abbia gli strumenti adatti a consultare le informazioni o è una bugia o figlia di scarsa informazione, accettabile solo da una persona che non si occupi del settore (ma a questo punto perché fare affermazioni su siti che si occupano di informatica??).

Sul portale dell’Archivio Storico, ad esempio, si possono trovare, con ricerche e percorsi tematici, tutte le informazioni relative ai deputati e alle loro iniziative, ovvero tutte le informazioni, in altro modo rese disponibili anche come “Open Data”. La vera differenza riguarda il trattamento automatico di queste informazioni perché questo è il vero obiettivo degli Open Data (come in tutto il resto del mondo!).

OWL è uno standard per definire Ontologie ovvero mappe della conoscenza, in maniera intellegibile e interoperabile, facente parte di un sistema più ampio di regole finalizzate alla “machine readability” e per questa ragione sono intrinsecamente rivolte ad un utente evoluto.
Pretendere che questi strumenti siano comprensibili da tutti è francamente poco credibile, un po’ come chiedere che io sia in grado di capire da solo la mappa del Genoma.

Quello che occorre ripetere è che tutte queste informazioni sono disponibili a tutti con semplici interfacce e che gli Open Data rappresentano solo un passo ulteriore, perché fino ad ora queste informazioni erano inserite in pagine HTML, (più o meno) gradevoli e comprensibili dalle persone, ma non utilizzabili in maniera automatica per ulteriori elaborazioni, se non a costo di faticose e lunghe operazioni manuali.

Gli Open Data introducono la disponibilità del dato in quanto tale.

E’ ovvio che l’utilizzo di questo dato non sia una cosa banale e che occorrono minime competenze informatiche per caricarlo almeno su un foglio excel al fine di poterlo rielaborare. Le stesse App proposte sul sito non sono evidentemente il fine, ovvero il mezzo di consultazione, ma sono delle esemplificazioni della potenzialità informativa costituita dalla disponibilità di questi dati e non possono essere il modo con cui, in maniera esaustiva, questi dati vengono rielaborati.

Sarebbe ciò la negazione del concetto stesso di Open Data, che ha la finalità di rendere un utente autonomo nelle proprie analisi ed elaborazioni. Le App presenti sul sito sono infatti una dimostrazione di quali risultati si possono ottenere avendo a disposizione gli strumenti adatti i dati (e le competenze necessarie…).

Prendiamo il caso dell’Atlante.

Per realizzare la navigazione geografica nei contenuti (luoghi di nascita, distribuzione temporale, cariche ricoperte ecc.) è stata utilizzata una tecnologia Simile Exhibit sviluppata dal Massacchusetts Institute of Technology e che si basa su tre elementi distinti

  • Dati: in formato JSON (JSON -JavaScript Object Notation- è un semplice formato per lo scambio di dati. Per le persone è facile da leggere e scrivere, mentre per le macchine risulta facile da generare e analizzarne la sintassi.. …JSON è un formato di testo completamente indipendente dal linguaggio di programmazione, ma utilizza convenzioni conosciute dai programmatori di… …Questa caratteristica fa di JSON un linguaggio ideale per lo scambio di dati – dal sito JSON.ORG)
  • Logica Applicativa: concentrata in librerie soprattutto javascript
  • Presentazione: pagina HTML e fogli si stile

Cliccando con il tasto destro e chiedendo di visualizzare il sorgente della pagina si possono individuare il/i file di testo che contengono i dati ed effettuare una chiamata HTTP che rende disponibili i dati in chiaro. Senza particolari difficoltà si può capire come i dati siano strutturati in item, collezioni di metadati, ulteriormente relazionati tra di loro. C’è l’entità “persona” (president) con i dati anagrafici, i riferimenti alle foto, e un id dei ruoli ricoperti, c’è l’entità presidenza con i dati di tipologia, inizio e fine e infine la geo-localizzazione dei luoghi di nascita e morte.

Questi dati sono ri-utilizzabili anche per ulteriori elaborazioni, cosi come sono disponibili in rete le API per realizzare tutti i filtri proposti dall’applicazione (e non solo….) e per visualizzare la mappa grazie ad una Google Key (richiedibile liberamente e gratuitamente). Ognuno di noi ha a disposizione, dati e software per ricreare questa applicazione e migliorarla. Per esempio avendo a disposizione le informazioni, nel tempo, relative al numero degli abitanti o al PIL di una città/area si potrebbe provare a capire se esistono relazioni tra queste dimensioni e la rappresentatività politica di una certa area.

Più che nella possibilità di vedere dove è Stella, città natale di Sandro Pertini, il valore di questa applicazione consiste nel rendere evidente cosa si può fare (cosa ciascuno di noi può fare) avendo a disposizione i dati elementari (…e le competenze). Un aspetto particolare poi di questa applicazione la rende ancor più interessante, infatti questi widget sono stati realizzati dal MIT proprio per dimostrare come alcune elaborazioni posso essere de localizzate rispetto ai server dove sono resi disponibili i dati. Ognuno dei filtri applicati sull’Atlante infatti viene gestito localmente, senza che una ulteriore richiesta venga indirizzata al server e questa elaborazione può essere effettuata anche su dati rivenienti da fonti diverse.

Da un certo punto in avanti il risultato quindi può essere in carico solo al computer dell’utente finale, senza query sul server ne utilizzo di banda, in qualche modo realizzando una sorta di cloud computing che accede a server diversi e poi procede con proprie elaborazioni. Questo approccio tecnologico è da considerarsi anche “green” poiché riduce le richieste in rete e il sovra dimensionamento dei server a favore dell’utilizzo di risorse locali, generalmente sotto utilizzate. Sono decine gli esempi di resi disponibili attraverso le librerie Simile e in rete è disponibile una quantità enorme di software libero utilizzabile per elaborazioni di tutti i tipi ma fino ad oggi quella cha era mancata era proprio la disponibilità di dati su cui procedere con analisi innovative.

Oggi qualcosa cambia e anche se siamo ancora agli inizi questo è l’ennesimo “cambio di pelle” di Internet cui probabilmente assisteremo. Tutto dipenderà ovviamente dalla disponibilità alla condivisione di chi è proprietario di contenuti (nella speranza anche che chi commenta queste innovazioni ne comprenda fino in fondo la portata).

Riferimenti:

http://www.tuttoperlei.it/2011/12/26/open-data-arriva-in-parlamento/

http://www.webnews.it/2011/12/22/open-data-anche-alla-camera-dei-deputati/

http://www.chip.it/news/arriva-daticamerait-online-tutto-il-palazzo

http://www.tomshw.it/cont/news/camera-dei-deputati-online-tutto-quel-succede-nel-palazzo/35108/1.html

http://www.chip.it/news/arriva-daticamerait-online-tutto-il-palazzo

http://internet.tuttogratis.it/open-data-anche-per-la-camera-dei-deputati/P124319/

http://www.newnotizie.it/2011/12/open-data-alla-camera-e-alla-regione-piemonte/

http://www.ilsole24ore.com/art/notizie/2011-12-22/camera-deputati-accelera-trasparenza-120952.shtml?uuid=Aa4nGgWE

http://tech.fanpage.it/camera-dei-deputati-e-regione-piemonte-al-via-gli-open-data/

http://saperi.forumpa.it/story/64577/anche-la-camera-dei-deputati-sposa-lopen-data-daticamerait

http://www.vivicool.it/25399/hi-tech/la-camera-dei-deputati-si-apre-al-pubblico-merito-del-progetto-open-data.html

http://punto-informatico.it/3373643/PI/News/italia-parlamento-dati-aperti.aspx

http://www.comunicati-stampa.net/com/cs-154175/Arriva_la_camera_dei_deputati_online

http://geektv.info/news/digital-life/open-data-iparlamento-trasparenza/

http://www.mrwebmaster.it/news/open-data-sbarca-parlamento_6702.html

http://www.innovatoripa.it/category/argomenti/open-data

http://opendataitalia.wordpress.com/2011/12/21/home-camera-dei-deputati-dati-camera/

http://www.eng.it/web/eng/engzine

Wednesday, December 21, 2011

La Camera dei Deputati diventa Open: i dati aperti e la (probabile) rivoluzione del futuro.


Ieri la Camera dei Deputati ha pubblicato on line il proprio patrimonio storico ma la novità che mi interessa raccontare è “come l’ha fatto”.

Facciamo un passo indietro per inquadrare la situazione. Internet è luogo di libertà e rivoluzioni, come ho detto spesso (uno tra i tanti!) con la rete si è affiancato alla comunicazione broadcast, uno (possessore del media) a tanti (pubblico), il paradigma tanti a tanti, nel senso che le comunicazioni si intrecciano, diventano bidirezionali e ognuno è libero di scrivere, leggere e commentare ciò che vuole (purtroppo con qualche significativa restrizione in molti paesi del mondo).

Internet terra di rivoluzioni pacifiche

Questa capacità ci ha regalato anche la possibilità di cambiare, in molte situazioni, lo stato dei fatti, rompendo monopoli e oligarchie, vere e proprie rivoluzioni, un esempio su tutti è quello dell’Open Source.

Qualcuno tra i più tradizionalisti può anche guardare con sospetto alla banda di capelloni, Hacker e Hippies della Free Software Foundation, come Richard Stallman e John Sullivan ma sarebbe interessante anche se, con l’aiuto di qualche economista, provasse a dare un valore alla ricchezza prodotta dal software libero o se qualcuno si ponesse la domanda sulla distanza tra dove siamo arrivati e dove saremmo ancora (indietro) senza l’O.S.

Senza Linux, Mysql, Apache e le piattaforme di Blogging sarebbe nato il web 2.0? Sarebbe possibile un così basso livello di accesso alle tecnologie?

Forse oggi io non sarei qui a scrivere questo post (chissà se è un bene o male!!!) ma soprattutto quante altre applicazioni non sarebbero nate? Indubbiamente il defunto Steve Jobs è stato uomo di visioni molto avanzate nel campo digitale ma dove sarebbe potuto arrivare il mondo e la tecnologia se avesse, almeno in parte, condiviso pubblicamente i risultati del proprio lavoro? Se alla morte di “Steve” quasi tutto il mondo (tranne Stallman) gli ha tributato doveroso omaggio, quanti sanno cosa ha fatto il barbuto Richard e la sua banda per l’innovazione?

Nello stesso post che ho “linkato” prima viene riportata una lettera aperta di Bill Gates al mondo dell’Open Source che rivela oggi tutta la sua inconsistenza, alla luce di quale solidità abbiano raggiunto ormai molti software Open Source.

Le persone hanno imparato a condividere!

Cosa c’entri tutto questo con al Camera dei Deputati è, a questo punto, per chi legge un po’ misterioso, ma in realtà altrettanto semplice da spiegare.

Il movimento Open Source ha dimostrato che le persone hanno la capacità di privarsi di un presunto diritto, quello sullo sfruttamento economico diretto ed esclusivo del proprio lavoro (non ci si priva del diritto di proprietà intellettuale che per definizione è inalienabile, ma solo del diritto d’autore), rendendo un grande servizio a tutti coloro i quali fanno buon uso di ciò e che così non sono costretti a ricominciare sempre da zero. Il risultato finale migliora per tutti, questo accade nel software ma anche molti in altri campi, infatti sono nati per esempio siti di condivisione di immagini gratuite, di musica free e tanto altro.

Anche la semplice pubblicazione on line è in realtà una cessione dei propri diritti su ciò che si scrive e si racconta, lo sanno bene i giornali nella loro lunga lotta ai motori di ricerca, ma ancora questo è un passaggio intermedio, perché ciò che si rende pubblico è si pubblico ma in genere è un prodotto finito, poco riutilizzabile.

Gli Open Data per costruire la conoscenza diffusa

Da qualche anno è in atto la rivoluzione degli Open Data, ovvero dati che sono alla base di ciò che viene pubblicato ma che sono anche riutilizzabili in maniera libera, al fine di produrre ulteriore conoscenza da tutto ciò che viene reso pubblico.

La Camera dei Deputati ha aderito a questo approccio per rendere non solo pubblici i propri dati ma anche per renderli facilmente riutilizzabili, creando una propria ontologia OCD (Ontologia Camera dei Deputati), in formato OWL (Ontology Web Language) espressa in
triple RDF : una tripla è un’asserzione (statement), un’unità informativa minima, articolata in soggetto (subject), relazione (predicate) e oggetto (object). Tutti i dati del portale sono così disponibili come Linked Open Data, un patrimonio informativo costituito da oltre 13,4 milioni di triple.

Questo approccio semantico e libero ai dati rappresenta una grande innovazione perché se è vero che spoglia il detentore di contenuti della figura di quasi unico “interprete” dei medesimi, conferisce a chiunque altro la capacità di rielaborali e di integrarli con fonti e dati ulteriori, al fine di ottenere risultati sempre migliori e sempre maggiore conoscenza.

Un esempio dell’uno e dell’altro, ovvero del valore dell’Open Source e di quello dei dati aperti è costituita dalle app, pubblicate dall’archivio, che riutilizzando software del MIT permettono da un lato di realizzare pagine interattive in cui l’utente può creare le proprie personali viste, dall’altro rendono ulteriormente disponibili, in formato json, anche i dati sui quali queste stesse app insistono.

La conoscenza implicita nei dati

Provo quindi a fare qualche semplice elaborazione sul sito della Camera, utilizzando le alternative di ricerca offerte. Opzionando solo i periodi più recenti (gli ultimi 30 anni) scopro che la rappresentatività di una regione importante elettoralmente come la Sicilia si ferma, per queste 4 cariche dello Stato, al 1954, cosi come negli ultimi 30 accade a una larghissima parte del nord-est, che include l’intero Trentino, Friuli, Veneto e parti importanti della Lombardia. Di contro il peso della Sicilia era stato di gran lunga superiore a quello di tutte le altre regioni (non Sabaude) per tutta la durata del Regno d’Italia. In 150 anni inoltre Calabria, Friuli e Umbria non risultano essere state rappresentate da un proprio politico, dalla Puglia provengono solo Salandra e Aldo Moro e Cagliari e tutta la Sardegna centro meridionale non hanno avuto l’onore di un proprio concittadino eletto alle massime cariche dello Stato. Superfluo quasi sottolineare che solo due sono le donne.

L’informazione è parziale perché per un più esatto esame occorrerebbe aggiungere quella relativa ai ministri, in particolare quelli che dei ministeri più influenti, ma già da sola si presta a qualche interpretazione e molte altre elaborazioni potrebbero essere realizzate ulteriormente, direttamente dagli utenti, accedendo ai dati dei file json.

Innovazione tecnologica e sociale

Sotto un profilo più tecnologico la novità è duplice perché al di là degli aspetti “sociali” (evapora il concetto di proprietà) che contraddistinguono questo approccio in realtà lo studio e l’applicazione degli Open Data conducono generalmente ad una migliore strutturazione delle basi dati, al fine di garantire intelligibilità orizzontale, anche in una struttura aziendale complessa, e verticale, nel senso di miglior propagazione nel tempo della leggibilità della base informativa stessa. Non era raro nel passato (e ancora adesso) scontrarsi con database chiusi e complessi che impedivano il riutilizzo dei dati, addirittura all’interno stesso di una unica organizzazione. Questo effetto rischiava e rischia inoltre effetti catastrofici con il passare del tempo e con il venire meno delle competenze umane di chi quella applicazione l’ha costruita e dominata.

L’altra novità è costituita da query che si realizzano tutte lato client, suddividendo le risorse computazionali su tutti gli utenti che accedono e non le concentrano solo sull’unico server/sito che eroga il servizio, molto interessante quindi per dell’ottimizzazione di applicazioni in ottica cloud computing.

Per finire occorre sottolineare che probabilmente molte delle tecnologie utilizzate per realizzare questa applicazione andranno ad aggiungersi alla grande famiglia dell’Open Source, fornendo un contributo specializzato (e tutto italiano!!) all’innovazione tecnologica nel campo della gestione archivistica di informazioni digitali multimediali.

Anche questo un piccolo salto in avanti.