Close

Not a member yet? Register now and get started.

lock and key

Sign in to your account.

Account Login

Forgot your password?

Censimento ISTAT on-line: è vera innovazione?

19 set Posted by in Uncategorized | 8 comments

istat

E’ partito il censimento 2011, il primo che prevede la possibilità di restituire i questionari anche via Internet.

A giudicare da ciò che si legge, c’è un entusiasmo diffuso per questa novità, ma non mancano le perplessità, specie da parte di chi scrive.

L’impressione personale è quella di assistere a una rivoluzione col freno a mano tirato.

Il censimento sappiamo che è importantissimo perché rappresenta la principale fonte conoscitiva delle risorse – persone e cose – del territorio. Fino alla scorsa edizione si è svolto con modalità non troppo dissimili da quelle dell’800, ma per l’edizione 2011 si è pensato di ricorrere alle nuove tecnologie.

Ecco alcuni passaggi che ho estratto dalla rassegna stampa, corredati di alcune mie semplici riflessioni.

**********

Al via il censimento degli italiani: costerà 590 milioni, migliaia precari assunti dai Comuni. I questionari saranno spediti per posta e le famiglie potranno compilarli via Internet, collegandosi al sito censimentopopolazione.istat.it.

Pro

La scelta è obbligata, dal momento che non tutti i cittadini possiedono una casella di posta personale e che in ogni caso questa sarebbe comunque sconosciuta all’ISTAT.

Contro

Peccato non aver colto l’occasione per estendere a tutta la popolazione maggiorenne l’attivazione della Posta Certificata Governativa, modificando il D.L. del 6 maggio 2009. Questa al momento è disponibile solo su richiesta del cittadino, col risultato che solo un milione di italiani ne ha fatto finora richiesta. Praticamente un flop.

**********

I primi risultati provvisori per Provincia e Comune saranno diffusi dall’Istat il 31 marzo 2012, mentre la popolazione legale sarà disponibile entro il 31 dicembre 2012.

Pro

La raccolta dei dati via web dovrebbe consentire un sensibile contenimento dei costi sostenuti.

Contro

L’ultimo censimento iniziò il 21 ottobre 2001 e i dati vennero pubblicati il 7 Aprile 2003. Dieci anni dopo riusciamo a impiegare appena tre mesi in meno. Questa non è vera innovazione: significa utilizzare Internet per raccogliere dati che saranno pubblicati solo quando saranno abbondantemente superati dagli eventi.

**********

La spesa per ciascun abitante sarà di circa 10 euro, un livello più basso del costo pro capite del censimento Usa (34,4 euro) e lievemente più elevato di quello britannico (8,7 euro).

Pro

Possiamo consolarci pensando di essere stati un filo più bravi di americani e un filo meno degli inglesi, mantenendo i costi allo stesso livello di 10 anni fa.

Contro

La tecnologia nel frattempo ha fatto passi enormi e andrebbe sfruttata molto meglio; a parte ciò, è importante prendere esempio dalle nazioni più virtuose di noi, come la Spagna.

**********

Il costo dell’acquisto di strumenti tecnologici e informatici sarà di 8,6 milioni di Euro.

Pro 

E’ una cifra elevata ma realistica, se confrontata con i 3 miliardi di dollari spesi dagli americani solo per la parte IT del censimento.

Contro

E’ comunque una cifra sufficientemente elevata affinché i cittadini possano pretendere almeno le risorse base del servizio.

**********

Forse potremmo chiamarlo “censimento 2.0″ dice il presidente dell’Istat, Enrico Giovannini.

Pro

Viene tracciata una strada e viene oltrepassato un punto di non-ritorno. E’ una sperimentazione che in futuro potrà confluire in modelli più evoluti e su larga scala.

Contro

Purtroppo il termine “2.0” è non di rado abusato in quanto di moda e anche in questo caso è usato impropriamente per definire le stesse cose che prima venivano fatte off-line, con tempi e costi molto simili. Siamo ancora lontani dai modelli a rete, collaborativi e interattivi, specie rispetto alle potenzialità già mostrate negli ultimi mesi riguardo alla mappatura del territorio, nonostante alcune idee interessanti.

Di “2.0” qui c’è solo la tecnologia. Una parte. Forse.

Il “Web 2.0″ è un atteggiamento, non una tecnologia.

Significa anche “beta perenne”, evoluzione continua. Giorno per giorno. Minuto per minuto.

Significa anche “user experience”.

Significa anche “engagement”.

Significa anche “trust”, fiducia.

Significa anche “UGC”.

 

L’attuale modello è l’unico possibile oppure esistono alternative?

Diciamo che si tratta di scegliere tra evoluzione e innovazione rispetto all’attuale modello.

Pro

Anche se in futuro sarà possibile apportare modifiche evolutive al progetto in termini di efficacia e di efficienza, il censimento NON poteva essere luogo di sperimentazione per modelli innovativi, a causa dei costi e della criticità che comporta. Di solito queste iniziative vengono precedute da uno o più progetti pilota.

Contro

Personalmente trovo intrigante pensare a un futuro non troppo lontano in cui trasformare i Comuni italiani in vere e proprie unità informative, interconnesse e aggiornate in tempo reale.

A tal proposito mi ha colpito una discussione letta su Y Combinator, dove un tizio sosteneva che secondo lui “every city should have an API“. Un po’ folle, come idea, ma stimolante: è come se si dotasse ogni Comune di un plugin e che attraverso questo connettore – ovviamente standard – si possa accedere a TUTTI i dati di quel territorio.

 

Si, ma quali dati?

Essenzialmente, le tipologie sarebbero:

  • tutti i propri dati, sia riferiti a privati cittadini che a imprese
  • tutti i dati non sensibili di soggetti terzi
  • tutti i dati sui servizi e tutti gli indicatori economici

La granularità dei contenuti dovrebbe essere invece distinta tra:

  • dati aggregati (per area geografica, per data di rilevazione, per qualsiasi altra dimensione di analisi ritenuta importante)
  • row data (per analisi su volumi circoscritti).

 

E la privacy?

Ogni singolo dato dovrebbe essere classificato (introducendo un ulteriore attributo) scegliendo tra almeno due tipologie (es. sensibile/non sensibile), in modo tale che i dati non sensibili non siano in alcun modo riconducibili all’identità di una persona o a una impresa.

Con la stessa applicazione (da qui la necessità di avere API standard) si potrebbero estrarre le stesse tipologie di dati dai comuni limitrofi.

 

Si, ma come si fa?

Dirlo è un conto, realizzarlo è tutt’altro paio di maniche.

Diciamo subito che occorre una architettura a database distribuiti: non un unico contenitore centralizzato (come avviene ora) ma tanti db locali sincronizzati in tempo reale tra loro.

I nomi dei prodotti utilizzabili sono tanti e così sui due piedi me ne viene in mente una decina di ottimo livello, ciascuno con le proprie caratteristiche. Un paio di questi sono persino inclusi nell’offerta di IBM, partner tecnologico dell’iniziativa InnovatoriJam organizzata proprio da Aginnovazione, nonché impegnato da anni su queste problematiche.

 

Quale architettura?

La scelta dell’architettura è la parte più delicata del progetto: il più piccolo sbaglio ne può decretare il successo o l’insuccesso. Per questo motivo:

  • deve essere open, deve seguire uno standard (e purtroppo non esiste un unico standard), deve lavorare con tutti i tipi di dati – strutturati e non – da qualsiasi fonte, deve elaborare grandi volumi di dati “a caldo”, deve fare analisi in tempo reale (correlazioni, statistiche, trend e previsioni), deve essere semplice e veloce da implementare.
  • deve poter valutare milioni di scenari, potenziali opportunità e minacce ogni secondo, per consentire di prendere istantaneamente una decisione.
  • deve essere super-veloce (alcune arrivano a elaborare anche 150MB/sec), ma anche super-scalabile.

 

Cosa implica il rilevamento continuo e distribuito?

Raccogliere dati in formato elettronico offre un vantaggio significativo se e solo se ciò avviene in modo omogeneo sul territorio, in modo che siano comparabili tra loro. E’ evidente infatti che per analizzare un’area geografica specifica (es. una provincia, una vallata, un comprensorio) occorre che siano “plugged” tutti i Comuni coinvolti. Le stesse considerazioni valgono per qualsiasi altra dimensione di analisi, come un settore economico o una proprietà demografica.

Pro

Si aprirebbero opportunità straordinarie per i cittadini, per le imprese locali e per le amministrazioni locali.

Significa servizi migliori, contenimento dei costi, nuovi business, migliore utilizzo delle risorse del territorio.

Significa rilancio delle unità produttive, del geomarketing e del turismo.

Per esempio, un’impresa manufatturiera potrebbe stabilire la propria sede in una zona 50 km più in là, sulla base della quantità di mano d’opera specializzata nello stesso settore che vi risiede, magari scoprendo che molte di queste persone ogni giorno percorrono parecchi km da pendolari.

Contro

Già oggi esiste motivo di dubitare della precisione dei dati demografici pubblicati.

Non ci credete? Prendiamo come esempio le ultime elezioni Amministrative.

Se la matematica non è un’opinione, i casi sono tre:

  • i dati ISTAT non sono precisi
  • i dati del Comune di Milano non sono precisi
  • sia i dati ISTAT che i dati del Comune di Milano non sono precisi

Attualmente i dati vengono raccolti e immagazzinati attraverso un’architettura client/server. Purtroppo rimarremo con questo dubbio fino a quando i dati centralizzati non collimeranno con quelli decentralizzati.

Il rischio è che, senza un adeguato coordinamento generale e senza l’adeguata sensibilità di tutte le singole amministrazioni locali si introducano ulteriori imprecisioni.

 

Quali formati pubblicare?

Una volta elaborati i dati, occorre pubblicarli.

I formati attualmente scelti dall’ISTAT sono Excel (sic!), CSV e SDMX.

Per capire se questi formati sono adatti per effettuare correlazioni tra dati eterogenei (non necessariamente compresi tra quelli pubblicati dall’ISTAT) ho chiesto l’illustre parere di Titti Cimmino, una persona che ritengo tra le più esperte e qualificate in assoluto su questa materia.

**********

D: Titti, che caratteristiche hanno i formati con cui pubblica l’ISTAT? Possiamo definirli “open data“?

R: Permettimi innanzitutto, caro Capitano, di anticipare che il mare su cui stai navigando con questo tuo post non si lascia governare semplicemente. Sarò breve nelle risposte e senza la velleità dell’esaustività. Cominciamo con la questione scottante dell’Open Data.

No, decisamente i dati ISTAT non sono Open Data. E il motivo si evince dal raffronto tra:

1) Quanto hai verificato e riportato qualche riga sopra: i dati ISTAT non sono completi, sono spesso rilasciati in formato Excel, addirittura “possono non essere completi, esaurienti, precisi o aggiornati”.

2) Le caratteristiche che definiscono gli OPEN DATA debbono essere:
  • Completi: Tutti i dati pubblici saranno resi disponibili. I dati pubblici sono tutti i dati eccetto quelli che sono soggetti e valide restrizioni di riservatezza e sicurezza;
  • Primari: I dati saranno raccolti alla fonte, con il massimo livello possibile di dettaglio, non in forme aggregate o modificate;
  • Tempestivi: I dati sono resi pubblici tanto velocemente quanto è necessario per preservarne il valore.
  • Accessibili: I dati saranno disponibili al più ampio numero di utenti per la più ampia varietà di scopi;
  • Leggibili dai computer: I dati saranno strutturati per consentire di essere processati in modo automatico;
  • Non discriminatori: I dati saranno disponibili a chiunque, senza necessità di registrazione;
  • Non proprietari: I dati saranno disponibili in un formato sul quale nessuna entità ha esclusivo controllo;
  • Liberi: L’uso e il riuso dei dati non dovrà essere soggetto ad alcuna restrizione derivante da copyright o brevetto.

Per quel che attiene alle caratteristiche sparse (a parte alcuni data set pubblicati nel formato SDMX, o altri in quello CSV), direi che il punto di forza di recente raggiunto dall’ISTAT sta tutto nella licenza di rilascio dei dati: “Salvo diversa indicazione, tutti i contenuti pubblicati su questo sito sono soggetti alla licenza Creative Commons – Attribuzione – versione 3.0 o successiva”, come si legge sulla pagina del sito relativa alle note legali.

Dunque “È dunque possibile riprodurre, distribuire, trasmettere e adattare liberamente dati e analisi dell’Istituto nazionale di statistica, anche a scopi commerciali, a condizione che venga citata la fonte.
Le immagini, i loghi (compreso il logo dell’Istat), i marchi registrati e gli altri contenuti di proprietà di terzi appartengono ai rispettivi proprietari e non possono essere riprodotti senza il loro consenso.”

Mi pare un gran balzo in avanti nella conquista di una caratteristica fondamentale tra quelle che definiscono gli Open Data! E non di poco conto soprattutto nel contesto italiano che ancora fa fatica a lavorare in modo chiaro, non equivoco, sistematico, diffuso e condiviso in questo “mare aperto” (vedasi caso ENEL-OPEN DATA).

Intendiamoci, nonostante i dati ISTAT non siano sempre “puliti” o “aggiornati”, non mancano esempi di riutilizzo dei dati stessi o di creazione di Linked Data a partire da quelli. Ecco qualche esempio:

  • di recente è stato pubblicato il primo dataset che mi è stato passato in una mailing list come LOD (Linked Open Data) di dati ISTAT, a partire da rilevazioni statistiche dal 1999 al 2008 sul tema immigrazione.

I dati sono scaricabili in RDF o interrogabili via SPARQL endpoint.
RDF, SPARQL endpoit sono “elementi del web semantico” che potremmo approfondire in un’altra navigazione (le acque sennò si agitano troppo!)

Faccio notare che la licenza di pubblicazione era ed è ancora quella più vicina alla ex licenza di copyright di ISTAT. Dunque sarebbe stato corretto definire il set solo di natura Linked Data e NON OPEN!! (Continuo a ritenere che la confusione alligna nello Stivale, e non è quella di cui parlava MAO, perché la situazione è tutt’altro che eccellente!)
Naturalmente, avendo l’ISTAT adottato una licenza aperta, ci aspettiamo una modifica della licenza anche del dataset in oggetto (quando?).

  • Qualche applicazione sul tema spesa pubblica a partire da dati ISTAT
  •  Visual data sempre sullo stesso tema con i dati delle spese delle PA sono forniti dal Ministero dello Sviluppo Economico – Conti Pubblici Territoriali e i dati della popolazione italiana sono forniti dall’ISTAT.

 

D: Ritieni che questi formati possano essere adatti per “linkare” i dati ISTAT con quelli provenienti da altre fonti e piattaforme, possibilmente in modo semplice e veloce?

R: Temo che con le limitazioni strutturali dei dati ISTAT rilasciati sul sito, prima di riutilizzarli per linkarli ad altri set si debba procedere a varie operazioni di “ripulitura”, di “riordino/aggiornamento”: ne è un esempio il tentativo fatto da GFOSS.

Concludo con un interessante “datawarehouse delle statistiche prodotte dall’Istat, un patrimonio informativo completo ed omogeneo, unico per la statistica italiana” basato sulla tecnologia datawarehouse OECD: si tratta di I.STAT.

Per esempio potremmo esportare i dati relativi agli indicatori sull’acqua per uso domestico per i comuni capoluogo di provincia in formato SDMX, ma anche qui si vede sempre Excel da cui i dati si fanno vedere, ahimé.

 

D: Ecco, tu hai giustamente fatto riferimento al formato SDMX, uno di quelli messi a disposizione dall’ISTAT. Illustracene un po’ le caratteristiche.

R: SDMX è uno standard per lo scambio di dati e metadati statistici. E’ di sicuro il miglior mezzo per l’interscambio, l’interoperabilità di dati statistici, voluto fortemente da Eurostat, BCE, OCSE, FMI, Banca Mondiale, per fare qualche “nome”. Questo è il primo livello per la riusabilità dei dati: intanto lo standard abbatte l’ostacolo dell’interoperabilità, delle conversioni varie e delle relative onerosità aggiunte, per poi , una volta avuti i dati, gestirli con software propri.
E’ dunque un ottimo viatico per l’Open Data: a tal proposito inevitabile è il salto a progetto SODI. Per dati di altra natura c’è lo standard RDF (ma qui ci avviciniamo alla casa Linked Data).

 

D: Grazie Titti, sei stata chiarissima ed esaustiva, come sempre. E’ stato un vero piacere ospitarti su questo blog.
RNon si dovrebbe navigare a vista per questi mari (accontentarsi di Excel né di dati incompleti o sporchi o…): quando esco per mare, mare aperto, scelgo la navigazione integrata. Buon vento!

**********

In conclusione

Non si tratta quindi di avere dati in formato open pubblicati sul web periodicamente a cura di chi li gestisce. Si tratta di consentire a chiunque ne abbia l’interesse e le capacità di poter accedere autonomamente a queste informazioni in qualunque momento da qualunque luogo, con la massima freschezza, eventualmente correlate tra loro.

L’innovazione transita dalla conoscenza e la conoscenza ha bisogno di dati oggettivi per generare altra conoscenza.

Sapere la situazione di un fenomeno in un certo istante è informazione.

Sapere come ci si è arrivati è conoscenza.

Tra l’ultimo censimento e l’attuale abbiamo un vuoto di dieci anni durante i quali – tra alti e bassi – è successo di tutto.

Per rendere l’idea di quanto tempo sia passato, ricordiamoci che nel 2001 esistevano ancora le torri gemelle, Apple lanciava l’iPod, venivano arrestati Milosevic e Jaruzelsky per crimini contro l’umanità (ma Pinochet riusciva a scamparla) e l’Argentina dichiarava bancarotta; insieme alle torri, in tutto il mondo crollavano anche le Borse, le economie e i tassi di occupazione. In Italia Berlusconi veniva eletto capo del Governo e al G8 di Genova succedeva un macello (in tutti i sensi).

**********

Da dove nasce quindi l’esigenza di effettuare un censimento ogni dieci anni precisi? Diciamo che poco dopo l’unità d’Italia si era pensato che fosse un ragionevole intervallo di tempo, sia alla luce delle minori dinamiche sociali che dei maggiori costi per la raccolta dei dati.

Il fatto che sia stato rigorosamente mantenuto fino ai giorni nostri è legato alla opportunità di avere dati censuari delle varie edizioni confrontabili tra loro.

Oggi questo intervallo è palesemente inadatto alle esigenze del Paese: basti vedere come nel giro di poche settimane siamo passati dall’essere un Paese che non aveva nulla di cui preoccuparsi e con buone prospettive di sviluppo, all’essere un Paese sull’orlo del default, prigioniero delle condizioni imposte dalla BCE.

**********

Dicevamo che il costo di questo censimento si aggirerà intorno ai 590 milioni di Euro: per rendere l’idea dell’impatto sulle tasche degli italiani, corrisponderebbe a circa l’1 per mille dell’ultima manovra finanziaria, quella “lacrime e sangue” da 55 miliardi di Euro, ripartendo però per omogeneità questo costo su dieci anni (l’intervallo tra un censimento e l’altro).

Considerando inoltre che di manovre finanziarie ce ne sono tutti gli anni, la percentuale diminuisce ancora di parecchio.

Eppure l’Italia si trova nella situazione paradossale di un Paese obbligato a compiere un censimento inutile sotto certi aspetti e scomodo sotto altri, che molti hanno avrebbero continuato a rimandare, se avessero potuto, non solo per motivazioni economiche.

Il risultato – escludendo i risicati risparmi in termini di tempo e di costi – di fatto è ridotto a puro esercizio di stile, a progetto sperimentale.

E allora, a chi e a cosa serve? Sarò felicissimo di essere smentito dai fatti, ma tutti i segnali portano in un’unica direzione:

  • questi dati serviranno a ben poco.
  • questo censimento servirà, come tutti quelli che lo hanno preceduto, a colmare le inefficienze delle amministrazioni locali.
  • questo censimento NON servirà per rilanciare lo sviluppo del Paese.

Il vero valore aggiunto sarebbe potuto arrivare dalla disponibilità di dati in tempo quasi reale, distribuiti e interconnessi.

Purtroppo ridurre questo intervallo significherebbe aumentare i costi, quindi non sarebbe una ipotesi sostenibile in questo momento, a meno che non si abbattano questi costi sviluppando soluzioni innovative e adottando nuove forme di sostegno per l’ISTAT, fino al raggiungimento dell’indipendenza finanziaria e politica da parte dell’ISTAT stesso.

Ora ritengo di dovermi fermare qui per non aggiungere troppa carne al fuoco, ma c’è dell’altro.

Mi riferisco alle città intelligenti, ai dialoghi M2M (machine to machine), agli aggiornamenti automatici.

Per approfondimenti sul tema suggerisco queste interessanti letture:

A proposito: di Smart Cities del Futuro si è parlato anche a Innovatori Jam 2011.

Chiudo con una frase di Michele che mi sembra perfetta:

Governare i dati implica la capacità, la lungimiranza, di metterli in relazione tra di loro per generare valore, democrazia, civiltà.

Related Articles:

Post Footer automatically generated by Add Post Footer Plugin for wordpress.

 

8 comments

  • titti cimmino scrive:

    Innovazione e Trasparenza sono semplicemente memi nella mente dei decision makers italiani (o almeno di troppi di questi). Il World Population and Housing Census Programme delle Nazioni Unite ha l’ambizione di attivare un sistema di rilevazioni demografiche valido su scala planetaria, dal momento che il censimento è ormai diffuso in quasi tutte le Nazioni. Le rilevazioni censuarie periodiche costituiscono risorse primarie per l’elaborazione di dati indispensabili per la pianificazione dello sviluppo sociale ed economico di tutti i popoli del mondo. Con tali risorse ci si propone il raggiungimento immediato del costante monitoraggio delle caratteristiche demografiche e delle tendenze sociali ed economiche, ma soprattutto l’aspirazione principale è quella d’elevare gli standard di vita della popolazione globale. La Divisione Statistica dell’organizzazione mondiale ha suggerito una serie di raccomandazioni metodologiche, miranti in particolare a uniformare le modalità d’attuazione e le caratteristiche socio-demografiche da rilevare. Sono curiosa di sapere “come” hanno recepito in Casa Nostra tali raccomandazioni. Grazie per questa tua preziosissima analisi!

  • Asterix scrive:

    Oggi 9 Ottobre giorno del censimento on line. I server sono saltati così come il centralino telefonico.

    Dov’è la rivoluzione ?

    Ciao

    • roberto scrive:

      @Asterix Ti ringrazio per la segnalazione.
      Ho fatto un rapido giro di verifica con i miei contatti: tutti con lo stesso problema.
      Come volevasi dimostrare.
      Oltre a non essere una rivoluzione, questa iniziativa non riesce a soddisfare nemmeno le aspettative base.

  • Pietro Addis scrive:

    Questa mattina 10 ottobre ho compilato online il censimento; non ho incontrato difficoltà di sorta! ho stampato la ricevuta che attesta la avvenuta spedizione; spero che utilizzando la via informatica abbia contribuito a far abbassare il costo del censimento.

    • roberto scrive:

      Lo spero anch’io, Pietro.
      Temo purtroppo che gli unici benefici di questo censimento siano un po’ di risparmio rispetto alla raccolta cartacea e la presa di confidenza col canale digitale sia da parte della PA che di molti cittadini.
      L’innovazione e il rilancio dell’economia invece possono aspettare: nel frattempo navighiamo a vista.
      Ciao e grazie del commento.

  • Matteo Brunati scrive:

    Ciao Roberto,
    collegato a questo tema, l’altro giorno ho raccontato l’esperienza promossa da SpazioDati con il progetto LinkedStat:
    LinkedStat e le semantic API di dataTXT: modi diversi di relazionarsi con la Linked Open Data cloud (LOD)

    Non è esattamente il censimento, ma è un gran bel miglioramento. Ne scriverò nei prossimi giorni anche sulla filiera di collaborazione pubblico-private di nuova concezione.


Leave a comment