Web semantico e linked data

Il web, per come lo conosciamo e per come è stato concepito fin dalla sua nascita, è un enorme insieme di informazioni, di documenti. Negli anni si è espanso in maniera esponenziale e oggi è un mastodontico sistema che ingloba informazioni di ogni tipo in una miriade di formati diversi, principalmente presentati in forma di documenti HTML o XHTML. Questi documenti vengono generati, nella maggioranza dei casi, da script lato server che interrogano basi dati ed eseguono delle query in base alle richieste dei client. Il problema è che i dati in quanto tali, essendo mascherati e presentati in base a delle specifiche necessità dei gestori dei vari siti web non sono disponibili direttamente. Se questo dal punto di vista di un singolo essere umano che legge una pagina web è un bene, per una macchina che esegue una scansione del web (un crawler) non è il massimo della semplicità.

Una macchina si troverà di fronte, nella maggioranza dei casi, un dato formattato in HTML o al più disponibile tramite RSS. Questo documento dovrà quindi essere ripulito da tutti i tag che lo racchiudono e dovrà poi essere interpretato e categorizzato. La cosa è più semplice a dirsi che a farsi. Il primo passo verso un web formato da dati interpretabili nel loro significato anche dalle macchine è sicuramente quello di fornire un formato standard che sia utilizzabile per raccogliere e categorizzare le informazioni sparse nel mondo della Rete. Lo stesso “inventore” del network più grande, sir Tim Berners Lee, promuove una sorta di movimento che ha come motto «Raw Data Now» («dati grezzi subito»).

In pratica il vero passo in avanti del web sarebbe la liberazione dei dati dai formati e dalle formattazioni. I dati nella loro forma più pura (Raw Data) possono essere connessi (Linked Data) e strutturati. Cosa significa dunque tutto ciò? Possiamo immaginare un nuovo modo di cercare le informazioni e di effettuare delle query mirate che abbiano come obbiettivo quello di rispondere a domande specifiche. Ad oggi, infatti, tutti sanno cosa sia Google e come esso funzioni. Normalmente le persone introducono delle parole specifiche nella barra di ricerca e hanno migliaia di risultati in risposta forniti dal motore di ricerca. Ma se iniziamo a cercare inserendo delle domande complesse che abbiano una forma molto vicina al nostro comune linguaggio i risultati iniziano a divergere completamente da quello che noi effettivamente ci attendiamo come risposta. Basterebbe effettuare, ad esempio, una ricerca su un determinato argomento della medicina o dell’ingegneria e al più Google riporterebbe in cima degli articoli di Google Scholar.

Il motore di ricerca fornisce quantità enormi di risposte divise in decine di pagine, ma i risultati esatti su tali quantità possono anche essere pari a zero. Il modo di interpretare i dati in maniera semantica, comprendendone effettivamente il significato intrinseco, è strettamente correlato al nostro modo di pensare e di costruire concetti. Le nostre idee, i nostri pensieri possono essere resi elementari in una forma che è rappresentabile come SOGGETTO – PREDICATO – OGGETTO, in parole povere una tripla. Da questo concetto nasce  quella che viene chiamata “triplificazione dei dati”. Vediamo di capire di cosa si tratta nello specifico.

Una base dati, per come è strutturata nella maggioranza dei sistemi di oggi, è formata da tabelle che vengono costruite in base a una sorta di classificazione che fa capo al concetto di Entità. Tali entità vengono dunque descritte da una determinata struttura che serve a inglobare dei dati elementari che la descrivono. Per esempio, un utente di un sito web viene registrato tramite login, password ed email; l’utente allora verrà descritto da questi tre elementi e ad esso verrà poi associato un identificatore univoco – ID – per quella tabella, che potremo chiamare Tabella Utente per semplicità. Se poi questo utente interagisce, com’è auspicabile, con altre parti del sistema informativo, esso dovrà essere collegato ad altre entità: ecco qui la nascita di un modello Entità—Relazione. Questo modello è alla base di tutti i database relazionali e permette di effettuare delle associazioni e delle ricerche al proprio interno con un linguaggio come SQL.


Vi chiederete allora dove stia il problema in tutto questo. Se un sistema è pensato come strettamente chiuso (una banca) problemi non ce ne sono, ma se lo stesso sistema è pensato come aperto, per esempio una base dati governativa oppure un sito che dovrebbe racchiudere al proprio interno le informazioni relative a delle pubblicazioni scientifiche ecco che il problema è lampante. Bisogna cercare un modo di rendere i dati accessibili e comprensibili anche da sistemi informatici atti alla categorizzazione automatica al riconoscimento di dati univoci e alla loro strutturazione e presentazione in un sistema complesso. Quello che si vuole fare è rendere i dati il più possibile aperti e integrabili.

Per riuscire in questo intento nel tempo si è formato uno standard per tali dati strutturati in triple chiamato (Resource Description Framework) e un esempio concreto può essere fornito da due distinte versioni degli stessi contenuti:

Il sito non fa altro che fornire nel formato HTML e nel formato RDF lo stesso contenuto. Nel caso di RDF i contenuti sono serializzati tramite XML, quindi esposti presumibilmente alle macchine piuttosto che alle persone. Visto che ultimamente è molto in voga esprimere concetti complessi tramite infografiche non sarò da meno e vi propongo di dare un’occhiata a questa qui di seguito.

tags Tags: ,
categorieCategorie: Internet

Forge Of Empires Italia

Comments are closed.