La classificazione a faccette in una biblioteca informatica – parte I

La classificazione a faccette è un metodo di categorizzazione dell’informazione che si oppone alla tradizionale abitudine di categorie gerarchiche. E se detta così vi sembra che non c’entri niente con l’informatica, vi posso dire che ne avete un esempio proprio qui a destra, nella cosiddetta tag cloud.

Approfondiamo un po’ il discorso.

Categorizzazione

L’esigenza di categorizzare l’informazione, in modo da rendere più facile la ricerca di un qualunque testo o altro elemento, risale alla nascita delle biblioteche. La modalità tradizionale era quella di creare delle categorie distinte e assegnare ogni elemento a quella più adatta.

Ad esempio il metodo decimale Dewey, usato tuttora nella maggior parte delle biblioteche, si basa su una gerarchia predefinita di categorizzazione, che parte da una suddivisione più generica passando a una via via più specifica. Ad esempio si potrebbe dire che un manuale sul PHP potrebbe far parte di:

informatica -> programmazione -> linguaggi -> PHP

A ciascun livello non possono esserci più di 10 categorie, identificate con numeri dallo 0 al 9. L’unione dei numeri corrispondenti a ciascun livello ci fornisce il codice di un libro.

Sul Web

Il tipo di classificazione per gerarchia di categorie è abbastanza naturale ed è stato applicato anche al web. Avete presente Yahoo? Quasi tutti i portali storici si basano su una ricerca per categorie e sottocategorie.

Il primo vantaggio del web rispetto al libro è che un sito può essere messo in più categorie. La classificazione di un libro infatti ne determina la posizione sugli scaffali, per cui un libro non potrà far parte che di una sola categoria. Sul web invece i link a un sito a una pagina web sono facilmente duplicabili in diverse categorie.

Ma non basta.

Sia se parliamo di pagine web che di libri, le categorie di appartenenza potrebbero essere molte, e si rischia di avere un albero molto esteso o la presenza dell’elemento in molte categorie diverse (che però confonde un po’ la ricerca).

E’ nata pertanto la teoria delle faccette.

Le faccette

Da un punto di vista formale, le faccette sono le risposte a una serie di domande che ci permettono di identificare qualsiasi informazione: qual’è l’azione, chi la compie, chi la subisce, quando si svolge, dove si svolge, e così via. Un po’ come le relazioni sui libri che ci facevano fare alle medie. 🙂

Estendendo però un po’ il discorso, la cosa si fa interessante. Stiamo parlando di definire una serie di parole chiave da associare a qualunque foto, testo, scheda… praticamente un tag. Ormai, lo sappiamo tutti, l’utilizzo dei tag per classificare qualcosa sul web è diventato un’abitudine. A differenza delle categorie, di solito i tag non sono gerarchici ma tutti sullo stesso livello: vengono evidenziati quelli per cui c’è maggior contenuto.

Il problema dei tag è la confusione. Se ciascuno può inserire quello che vuole come tag, come si fa a mantenere una coerenza? Pensate a parole al singolare e al plurare, varianti come “mail”, “e-mail” e “email” che si riferiscono allo stesso concetto; oppure semplicemente al fatto che chiunque (anche la stessa persona in due momenti diversi) tende a classificare secondo logiche diverse.

La soluzione ideale quindi è la combinazione dell’uso dei tag, comodissimo e ormai standard sul web, con la teoria delle faccette, cioè fare in modo che i tag diventino la risposta a una serie di domande per classificare l’argomento.

GiBiLog

Infatti. I tag che vedete nella tag cloud di questo stesso blog sono realizzati in questo modo: definendo una serie di domande e una serie di possibili valori per ogni articolo, in modo da garantire che la classificazione fosse coerente e utile.

Ci siamo riusciti? Questo lo direte voi. Nel prossimo articolo illustrerò lo schema di domande e risposte utilizzato, che consiglio a chiunque debba creare una raccolta di articoli a livello informatico (blog ma anche documentazione interna o knowledge base di un programma).

Il

Tag: ,