Ridefinendo il web

la rete di computer (Web 1.0) e quella di persone (Web 2.0) può essere definita come Internet delle cose o Web 3.0.

Via Oneweb20.it

Ma i computer non sono cose? Quindi il web 3.0 sarà un ritorno all’ 1.0. Bello: Altavista, Geocities, IOL … sisi li  rivoglio.

Web : Comunicazione Unidirezionale (pochi comunicano a molti, senza ottenere risposta)

Web 2 : Comunicazione Bidirezionale (molti comunicano con molti, producendo, commentando, mischiando, e segnalando)

Web 3 : Chi vivrà vedrà, ma la tendenza è verso l’ organizzazione del mare di dati creati nella fase 2.

Cosi, giusto per chiarire un paio di cose…

Categorizzazione automatica e antispam

Mi ricollego ad alcuni post sul concetto di web 3.0 fatti qualche tempo fà, le linee guida sembrano essere state definite in modo preciso  e la chiave di volta dovrebbe essere riuscire a far comprendere ai pc le informazioni che trattano. Questa affermazione è semplicistica, ci sono ovviamente molti gradi di comprensione. Quella più “semplice”, se consideriamo come “informazione” i testi scritti in linguaggio naturale, è raggruppare le parole usate in aree semantiche ( a.k.a. analisi semantica) e non richiede nessuna tecnologia particolarmente potente e strana. Bisogna avere la pazienza di mappare il linguaggio naturale in qualcosa che assomiglia ad un “dizionario dei sinonimi e contrari” digitale un pochetto più evoluto.
Si puo fare a manina, si possono usare metodi statistici, ma cmq è fattibile.
Quello che non è fattibile è la categorizzazione automatica, al momento, (secondo Marco Varone, di cui leggo il blog sempre con molto piacere), ovvero da una serie di testi in lingua naturale, opportunamente categorizzati da esseri umani, ricavare per induzione tramite un algoritmo le regole di questa categorizzazione e applicarle ad un insieme molto piu grosso di documenti.

Ma, mi chiedo, non è ciò che fanno i filtri bayesiani degli antispam ? Categorizzazione molto semplice, spam o non spam, ma pur sempre categorizzazione automatica basata sul training da parte di un essere umano su un numero ridotto di documenti in linguaggio naturale.
Un algoritmo bayesiano, volendo ridurre la cosa ai minimi termini, fornisce come risultato la probabilità che un testo sia dello stesso “tipo” di altri testi con cui è stato addestrato.

Wikia Search

Che il mondo dei motori di ricerca abbia bisogno di una ventata di nuovo si sà. Il problema è da dove possa venire.
Un tentativo degno di nota è quello di Wikia/Wikipedia. Jimmy Wales infatti ha annunciato il lancio della private beta di wikia search per questo 7 gennaio.

La metodologia è differente. Si parte dal contributo delle persone, e dalla analisi semantica. I punti chiave sono:

  1. Trasparenza: Apertura su come funziona il sistema e gli algoritmi, nel senso di Open Source, contenuto aperto e API
  2. Comunità: Tutti possono contribuire in qualche modo
  3. Qualità: Migliorare sensibilmente la rilevanza e l’accuratezza dei risultati
  4. Privacy: Deve essere protetta, non vengono conservati o trasmessi dati personali

L’approccio è sicuramente interessante vero?

Per saperne di più: La wiki di Wikia Search

P.S. : E’ partita e a differenza di quanto dicevo è un public beta! http://alpha.search.wikia.com/

Web Semantico … nuova buzzword

Che sia diventata la nuova buzzword alla fine lo abbiamo percepito, in modo più o meno chiaro, tutti. Questo può essere positivo per via dell’attenzione che si dedica a questo nuovo argomento e alla spasmodica volontà di primeggiare in qualcosa che attualmente è “fico”. Dall’altra può essere negativo perchè non c’è nulla di peggio delle aspettative disattese.

Ho fatto qualche post da predicatore sul web semantico, pur non essendo un esperto, perchè secondo me ci vuole un forte sviluppo tecnologico su questo fronte, non solo uno sviluppo del chiacchiericcio. E per dire questo basta un pò d’attenzione. Poi scopro di essere fondamentalmente d’accordo con uno dei massimi esperti di semantica italiani, quindi credo di aver ragione.

Tutto questo per linkare un articolo di Marco Varone su questo argomento.

Spock.com


Ed eccoci a Spock.com
L’invito alla beta è arrivato quasi subito dopo la richiesta. Di cosa si tratta?
Di un aggregatore di informazioni personale prese da network sociali, con l’aiuto di informazioni fornite dagli stessi utenti di Spock.com.

L’utente che si iscrive è invitato a fornire tutti gli indirizzi email dei propri contatti. Spock puo importare dati da Outlook, Yahoo Mail, Hotmail, AOL, Gmail, Plaxo e Linkedin. Una volta importati i tuoi contatti ti chiede l’account che usi su alcuni network sociali, in modo da collegare gli account e importare altri amici. Fatto questo puoi invitare alcuni altri amici, se ancora ne hai, attraverso la formula degli inviti ristretti (tipo gmail). Naturalmente taggando chi stai per invitare, cosicche anche queste persone vanno a far parte del grande database di Spock. Anche se non accettano l’invito ovviamente.

A parte la discutibile caccia ai dati personali (ha gia schedato 160.000 persone in Italia, 300.000 in Francia, 2.000.000 in California) di semantico questo “aggregatore” non ha proprio nulla.
Le domande non possono essere formulate in linguaggio naturale. Non ha capacita di analisi del testo di altri siti.

Per esempio io non ci sono. Una persona che cerca di me sul web puo scoprire quasi tutto. Dove vivo, dove lavoro, gusti e preferenze personali, anche il titolo di studio. Questo mi aspetterei da un vero “spider semantico”. Creare ordine (ovvero la scheda personale) dal caos (ovvero tante informazioni sparse in altrettanti siti).

Ma Spock.com per la catalogazione si basa su tag e profili gia presenti. Il tutto si basa sulla riduzione a Tag di informazioni prese da profili su network sociali pubblici con un aggiuntina di taggatura da parte degli utenti stessi che invitano amici e parenti.
Ok è il del.icio.us delle persone… Ma non chiamatelo pomposamente “il primo motore di ricerca semantico”.

Confusi dalla versione del Web ?

Da Punto-Informatico di oggi:

“uno dei primi – se non il primo – search engine costruito completamente intorno al concetto di web semantico, o 2.0″

Si parla di Spock.com un motore di ricerca che permette si focalizza sulle persone e ne trova vari dettagli. Il problema è l’associazione tra web semantico e web 2.0.

Ok, sono 2 buzzword, ma almeno usiamole per quello che significano.

Magari leggere il manifesto del web 2.0 di O’Reilly potrebbe essere utile.
Inglese (originale)Italiano

P.S. : Quanto a spock.com … mi iscrivo 😀

Ancora web3 (o web semantico)

Da Siti Webmarketing:

“Dove posso andare in vacanza quest’estate?

La vera rivoluzione non sarà tanto legata all’offerta di qualche destinazione per la vacanza, d’atra parte riportare la domanda come citata sopra o scrivere a google “vacanze estive” non è molto differente, anzi è forse più semplice la seconda soluzione alla luce del fatto che molti si sono adattati al linguaggio di google, visto che lui non si adattava al nostro. La vera rivoluzione, dicevamo, sta nelle intenzioni: quando il motore di ricerca potrà comprendere che dietro quella domanda c’è il mio odio per la montagna, amore per il mare, disponibilità di budget e ferie sempre di due settimane, allora avremo veramente fatto un passo avanti verso la soluzione del problema della ricerca. Si potrebbe pensare che tutto questo è utopia e che nemmeno noi sappiamo con certezza alcune di queste cose, il futuro però dipende dal passato ed è legato alle abitudini. Google già permette di accettare che il motore tenga traccia delle azioni dei singoli utenti al fine di offrire risultati di ricerca migliori adeguando i futuri alle ricerche passate. Se ad esempio nelle mie ricerche compare spesso la parola mare, probabilmente il mese prossimo alla mia ricerca “vacanze” saranno le mete di mare a comparire in testa ai risultati restituiti.”

Prima di tutto devo dire che preferisco leggere di Giorgio Soffiato quando parla più di marketing e meno di tecnologia. Il concetto infatti viene appena accennato, si parla di web semantico e di motori di ricerca semantici senza andare a fondo. Ok si intuisce che se si aggiunge la parolina magica “Semantico” quel qualcosa si trasforma in una macchina da risposte.
Un motore di ricerca semantico semplicemente prova a comprendere quello che gli viene chiesto in linguaggio naturale. Ricordate Clippy di MS Office di qualche anno fa ? Ecco quello era un motore di ricerca semantico per la guida in linea. Triste vero ?

Bisogna chiaramente andare oltre. E andare oltre non significa che il motore di ricerca debba necessariamente conoscere la mia preferenza verso il mare o la montagna, ma che tanto per iniziare, almeno comprenda la domanda. E non risponda a caso se non la comprende, chiedere di specificare meglio è lecito. I meccanismi di disambiguazione sono allo studio, ma sono difficili da realizzare. Perché la corretta comprensione di una frase si basa, in gran parte, sul background culturale comune di chi la pronuncia e di chi la ascolta. Senza contare che la cosa è in continua evoluzione. E anche se oggi trovassimo in un cassetto l’algoritmo e le regole per l’interpretazione di frasi in linguaggio naturale, difficilmente questo sarà ancora valido tra 5 anni.

Un altro triste esempio di come i computer sono ben lontani da capire quello che le persone scrivono sono i programmi di traduzione automatica. Nonostante sia disponibili sul mercato consumer da 10 anni (a quanto ricordo io…) ancora siamo lontanissimi da una traduzione efficiente. Di certo non perche il computer non ha in memoria le regole di entrambe le lingue. Neanche perché ha un dizionario sotto-sviluppato. Ma perché non capisce il senso di ciò che traduce e quindi non riesce a preservarlo nella lingua successiva.

In definitiva ripeto quello che ho scritto qualche post fà. Prima deve venire una intelligenza artificiale sufficientemente sviluppata da comprendere il senso del linguaggio naturale e di stare al passo con la sua evoluzione, e poi avremo il web semantico. Quello vero. Non una barzelletta da informatici come è stata Clippy.