Proudly debugging the system since 1981

Tag: semantica

Categorizzazione automatica e antispam

Mi ricollego ad alcuni post sul concetto di web 3.0 fatti qualche tempo fà, le linee guida sembrano essere state definite in modo preciso  e la chiave di volta dovrebbe essere riuscire a far comprendere ai pc le informazioni che trattano. Questa affermazione è semplicistica, ci sono ovviamente molti gradi di comprensione. Quella più “semplice”, se consideriamo come “informazione” i testi scritti in linguaggio naturale, è raggruppare le parole usate in aree semantiche ( a.k.a. analisi semantica) e non richiede nessuna tecnologia particolarmente potente e strana. Bisogna avere la pazienza di mappare il linguaggio naturale in qualcosa che assomiglia ad un “dizionario dei sinonimi e contrari” digitale un pochetto più evoluto.
Si puo fare a manina, si possono usare metodi statistici, ma cmq è fattibile.
Quello che non è fattibile è la categorizzazione automatica, al momento, (secondo Marco Varone, di cui leggo il blog sempre con molto piacere), ovvero da una serie di testi in lingua naturale, opportunamente categorizzati da esseri umani, ricavare per induzione tramite un algoritmo le regole di questa categorizzazione e applicarle ad un insieme molto piu grosso di documenti.

Ma, mi chiedo, non è ciò che fanno i filtri bayesiani degli antispam ? Categorizzazione molto semplice, spam o non spam, ma pur sempre categorizzazione automatica basata sul training da parte di un essere umano su un numero ridotto di documenti in linguaggio naturale.
Un algoritmo bayesiano, volendo ridurre la cosa ai minimi termini, fornisce come risultato la probabilità che un testo sia dello stesso “tipo” di altri testi con cui è stato addestrato.

Il Web del 2008. Previsioni

Queste classifiche non sono quasi mai azzeccate ma permettono di riflettere ora sul futuro e tra un anno, rileggendo questa pagina, su cosa NON è stato il 2008.

Ecco la mia versione :

  1. Le applicazioni semantiche si avvicineranno alla realtà e il grande pubblico inizierà a percepire le potenzialità di una tecnologia che comprende i dati che tratta, nonostante ciò la Macchina-Da-Risposte-Definitiva non verrà creata nel 2008
  2. Non uscirà il GoogleOS, ma molti miglioreranno a tal punto le loro web applications tanto che si inizierà a parlare di WebOS
  3. Il mercato della pubblicità online continuerà a crescere in termini economici. Per sostenere questa crescita i network pubblicitari dovranno espandere i loro canali, acquisendo in modo ancora più aggressivo, in quanto aumentare i costi ora equivarrebbe a un big crunch al pari di quello appena superato.
  4. Sempre meno gente vedrà Google in modo positivo. BigG di conseguenza dovrà essere sempre più “necessario” per andare avanti (stessa fine di Microsoft insomma)
  5. Nonostante UMTS, WiMAX, WiFi e altre cavolatine non avremo ancora internet ovunque ad un costo accettabile per i più. Cresceranno gli utenti internet mobile ma non sarà ancora il boom.

© 2024 b0sh.net

Tema di Anders NorenSu ↑