Filtro Bayesiano in PHP

elefante PHPSegnalo una interessante implementazione dei filtri bayesiani in php + mysql. Il fenomeno dello spam, ora molto focalizzato sulle caselle email, inizia già a prendere di mira il web “commentabile”. WordPress ha gia l’ottimo Akismet che sbaglia veramente poco ma per una applicazione “from scratch” può tornare molto utile.

Class: Bayesian Spam Filter (spam, filter, classified) – PHP Classes
This class can be used to detect spam in text messages using Bayesian techniques. It analyzes the text words in terms of n-grams in a way that is idiom independent. It can be trained to progressively distinguish what is spam and what is not spam by detecting patterns in training samples. Training data is stored in a MySQL database.

“january 1 tcp/ip”

Mi ci infilo anche io nel calderone.
Quale calderone? Quello che mostra un “buco” negli algoritmi di ranking di google, dimostrato per l’occasione da quelli che alcuni chiamano SEO mentre altri chiamano Spammer. La cosa è nota comunque alla gran parte della comunità dei professionisti del web. Ovvero se la keyword che viene cercata su google appare nell’url del tuo sito, nel titolo, in parti in grassetto, in parti racchiuse dai tag H (<h1>, <h2>, <h3> e cosi via) allora quella pagina avrà piu peso per google e quindi un ranking migliore.
Aggiungiamo che l’operazione è stata eseguita su una keyword inusuale ed ecco come per magia il piazzamento in prima posizione.

Buco in ogni caso è una parola grossa, sappiamo che il pagerank è solo uno degli oltre cento fattori che concorrono al posizionamento di una pagina in google, per sua stessa ammissione.

Quello che ne esce alla fine, buco o non buco, è che le ricerche di google stanno perdendo di qualità. Sia perche è l’osservato speciale di un esercito di SEO pronti a sfruttare qualsiasi stratagemma per alterare le ricerche, sia perchè il web corre, produce molto, cambia tecnologie come fossero calzini, e mi sembra di vedere un certo affanno di google a starci dietro…

Riflessione ispirata da : Downloadblog.it