Proudly debugging the system since 1981

Tag: probabilità

Probabilità composta

La probabilità che, scelto un trifoglio a caso, sia in realtà in quadrifoglio é 1 su 5000, stando a wikipedia, il che significa che la probabilità che scegliendo a caso 9 trifogli sia in realtà tutti quadrifogli é di cinque per dieci alla meno 34. Vincere al SuperEnalotto é molto ma molto più probabile con un bel 1,6 per dieci alle meno 9. Non é andata ovviamente così ma la probabilità di trovarne 9 in un vaso mi sembra spannometricamente molto bassa. Strategie per un calcolo più preciso?

Categorizzazione automatica e antispam

Mi ricollego ad alcuni post sul concetto di web 3.0 fatti qualche tempo fà, le linee guida sembrano essere state definite in modo preciso  e la chiave di volta dovrebbe essere riuscire a far comprendere ai pc le informazioni che trattano. Questa affermazione è semplicistica, ci sono ovviamente molti gradi di comprensione. Quella più “semplice”, se consideriamo come “informazione” i testi scritti in linguaggio naturale, è raggruppare le parole usate in aree semantiche ( a.k.a. analisi semantica) e non richiede nessuna tecnologia particolarmente potente e strana. Bisogna avere la pazienza di mappare il linguaggio naturale in qualcosa che assomiglia ad un “dizionario dei sinonimi e contrari” digitale un pochetto più evoluto.
Si puo fare a manina, si possono usare metodi statistici, ma cmq è fattibile.
Quello che non è fattibile è la categorizzazione automatica, al momento, (secondo Marco Varone, di cui leggo il blog sempre con molto piacere), ovvero da una serie di testi in lingua naturale, opportunamente categorizzati da esseri umani, ricavare per induzione tramite un algoritmo le regole di questa categorizzazione e applicarle ad un insieme molto piu grosso di documenti.

Ma, mi chiedo, non è ciò che fanno i filtri bayesiani degli antispam ? Categorizzazione molto semplice, spam o non spam, ma pur sempre categorizzazione automatica basata sul training da parte di un essere umano su un numero ridotto di documenti in linguaggio naturale.
Un algoritmo bayesiano, volendo ridurre la cosa ai minimi termini, fornisce come risultato la probabilità che un testo sia dello stesso “tipo” di altri testi con cui è stato addestrato.

© 2024 b0sh.net

Tema di Anders NorenSu ↑