La probabilità che, scelto un trifoglio a caso, sia in realtà in quadrifoglio é 1 su 5000, stando a wikipedia, il che significa che la probabilità che scegliendo a caso 9 trifogli sia in realtà tutti quadrifogli é di cinque per dieci alla meno 34. Vincere al SuperEnalotto é molto ma molto più probabile con un bel 1,6 per dieci alle meno 9. Non é andata ovviamente così ma la probabilità di trovarne 9 in un vaso mi sembra spannometricamente molto bassa. Strategie per un calcolo più preciso?
Tag: probabilità
Prendendo spunto dalla discussione di oggi a pranzo, segnalo questa simpatica vicenda di numeri (forse) casuali e informatica.
Hackerare i casinò per un milione di dollari, L’arte dell’intrusione, Kevin Mitnick
Mi ricollego ad alcuni post sul concetto di web 3.0 fatti qualche tempo fà, le linee guida sembrano essere state definite in modo preciso e la chiave di volta dovrebbe essere riuscire a far comprendere ai pc le informazioni che trattano. Questa affermazione è semplicistica, ci sono ovviamente molti gradi di comprensione. Quella più “semplice”, se consideriamo come “informazione” i testi scritti in linguaggio naturale, è raggruppare le parole usate in aree semantiche ( a.k.a. analisi semantica) e non richiede nessuna tecnologia particolarmente potente e strana. Bisogna avere la pazienza di mappare il linguaggio naturale in qualcosa che assomiglia ad un “dizionario dei sinonimi e contrari” digitale un pochetto più evoluto.
Si puo fare a manina, si possono usare metodi statistici, ma cmq è fattibile.
Quello che non è fattibile è la categorizzazione automatica, al momento, (secondo Marco Varone, di cui leggo il blog sempre con molto piacere), ovvero da una serie di testi in lingua naturale, opportunamente categorizzati da esseri umani, ricavare per induzione tramite un algoritmo le regole di questa categorizzazione e applicarle ad un insieme molto piu grosso di documenti.
Ma, mi chiedo, non è ciò che fanno i filtri bayesiani degli antispam ? Categorizzazione molto semplice, spam o non spam, ma pur sempre categorizzazione automatica basata sul training da parte di un essere umano su un numero ridotto di documenti in linguaggio naturale.
Un algoritmo bayesiano, volendo ridurre la cosa ai minimi termini, fornisce come risultato la probabilità che un testo sia dello stesso “tipo” di altri testi con cui è stato addestrato.