Proudly debugging the system since 1981

Autore: bosh (Pagina 1 di 50)

Gmail abbandona il POP3 fetch: come configurare l’inoltro email con SPF, DKIM e SRS su Postfix

Con una recente comunicazione ufficiale, Google ha annunciato la dismissione del fetch POP3 da account esterni in Gmail. Chi utilizzava questa funzione per consolidare più caselle email in Gmail si trova ora a dover migrare verso una soluzione alternativa: l’inoltro automatico (email forwarding) direttamente dal server di posta sorgente.

Questa guida documenta il processo completo per configurare correttamente l’inoltro da un dominio custom gestito con Postfix e Webmin verso Gmail, risolvendo i problemi di autenticazione SPF/DKIM che causano il blocco con errore 550 5.7.26.


Il problema: Gmail rifiuta le email inoltrate

Attivando l’inoltro automatico dal proprio server di posta verso Gmail, si riceve quasi immediatamente un bounce con questo errore:

text550-5.7.26 Your email has been blocked because the sender is unauthenticated.
Gmail requires all senders to authenticate with either SPF or DKIM.
DKIM = did not pass
SPF [dominio-originale.com] with ip: [IP-del-tuo-server] = did not pass

La causa è strutturale: quando il server di posta inoltra un messaggio, il mittente nell’envelope (Return-Path) rimane quello originale (es. mittente@dominio-esterno.com), ma l’IP che effettua la consegna è quello del tuo server. Gmail verifica l’SPF del dominio originale contro l’IP del tuo server — e ovviamente fallisce, perché il tuo server non è autorizzato a inviare per conto di domini terzi.

Continua a leggere

L’ AI riduce davvero il lavoro?

L’idea che l’AI ridurrà il nostro carico di lavoro è ormai un classico mantra: “automatizziamo, generiamo, ottimizziamo e finalmente lavoreremo di meno”. Peccato che, nella pratica, spesso accada esattamente il contrario: l’AI non riduce il lavoro, lo intensifica.

Cosa succede davvero in azienda

Uno studio recente su circa 200 dipendenti di una tech company ha mostrato che l’uso di strumenti generativi non ha tagliato ore o task, ma ha aumentato il ritmo, il numero di attività e il tempo complessivo speso al lavoro. Invece di sostituire compiti, l’AI li ha moltiplicati: chi prima delegava o rinunciava a certe attività ora le avvia da solo, spesso in parallelo, perché “tanto è facile”.

Il paradosso dell’efficienza

L’illusione è che, se un’attività richiede meno sforzo, si può fare di più senza problemi. In realtà, la somma di tanti piccoli compiti “semplificati” crea un flusso continuo di lavoro che aumenta la fatica cognitiva e il rischio di burnout. Il problema è che questo carico è spesso invisibile: non è un nuovo progetto ufficiale, ma una serie di micro‑attività auto‑generate, alimentate dall’entusiasmo iniziale per la sperimentazione con l’AI.

Perché serve una progettazione intenzionale

Se non si ridefiniscono ruoli, flussi e aspettative, l’AI diventa un acceleratore silenzioso di pressione, non uno strumento di liberazione. Per chi lavora con tecnologia e software, la lezione è chiara: non basta integrare modelli e tool; bisogna decidere cosa smettere di fare, quali decisioni restano umane e quali processi devono sparire, non solo diventare più veloci.

Questo post prende spunto dall’articolo “AI Doesn’t Reduce Work—It Intensifies It” pubblicato su Harvard Business Review nel febbraio 2026.

Piper su Home Assistant: voci custom, troppi compromessi

Ho provato ad aggiungere una voce italiana personalizzata a Piper su Home Assistant (add-on), oltre a quelle già disponibili (Riccardo e Paola), ma alla fine ho deciso di rinunciare: funziona “a metà”, e per renderla davvero usabile con l’assistente vocale serve una modifica fragile che rischia di rompersi a ogni aggiornamento.

Nei primi tentativi ho seguito la strada più logica: scaricare un modello da Hugging Face e inserirlo nella cartella condivisa di Home Assistant. Ho creato via SSH la directory /share/piper e ci ho copiato i due file necessari del modello (il .onnx e il relativo .onnx.json).

All’inizio Piper non partiva nemmeno: dai log compariva un errore esplicito VoiceNotFoundError: giorgio. Il motivo era banale ma insidioso: avevo il file di configurazione col nome sbagliato (es. giorgio.json invece di giorgio.onnx.json). Dopo aver rinominato correttamente il file, l’add-on ha ripreso ad avviarsi senza errori.

Il problema vero è arrivato dopo: la voce “Giorgio” non compariva in nessuna lista, né nella configurazione dell’add-on, né nella selezione della voce dell’assistente vocale (pipeline). Ho provato anche a rinominare i file con uno schema più “standard” (tipo it_IT-giorgio-…), riavvii e reload dell’integrazione, ma niente.

A quel punto ho capito il limite: l’elenco delle voci mostrato nell’interfaccia dipende dal catalogo voices.json, che l’add-on scarica automaticamente e aggiorna all’avvio (nei log si vede il download e il salvataggio in /data/voices.json). Quindi sì, potrei entrare nel container e modificarlo, ma dovrei poi bloccare o gestire gli aggiornamenti (o accettare che le modifiche vengano sovrascritte). Troppo rischio e troppa manutenzione per un “semplice” cambio voce.

Morale: voce custom ok per esperimenti, ma per una configurazione stabile dell’assistente vocale ho preferito restare su voci ufficialmente supportate dal catalogo

Come ho configurato un assistente vocale locale con Anker PowerConf su Home Assistant OS

Ciao! Dopo un lungo percorso di test e configurazione, ho finalmente un assistente vocale locale funzionante sul mio Raspberry Pi con Home Assistant OS, usando l’Anker PowerConf come speakerphone USB. Wake word “Hey raspy”, voce italiana “Riccardo low” e trascrizione Whisper locale (lenta ma gratuita). Ecco il mio viaggio, strumenti usati, problemi risolti e risorse.

Strumenti utilizzati

  • Hardware: Anker PowerConf (speaker + microfono USB), Raspberry Pi (HA OS 2026.2.1).
  • Software:
    • Assist Microphone (add-on principale per input/output audio).
    • openWakeWord (wake word “Hey raspy”).
    • Wyoming Faster Whisper (STT locale).
    • Piper TTS (“Riccardo low”).

Config Assist Microphone finale:​

textsound_enabled: true
noise_suppression: 5
auto_gain: 3
mic_volume_multiplier: 3
sound_volume_multiplier: 1
debug_logging: true

Passi della configurazione

  1. PowerConf USB: Riconosciuto come alsa_input.usb-Anker_PowerConf.mono-fallback / alsa_output.usb-Anker_PowerConf.analog-stereo (ha audio info).
  2. Add-on installati:
    • openWakeWord.
    • Faster Whisper.
    • Piper TTS.
    • Assist Microphone (input/output PowerConf).
  3. Pipeline (Impostazioni → Assistenti vocali):
    • Wake word: openWakeWord → “Hey raspy”.
    • STT: Faster Whisper.
    • TTS: Piper → “Riccardo low”.
  4. Test: “Hey raspy, che ora è?” → wake word, trascrizione, TTS dal PowerConf.

Difficoltà e soluzioni

  • PowerConf riconosciuto ma ALSA vuoto (arecord -l vuoto): sudo alsa force-reload + restart PipeWire. Confermato con pactl list sources short.
  • openWakeWord instabile (1/20): YAML config: textthreshold: 0.2 trigger_level: 1 debug_logging: true
    • Assist Microphone auto_gain: 3, mic_volume_multiplier: 3 → ~70-80% affidabile.
  • Errore “assistente non connette a HA”: Impostazione corretta URL di Home assistant in Configurazione → Rete
  • Whisper lento (10-20s): Funziona locale; opzione futura Whisper Cloud.

Risorse utili

Funziona per comandi base, wake word migliorato ma non perfetto. Whisper locale gratuito ma lento.
L’ agente di conversazione e’ stato realizzato con Extended OpenAI Conversation, una estensione disponibile su HACS che permette di usare LLM di altre provider diversi da OpenAI. La scelta e’ stata per un proxy OpenWebUI che a sua volta rimanda a Groq.

Penso passero a Whisper cloud in quanto le limitate risorse del raspberry permettono di far girare solo un modello piccolo (tiny e small.int8) che non solo e’ lento ma anche impreciso, specie con la lingua italiana per la quale non e’ disponibile un modello specifico ma si deve usare il modello internazionale.

Home Assistant e Yi Home

Qualche anno fa mi ero imbarcato, senza troppo successo, in un progetto di decodifica delle comunicazioni tra le telecamere Yi Home e il suo cloud per renderle utilizzabile il flusso senza l’odiosa app che ai tempi aveva smesso di funzionare bene. Il problema era abbastanza complesso, la chiave non era facilmente ricavabile e poi la app è tornata a funzionare, tutto sommato, bene e quindi il progetto si è arenato.

Ora, da qualche tempo l’app è stata letteralmente riempita di pubblicità e per motivi diversi è tornata quindi ad essere inutilizzabile, MA qualche brava persona ha rilasciato dei firmware modificati per fare tante belle cose.

In base al modello si può trovare il firmware modificato su:

Per quanto riguarda ho utilizzato esclusivamente il firmware Yi Hack V5 su due telecamere Yi Dome e una Yi Outdoor. L’obbiettivo era rendere le telecamere integrate con HomeAssistant.

Il risultato è lontano dall’essere perfetto per via delle limitazioni dell’hardware delle telecamere, veramente essenziale, dal fatto che si usa una scheda microsd come file system con tanto di memoria virtuale e che i firmware modificati non sono bugfree (ma cosa lo è?).

Pero si riesce ad avere un flusso video in tempo reale, la notifica dei movimenti, e la registrazione del video del movimento. Senza perdere le funzionalità dell’app proprietaria. Magari in un prossimo articolo scenderò un po più in dettaglio sia per Home Assistant (che ho installato su un raspberry pi 5 nuovo) sia sulle telecamere.

Un weekend a Praga

Ogni tanto non parlo di tecnologia, programmazione e cose simili ma anche di altre cose che mi piacciono, come ad esempio i viaggio che faccio.

Destinazione più recente: Praga, poco prima di natale. La città è veramente molto bella, ma nel periodo scelto è (ancora di più) un giocattolo per turisti.

Negozi, cibo, bancarelle e ovviamente una quantità infinita di turisti ovunque. Ultimamente sembra che le persone siano aumentate. C’è ressa sempre e ovunque. Sarà ovviamente una impressione … o forse sempre meno gente sta a casa a fare nulla e invade tutte le possibili destinazioni turistiche vicine o lontane. Ci sarà un’analisi del fenomeno da qualche parte.

Continua a leggere

LLaMA Factory: La Soluzione Unificata per l’Ottimizzazione di Modelli LLM

Nel mondo dell’intelligenza artificiale, i grandi modelli linguistici (LLM) hanno rivoluzionato il modo in cui interagiamo con la tecnologia. Tuttavia, il loro potenziale si svela solo quando vengono addestrati in modo mirato a specifiche applicazioni. Ecco che entra in gioco LLaMA Factory, un progetto open source che semplifica e ottimizza il processo di fine-tuning di oltre 100 modelli LLM e VLM (Vision-Language Models). Con il suo approccio unificato, LLaMA Factory si presenta come una soluzione versatile per sviluppatori, ricercatori e aziende che desiderano sfruttare al massimo le capacità dei modelli linguistici.


Cos’è LLaMA Factory?

LLaMA Factory è un framework open source progettato per semplificare e accelerare il processo di fine-tuning di modelli linguistici di grandi dimensioni. Sviluppato da un team di esperti, il progetto è stato presentato al ACL 2024 e si distingue per la sua capacità di supportare una vasta gamma di modelli, da LLaMA a Qwen, da Mistral a DeepSeek, e non solo. LLaMA Factory unifica diverse metodologie di addestramento, come il fine-tuning supervisionato, la modellazione delle ricompense e le tecniche di ottimizzazione avanzate, rendendo il processo di personalizzazione dei modelli più accessibile e efficiente.

Il framework è progettato per adattarsi a diverse esigenze: che si tratti di un’azienda che desidera creare un modello specializzato per il supporto clienti o di un ricercatore che vuole esplorare nuove tecnologie, LLaMA Factory offre strumenti flessibili e potenti.


Le Caratteristiche Chiave di LLaMA Factory

LLaMA Factory si distingue per una serie di funzionalità che lo rendono unico nel panorama degli strumenti per il fine-tuning dei modelli LLM. Ecco le sue principali caratteristiche:

  1. Supporto per 100+ Modelli LLM e VLM
    LLaMA Factory supporta una vasta gamma di modelli, tra cui LLaMA, LLaVA, Mistral, Qwen, DeepSeek, Phi, GLM, e molti altri. Questo rende il framework adatto a diverse applicazioni, da compiti di comprensione del linguaggio a compiti multimediali come l’analisi di immagini o video.
  2. Metodi di Addestramento Integrati
    Il framework include diverse tecniche di fine-tuning, tra cui:

    • Fine-tuning supervisionato
    • Modellazione delle ricompense (Reward Modeling)
    • PPO (Proximal Policy Optimization)
    • DPO (Direct Preference Optimization)
    • KTO (Knowledge Transfer Optimization)
    • ORPO (Optimizing Reward with Preference Optimization)
      Questi metodi permettono di adattare i modelli a specifiche esigenze, come la generazione di testi, il ragionamento logico o l’interazione con utenti.
  3. Ottimizzazione delle Risorse
    LLaMA Factory supporta diverse strategie per ridurre il carico computazionale, come:

    • LoRA (Low-Rank Adaptation)
    • QLoRA (Quantized LORA)
    • GaLore, BAdam, APOLLO, DoRA
      Queste tecniche permettono di addestrare modelli su hardware meno potente, riducendo i costi e il tempo di elaborazione.
  4. Strumenti per la Gestione degli Esperimenti
    Il framework integra strumenti per il monitoraggio e la gestione degli esperimenti, come:

    • LlamaBoard
    • TensorBoard
    • WandB (Weights & Biases)
    • MLflow
      Questi strumenti aiutano a tracciare i progressi, confrontare i risultati e migliorare la produttività del processo di addestramento.
  5. Interfaccia Utente e CLI Zero-Code
    LLaMA Factory offre un’interfaccia web (LlamaBoard) e un CLI (Command Line Interface) che permettono di eseguire il fine-tuning senza codice, rendendo il processo accessibile anche a chi non ha esperienza avanzata in programmazione.
  6. Supporto per Inference Rapida
    Il framework include strumenti per l’inference veloce, come l’API OpenAI-style e il supporto per vLLM, che permettono di deployare i modelli in modo efficiente.

Perché Scegliere LLaMA Factory?

LLaMA Factory si distingue per la sua flessibilità, potenza e facilità d’uso. Ecco i vantaggi principali:

  • Unificazione di Metodi e Modelli: Riduce la complessità di gestire diversi framework e modelli, concentrando l’attenzione sulle esigenze specifiche del progetto.
  • Ottimizzazione delle Risorse: Grazie alle tecniche di quantizzazione e adattamento a basso rango, permette di addestrare modelli su hardware limitato.
  • Supporto per Task Complessi: Dalla comprensione del linguaggio ai compiti multimediali, LLaMA Factory è adatto a qualsiasi applicazione.
  • Community e Documentazione: Il progetto ha una documentazione completa e una comunità attiva, con blog, tutorial e esempi pronti all’uso.

Come Iniziare con LLaMA Factory

LLaMA Factory è facile da installare e usare, grazie alla sua struttura modulare e alla documentazione dettagliata. Ecco i passaggi principali per iniziare:

  1. Installazione
    Il framework può essere installato tramite pip o Docker. Per l’installazione tramite pip:

    git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git  
    cd LLaMA-Factory  
    pip install -e ".[torch,metrics]" --no-build-isolation

    Per l’installazione Docker, si possono utilizzare le immagini preconstruite su Docker Hub.

  2. Preparazione dei Dati
    LLaMA Factory supporta diversi formati di dati, tra cui dataset su Hugging Face, ModelScope o cloud storage. È possibile specificare il percorso dei dati direttamente nel codice.
  3. Fine-Tuning
    Il framework permette di eseguire il fine-tuning tramite CLI o interfaccia web. Ad esempio, per eseguire un fine-tuning con LoRA:

    llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml

    L’interfaccia web (LlamaBoard) permette di monitorare in tempo reale l’addestramento e di visualizzare i risultati.

  4. Deploy e Inference
    Dopo il fine-tuning, i modelli possono essere deployati tramite API OpenAI-style o vLLM per l’inference veloce.

Supporto per Modelli e Dataset

LLaMA Factory supporta una vasta gamma di modelli, tra cui:

  • LLaMA, LLaVA, Mistral, Mixtral-MoE, Qwen, DeepSeek, Phi, GLM, Gemma, ChatGLM
  • Modelli Vision-LLM: LLaVA-1.5, LLaVA-NeXT, LLaVA-NeXT-Video, InternVL, etc.

I dataset supportati includono:

  • Dataset per fine-tuning supervisionato: Alpaca, ShareGPT, etc.
  • Dataset per modellazione delle ricompense: Human Feedback, etc.
  • Dataset per compiti multimediali: ImageNet, COCO, etc.

Conclusione

LLaMA Factory rappresenta un passo avanti nella personalizzazione e ottimizzazione dei modelli linguistici. Con la sua capacità di unificare metodi, modelli e risorse, il framework si distingue come una soluzione versatile per sviluppatori, ricercatori e aziende. Che si tratti di addestrare un modello per un’applicazione specifica o di esplorare nuove tecnologie, LLaMA Factory offre strumenti potenti e accessibili.

Se sei interessato a esplorare le potenzialità di LLaMA Factory, visita il sito ufficiale o segui il blog per rimanere aggiornato sulle ultime novità e tutorial.

LLaMA Factory: perché il fine-tuning non deve mai essere complicato.

Scrivere per l’AI: L’evoluzione della comunicazione nel mondo digitale


Nel mondo accelerato del web, dove la tecnologia cambia ogni giorno il modo in cui interagiamo con l’informazione, un tema sempre più rilevante è l’idea di “scrivere per l’AI”. Questo concetto, una volta considerato un’ipotesi futuristica, sta diventando una realtà concreta, trasformando radicalmente la scrittura umana e il suo scopo. Da un lato, l’Intelligenza Artificiale (AI) ha reso più accessibili e immediati i dati, permettendo a chiunque di ottenere informazioni in pochi secondi. Dall’altro, però, questa evoluzione ha portato a una profonda riflessione su come gli umani stanno adattando il loro lavoro, non più per gli esseri umani, ma per gli algoritmi che dominano il web. 

La scrittura, una delle forme più antiche di comunicazione, sta subendo una metamorfosi. Non si tratta più solo di condividere idee o informazioni, ma di creare contenuti che siano “leggibili” e “comprensibili” per le macchine. Questo cambiamento non è solo tecnologico, ma anche culturale e sociale. Gli scrittori, i giornalisti, i creatori di contenuti e perfino i professionisti come i PR stanno riconoscendo che il loro lavoro deve adattarsi a nuove regole: quelle dell’AI. 

L’evoluzione del web e il ruolo dell’AI
Negli ultimi anni, il web è diventato un luogo dove l’informazione è accessibile a tutti, ma anche un ambiente in cui la competizione per l’attenzione è spietata. La nascita dei motori di ricerca come Google ha reso possibile trovare informazioni in pochi secondi, ma ha anche creato un sistema in cui i contenuti devono essere ottimizzati per essere visibili. Con l’avvento degli strumenti di intelligenza artificiale, come ChatGPT e Claude, questa dinamica sta cambiando. Gli algoritmi non solo “leggono” il web, ma lo “assimilano”, analizzando dati, creando risposte e persino influenzando il modo in cui le informazioni vengono condivise. 

Questo ha portato a una nuova forma di scrittura: non più rivolta a un pubblico umano, ma a un sistema di intelligenza artificiale che, grazie al suo addestramento su milioni di testi, ha acquisito una capacità di comprensione e di generazione di contenuti. Perché, come sottolinea il magazine della Phi Beta Kappa, “l’idea di un mondo in cui gli umani scrivono, ma lo fanno principalmente per l’AI, è diventata una possibilità reale”. 

Scrivere per l’AI: una strategia necessaria?
Il fenomeno è stato ampiamente discusso da figure come Tyler Cowen, economista e influencer, che ha sottolineato come la scrittura per l’AI sia diventata una forma di “influenza” su un pubblico non umano. “Scrivere per l’AI non è solo una strategia per ottenere visibilità, ma un modo per influenzare il futuro”, ha dichiarato Cowen. La sua motivazione? Non solo aumentare il proprio impatto, ma anche “insegnare” agli algoritmi ciò che si ritiene importante. 

Ma come si fa a scrivere per l’AI? La risposta è semplice: adattare il contenuto a come gli algoritmi “leggono” e “processano” l’informazione. Gli strumenti di intelligenza artificiale non solo analizzano testi, ma li “strutturano”, cercando informazioni chiare, dati organizzati e contenuti formattati. Per questo, la scrittura ottimizzata per l’AI richiede una struttura chiara, sezioni ben definite e una chiara espressione degli intenti. 

Questo ha portato a una nuova forma di marketing e comunicazione: il “chatbot optimization” (CO). I professionisti del PR, sempre alla ricerca di influenze, stanno sviluppando strategie che non solo mirano a Google, ma a algoritmi come ChatGPT. La chiave per ottenere attenzione da parte dell’AI è scrivere in modo che sia “leggibile” per loro, con un linguaggio semplice, dati ben organizzati e un’organizzazione logica. 

Tra opportunità e preoccupazioni
Se da un lato l’AI offre nuove opportunità per la comunicazione e la diffusione delle idee, dall’altro solleva interrogativi su cosa possa significare per la creatività umana. Alcuni sottolineano che la scrittura per l’AI potrebbe portare a una perdita di valore umano, riducendo la scrittura a una mera forma di ottimizzazione per algoritmi. “L’AI legge tutto, mentre gli umani non leggono quasi nulla”, ha commentato un utente, riferendosi al fatto che l’AI è in grado di analizzare ogni tipo di contenuto, mentre la maggior parte delle persone si limita a leggere solo ciò che è necessario. 

Altri, invece, vedono in questo cambiamento un modo per immortaliare la propria voce. “Scrivere per l’AI potrebbe essere la chiave per un’immortalità intellettuale”, ha affermato un commentatore, sottolineando che gli algoritmi potrebbero “riconoscere” e “valorizzare” i contenuti che rientrano nei loro parametri di qualità. Tuttavia, molti sottolineano che l’AI non è in grado di comprendere le emozioni, le esperienze umane o il contesto culturale, rendendo la scrittura per l’AI un’attività limitata. 

Le critiche e le sfide
Nonostante i pro e i contro, il dibattito intorno alla scrittura per l’AI è stato accompagnato da critiche e preoccupazioni. Alcuni sottolineano i limiti tecnologici degli algoritmi, che non sono in grado di comprendere il significato profondo di un testo, ma solo di generare risposte basate su dati. “L’AI non è in grado di distinguere tra informazioni utili e inutili, né di valutare il valore di un contenuto”, ha scritto un commentatore, sottolineando il rischio di “informazione di scarsa qualità” che potrebbe proliferare. 

Altri, invece, si concentrano sulle implicazioni etiche e sociali. “Scrivere per l’AI potrebbe portare a una dipendenza tecnologica, riducendo la capacità degli umani di pensare criticamente”, ha affermato un utente, preoccupato che l’uso crescente di algoritmi possa influenzare la capacità di valutare fonti e verificare fatti. Questo tema è particolarmente rilevante in un’epoca in cui il web è pieno di informazioni spesso inaffidabili, e l’AI potrebbe amplificare questa problematica. 

Un futuro in bilico tra innovazione e conservazione
L’evoluzione della scrittura per l’AI rappresenta un punto di svolta nella comunicazione digitale. Da un lato, offre nuove opportunità per diffondere idee e informazioni in modo più efficiente. Dall’altro, solleva domande fondamentali su cosa significhi essere umani in un mondo dominato da algoritmi. 

Sebbene alcuni vedano in questo cambiamento un’opportunità per l’immortalità intellettuale, altri temono la perdita di valore umano e la riduzione della scrittura a una mera forma di ottimizzazione. La sfida, quindi, è trovare un equilibrio tra innovazione e conservazione, tra l’uso delle tecnologie e la protezione della creatività umana. 

Conclusione
La scrittura per l’AI è un fenomeno che sta trasformando il modo in cui gli umani comunicano e condividono informazioni. Sebbene il tema sia ancora in fase di evoluzione, è chiaro che il ruolo degli algoritmi nel web non è più un’ipotesi futuristica, ma una realtà che richiede adattamento e riflessione. Per chiunque si trovi a scrivere oggi, la domanda rimane: come si può preparare il proprio lavoro per un pubblico che non è più umano? 

Per ulteriori informazioni su questo argomento, puoi leggere l’articolo originale: https://m.slashdot.org/story/448890

Bot Voice To Text

Nella sua semplicità è il bot (gestito da un workflow N8N) che uso più spesso. I messaggi vocali sono lenti e inefficienti, l’accelerazione 1.5x o 2x risolve solo in parte il problema. Poter leggere velocemente, o scansionare, il contenuto di un vocale senza dover essere bloccato due minuti per ascoltarlo tutto è una fantastica comodità.

Ho migliorare un pochettino il workflow per gestire correttamente anche l’inoltro, sempre tramite telegram, di una MP3. Il motivo scatenante è stato che non volevo ascoltare un podcast di un ora per una piccola frazione di informazione, durata 5 minuti, annegata chissà dove.

Ho per cui modificato la gestione dell’input, cambiato i timeout di risposta, e gestito l’output di più di 2000 caratteri con lo stesso sistema del bot assistente personale.

Per trascrivere un ora di podcast l’hardware a mia disposizione ha impiegato 22 minuti, ma va bene. Non avevo fretta. E’ comunque una velocità superiore al doppio e mentre il silicio lavorava io potevo fare altro.

Il punto di partenza è stato quanto descritto in questo articolo. Il bot è sempre disponibile pubblicamente su http://t.me/b0sh8_bot anche se non tutti i giorni e non H24.

Di seguito il workflow aggiornato.

AI Workflow 2.5

Modifiche:

  • Correzioni di bug vari
  • Gestito l’invio di messaggi multipli di telegram invece che fare un riassunto nel caso si eccedessero i 2000chr come nelle versioni precedenti, cosa che ha necessitato un po di programmazione
  • Aggiunto un riassunto delle informazioni dedotte della conversazioni su un documento su google drive
  • Corretto un bug che impediva al RAG di funzionare correttamente: lo step e’ stato diviso, prima con il reperimento delle informazioni, e poi con la generazione delle risposta
  • Integrato l’utilizzo delle API di Groq per una migliore velocità di esecuzione. Al momento non esegue tutto in locale, ma alcune task sono effettuate remotamente da Groq. L’utilizzo rientra ampiamente nel piano free, quindi senza costi. E’ comunque facilmente modificabile … sia per usare Groq per tutto (ma consiglio un piano developer per via dei limiti della dimensione del contesto del piano free) sia per usare solo un llm offerto localmente da Ollama

« Articoli meno recenti

© 2026 b0sh.net

Tema di Anders NorenSu ↑