DarkBERT: Il modello di lingua addestrato sul dark web che rivoluziona la sicurezza online

Read Time:1 Minute, 58 Second

Siamo ancora agli inizi dell’effetto a valanga scatenato dal rilascio dei Modelli di Lingua Ampia (LLM) come ChatGPT nel mondo. Insieme alla condivisione di altri modelli GPT (Generative Pre-Trained Transformer), il numero di applicazioni che impiegano l’IA sta aumentando in modo esplosivo; e come sappiamo, ChatGPT stesso può essere utilizzato per creare malware altamente avanzati.

Col passare del tempo, i LLM applicati aumenteranno sempre di più, ognuno specializzato nel proprio settore, addestrato su dati attentamente selezionati per uno scopo specifico. E proprio ora è stata rilasciata un’applicazione del genere, addestrata su dati provenienti dal dark web stesso. DarkBERT, come lo hanno chiamato i suoi creatori sudcoreani, è arrivato: segui quel link per il paper di lancio, che offre una panoramica generale del dark web stesso.

DarkBERT si basa sull’architettura RoBERTa, un approccio di intelligenza artificiale sviluppato nel 2019. Ha avuto una sorta di rinascita, con i ricercatori che hanno scoperto che poteva offrire prestazioni superiori rispetto a quanto ottenuto nel 2019. Sembra che il modello fosse stato gravemente sottotrained al momento del rilascio, molto al di sotto della sua massima efficienza.

Per addestrare il modello, i ricercatori hanno esaminato il Dark Web attraverso il firewall di anonimizzazione della rete Tor, e quindi hanno filtrato i dati grezzi (applicando tecniche come la deduplicazione, il bilanciamento delle categorie e la pre-elaborazione dei dati) per generare un database del Dark Web. DarkBERT è il risultato di tale database utilizzato per alimentare il modello di linguaggio di grande dimensione RoBERTa, un modello che può analizzare un nuovo contenuto del Dark Web, scritto nei suoi dialetti e in messaggi pesantemente codificati, ed estrarre informazioni utili da esso.

Dire che l’inglese è la lingua aziendale del Dark Web non sarebbe del tutto corretto, ma è una combinazione abbastanza specifica che i ricercatori ritengono necessiti di un LLM specifico addestrato su di essa. Alla fine, avevano ragione: i ricercatori hanno dimostrato che DarkBERT superava altri modelli di linguaggio di grande dimensione, il che dovrebbe consentire ai ricercatori della sicurezza e alle forze dell’ordine di penetrare più a fondo negli angoli più oscuri del web. Dopotutto, è lì che si svolge la maggior parte dell’azione.

Come per gli altri LLM, ciò non significa che DarkBERT sia completo, e ulteriori addestramenti e affinamenti possono continuare a migliorarne i risultati. Come sarà utilizzato e quale conoscenza si potrà trarre, rimane da vedere.

About Post Author

Fausto Pitzalis

Blogger dal 2001, Nativo Digitale, Developer. Da 10 anni mi occupo di IT per una grande Azienda. Lavoro per abbattere il Digital Divide. Visita i miei altri progetti sardiniamobility.com smartworkers.cloud

f.pitzalis@cyberness.it

https://www.cyberness.it