Tecnologia

Un nuovo algoritmo di machine learning rompe i CAPTCHA di testo più facilmente che mai

Gli accademici del Regno Unito e della Cina hanno sviluppato un nuovo algoritmo di apprendimento automatico che può rompere i sistemi CAPTCHA testuali con meno sforzo, più velocemente e con maggiore accuratezza rispetto a tutti i metodi precedenti.

Questo nuovo algoritmo, sviluppato dagli scienziati della Lancaster University (UK), della Northwest University (Cina) e della Peking University (Cina), si basa sul concetto di GAN, che sta per ” Generative Adversarial Network “.

I GAN sono una classe speciale di algoritmi di intelligenza artificiale utili in scenari in cui l’algoritmo non ha accesso a grandi quantità di dati di allenamento.

text-captcha-tested.png

Classificare gli algoritmi di apprendimento automatico di solito richiedono milioni di punti dati per addestrare l’algoritmo nell’esecuzione di un’attività con il grado di accuratezza desiderato.

Un algoritmo GAN ha il vantaggio che può funzionare con un lotto molto più piccolo di punti di dati iniziali. Questo perché un GAN utilizza un cosiddetto componente “generativo” per produrre dati simili. Questi punti di dati “generati” vengono quindi inviati a un algoritmo “risolutore” che tenta di indovinare l’output.

Poiché questi due componenti GAN sono disposti l’uno contro l’altro, il risolutore migliora, come se fosse stato addestrato con milioni di punti dati.

Gli accademici britannici e cinesi hanno applicato questo stesso concetto per rompere i CAPTCHA di testo, che, nella stragrande maggioranza dei precedenti studi di ricerca, sono stati testati solo con algoritmi classici di apprendimento automatico formati con grandi quantità di punti di dati iniziali.

text-captcha-generated.png

I ricercatori hanno sostenuto che in uno scenario reale, un utente malintenzionato non sarebbe in grado di generare milioni di CAPTCHA su un sito Web o un’API live senza essere rilevato e bannato.

Ecco perché, per la loro ricerca, hanno utilizzato solo 500 CAPTCHA testuali da ciascuno dei 11 servizi CAPTCHA testuali trovati in 32 dei 50 siti Web Alexa più importanti.

“Ci vogliono fino a 2 ore (meno di 30 minuti per la maggior parte dello schema) per raccogliere 500 captcha e meno di 2 ore per etichettarli da un solo utente”, hanno affermato i ricercatori. “Ciò significa che lo sforzo e il costo per lanciare il nostro attacco su un particolare schema captcha è basso.”

L’elenco dei dati di allenamento, elencati nella tabella seguente, includeva CAPTCHA di testo da siti come Wikipedia, Microsoft, eBay, Baidu, Google, Alipay, JD, Qihoo360, Sina, Weibo e Sohu.

Logo PlayBlog.it

Seguici su Facebook

POST CORRELATI

VR con HTC Vive: la nuova realtà virtuale

OK Google e Philips Hue debutta in prima persona al CES 2019

GitHub deposita il codice open source nell’Artico per essere utilizzato anche tra 1000 anni

Lascia un commento