Novo sistema de aprendizado pode facilitar a identificação automática de plágio e vírus na internet
Aperfeiçoamento de programa de detecção seria um grande passo para acabar com o anonimato de hackers
Em matéria publicada no Wired, pesquisadores falam sobre como um sistema de aprendizado de máquina podem ajudar a identificar crimes e acabar com o anonimato de hackers. Rachel Greenstadt, professora de ciência da computação na Drexel University, e Aylin Caliskan, professor assistente na George Washington University, descobriram que o código, assim como outras formas de expressão estilística, não é anônimo.
Agora, as ferramentas automatizadas podem identificar com precisão o autor de uma postagem em um site como o Reddit, por exemplo. A única exigência é que o programa tenha uma base de dados de parâmetro, para poder analisar e comparar. Pesquisas recentes mostram que a estilometria também pode se aplicar a amostras de linguagem artificial, como código. Desenvolvedores de software, portanto, também deixaram uma “impressão digital”, o que permite seu rastreamento.
Na conferência DefCon, que ocorrerá ainda em agosto, a dupla de professores apresentará estudos que foram realizados usando técnicas de aprendizado de máquina para remover o anonimato de postagens. Seu trabalho pode ser útil para identificar um caso de plágio, por exemplo, além de também ter implicações na privacidade, especialmente para os milhares de desenvolvedores que contribuem com código aberto para o mundo.
Mas como funciona este processo? O primeiro passo é identificar os recursos encontrados em uma seleção de amostras de código que possibilitem identificar os rastros do autor. Isso resulta em uma enorme quantidade de informações e características únicas na forma como o código é escrito, já que, assim como um texto, há uma escolha específica de palavras, bem como a disposição delas na frase, a duração dessas frases, sua estrutura etc. Greenstadt e Caliskan fizeram uma filtragem dos objetos de análise, a fim de incluir apenas os que realmente distinguem os desenvolvedores uns dos outros, reduzindo a lista de centenas de milhares para cerca de 50 ou mais.
Processo pode ser útil para combater plágio e propagação de vírus e malwares
O trabalho de Caliskan e Greenstadt é útil pois pode ser usado para dizer se um estudante de programação plagiou ou até mesmo se um desenvolvedor violou alguma norma prevista em contrato. Profissionais de segurança podem usá-lo também para ajudar a determinar quem criou um tipo específico de malware, o que ajuda a previnir e investigar ataques.
O projeto é importante se considerarmos que, hoje, bots e vírus são criados para ataques em massa e golpes financeiros. Com o aperfeiçoamento do sistema de identificação, portanto, é possível que, num futuro próximo, programas autônomos possam identificar a origem de ferramentas como essa e impedir a ação de criminosos virtuais.