Após derrotar campeão mundial, AlphaGo aprende a jogar sozinho
Programa ganha novo upgrade e em três dias aprende estratégia que humanos levaram séculos para aprender
Em 2016, o mundo parou diante da derrota do campeão mundial de Go, o chinês Lee Sedol, diante do Alpha Go, programa de inteligência artificial. Mas uma publicação da revista Nature publicada nesta quarta-feira por pesquisadores da DeepMind, empresa de IA e parceira do Google, mostra uma atualização ainda mais impressionante do programa: um Alpha Go Zero que, em três dias, foi capaz de aprender um dos jogos de estratégia mais antigos do mundo e ainda atingir um nível de conhecimento técnico que os humanos levaram séculos para conquistar.
A pesquisa mostra que o upgrade do Alpha GoZero foi capaz de criar novas estratégias para o jogo, além de apresentar um sistema mais responsivo que sua versão original. E sem a ajuda de conhecimento prévio a respeito de habilidades técnicas humanas, ao contrário do primeiro Alpha. A nova versão conhecia apenas as instruções básicas do jogo, adquirindo um conhecimento por experiência, e não por background.
No duelo entre as duas versões realizada pelos pesquisadores, a mais antiga foi derrotada pelo seu próprio upgrade por 100 jogos a zero.
“Esta técnica é mais poderosa do que as versões anteriores do AlphaGo porque não está mais limitada pelos limites do conhecimento humano”, observa a equipe do DeepMind no release sobre a pesquisa. “Ao invés disso, ela está apta a aprender por meio da tábula rasa de um dos jogadores mais fortes do planeta: o próprio AlphaGo”, conclui.
Quando está jogando Go, o sistema do AlphaGo Zero considera a sequência das variantes de cada possibilidade de jogada (ou realiza uma “rede de policiamento”, conforme é descrito na pesquisa), e então realiza uma estimativa da probabilidade de vitória com esses lances (ou seja, a “a rede de valor” de cada jogada).
O programa leva cerca de 0.4 segundos para fazer essas duas avaliações sobre cada lance. A primeira versão do Alpha continha dois sistemas neurais distintos para cada uma das decisões, mas o seu upgrade contém um único comando para ambas, o que torna o programa mais eficiente para a criação de novas estratégias.
As unidades processadoras necessárias para manter o sistema do programa em funcionamento também são menores, sendo quatro contra as 48 necessárias pela primeira versão.
Depois de apenas três dias de treinamento, que contou com quase cinco milhões de jogos feitos contra si mesmo, o AlphaGoZero adquiriu a expertise necessária para derrotar a então versão mais avançada do programa, o AphaGoMaster, que conseguira a proeza de derrotar outro de um dos melhores jogadores de GO do mundo, Ke Jie, após passar por um treinamento de 30 milhões de jogos contra si mesmo.
Humanos versus máquinas
O Alpha Go não é o primeiro programa a derrotar um ser humano dentro de um jogo de estratégia. Um dos casos mais famosos foi justamente o primeiro, quando o programa Deep Blue venceu o então campeão mundial de xadrez Garry Kasparov.
Em 2001, o programa da IBM de IA Watson derrotou dois dos melhores jogadores de Jeopardy, jogo de perguntas e respostas popular entre os americanos. Sinal de que não é de hoje que as máquinas ensinam como tirar o melhor proveito das habilidades de seus adversários para derrotá-los.