Por Kátia Kishi
A NeuralMind, empresa-filha da Unicamp instalada no Parque Científico e Tecnológico, atua com inteligência artificial e acaba de disponibilizar, de forma inédita e gratuita, um algoritmo do Google treinado para o idioma português brasileiro.
No caso, trata-se do código aberto da plataforma, chamado Bidirectional Encoder Representations from Transformers (BERT), que foi liberado em dezembro e tem o objetivo de tornar as buscas mais precisas por processar a linguagem natural. Ou seja, a ferramenta compreende melhor o que os usuários desejam encontrar com suas palavras-chaves a partir desse novo processo.
Segundo o Google, 15% das pesquisas realizadas em sua plataforma por dia são inéditas, o que justifica o desenvolvimento do algoritmo para oferecer resultados mais precisos. Essa é apenas uma das aplicabilidades do código para a inteligência artificial, conforme explica o professor da Faculdade de Engenharia Elétrica e de Computação (FEEC) da Unicamp e diretor técnico da NeuralMind, Roberto Lotufo.
“O exemplo de busca precisa do Google é apenas uma das várias aplicabilidades de uso do BERT. Por exemplo, na NeuralMind, utilizamos o BERT em outras tarefas de processamento de linguagem natural como extração de dados, sejam eles nomes de pessoas, endereços, instituições e datas”, esclarece Lotufo.
Apesar dos benefícios do código, o Google distribuiu o algoritmo com treinamento apenas em inglês, mandarim e multilíngue, uma versão genérica usada para as demais línguas não contempladas. Como a versão genérica não é tão eficaz quanto um treinamento em uma linguagem específica, diversas entidades pelo mundo resolveram treinar a ferramenta em sua própria língua.
“No Brasil, treinamos o BERT Português, pois apresenta resultados melhores do que se usássemos o BERT-multilíngue. Agora, o algoritmo está disponível gratuitamente para difundir a tecnologia no Brasil e outros países de língua portuguesa, o que pode contribuir com o avanço da pesquisa e desenvolvimento de produtos nessa área, como os chatbots”, ressalta o docente sobre o feito inédito no país.
No treinamento, a empresa-filha teve que usar um texto extenso no idioma português brasileiro, sendo utilizado o corpus de texto gratuito Brazilian Web as Corpus (BrWaC). Lotufo lembra que o treinamento “foi um trabalho hercúleo, de vários dias das máquinas do Google Cloud, além de várias semanas de preparação dos dados”, mas com o resultado positivo.
Hoje, as empresas ou desenvolvedores que desejarem adotar a solução podem acessá-la no GitHub da NeuralMind, uma plataforma de hospedagem de código-fonte utilizado pela empresa-filha.
Mais informações no site da empresa: https://neuralmind.ai/