Eletrônica e Informática

Hon Hai Research Institute lança um LLM em chinês tradicional com recursos de raciocínio

O Hon Hai Research Institute acaba de anunciar o lançamento do primeiro Grande Modelo de Linguagem (LLM) em chinês tradicional, estabelecendo outro marco no desenvolvimento da tecnologia de IA de Taiwan com um método de treinamento de modelo mais eficiente e de baixo custo concluído em apenas quatro semanas.

 

O instituto, que é financiado pelo Hon Hai Technology Group (Foxconn), o maior fabricante de produtos eletrônicos do mundo e principal fornecedor de soluções tecnológicas, disse que o LLM – codinome FoxBrain – será de fonte aberta e compartilhado publicamente no futuro. Ele foi desenvolvido originalmente para aplicativos usados nos sistemas internos do grupo, abrangendo funções como análise de dados, suporte a decisões, colaboração em documentos, matemática, raciocínio e solução de problemas e geração de códigos.

 

Além de demonstrar recursos avançados de compreensão e raciocínio, o FoxBrain também é otimizado para o estilo de linguagem dos usuários taiwaneses, apresentando excelente desempenho em testes de raciocínio matemático e lógico.

 

“Nos últimos meses, o aprofundamento dos recursos de raciocínio e o uso eficiente de GPUs foram se tornando aos poucos o principal desenvolvimento no campo da IA. Nosso modelo FoxBrain adotou uma estratégia de treinamento muito eficiente, concentrando-se na otimização do processo de treinamento, em vez de acumular cegamente a capacidade de computação”, afirmou o dr. Yung-Hui Li, diretor do Centro de Pesquisa de Inteligência Artificial do Hon Hai Research Institute. “Com métodos de treinamento cuidadosamente elaborados e otimização de recursos, criamos com sucesso um modelo de IA local com recursos avançados de raciocínio.”

 

O processo de treinamento do FoxBrain foi realizado com 120 GPUs H100 da NVidia, expandido com NVidia Quantum-2 InfiniBand e concluído em apenas quatro semanas. Em comparação com os modelos de inferência lançados recentemente no mercado, o método de treinamento de modelos mais eficiente e de baixo custo estabelece uma nova marca para o desenvolvimento da tecnologia de IA de Taiwan.

 

O FoxBrain foi desenvolvido com base na arquitetura Meta Llama 3.1 com parâmetros 70B. Na maioria das categorias do conjunto de dados de teste do TMMLU+, ele supera o Llama-3-Taiwan-70B da mesma escala, destacando-se principalmente em matemática e raciocínio lógico

 

As especificações técnicas e as estratégias de treinamento do FoxBrain seguem abaixo:

 

– Estabeleceu métodos de aumento de dados e avaliação de qualidade em 24 categorias de tópicos usando tecnologia própria, gerando 98 bilhões de tokens de dados de pré-treinamento de alta qualidade para o chinês tradicional

– Tamanho da janela de contexto: 128 K tokens

– Foram utilizadas 120 GPUs NVIDIA H100 para treinamento, com um custo computacional total de 2.688 dias de GPU

– Foi empregada uma arquitetura de treinamento paralelo de vários nós para proporcionar alto desempenho e estabilidade

– Foi utilizada uma técnica exclusiva de Reflexão de Raciocínio

Adaptativo para treinar o modelo em raciocínio autônomo

 

Nos resultados dos testes, o FoxBrain apresentou grandes melhorias em matemática em comparação com o modelo básico Meta Llama 3.1. Ele apresentou um progresso significativo em testes matemáticos em comparação com o Taiwan Llama, atualmente o melhor modelo chinês tradicional de grande porte, e superou os modelos atuais do Meta da mesma classe no quesito capacidade de raciocínio matemático. Embora ainda haja uma pequena lacuna no modelo de destilação do DeepSeek, seu desempenho já está muito próximo dos principais padrões internacionais.

 

O desenvolvimento do FoxBrain – desde a coleta, limpeza e ampliação de dados até o pré-treinamento contínuo, o ajuste fino supervisionado, o RLAIF e a reflexão do raciocínio adaptativo – ocorreu gradualmente por meio de pesquisa independente, alcançando benefícios que se aproximam dos modelos de IA de primeira linha, apesar dos limitados recursos computacionais.

 

Embora o FoxBrain tenha sido originalmente projetado para aplicativos internos do grupo, no futuro, o grupo continuará a trabalhar em conjunto com parceiros de tecnologia para expandir os aplicativos do FoxBrain, compartilhar suas informações de código aberto e promover a IA na fabricação, no gerenciamento da cadeia de suprimentos e na tomada de decisões inteligentes.

 

Durante o treinamento do modelo, a NVidia ofereceu suporte com o Supercomputador Taipei-1 e consultoria técnica, permitindo que o Hon Hai Research Institute concluísse com sucesso o pré-treinamento do modelo com o NVidia NeMo. O FoxBrain também será um importante mecanismo para promover a atualização das três principais plataformas da Foxconn: Manufatura inteligente, Veículos elétricos inteligentes, e Cidade inteligente.

Mostrar mais

Artigos relacionados

Botão Voltar ao topo

Adblock detectado

Por favor, considere apoiar-nos, desativando o seu bloqueador de anúncios