Hon Hai Research Institute lança um LLM em chinês tradicional com recursos de raciocínio

12/03/2025

165 3 minutos de leitura

O Hon Hai Research Institute acaba de anunciar o lançamento do primeiro Grande Modelo de Linguagem (LLM) em chinês tradicional, estabelecendo outro marco no desenvolvimento da tecnologia de IA de Taiwan com um método de treinamento de modelo mais eficiente e de baixo custo concluído em apenas quatro semanas.

O instituto, que é financiado pelo Hon Hai Technology Group (Foxconn), o maior fabricante de produtos eletrônicos do mundo e principal fornecedor de soluções tecnológicas, disse que o LLM – codinome FoxBrain – será de fonte aberta e compartilhado publicamente no futuro. Ele foi desenvolvido originalmente para aplicativos usados nos sistemas internos do grupo, abrangendo funções como análise de dados, suporte a decisões, colaboração em documentos, matemática, raciocínio e solução de problemas e geração de códigos.

Além de demonstrar recursos avançados de compreensão e raciocínio, o FoxBrain também é otimizado para o estilo de linguagem dos usuários taiwaneses, apresentando excelente desempenho em testes de raciocínio matemático e lógico.

“Nos últimos meses, o aprofundamento dos recursos de raciocínio e o uso eficiente de GPUs foram se tornando aos poucos o principal desenvolvimento no campo da IA. Nosso modelo FoxBrain adotou uma estratégia de treinamento muito eficiente, concentrando-se na otimização do processo de treinamento, em vez de acumular cegamente a capacidade de computação”, afirmou o dr. Yung-Hui Li, diretor do Centro de Pesquisa de Inteligência Artificial do Hon Hai Research Institute. “Com métodos de treinamento cuidadosamente elaborados e otimização de recursos, criamos com sucesso um modelo de IA local com recursos avançados de raciocínio.”

O processo de treinamento do FoxBrain foi realizado com 120 GPUs H100 da NVidia, expandido com NVidia Quantum-2 InfiniBand e concluído em apenas quatro semanas. Em comparação com os modelos de inferência lançados recentemente no mercado, o método de treinamento de modelos mais eficiente e de baixo custo estabelece uma nova marca para o desenvolvimento da tecnologia de IA de Taiwan.

O FoxBrain foi desenvolvido com base na arquitetura Meta Llama 3.1 com parâmetros 70B. Na maioria das categorias do conjunto de dados de teste do TMMLU+, ele supera o Llama-3-Taiwan-70B da mesma escala, destacando-se principalmente em matemática e raciocínio lógico

As especificações técnicas e as estratégias de treinamento do FoxBrain seguem abaixo:

– Estabeleceu métodos de aumento de dados e avaliação de qualidade em 24 categorias de tópicos usando tecnologia própria, gerando 98 bilhões de tokens de dados de pré-treinamento de alta qualidade para o chinês tradicional

– Tamanho da janela de contexto: 128 K tokens

– Foram utilizadas 120 GPUs NVIDIA H100 para treinamento, com um custo computacional total de 2.688 dias de GPU

– Foi empregada uma arquitetura de treinamento paralelo de vários nós para proporcionar alto desempenho e estabilidade

– Foi utilizada uma técnica exclusiva de Reflexão de Raciocínio

Adaptativo para treinar o modelo em raciocínio autônomo

Nos resultados dos testes, o FoxBrain apresentou grandes melhorias em matemática em comparação com o modelo básico Meta Llama 3.1. Ele apresentou um progresso significativo em testes matemáticos em comparação com o Taiwan Llama, atualmente o melhor modelo chinês tradicional de grande porte, e superou os modelos atuais do Meta da mesma classe no quesito capacidade de raciocínio matemático. Embora ainda haja uma pequena lacuna no modelo de destilação do DeepSeek, seu desempenho já está muito próximo dos principais padrões internacionais.

O desenvolvimento do FoxBrain – desde a coleta, limpeza e ampliação de dados até o pré-treinamento contínuo, o ajuste fino supervisionado, o RLAIF e a reflexão do raciocínio adaptativo – ocorreu gradualmente por meio de pesquisa independente, alcançando benefícios que se aproximam dos modelos de IA de primeira linha, apesar dos limitados recursos computacionais.

Embora o FoxBrain tenha sido originalmente projetado para aplicativos internos do grupo, no futuro, o grupo continuará a trabalhar em conjunto com parceiros de tecnologia para expandir os aplicativos do FoxBrain, compartilhar suas informações de código aberto e promover a IA na fabricação, no gerenciamento da cadeia de suprimentos e na tomada de decisões inteligentes.

Durante o treinamento do modelo, a NVidia ofereceu suporte com o Supercomputador Taipei-1 e consultoria técnica, permitindo que o Hon Hai Research Institute concluísse com sucesso o pré-treinamento do modelo com o NVidia NeMo. O FoxBrain também será um importante mecanismo para promover a atualização das três principais plataformas da Foxconn: Manufatura inteligente, Veículos elétricos inteligentes, e Cidade inteligente.

Etiquetas

12/03/2025

165 3 minutos de leitura

Mostrar mais

Hon Hai Research Institute lança um LLM em chinês tradicional com recursos de raciocínio

LATeRe oferece novas fontes de alimentação da XP Power

Revista Ipesi Eletrônica & Informática – Especial FIEE Smarte Future 2019

Tecnologias criadas na Segunda Guerra são utilizadas no mundo todo

Volume de aparelhos celulares comercializados de forma irregular recua, mas evasão fiscal aumenta

China é um investidor cada vez mais importante na América do Sul

Brasil avança na modernização do Inpi, mas ainda precisa acelerar

Automação inteligente: redefinindo a produção em um cenário global dinâmico

Receba nossas Notícias por E-mail

Assine nossa Newslletter gratuitamente

Vertiv fornecerá chillers alimentados por gás natural da Tecogen para data centers

Sandvik reforça área de metrologia com a aquisição da Verisurf

Artigos relacionados

Volume de aparelhos celulares comercializados de forma irregular recua, mas evasão fiscal aumenta

Produção nacional de eletroeletrônicos superou 28 milhões de unidades nos 3 primeiros meses do ano

Mouser e NXP compartilham insights sobre riscos de segurança e conformidade regulatória na borda

SmartCore traz ao Brasil a família de sensores LiDar Benewake TFA300

LATeRe oferece novas fontes de alimentação da XP Power

Revista Ipesi Eletrônica & Informática – Especial FIEE Smarte Future 2019

Tecnologias criadas na Segunda Guerra são utilizadas no mundo todo

Volume de aparelhos celulares comercializados de forma irregular recua, mas evasão fiscal aumenta

China é um investidor cada vez mais importante na América do Sul

Brasil avança na modernização do Inpi, mas ainda precisa acelerar

Automação inteligente: redefinindo a produção em um cenário global dinâmico

Adblock detectado