East Asia Securities: Google(GOOGL.US) lança a capacidade do modelo Gemma 4, catalisando a transição de capacidades e acelerando o ciclo de atualização do hardware dos terminais

Investir em ações é confiar nos relatórios de análise do analista de ouro, autoritativos, profissionais, oportunos e abrangentes, ajudando-o a descobrir oportunidades de temas com potencial!

(Fonte: Zhitong Finance)

A app Zhitong Finance apurou que a East Wu Securities publicou um relatório de pesquisa, referindo que o Google(GOOGL.US) lançou a série Gemma 4 de modelos open source, suportando raciocínio de Agent, multimodalidade (imagem, vídeo, áudio), contexto longo e capacidade multilingue. A tecnologia foca-se na otimização da eficiência de memória, reduzindo as barreiras para a implementação no dispositivo final e ampliando o alcance de cobertura dos equipamentos. Com a licença Apache 2.0 aberta para uso comercial, e em conjunto com a implementação no ecossistema Android, espera-se que impulsione a atualização do hardware no dispositivo final e inicie um novo ciclo de troca de equipamentos.

Os principais pontos da East Wu Securities são os seguintes:

O Google lança o modelo open source Gemma4, com capacidades de Agent e multimodais reforçadas de forma abrangente

Em 3 de abril, o Google lançou a nova geração de modelos de linguagem open source Gemma 4, incluindo quatro versões: E2B, E4B, 26B (MoE) e 31B (Dense). Toda a gama de modelos Gemma4 suporta as seguintes capacidades: Agent e raciocínio complexo: suporta raciocínio multi-etapas e planeamento lógico complexo, com capacidade de execução de fluxos de trabalho autónomos orientados a cenários de Agent, podendo chamar várias ferramentas e APIs. Multimodal: todos os modelos suportam nativamente processamento de imagens e vídeos, com desempenho destacado em tarefas como OCR e compreensão de gráficos; as versões E2B/E4B suportam ainda entrada de áudio nativa adicionalmente. Geração de código offline: suporta geração de código em ambiente local. Contexto longo: modelos pequenos suportam janelas de contexto de 128K, e modelos grandes até 256K, melhorando significativamente a capacidade de lidar com documentos longos e tarefas complexas. Capacidade multilingue: já foi treinada nativamente em mais de 140 línguas.

A evolução técnica centra-se na eficiência de memória e na subdescida da multimodalidade, melhorando a capacidade de suportar tarefas no dispositivo final e ampliando a cobertura de equipamentos

Pela trajetória de evolução técnica, as iterações do Gemma 4 otimizam os principais estrangulamentos centrais da implementação no dispositivo final, como memória e capacidades de interação. Mais especificamente, 1) ao nível da arquitetura do modelo, continua o mecanismo de Per-Layer Embeddings (PLE); por exemplo, no caso do E2B, os parâmetros totais são cerca de 5B, mas o raciocínio efetivo requer apenas carregar cerca de 2B dos pesos nucleares; o restante é chamado sob demanda pela CPU. Esta mudança reduz o patamar de exigência de hardware do terminal, permitindo que o modelo funcione em dispositivos de ponta atuais com o parque instalado, ampliando a base de dispositivos aos quais a IA no dispositivo final consegue chegar. 2) Quanto à capacidade de contexto longo, através de “janela deslizante alternada + atenção global” e do design do Shared KVCache, é otimizada de forma bastante significativa a eficiência do uso da memória: a maioria das camadas apenas processa tokens locais, enquanto um pequeno número de camadas é responsável pela modelação global; ao mesmo tempo, o cache é reutilizado para evitar cálculos repetidos, reduzindo a necessidade de KV cache em 74% face aos mecanismos tradicionais de atenção total. Num contexto em que a memória do dispositivo final é limitada, esta otimização determina diretamente se o modelo consegue lidar com cargas de trabalho reais como documentos longos e conversas em várias rondas; é um ponto-chave para a IA no dispositivo final evoluir para uma ferramenta de produtividade. 3) Nos limites de capacidades, o Gemma 4 introduz pela primeira vez a capacidade multimodal nativa de visão + áudio ao nível de modelos 2B, fornecendo a base técnica para funcionalidades comuns no telemóvel, como compreender o ecrã, comunicar por voz e executar operações entre aplicações. No conjunto, esta linha considera que o Gemma 4, através de inovações na arquitetura, melhora de forma notável por um lado a capacidade dos modelos no dispositivo final para lidar com tarefas multimodais do quotidiano; por outro, reduz eficazmente as barreiras de hardware, ampliando o âmbito de dispositivos alcançáveis, tendo um significado de aceleração para o ritmo da indústria de IA no dispositivo final.

A licença open source fica totalmente desimpedida, e com a implementação no sistema Android, impulsiona-se a atualização do hardware no dispositivo final e inicia-se um novo ciclo de troca de equipamentos

Do ponto de vista do ecossistema, as primeiras gerações da série Gemma utilizavam uma licença personalizada da Google, o que impunha certas restrições em cenários de uso comercial. Desta vez, o Gemma 4 muda para o protocolo Apache 2.0, e, sem constrangimentos de políticas de uso obrigatório, oferece liberdade comercial total, reduzindo de forma significativa o patamar de adoção pelas empresas, com potencial para atrair mais programadores e clientes comerciais de volta. Por outro lado, o Gemma 4 será utilizado como modelo base do Gemini Nano 4 e está planeada a sua implementação, ainda este ano, em novos equipamentos Android flagship de próxima geração, assumindo o papel de base do modelo no dispositivo final. De acordo com revelações oficiais, desde o seu lançamento inicial, a quantidade acumulada de downloads do Gemma já ultrapassou 400 milhões de vezes, e conta com mais de 100 mil modelos derivados, formando preliminarmente o ecossistema de programadores Gemmaverse. Esta linha considera que, com a flexibilização do protocolo open source e a introdução no ecossistema Android, a atualização das capacidades do modelo no dispositivo final representada pelo Gemma 4 tem potencial para alargar de forma significativa os limites das capacidades de IA no dispositivo final; ao mesmo tempo, irá ainda catalisar a atualização do desempenho do hardware do terminal e a inovação de produtos em novas formas, conduzindo a um novo ciclo de troca de equipamentos e a avanços em categorias.

Aviso de riscos: risco de a inovação técnica não atingir as expectativas; risco de insuficiência da procura por parte do terminal; risco do ambiente macroeconómico.

A abundância de informação e uma interpretação precisa — tudo na app de Sina Finance

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar