Fonte: TokenPost
Título Original: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개
Link Original: https://www.tokenpost.kr/news/ai/320188
A instituição de investigação de IA chinesa DeepSeek(DeepSeek) anunciou uma nova arquitetura que pode melhorar drasticamente o desempenho de aprendizagem de inteligência artificial de próxima geração. Nomeada ‘mHC(Manifold-Constrained Hyper-Connections)’, esta tecnologia é uma estrutura que ultrapassa o método essencial de ‘conexões residuais(residual connection)’ em modelos de linguagem de grande escala(LLM) e modelos de reconhecimento visual, elevando tanto a precisão de aprendizagem quanto a eficiência de hardware.
O mHC é uma melhoria em relação à tecnologia existente de ‘hiper conexões(Hyper-Connections)’. As hiper conexões foram destacadas por ajudar a transmitir informações de forma mais eficiente entre camadas(layer) de modelos de deep learning, mas na prática, devido a várias limitações técnicas, não foram amplamente utilizadas em ambientes operacionais. A DeepSeek superou essa limitação ao incorporar o conceito de ‘manifold(manifold)’. Um manifold é um espaço matemático com estrutura de múltiplas camadas, variando desde formas simples até estruturas complexas que ultrapassam o tridimensional. A DeepSeek explicou que o mHC utiliza essa estrutura baseada em manifold para garantir a estabilidade e a consistência do gradiente(erro de retropropagação) gerado durante o treinamento do modelo, desempenhando um papel fundamental.
Para validar o desempenho desta arquitetura, a DeepSeek treinou três tipos de LLMs com 3 bilhões, 9 bilhões e 27 bilhões de parâmetros, usando a estrutura mHC, e comparou-os com modelos de mesma especificação baseados em hiper conexões. Como resultado, os modelos com estrutura mHC mostraram desempenho superior de forma consistente em 8 benchmarks diferentes. Em particular, foi possível realizar um treinamento mais eficiente em termos de consumo de memória, e o overhead de hardware durante o treinamento foi reportado em torno de 6,27%.
A equipe de pesquisa da DeepSeek destacou: “Ao aprofundar a compreensão da relação entre a estrutura topológica baseada em manifold e os algoritmos de otimização, o mHC pode superar os limites atuais dos modelos de IA e abrir novos caminhos para o design de infraestruturas de próxima geração”, enfatizando o significado técnico da inovação.
Este anúncio é particularmente relevante no contexto de uma recente movimentação global para reavaliar as arquiteturas de aprendizagem de IA. Desde sua introdução em pesquisas de deep learning em 2015, as conexões residuais têm sido amplamente utilizadas em modelos de LLM e classificação de imagens. Essa estrutura permite que o sinal de erro gerado na última camada de saída seja propagado de volta às camadas anteriores, transmitindo informações de aprendizagem, ajudando a compensar a distorção de informações que ocorre nesse processo.
No entanto, à medida que os modelos de IA se tornaram cada vez maiores, as limitações das conexões residuais se tornaram evidentes, levando a várias tentativas de melhorias. O mHC da DeepSeek é uma tecnologia de ponta nesse contexto, e há análises de que ela pode contribuir diretamente para a melhoria da eficiência de aprendizagem de modelos, que é a base de toda a indústria de IA.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
8 gostos
Recompensa
8
9
Republicar
Partilhar
Comentar
0/400
ImpermanentLossFan
· 3h atrás
Voltar ao mHC? Parece que nos últimos dois anos as atualizações na arquitetura de IA têm sido muito rápidas, ainda nem consegui entender bem a anterior
---
deepseek voltou a inovar, mas no final essas conquistas de pesquisa domésticas ainda acabam sendo bloqueadas
---
A abordagem de conexão residual já está bastante comum, o mHC consegue realmente ser muito melhor que o residual?
---
Mais um arquitetura que supostamente supera o transformer, será que é verdade?
---
Parece que está bem, mas como sempre, o custo real de inferência é que importa
Ver originalResponder0
PretendingToReadDocs
· 10h atrás
Ai, mais uma novidade do DeepSeek, o que será que o mHC vai revolucionar agora?
---
Consegue superar até a conexão de resíduos? Essa tecnologia é confiável? Só pelo nome já estou meio confuso.
---
A IA na China lança uma nova arquitetura de novo, enquanto aqui ainda estamos a aumentar o número de parâmetros haha.
---
LLM e modelos visuais podem melhorar? Parece estar a exagerar um pouco.
---
Por que a sigla mHC é tão difícil de pronunciar? Não consigo nem lembrar.
---
DeepSeek publica um artigo atrás do outro, mas não sei como será o resultado prático.
---
Mais uma vez, manifold e hyper, esses caras adoram usar esses termos sofisticados.
Ver originalResponder0
CryptoHistoryClass
· 13h atrás
ngl, já vi este gráfico antes... as conexões residuais eram supostamente a arquitetura definitiva em 2017. agora estão a "transcender" isso? *verifica gráficos de desempenho históricos* ...sim, estamos definitivamente na fase de "avançado revolucionário" do ciclo novamente. dá-lhe 18 meses
Ver originalResponder0
LiquidationWatcher
· 13h atrás
ngl deepseek a lançar uma nova arquitetura de IA enquanto estamos todos a suar pelas nossas posições... lembra-se quando toda a gente achava que as conexões residuais eram o objetivo final? de qualquer forma, esta coisa do mhc parece legítima, mas não sei, sempre que a China anuncia algum avanço, o meu PTSD de liquidação dispara. Assisti a muitas jogadas de tecnologia "revolucionária" serem frontrun até à oblivion em 2022.
Ver originalResponder0
pvt_key_collector
· 13h atrás
Hah, mais uma vez a deepseek a fazer truques novos, desta vez o mHC parece bastante impressionante
---
Já estamos cansados de brincar com conexões residuais? Tem alguma piada, vamos ver qual é o efeito real
---
A AI chinesa publicou outro artigo, o mercado de capitais ocidental vai tremer novamente
---
A palavra manifold-constrained foi bem escolhida, parece um pouco dura
---
Tanto o LLM quanto os modelos visuais podem ser usados, se realmente for implementado, será um golpe de redução de dimensão
---
Não sei se é apenas hype ou se há realmente uma inovação, vamos esperar pelo benchmark
---
A equipe do deepseek tem estado bastante ativa recentemente, após o financiamento começaram a lançar artigos em massa
---
No fundo, ainda é uma questão de otimizar a arquitetura, quão inovadora é a lógica central?
---
Normalmente leva meio ano para ver se uma coisa funciona ou não, não se apresse a elogiar
---
Superar a conexão residual? Meu Deus, vão ter que mudar os livros didáticos de novo
Ver originalResponder0
BoredStaker
· 13h atrás
Porra, a deepseek está a inventar novas jogadas? Sempre que a equipa chinesa lança alguma coisa, os meios de comunicação ocidentais começam a fazer barulho
Ver originalResponder0
MemeTokenGenius
· 13h atrás
Depois de pensar um pouco, esta arquitetura mHC parece incrível, mas resta saber o que consegue realmente correr
O DeepSeek está a fazer algo novo, um pouco intenso, consegue ultrapassar o modelo atual?
A chave é se o custo pode realmente ser suprimido, e os dados em papel não são interessantes
Será que esta vaga de iteração tecnológica terá um grande impacto nos fabricantes de GPUs existentes...
MHC LLM, parece profissional, mas pode realmente ser aplicado ao ecossistema web3... Bem
Ver originalResponder0
PanicSeller
· 13h atrás
Já veio uma nova arquitetura, como foi que escolheram o nome mHC, parece que a cada vez estão criando palavras
---
deepseek lança uma grande novidade, desta vez será que realmente consegue superar as conexões residuais? Estou um pouco curioso
---
As empresas chinesas de IA estão realmente se esforçando, mas será que essa coisa realmente pode ser usada na prática?
---
Ainda não entendi o título, mas parece que é mais uma série de termos matemáticos
---
emm, mais uma questão de modelos super grandes, que relação isso com a nossa negociação de criptomoedas?
---
Se essa coisa realmente puder reduzir os custos computacionais, seria incrível. Atualmente, treinar modelos está muito caro
---
O título é metade em coreano e metade em chinês, estou meio confuso
---
Uma boa arquitetura é ótimo, mas a questão é quem consegue usar ela
Ver originalResponder0
AirdropBlackHole
· 13h atrás
Os concorrentes do DeepSea voltaram a competir, a arquitetura do mHC nesta rodada realmente tem algo de especial, mas honestamente, esses artigos parecem todos iguais
O ritmo do DeepSeek parece que vai quebrar alguns monopólios
O teto de desempenho dos LLMs vai ser quebrado? Vamos ver
Mais uma enxurrada de termos técnicos, mas a implementação real vai depender de como vão fazer a seguir
DeepSix, arquitetura de IA de próxima geração que supera conexões residuais, revela 'mHC'
Fonte: TokenPost Título Original: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 Link Original: https://www.tokenpost.kr/news/ai/320188 A instituição de investigação de IA chinesa DeepSeek(DeepSeek) anunciou uma nova arquitetura que pode melhorar drasticamente o desempenho de aprendizagem de inteligência artificial de próxima geração. Nomeada ‘mHC(Manifold-Constrained Hyper-Connections)’, esta tecnologia é uma estrutura que ultrapassa o método essencial de ‘conexões residuais(residual connection)’ em modelos de linguagem de grande escala(LLM) e modelos de reconhecimento visual, elevando tanto a precisão de aprendizagem quanto a eficiência de hardware.
O mHC é uma melhoria em relação à tecnologia existente de ‘hiper conexões(Hyper-Connections)’. As hiper conexões foram destacadas por ajudar a transmitir informações de forma mais eficiente entre camadas(layer) de modelos de deep learning, mas na prática, devido a várias limitações técnicas, não foram amplamente utilizadas em ambientes operacionais. A DeepSeek superou essa limitação ao incorporar o conceito de ‘manifold(manifold)’. Um manifold é um espaço matemático com estrutura de múltiplas camadas, variando desde formas simples até estruturas complexas que ultrapassam o tridimensional. A DeepSeek explicou que o mHC utiliza essa estrutura baseada em manifold para garantir a estabilidade e a consistência do gradiente(erro de retropropagação) gerado durante o treinamento do modelo, desempenhando um papel fundamental.
Para validar o desempenho desta arquitetura, a DeepSeek treinou três tipos de LLMs com 3 bilhões, 9 bilhões e 27 bilhões de parâmetros, usando a estrutura mHC, e comparou-os com modelos de mesma especificação baseados em hiper conexões. Como resultado, os modelos com estrutura mHC mostraram desempenho superior de forma consistente em 8 benchmarks diferentes. Em particular, foi possível realizar um treinamento mais eficiente em termos de consumo de memória, e o overhead de hardware durante o treinamento foi reportado em torno de 6,27%.
A equipe de pesquisa da DeepSeek destacou: “Ao aprofundar a compreensão da relação entre a estrutura topológica baseada em manifold e os algoritmos de otimização, o mHC pode superar os limites atuais dos modelos de IA e abrir novos caminhos para o design de infraestruturas de próxima geração”, enfatizando o significado técnico da inovação.
Este anúncio é particularmente relevante no contexto de uma recente movimentação global para reavaliar as arquiteturas de aprendizagem de IA. Desde sua introdução em pesquisas de deep learning em 2015, as conexões residuais têm sido amplamente utilizadas em modelos de LLM e classificação de imagens. Essa estrutura permite que o sinal de erro gerado na última camada de saída seja propagado de volta às camadas anteriores, transmitindo informações de aprendizagem, ajudando a compensar a distorção de informações que ocorre nesse processo.
No entanto, à medida que os modelos de IA se tornaram cada vez maiores, as limitações das conexões residuais se tornaram evidentes, levando a várias tentativas de melhorias. O mHC da DeepSeek é uma tecnologia de ponta nesse contexto, e há análises de que ela pode contribuir diretamente para a melhoria da eficiência de aprendizagem de modelos, que é a base de toda a indústria de IA.