Na crônica do progresso tecnológico, tecnologias revolucionárias frequentemente surgem de forma independente, cada uma liderando mudanças em uma era. E quando duas tecnologias revolucionárias se encontram, sua colisão frequentemente tem um impacto exponencial. Hoje, estamos diante de um momento histórico assim: inteligência artificial e tecnologia de criptografia, duas tecnologias disruptivas igualmente importantes, estão entrando de mãos dadas no centro do palco.
Imaginamos que muitos desafios no campo de IA possam ser resolvidos pela tecnologia de criptografia; esperamos que o agente de IA construa redes econômicas autônomas e promova a adoção em grande escala da tecnologia de criptografia; também esperamos que a IA acelere o desenvolvimento de cenários existentes no campo de criptografia. Incontáveis olhos estão focados nisso, e fundos maciços estão entrando. Assim como qualquer palavra da moda, ela incorpora o desejo das pessoas por inovação, visão para o futuro e também contém ambição e ganância incontroláveis.
No entanto, em todo esse burburinho, sabemos muito pouco sobre as questões mais básicas. Quão bem a IA sabe sobre criptografia? Um Agente equipado com um modelo de linguagem grande tem a capacidade real de usar ferramentas de criptografia? Quanta diferença os diferentes modelos fazem nas tarefas de criptografia?
As respostas para essas perguntas determinarão a influência mútua da tecnologia de IA e criptografia, e também são cruciais para a direção do produto e seleção de rota de tecnologia neste campo cruzado. Para explorar essas questões, conduzi alguns experimentos de avaliação em grandes modelos de linguagem. Ao avaliar seu conhecimento e capacidades no campo da criptografia, medimos o nível de aplicação de criptografia de IA e determinamos o potencial e os desafios da integração de tecnologia de IA e criptografia.
O grande modelo de linguagem tem um bom desempenho no conhecimento básico de criptografia e blockchain, e tem uma boa compreensão do ecossistema de criptografia, mas tem um desempenho ruim em cálculos matemáticos e análise de lógica empresarial complexa. Em termos de chaves privadas e operações básicas de carteira, o modelo tem uma base satisfatória, mas enfrenta o sério desafio de como manter as chaves privadas na nuvem. Muitos modelos podem gerar código efetivo de contrato inteligente para cenários simples, mas não conseguem realizar tarefas difíceis de forma independente, como auditoria de contrato e criação de contrato complexo.
Modelos comerciais proprietários geralmente têm uma grande vantagem. No campo de código aberto, apenas o Llama 3.1-405B se saiu bem, enquanto todos os modelos de código aberto com tamanhos de parâmetro menores falharam. No entanto, há potencial. Por meio de orientação de palavras de prompt, raciocínio de cadeia de pensamento e tecnologia de aprendizado de poucas amostras, o desempenho de todos os modelos foi grandemente melhorado. Os modelos líderes já possuem forte viabilidade técnica em alguns cenários de aplicação vertical.
Foram selecionados 18 modelos de linguagem representativos como objetos de avaliação, incluindo:
Esses modelos abrangem modelos comerciais mainstream e populares de código aberto, com quantidades de parâmetros variando mais de cem vezes, de 3.8B a 405B. Considerando a estreita relação entre a tecnologia de criptografia e a matemática, dois modelos de otimização matemática foram especialmente selecionados para o experimento.
As áreas de conhecimento abordadas pelo experimento incluem criptografia, noções básicas de blockchain, operações de chave privada e carteira, contratos inteligentes, DAO e governança, modelos de consenso e econômicos, Dapp/DeFi/NFT, análise de dados on-chain, etc. Cada área é composta por uma série de perguntas e tarefas que vão desde fáceis até difíceis, que não apenas testam o conhecimento do modelo, mas também testam seu desempenho em cenários de aplicação por meio de tarefas de simulação.
O desenho das tarefas vem de diversas fontes. Alguns vêm da entrada de vários especialistas no campo da criptografia, e a outra parte é gerada com a ajuda de IA e revisão manual para garantir a precisão e o desafio das tarefas. Algumas das tarefas usam perguntas de múltipla escolha em um formato relativamente simples para facilitar testes automatizados padronizados separados e pontuação. Outra parte do teste adota um formato de pergunta mais complexo, e o processo de teste é conduzido por uma combinação de automação do programa + manual + IA. Todas as tarefas de teste são avaliadas usando um método de raciocínio de amostra zero, sem fornecer exemplos, orientação de pensamento ou prompts instrucionais.
Uma vez que o próprio design do experimento é relativamente áspero e não tem rigor acadêmico suficiente, as perguntas e tarefas utilizadas para teste estão longe de cobrir completamente o campo da criptografia, e o framework de teste também é imaturo. Portanto, este artigo não lista dados experimentais específicos, mas se concentra em compartilhar algumas ideias a partir dos experimentos.
Durante o processo de avaliação, o grande modelo de linguagem teve um bom desempenho em testes de conhecimentos básicos em vários campos, como algoritmos de criptografia, noções básicas de blockchain e aplicações DeFi. Por exemplo, todos os modelos deram respostas precisas a perguntas que testaram a compreensão do conceito de disponibilidade de dados. Quanto à pergunta que avalia a compreensão da estrutura de transação do Ethereum pelo modelo, embora cada modelo tenha respostas ligeiramente diferentes em detalhes, geralmente contêm informações-chave corretas. As perguntas de múltipla escolha que examinam conceitos são ainda menos difíceis, e a precisão de quase todos os modelos está acima de 95%.
Perguntas e respostas conceituais são completamente difíceis para grandes modelos.
No entanto, a situação se inverte quando se trata de problemas que requerem cálculos específicos. Um simples problema de cálculo do algoritmo RSA coloca a maioria dos modelos em dificuldade. É fácil de entender: os grandes modelos de linguagem operam principalmente identificando e replicando padrões nos dados de treinamento, em vez de entender profundamente a natureza dos conceitos matemáticos. Essa limitação é particularmente óbvia ao lidar com conceitos matemáticos abstratos, como operações modulares e operações exponenciais. Dado que o campo da criptografia está intimamente relacionado à matemática, isso significa que depender diretamente de modelos para cálculos matemáticos relacionados à criptografia é pouco confiável.
Em outros problemas de computação, o desempenho de grandes modelos de linguagem também é insatisfatório. Por exemplo, para a simples questão de calcular a perda impermanente da AMM, embora não envolva operações matemáticas complexas, apenas 4 dos 18 modelos deram a resposta correta. Quanto a outra questão mais básica sobre o cálculo da probabilidade de um bloco, todos os modelos erraram a resposta. Todos os modelos ficaram perplexos e nenhum deles acertou. Isso não apenas expõe as deficiências dos grandes modelos de linguagem em cálculos precisos, mas também reflete seus principais problemas na análise de lógica de negócios. Vale ressaltar que até o modelo de otimização matemática falhou em mostrar vantagens óbvias em questões de cálculo, e seu desempenho foi decepcionante.
No entanto, o problema do cálculo matemático não é insolúvel. Se fizermos um pequeno ajuste e exigirmos que os LLMs forneçam código Python correspondente em vez de calcular diretamente os resultados, a taxa de precisão será grandemente melhorada. Tomando o problema de cálculo RSA mencionado acima como exemplo, os códigos Python fornecidos pela maioria dos modelos podem ser executados sem problemas e produzir resultados corretos. Em ambientes de produção reais, códigos de algoritmo predefinidos podem ser fornecidos para contornar o auto-cálculo dos LLMs, o que é semelhante a como os humanos lidam com essas tarefas. No nível da lógica de negócios, o desempenho do modelo também pode ser melhorado de forma eficaz através de orientações cuidadosamente projetadas de palavras de estímulo.
Se você perguntar qual é o primeiro cenário para o Agente usar criptomoeda, minha resposta é pagamento. Criptomoeda pode ser considerada quase uma forma de moeda nativa da IA. Comparado com os muitos obstáculos que os agentes enfrentam no sistema financeiro tradicional, é uma escolha natural usar tecnologia de criptografia para equipar-se com identidades digitais e gerenciar fundos através de carteiras criptografadas. Portanto, a geração e o gerenciamento de chaves privadas e várias operações de carteira constituem os requisitos básicos de habilidade mais importantes para que um Agente possa usar independentemente a rede de criptografia.
O cerne da geração segura de chaves privadas está na alta qualidade dos números aleatórios, o que obviamente é uma capacidade que os grandes modelos de linguagem não têm. No entanto, os modelos têm compreensão suficiente da segurança da chave privada. Quando solicitados a gerar uma chave privada, a maioria dos modelos escolhe usar código (como bibliotecas relacionadas ao Python) para orientar os usuários a gerar chaves privadas de forma independente. Mesmo que um modelo forneça diretamente uma chave privada, é claramente declarado que isso é apenas para fins de demonstração e que não é uma chave privada segura que pode ser usada diretamente. Nesse sentido, todos os grandes modelos mostraram desempenho satisfatório.
A gestão da chave privada enfrenta alguns desafios, que são principalmente devido às limitações inerentes da arquitetura técnica em vez da falta de capacidades do modelo. Ao utilizar um modelo implantado localmente, a chave privada gerada pode ser considerada relativamente segura. No entanto, se um modelo de nuvem comercial for utilizado, devemos assumir que a chave privada foi exposta ao operador do modelo no momento em que foi gerada. Mas para um Agente que visa trabalhar de forma independente, é necessário ter permissões de chave privada, o que significa que a chave privada não pode ser apenas local para o usuário. Nesse caso, depender apenas do próprio modelo não é mais suficiente para garantir a segurança da chave privada, e serviços adicionais de segurança, como um ambiente de execução confiável ou HSM, precisam ser introduzidos.
Se for assumido que o Agente já possui a chave privada de forma segura e realiza várias operações básicas com base nisso, os vários modelos no teste mostraram boas capacidades. Embora muitas vezes ocorram erros nas etapas e códigos gerados, esses problemas podem ser resolvidos em grande parte com uma estrutura de engenharia adequada. Pode-se dizer que do ponto de vista técnico, não existem mais muitos obstáculos para o Agente realizar operações básicas de carteira de forma independente.
A capacidade de entender, utilizar, escrever e identificar riscos de contratos inteligentes é a chave para os Agentes de IA realizarem tarefas complexas no mundo on-chain, e, portanto, também é uma área de teste chave para experimentos. Modelos de linguagem grandes têm mostrado um potencial significativo nesta área, mas também expuseram alguns problemas óbvios.
Quase todos os modelos no teste responderam corretamente aos conceitos subjacentes do contrato, identificam bugs simples. Em termos de otimização de gás de contrato, a maioria dos modelos pode identificar pontos-chave de otimização e analisar conflitos que podem ser causados pela otimização. No entanto, quando envolve lógica de negócios profunda, as limitações de grandes modelos começam a aparecer.
Tomemos um contrato de investimento como exemplo: todos os modelos entenderam corretamente as funções do contrato, e a maioria dos modelos encontrou várias vulnerabilidades de médio e baixo risco. No entanto, nenhum modelo pode descobrir independentemente uma vulnerabilidade de alto risco oculta na lógica de negócios que pode fazer com que alguns fundos fiquem bloqueados em circunstâncias especiais. Em vários testes usando contratos reais, o modelo teve um desempenho aproximadamente igual.
Isso mostra que o entendimento dos contratos pelo grande modelo ainda permanece no nível formal e falta entendimento da lógica empresarial profunda. No entanto, após serem fornecidas dicas adicionais, alguns modelos foram capazes de identificar independentemente as vulnerabilidades profundamente escondidas nos contratos mencionados acima. Com base nesse julgamento de desempenho e com o suporte de um bom design de engenharia, o grande modelo tem basicamente a capacidade de servir como co-piloto no campo dos contratos inteligentes. No entanto, ainda há um longo caminho a percorrer antes que possamos assumir independentemente tarefas importantes, como auditorias de contratos.
Uma coisa a notar é que as tarefas relacionadas ao código no experimento são principalmente para contratos com lógica simples e menos de 2.000 linhas de código. Para projetos complexos de maior escala, sem ajuste fino ou engenharia de palavras complexa, acho que está claramente além das capacidades de processamento eficazes do modelo atual e não foi incluído no teste. Além disso, esse teste envolve apenas o Solidity e não inclui outras linguagens de contrato inteligente, como Rust e Move.
Além do conteúdo do teste acima, o experimento também abrange muitos aspectos, incluindo cenários DeFi, DAO e sua governança, análise de dados on-chain, design de mecanismo de consenso e Tokenomics. Grandes modelos de linguagem demonstraram certas capacidades nesses aspectos. Dado que muitos testes ainda estão em andamento e métodos e estruturas de teste estão constantemente sendo otimizados, este artigo não entrará nesses áreas por enquanto.
Entre todos os grandes modelos de linguagem participantes da avaliação, o GPT-4o e o Claude 3.5 Sonnet mantiveram seu excelente desempenho em outros campos e são os líderes incontestáveis. Ao enfrentar perguntas básicas, ambos os modelos quase sempre podem fornecer respostas precisas; na análise de cenários complexos, eles podem fornecer insights aprofundados e bem documentados. Até mesmo apresenta uma alta taxa de vitória em tarefas de computação nas quais os grandes modelos não são bons. Claro, essa taxa de sucesso “alta” é relativa e ainda não atingiu o nível de saída estável em um ambiente de produção.
No campo do modelo de código aberto, o Llama 3.1-405B está muito à frente de seus pares graças à sua grande escala de parâmetros e algoritmos avançados. Em outros modelos de código aberto com tamanhos de parâmetros menores, não há diferença significativa de desempenho entre os modelos. Embora as pontuações sejam ligeiramente diferentes, no geral, eles estão longe da linha de aprovação.
Portanto, se você deseja construir aplicativos de IA relacionados à criptografia atualmente, esses modelos com parâmetros pequenos e médios não são uma escolha adequada.
Dois modelos se destacaram especialmente em nossa revisão. O primeiro é o modelo Phi-3 3.8B lançado pela Microsoft. É o menor modelo que participa deste experimento. No entanto, ele alcança um nível de desempenho equivalente ao modelo 8B-12B com menos da metade do número de parâmetros. Em algumas categorias específicas, ainda melhor na questão. Este resultado destaca a importância da otimização da arquitetura do modelo e das estratégias de treinamento que não dependem exclusivamente do aumento do tamanho dos parâmetros.
E o modelo Command-R da Cohere se tornou um surpreendente "cavalo negro" - o reverso. Command-R não é tão conhecido em comparação com outros modelos, mas a Cohere é uma grande empresa de modelos focada no mercado 2B. Acredito que ainda existam muitos pontos de convergência com áreas como o desenvolvimento de Agentes, por isso foi especificamente incluído no escopo de teste. No entanto, o Command-R com 35B de parâmetros ficou em último na maioria dos testes, perdendo para muitos modelos abaixo de 10B.
Este resultado desencadeou o pensamento: quando o Command-R foi lançado, ele se concentrou no aprimoramento e na geração de capacidades de recuperação e nem mesmo publicou resultados regulares de teste de referência. Isso significa que é uma “chave privada” que desbloqueia seu potencial máximo apenas em cenários específicos?
Nesta série de testes, obtivemos uma compreensão preliminar das capacidades de IA no campo da criptografia. É claro que esses testes estão longe dos padrões profissionais. A cobertura do conjunto de dados está longe de ser suficiente, os padrões quantitativos para respostas são relativamente grosseiros e ainda falta um mecanismo de pontuação refinado e mais preciso. Isso afetará a precisão dos resultados da avaliação e pode levar à subestimação do desempenho de alguns modelos.
Em termos de método de teste, o experimento utilizou apenas um método de aprendizado sem supervisão, e não explorou métodos como cadeias de pensamento e aprendizado com poucas amostras que podem inspirar maior potencial do modelo. Em termos de parâmetros do modelo, foram utilizados parâmetros padrão do modelo nos experimentos, e o impacto de diferentes configurações de parâmetros no desempenho do modelo não foi examinado. Esses métodos de teste únicos no geral limitam nossa avaliação abrangente do potencial do modelo e não exploram totalmente as diferenças no desempenho do modelo em condições específicas.
Embora as condições de teste fossem relativamente simples, esses experimentos ainda produziram muitas percepções valiosas e forneceram uma referência para os desenvolvedores construírem aplicações.
No campo da IA, os benchmarks desempenham um papel fundamental. O rápido desenvolvimento da moderna tecnologia de aprendizado profundo originou-se do ImageNET concluído pelo Professor Li Feifei em 2012, que é um benchmark padronizado e conjunto de dados no campo da visão computacional.
Ao fornecer um padrão unificado para avaliação, os benchmarks não apenas fornecem aos desenvolvedores metas claras e pontos de referência, mas também impulsionam o progresso tecnológico em toda a indústria. Isso explica por que cada novo modelo de linguagem grande lançado se concentrará em anunciar seus resultados em vários benchmarks. Esses resultados se tornam uma “linguagem universal” das capacidades do modelo, permitindo que os pesquisadores localizem avanços, os desenvolvedores selecionem os modelos mais adequados para tarefas específicas e os usuários façam escolhas informadas com base em dados objetivos. Mais importante ainda, os testes de benchmark frequentemente anunciam a direção futura das aplicações de IA, orientando o investimento de recursos e o foco da pesquisa.
Se acreditarmos que há um enorme potencial na interseção entre IA e criptografia, então estabelecer benchmarks criptográficos dedicados se torna uma tarefa urgente. A criação de benchmarks pode se tornar uma ponte chave conectando os dois campos da IA e criptografia, catalisar inovação e fornecer orientação clara para futuras aplicações.
No entanto, comparado com os benchmarks maduros em outros campos, a construção de benchmarks no campo da criptografia enfrenta desafios únicos: a tecnologia de criptografia está evoluindo rapidamente, o sistema de conhecimento da indústria ainda não foi solidificado e há uma falta de consenso em múltiplas direções centrais. Como um campo interdisciplinar, a criptografia abrange criptografia, sistemas distribuídos, economia, etc., e sua complexidade está muito além de um único campo. O que é ainda mais desafiador é que o benchmark de criptografia não apenas precisa avaliar o conhecimento, mas também examina a capacidade prática da IA de usar a tecnologia de criptografia, o que requer o projeto de uma nova arquitetura de avaliação. A falta de conjuntos de dados relevantes aumenta ainda mais a dificuldade.
A complexidade e importância desta tarefa ditam que não pode ser realizada por uma única pessoa ou equipe. É necessário reunir a sabedoria de muitas partes, desde usuários, desenvolvedores, especialistas em criptografia, pesquisadores de criptografia até mais pessoas em campos interdisciplinares, e depende de extensa participação e consenso da comunidade. Portanto, o referencial de criptografia precisa de uma discussão mais ampla, pois não é apenas um trabalho técnico, mas também um reflexão profunda sobre como entendemos essa tecnologia emergente.
Na crônica do progresso tecnológico, tecnologias revolucionárias frequentemente surgem de forma independente, cada uma liderando mudanças em uma era. E quando duas tecnologias revolucionárias se encontram, sua colisão frequentemente tem um impacto exponencial. Hoje, estamos diante de um momento histórico assim: inteligência artificial e tecnologia de criptografia, duas tecnologias disruptivas igualmente importantes, estão entrando de mãos dadas no centro do palco.
Imaginamos que muitos desafios no campo de IA possam ser resolvidos pela tecnologia de criptografia; esperamos que o agente de IA construa redes econômicas autônomas e promova a adoção em grande escala da tecnologia de criptografia; também esperamos que a IA acelere o desenvolvimento de cenários existentes no campo de criptografia. Incontáveis olhos estão focados nisso, e fundos maciços estão entrando. Assim como qualquer palavra da moda, ela incorpora o desejo das pessoas por inovação, visão para o futuro e também contém ambição e ganância incontroláveis.
No entanto, em todo esse burburinho, sabemos muito pouco sobre as questões mais básicas. Quão bem a IA sabe sobre criptografia? Um Agente equipado com um modelo de linguagem grande tem a capacidade real de usar ferramentas de criptografia? Quanta diferença os diferentes modelos fazem nas tarefas de criptografia?
As respostas para essas perguntas determinarão a influência mútua da tecnologia de IA e criptografia, e também são cruciais para a direção do produto e seleção de rota de tecnologia neste campo cruzado. Para explorar essas questões, conduzi alguns experimentos de avaliação em grandes modelos de linguagem. Ao avaliar seu conhecimento e capacidades no campo da criptografia, medimos o nível de aplicação de criptografia de IA e determinamos o potencial e os desafios da integração de tecnologia de IA e criptografia.
O grande modelo de linguagem tem um bom desempenho no conhecimento básico de criptografia e blockchain, e tem uma boa compreensão do ecossistema de criptografia, mas tem um desempenho ruim em cálculos matemáticos e análise de lógica empresarial complexa. Em termos de chaves privadas e operações básicas de carteira, o modelo tem uma base satisfatória, mas enfrenta o sério desafio de como manter as chaves privadas na nuvem. Muitos modelos podem gerar código efetivo de contrato inteligente para cenários simples, mas não conseguem realizar tarefas difíceis de forma independente, como auditoria de contrato e criação de contrato complexo.
Modelos comerciais proprietários geralmente têm uma grande vantagem. No campo de código aberto, apenas o Llama 3.1-405B se saiu bem, enquanto todos os modelos de código aberto com tamanhos de parâmetro menores falharam. No entanto, há potencial. Por meio de orientação de palavras de prompt, raciocínio de cadeia de pensamento e tecnologia de aprendizado de poucas amostras, o desempenho de todos os modelos foi grandemente melhorado. Os modelos líderes já possuem forte viabilidade técnica em alguns cenários de aplicação vertical.
Foram selecionados 18 modelos de linguagem representativos como objetos de avaliação, incluindo:
Esses modelos abrangem modelos comerciais mainstream e populares de código aberto, com quantidades de parâmetros variando mais de cem vezes, de 3.8B a 405B. Considerando a estreita relação entre a tecnologia de criptografia e a matemática, dois modelos de otimização matemática foram especialmente selecionados para o experimento.
As áreas de conhecimento abordadas pelo experimento incluem criptografia, noções básicas de blockchain, operações de chave privada e carteira, contratos inteligentes, DAO e governança, modelos de consenso e econômicos, Dapp/DeFi/NFT, análise de dados on-chain, etc. Cada área é composta por uma série de perguntas e tarefas que vão desde fáceis até difíceis, que não apenas testam o conhecimento do modelo, mas também testam seu desempenho em cenários de aplicação por meio de tarefas de simulação.
O desenho das tarefas vem de diversas fontes. Alguns vêm da entrada de vários especialistas no campo da criptografia, e a outra parte é gerada com a ajuda de IA e revisão manual para garantir a precisão e o desafio das tarefas. Algumas das tarefas usam perguntas de múltipla escolha em um formato relativamente simples para facilitar testes automatizados padronizados separados e pontuação. Outra parte do teste adota um formato de pergunta mais complexo, e o processo de teste é conduzido por uma combinação de automação do programa + manual + IA. Todas as tarefas de teste são avaliadas usando um método de raciocínio de amostra zero, sem fornecer exemplos, orientação de pensamento ou prompts instrucionais.
Uma vez que o próprio design do experimento é relativamente áspero e não tem rigor acadêmico suficiente, as perguntas e tarefas utilizadas para teste estão longe de cobrir completamente o campo da criptografia, e o framework de teste também é imaturo. Portanto, este artigo não lista dados experimentais específicos, mas se concentra em compartilhar algumas ideias a partir dos experimentos.
Durante o processo de avaliação, o grande modelo de linguagem teve um bom desempenho em testes de conhecimentos básicos em vários campos, como algoritmos de criptografia, noções básicas de blockchain e aplicações DeFi. Por exemplo, todos os modelos deram respostas precisas a perguntas que testaram a compreensão do conceito de disponibilidade de dados. Quanto à pergunta que avalia a compreensão da estrutura de transação do Ethereum pelo modelo, embora cada modelo tenha respostas ligeiramente diferentes em detalhes, geralmente contêm informações-chave corretas. As perguntas de múltipla escolha que examinam conceitos são ainda menos difíceis, e a precisão de quase todos os modelos está acima de 95%.
Perguntas e respostas conceituais são completamente difíceis para grandes modelos.
No entanto, a situação se inverte quando se trata de problemas que requerem cálculos específicos. Um simples problema de cálculo do algoritmo RSA coloca a maioria dos modelos em dificuldade. É fácil de entender: os grandes modelos de linguagem operam principalmente identificando e replicando padrões nos dados de treinamento, em vez de entender profundamente a natureza dos conceitos matemáticos. Essa limitação é particularmente óbvia ao lidar com conceitos matemáticos abstratos, como operações modulares e operações exponenciais. Dado que o campo da criptografia está intimamente relacionado à matemática, isso significa que depender diretamente de modelos para cálculos matemáticos relacionados à criptografia é pouco confiável.
Em outros problemas de computação, o desempenho de grandes modelos de linguagem também é insatisfatório. Por exemplo, para a simples questão de calcular a perda impermanente da AMM, embora não envolva operações matemáticas complexas, apenas 4 dos 18 modelos deram a resposta correta. Quanto a outra questão mais básica sobre o cálculo da probabilidade de um bloco, todos os modelos erraram a resposta. Todos os modelos ficaram perplexos e nenhum deles acertou. Isso não apenas expõe as deficiências dos grandes modelos de linguagem em cálculos precisos, mas também reflete seus principais problemas na análise de lógica de negócios. Vale ressaltar que até o modelo de otimização matemática falhou em mostrar vantagens óbvias em questões de cálculo, e seu desempenho foi decepcionante.
No entanto, o problema do cálculo matemático não é insolúvel. Se fizermos um pequeno ajuste e exigirmos que os LLMs forneçam código Python correspondente em vez de calcular diretamente os resultados, a taxa de precisão será grandemente melhorada. Tomando o problema de cálculo RSA mencionado acima como exemplo, os códigos Python fornecidos pela maioria dos modelos podem ser executados sem problemas e produzir resultados corretos. Em ambientes de produção reais, códigos de algoritmo predefinidos podem ser fornecidos para contornar o auto-cálculo dos LLMs, o que é semelhante a como os humanos lidam com essas tarefas. No nível da lógica de negócios, o desempenho do modelo também pode ser melhorado de forma eficaz através de orientações cuidadosamente projetadas de palavras de estímulo.
Se você perguntar qual é o primeiro cenário para o Agente usar criptomoeda, minha resposta é pagamento. Criptomoeda pode ser considerada quase uma forma de moeda nativa da IA. Comparado com os muitos obstáculos que os agentes enfrentam no sistema financeiro tradicional, é uma escolha natural usar tecnologia de criptografia para equipar-se com identidades digitais e gerenciar fundos através de carteiras criptografadas. Portanto, a geração e o gerenciamento de chaves privadas e várias operações de carteira constituem os requisitos básicos de habilidade mais importantes para que um Agente possa usar independentemente a rede de criptografia.
O cerne da geração segura de chaves privadas está na alta qualidade dos números aleatórios, o que obviamente é uma capacidade que os grandes modelos de linguagem não têm. No entanto, os modelos têm compreensão suficiente da segurança da chave privada. Quando solicitados a gerar uma chave privada, a maioria dos modelos escolhe usar código (como bibliotecas relacionadas ao Python) para orientar os usuários a gerar chaves privadas de forma independente. Mesmo que um modelo forneça diretamente uma chave privada, é claramente declarado que isso é apenas para fins de demonstração e que não é uma chave privada segura que pode ser usada diretamente. Nesse sentido, todos os grandes modelos mostraram desempenho satisfatório.
A gestão da chave privada enfrenta alguns desafios, que são principalmente devido às limitações inerentes da arquitetura técnica em vez da falta de capacidades do modelo. Ao utilizar um modelo implantado localmente, a chave privada gerada pode ser considerada relativamente segura. No entanto, se um modelo de nuvem comercial for utilizado, devemos assumir que a chave privada foi exposta ao operador do modelo no momento em que foi gerada. Mas para um Agente que visa trabalhar de forma independente, é necessário ter permissões de chave privada, o que significa que a chave privada não pode ser apenas local para o usuário. Nesse caso, depender apenas do próprio modelo não é mais suficiente para garantir a segurança da chave privada, e serviços adicionais de segurança, como um ambiente de execução confiável ou HSM, precisam ser introduzidos.
Se for assumido que o Agente já possui a chave privada de forma segura e realiza várias operações básicas com base nisso, os vários modelos no teste mostraram boas capacidades. Embora muitas vezes ocorram erros nas etapas e códigos gerados, esses problemas podem ser resolvidos em grande parte com uma estrutura de engenharia adequada. Pode-se dizer que do ponto de vista técnico, não existem mais muitos obstáculos para o Agente realizar operações básicas de carteira de forma independente.
A capacidade de entender, utilizar, escrever e identificar riscos de contratos inteligentes é a chave para os Agentes de IA realizarem tarefas complexas no mundo on-chain, e, portanto, também é uma área de teste chave para experimentos. Modelos de linguagem grandes têm mostrado um potencial significativo nesta área, mas também expuseram alguns problemas óbvios.
Quase todos os modelos no teste responderam corretamente aos conceitos subjacentes do contrato, identificam bugs simples. Em termos de otimização de gás de contrato, a maioria dos modelos pode identificar pontos-chave de otimização e analisar conflitos que podem ser causados pela otimização. No entanto, quando envolve lógica de negócios profunda, as limitações de grandes modelos começam a aparecer.
Tomemos um contrato de investimento como exemplo: todos os modelos entenderam corretamente as funções do contrato, e a maioria dos modelos encontrou várias vulnerabilidades de médio e baixo risco. No entanto, nenhum modelo pode descobrir independentemente uma vulnerabilidade de alto risco oculta na lógica de negócios que pode fazer com que alguns fundos fiquem bloqueados em circunstâncias especiais. Em vários testes usando contratos reais, o modelo teve um desempenho aproximadamente igual.
Isso mostra que o entendimento dos contratos pelo grande modelo ainda permanece no nível formal e falta entendimento da lógica empresarial profunda. No entanto, após serem fornecidas dicas adicionais, alguns modelos foram capazes de identificar independentemente as vulnerabilidades profundamente escondidas nos contratos mencionados acima. Com base nesse julgamento de desempenho e com o suporte de um bom design de engenharia, o grande modelo tem basicamente a capacidade de servir como co-piloto no campo dos contratos inteligentes. No entanto, ainda há um longo caminho a percorrer antes que possamos assumir independentemente tarefas importantes, como auditorias de contratos.
Uma coisa a notar é que as tarefas relacionadas ao código no experimento são principalmente para contratos com lógica simples e menos de 2.000 linhas de código. Para projetos complexos de maior escala, sem ajuste fino ou engenharia de palavras complexa, acho que está claramente além das capacidades de processamento eficazes do modelo atual e não foi incluído no teste. Além disso, esse teste envolve apenas o Solidity e não inclui outras linguagens de contrato inteligente, como Rust e Move.
Além do conteúdo do teste acima, o experimento também abrange muitos aspectos, incluindo cenários DeFi, DAO e sua governança, análise de dados on-chain, design de mecanismo de consenso e Tokenomics. Grandes modelos de linguagem demonstraram certas capacidades nesses aspectos. Dado que muitos testes ainda estão em andamento e métodos e estruturas de teste estão constantemente sendo otimizados, este artigo não entrará nesses áreas por enquanto.
Entre todos os grandes modelos de linguagem participantes da avaliação, o GPT-4o e o Claude 3.5 Sonnet mantiveram seu excelente desempenho em outros campos e são os líderes incontestáveis. Ao enfrentar perguntas básicas, ambos os modelos quase sempre podem fornecer respostas precisas; na análise de cenários complexos, eles podem fornecer insights aprofundados e bem documentados. Até mesmo apresenta uma alta taxa de vitória em tarefas de computação nas quais os grandes modelos não são bons. Claro, essa taxa de sucesso “alta” é relativa e ainda não atingiu o nível de saída estável em um ambiente de produção.
No campo do modelo de código aberto, o Llama 3.1-405B está muito à frente de seus pares graças à sua grande escala de parâmetros e algoritmos avançados. Em outros modelos de código aberto com tamanhos de parâmetros menores, não há diferença significativa de desempenho entre os modelos. Embora as pontuações sejam ligeiramente diferentes, no geral, eles estão longe da linha de aprovação.
Portanto, se você deseja construir aplicativos de IA relacionados à criptografia atualmente, esses modelos com parâmetros pequenos e médios não são uma escolha adequada.
Dois modelos se destacaram especialmente em nossa revisão. O primeiro é o modelo Phi-3 3.8B lançado pela Microsoft. É o menor modelo que participa deste experimento. No entanto, ele alcança um nível de desempenho equivalente ao modelo 8B-12B com menos da metade do número de parâmetros. Em algumas categorias específicas, ainda melhor na questão. Este resultado destaca a importância da otimização da arquitetura do modelo e das estratégias de treinamento que não dependem exclusivamente do aumento do tamanho dos parâmetros.
E o modelo Command-R da Cohere se tornou um surpreendente "cavalo negro" - o reverso. Command-R não é tão conhecido em comparação com outros modelos, mas a Cohere é uma grande empresa de modelos focada no mercado 2B. Acredito que ainda existam muitos pontos de convergência com áreas como o desenvolvimento de Agentes, por isso foi especificamente incluído no escopo de teste. No entanto, o Command-R com 35B de parâmetros ficou em último na maioria dos testes, perdendo para muitos modelos abaixo de 10B.
Este resultado desencadeou o pensamento: quando o Command-R foi lançado, ele se concentrou no aprimoramento e na geração de capacidades de recuperação e nem mesmo publicou resultados regulares de teste de referência. Isso significa que é uma “chave privada” que desbloqueia seu potencial máximo apenas em cenários específicos?
Nesta série de testes, obtivemos uma compreensão preliminar das capacidades de IA no campo da criptografia. É claro que esses testes estão longe dos padrões profissionais. A cobertura do conjunto de dados está longe de ser suficiente, os padrões quantitativos para respostas são relativamente grosseiros e ainda falta um mecanismo de pontuação refinado e mais preciso. Isso afetará a precisão dos resultados da avaliação e pode levar à subestimação do desempenho de alguns modelos.
Em termos de método de teste, o experimento utilizou apenas um método de aprendizado sem supervisão, e não explorou métodos como cadeias de pensamento e aprendizado com poucas amostras que podem inspirar maior potencial do modelo. Em termos de parâmetros do modelo, foram utilizados parâmetros padrão do modelo nos experimentos, e o impacto de diferentes configurações de parâmetros no desempenho do modelo não foi examinado. Esses métodos de teste únicos no geral limitam nossa avaliação abrangente do potencial do modelo e não exploram totalmente as diferenças no desempenho do modelo em condições específicas.
Embora as condições de teste fossem relativamente simples, esses experimentos ainda produziram muitas percepções valiosas e forneceram uma referência para os desenvolvedores construírem aplicações.
No campo da IA, os benchmarks desempenham um papel fundamental. O rápido desenvolvimento da moderna tecnologia de aprendizado profundo originou-se do ImageNET concluído pelo Professor Li Feifei em 2012, que é um benchmark padronizado e conjunto de dados no campo da visão computacional.
Ao fornecer um padrão unificado para avaliação, os benchmarks não apenas fornecem aos desenvolvedores metas claras e pontos de referência, mas também impulsionam o progresso tecnológico em toda a indústria. Isso explica por que cada novo modelo de linguagem grande lançado se concentrará em anunciar seus resultados em vários benchmarks. Esses resultados se tornam uma “linguagem universal” das capacidades do modelo, permitindo que os pesquisadores localizem avanços, os desenvolvedores selecionem os modelos mais adequados para tarefas específicas e os usuários façam escolhas informadas com base em dados objetivos. Mais importante ainda, os testes de benchmark frequentemente anunciam a direção futura das aplicações de IA, orientando o investimento de recursos e o foco da pesquisa.
Se acreditarmos que há um enorme potencial na interseção entre IA e criptografia, então estabelecer benchmarks criptográficos dedicados se torna uma tarefa urgente. A criação de benchmarks pode se tornar uma ponte chave conectando os dois campos da IA e criptografia, catalisar inovação e fornecer orientação clara para futuras aplicações.
No entanto, comparado com os benchmarks maduros em outros campos, a construção de benchmarks no campo da criptografia enfrenta desafios únicos: a tecnologia de criptografia está evoluindo rapidamente, o sistema de conhecimento da indústria ainda não foi solidificado e há uma falta de consenso em múltiplas direções centrais. Como um campo interdisciplinar, a criptografia abrange criptografia, sistemas distribuídos, economia, etc., e sua complexidade está muito além de um único campo. O que é ainda mais desafiador é que o benchmark de criptografia não apenas precisa avaliar o conhecimento, mas também examina a capacidade prática da IA de usar a tecnologia de criptografia, o que requer o projeto de uma nova arquitetura de avaliação. A falta de conjuntos de dados relevantes aumenta ainda mais a dificuldade.
A complexidade e importância desta tarefa ditam que não pode ser realizada por uma única pessoa ou equipe. É necessário reunir a sabedoria de muitas partes, desde usuários, desenvolvedores, especialistas em criptografia, pesquisadores de criptografia até mais pessoas em campos interdisciplinares, e depende de extensa participação e consenso da comunidade. Portanto, o referencial de criptografia precisa de uma discussão mais ampla, pois não é apenas um trabalho técnico, mas também um reflexão profunda sobre como entendemos essa tecnologia emergente.