A Meta anunciou a estrutura de IA audio2photoreal, que pode gerar cenas de diálogo de personagens inserindo arquivos de dublagem

A Bit News Meta anunciou recentemente uma estrutura de IA chamada audio2photoreal, que é capaz de gerar uma série de modelos de personagens NPC realistas e automaticamente "sincronizar os lábios" e "posar" os modelos de personagens com a ajuda de arquivos de voz existentes.

O relatório oficial da pesquisa apontou que, após receber o arquivo de dublagem, o framework fotoreal Audio2 primeiro gerará uma série de modelos NPC e, em seguida, usará tecnologia de quantização e algoritmo de difusão para gerar ações de modelo, em que a tecnologia de quantização fornece referência de amostra de ação para o framework e o algoritmo de difusão é usado para melhorar o efeito das ações de caracteres geradas pelo quadro.

Quarenta e três por cento dos avaliadores no experimento controlado estavam "fortemente satisfeitos" com as cenas de diálogo de personagens geradas pelo quadro, então os pesquisadores sentiram que a estrutura fotorreal Audio2 foi capaz de gerar movimentos "mais dinâmicos e expressivos" do que os produtos concorrentes na indústria. É relatado que a equipe de pesquisa já tornou o código relevante e o conjunto de dados públicos no GitHub.

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)