¡Descubre las principales noticias y eventos del sector fintech!
Suscríbete al boletín de FinTech Weekly
Leído por ejecutivos de JP Morgan, Coinbase, Blackrock, Klarna y más
Una expansión importante en los datos de entrenamiento de Open AI
Tether Data ha lanzado una nueva versión de su conjunto de datos educativos sintéticos para inteligencia artificial, aumentando significativamente el volumen y alcance del material de entrenamiento abierto disponible para investigadores en todo el mundo. La división de investigación en IA de la compañía, QVAC, anunció que la nueva versión, llamada QVAC Genesis II, añade 107 mil millones de tokens a su conjunto de datos anterior, alcanzando un tamaño total de 148 mil millones de tokens.
El conjunto de datos ampliado es ahora el recurso educativo sintético público más grande diseñado específicamente para preentrenamiento de IA. Cubre 19 áreas académicas y está destinado a mejorar la forma en que los modelos aprenden razonamiento, explicación y toma de decisiones en lugar de reconocimiento superficial de patrones.
El anuncio posiciona el lanzamiento como un paso hacia un desarrollo de IA más transparente y accesible, en un momento en que muchos conjuntos de datos avanzados permanecen bloqueados en sistemas propietarios.
Construyendo sobre el primer lanzamiento Genesis
QVAC Genesis II se basa en el trabajo presentado inicialmente con Genesis I, que se centró en crear un conjunto de datos sintéticos validados y orientados a la educación, cubriendo materias básicas de ciencia, tecnología, ingeniería y matemáticas. Esa versión anterior estableció un marco para generar preguntas estructuradas de entrenamiento destinadas a mejorar la precisión del razonamiento.
La nueva versión amplía la cobertura a diez campos adicionales, incluyendo química, ciencias de la computación, estadística, aprendizaje automático, astronomía, geografía, econometría e ingeniería eléctrica. También revisita contenidos de física a nivel universitario, regenerándolos con una metodología actualizada diseñada para mejorar la claridad conceptual.
Juntos, los dos lanzamientos conforman lo que QVAC describe como el conjunto de datos educativos sintéticos más extenso puesto a disposición del público. Está destinado a usarse en preentrenamiento de grandes modelos de lenguaje y otros sistemas de IA que requieren material académico estructurado.
Un cambio en la forma en que se generan los datos de entrenamiento
En el núcleo de Genesis II se encuentra un nuevo método de generación de datos llamado Razonamiento a Nivel de Opciones. Este enfoque difiere de muchas técnicas existentes de datos sintéticos al centrarse no solo en respuestas incorrectas, sino también en las correctas.
En lugar de tratar una respuesta correcta como el final del proceso, el método analiza cada opción en una pregunta de opción múltiple. Las respuestas correctas se desglosan para reforzar por qué son correctas, mientras que las opciones incorrectas se examinan para abordar conceptos erróneos comunes. Esta estructura permite que los modelos aprendan razonamiento causal y lógica de decisión en lugar de simplemente asociar preguntas con resultados.
El enfoque complementa el método de Análisis de Fallos introducido en Genesis I, que se centraba en extraer valor de los errores del modelo. Juntos, los dos métodos conforman una pipeline donde cada pregunta generada está diseñada para aportar valor instructivo.
Evaluaciones independientes citadas por QVAC indican que los modelos entrenados con datos de Genesis II muestran mayor precisión en razonamiento y producen respuestas más claras que los entrenados con conjuntos de datos sintéticos anteriores.
Énfasis en la comprensión sobre la fluidez
Gran parte del ecosistema actual de entrenamiento en IA se basa en recopilar volúmenes muy grandes de texto, a menudo extraídos de fuentes públicas, para mejorar la fluidez del lenguaje. La meta declarada de QVAC difiere en énfasis. Los conjuntos de datos Genesis están estructurados para enseñar a los modelos a razonar los problemas y explicar sus conclusiones de manera clara.
La dirección de la compañía ha indicado que la intención es avanzar más allá de los sistemas de entrenamiento que predicen secuencias de texto probables, hacia modelos que demuestren comprensión de conceptos subyacentes. El diseño del conjunto de datos prioriza la claridad, la causalidad y la lógica, con el objetivo de reducir la ambigüedad en las salidas del modelo.
Este enfoque se alinea con discusiones más amplias en la investigación en IA sobre confiabilidad y explicabilidad, especialmente cuando los sistemas de IA se utilizan en educación, ciencia y apoyo en la toma de decisiones.
Acceso abierto para investigadores y desarrolladores
Al igual que con el conjunto de datos Genesis original, QVAC Genesis II se lanza de forma abierta. El conjunto de datos está disponible bajo una licencia Creative Commons Atribución-NoComercial 4.0, que permite a investigadores, instituciones académicas y desarrolladores independientes usar y estudiar los datos fuera de entornos comerciales.
El conjunto de datos y los modelos asociados están alojados en Hugging Face, junto con un artículo técnico detallado que describe la metodología de generación y los resultados de evaluación. Esta distribución abierta busca reducir las barreras para investigadores que no tienen acceso a grandes conjuntos de datos propietarios.
Al mantener una licencia no comercial, QVAC busca apoyar la investigación académica y comunitaria, limitando la explotación comercial directa.
Apoyo al desarrollo descentralizado de IA
El lanzamiento también encaja en una estrategia más amplia de Tether Data para fomentar el desarrollo descentralizado de IA. La compañía ha declarado que los datos de entrenamiento de alta calidad no deberían estar restringidos a organizaciones con acceso a infraestructura en la nube centralizada.
Al poner a disposición pública conjuntos de datos estructurados a gran escala, QVAC busca facilitar el entrenamiento local, la experimentación y el despliegue de modelos de IA. Este enfoque pretende apoyar entornos de investigación donde los recursos computacionales puedan ser limitados, pero las contribuciones intelectuales sigan siendo relevantes.
El énfasis en la descentralización refleja un interés creciente en reducir la dependencia de unas pocas plataformas dominantes de IA y en promover un ecosistema de investigación más distribuido.
El papel de Tether en la investigación en IA
QVAC funciona como la división de investigación en IA de Tether Data. Aunque Tether es ampliamente conocido por su papel en activos digitales y stablecoins, la compañía ha expandido sus actividades hacia la investigación en datos y IA en los últimos años.
A través de QVAC, Tether Data se ha enfocado en construir infraestructura y recursos que apoyen la investigación abierta. Los conjuntos de datos Genesis representan uno de los resultados más visibles de ese esfuerzo, posicionando a la compañía en debates sobre desarrollo abierto de IA y datos de entrenamiento enfocados en educación.
Este trabajo también refleja la creciente intersección entre fintech y la investigación avanzada en IA, ya que las empresas de tecnología financiera invierten cada vez más en ciencia de datos y capacidades de aprendizaje automático.
Perspectiva de liderazgo sobre el lanzamiento
La dirección de la compañía ha enmarcado el lanzamiento de Genesis II como un paso alejado de enfoques de entrenamiento que priorizan solo el volumen. El enfoque, según declaraciones del equipo ejecutivo de Tether, está en enseñar a los sistemas de IA a razonar y explicar en lugar de simplemente generar respuestas fluidas.
Paolo Ardoino, director ejecutivo de Tether, ha destacado que una IA confiable debe fundamentarse en entender por qué las respuestas son correctas. Ha indicado que hacer que el conjunto de datos esté abierto refleja la creencia de que una IA más fuerte y explicable beneficia a la sociedad en general.
Estas opiniones coinciden con las preocupaciones planteadas por investigadores sobre las limitaciones de modelos entrenados principalmente con texto no estructurado.
Alcance educativo y cobertura de dominios
Los conjuntos de datos combinados Genesis I y II cubren 19 dominios, con contenido diseñado a niveles de educación secundaria y terciaria. Los temas van desde matemáticas y física básicas hasta campos aplicados como econometría y aprendizaje automático.
Cada dominio incluye preguntas estructuradas, explicaciones y caminos de razonamiento destinados a reflejar cómo se enseñan y evalúan los conceptos en entornos educativos formales. Este diseño busca apoyar tareas de preentrenamiento que requieran coherencia lógica y profundidad conceptual.
Al regenerar y ampliar el contenido mediante métodos mejorados, QVAC busca perfeccionar la forma en que el material educativo se representa en conjuntos de datos sintéticos.
Evaluación y rendimiento de modelos
Según evaluaciones internas e independientes citadas por QVAC, los modelos entrenados con datos de Genesis II muestran un rendimiento mejorado en tareas que requieren razonamiento intensivo. Esto incluye responder preguntas estructuradas, explicar conclusiones y evitar respuestas ambiguas o contradictorias.
Los resultados de evaluación sugieren que la combinación de Análisis de Fallos y Razonamiento a Nivel de Opciones conduce a salidas más coherentes. Aunque la compañía no presenta el conjunto de datos como una solución independiente, lo considera una base sólida para entrenamiento adicional y ajuste fino.
Se espera que investigadores realicen evaluaciones adicionales a medida que el conjunto de datos se utilice más ampliamente en la comunidad.
Implicaciones para la investigación abierta en IA
El lanzamiento de un conjunto de datos tan grande y abierto puede influir en cómo investigadores académicos e independientes abordan el entrenamiento de modelos. El acceso a datos educativos estructurados a esta escala ha sido tradicionalmente limitado a organizaciones con recursos significativos.
Al ofrecer una alternativa, QVAC Genesis II podría facilitar experimentos con modelos más pequeños, entrenamientos localizados y estudios sobre métodos de IA explicable.
El conjunto de datos también puede servir como referencia para futuros proyectos de datos sintéticos que prioricen la calidad del razonamiento sobre el tamaño absoluto.
Posición en el ecosistema más amplio de IA
QVAC Genesis II ingresa en un ecosistema de IA caracterizado por un desarrollo rápido y una concentración creciente de recursos. Muchos de los modelos más avanzados se entrenan con conjuntos de datos propietarios que no son accesibles para revisión o replicación.
Los conjuntos de datos abiertos como Genesis II ofrecen una contraparte, permitiendo transparencia y progreso compartido. También plantean preguntas sobre cómo recursos abiertos pueden coexistir con el desarrollo comercial de IA.
La participación de una empresa con raíces en fintech y activos digitales destaca cómo la investigación en IA atrae interés de diversos sectores más allá de las empresas tecnológicas tradicionales.
Disponibilidad y próximos pasos
La documentación técnica completa del conjunto de datos, titulada “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”, ha sido publicada en el blog de investigación de QVAC. El acceso al conjunto de datos y modelos relacionados está disponible a través de Hugging Face.
QVAC ha indicado que continuará perfeccionando sus métodos y ampliando la cobertura educativa en futuras versiones. Se espera que los comentarios de la comunidad de investigación influyan en las próximas iteraciones.
Un impulso continuo por bases abiertas
Con Genesis II, QVAC refuerza su postura de que los datos de entrenamiento estructurados y abiertos son esenciales para construir sistemas de IA confiables. La publicación refleja la visión de que la inteligencia debe fundamentarse en el razonamiento y la explicación, no solo en asociaciones estadísticas.
A medida que los sistemas de IA se integren más en la educación, la ciencia y los servicios financieros, incluida la fintech, la calidad de sus datos de entrenamiento seguirá siendo una preocupación central.
Por ahora, el conjunto de datos ampliado de Genesis representa una contribución notable a la investigación abierta en IA, ofreciendo escala, estructura y accesibilidad en un nivel poco común fuera de entornos propietarios.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Tether amplía los datos de entrenamiento de Open AI con el lanzamiento del conjunto de datos QVAC Genesis II
¡Descubre las principales noticias y eventos del sector fintech!
Suscríbete al boletín de FinTech Weekly
Leído por ejecutivos de JP Morgan, Coinbase, Blackrock, Klarna y más
Una expansión importante en los datos de entrenamiento de Open AI
Tether Data ha lanzado una nueva versión de su conjunto de datos educativos sintéticos para inteligencia artificial, aumentando significativamente el volumen y alcance del material de entrenamiento abierto disponible para investigadores en todo el mundo. La división de investigación en IA de la compañía, QVAC, anunció que la nueva versión, llamada QVAC Genesis II, añade 107 mil millones de tokens a su conjunto de datos anterior, alcanzando un tamaño total de 148 mil millones de tokens.
El conjunto de datos ampliado es ahora el recurso educativo sintético público más grande diseñado específicamente para preentrenamiento de IA. Cubre 19 áreas académicas y está destinado a mejorar la forma en que los modelos aprenden razonamiento, explicación y toma de decisiones en lugar de reconocimiento superficial de patrones.
El anuncio posiciona el lanzamiento como un paso hacia un desarrollo de IA más transparente y accesible, en un momento en que muchos conjuntos de datos avanzados permanecen bloqueados en sistemas propietarios.
Construyendo sobre el primer lanzamiento Genesis
QVAC Genesis II se basa en el trabajo presentado inicialmente con Genesis I, que se centró en crear un conjunto de datos sintéticos validados y orientados a la educación, cubriendo materias básicas de ciencia, tecnología, ingeniería y matemáticas. Esa versión anterior estableció un marco para generar preguntas estructuradas de entrenamiento destinadas a mejorar la precisión del razonamiento.
La nueva versión amplía la cobertura a diez campos adicionales, incluyendo química, ciencias de la computación, estadística, aprendizaje automático, astronomía, geografía, econometría e ingeniería eléctrica. También revisita contenidos de física a nivel universitario, regenerándolos con una metodología actualizada diseñada para mejorar la claridad conceptual.
Juntos, los dos lanzamientos conforman lo que QVAC describe como el conjunto de datos educativos sintéticos más extenso puesto a disposición del público. Está destinado a usarse en preentrenamiento de grandes modelos de lenguaje y otros sistemas de IA que requieren material académico estructurado.
Un cambio en la forma en que se generan los datos de entrenamiento
En el núcleo de Genesis II se encuentra un nuevo método de generación de datos llamado Razonamiento a Nivel de Opciones. Este enfoque difiere de muchas técnicas existentes de datos sintéticos al centrarse no solo en respuestas incorrectas, sino también en las correctas.
En lugar de tratar una respuesta correcta como el final del proceso, el método analiza cada opción en una pregunta de opción múltiple. Las respuestas correctas se desglosan para reforzar por qué son correctas, mientras que las opciones incorrectas se examinan para abordar conceptos erróneos comunes. Esta estructura permite que los modelos aprendan razonamiento causal y lógica de decisión en lugar de simplemente asociar preguntas con resultados.
El enfoque complementa el método de Análisis de Fallos introducido en Genesis I, que se centraba en extraer valor de los errores del modelo. Juntos, los dos métodos conforman una pipeline donde cada pregunta generada está diseñada para aportar valor instructivo.
Evaluaciones independientes citadas por QVAC indican que los modelos entrenados con datos de Genesis II muestran mayor precisión en razonamiento y producen respuestas más claras que los entrenados con conjuntos de datos sintéticos anteriores.
Énfasis en la comprensión sobre la fluidez
Gran parte del ecosistema actual de entrenamiento en IA se basa en recopilar volúmenes muy grandes de texto, a menudo extraídos de fuentes públicas, para mejorar la fluidez del lenguaje. La meta declarada de QVAC difiere en énfasis. Los conjuntos de datos Genesis están estructurados para enseñar a los modelos a razonar los problemas y explicar sus conclusiones de manera clara.
La dirección de la compañía ha indicado que la intención es avanzar más allá de los sistemas de entrenamiento que predicen secuencias de texto probables, hacia modelos que demuestren comprensión de conceptos subyacentes. El diseño del conjunto de datos prioriza la claridad, la causalidad y la lógica, con el objetivo de reducir la ambigüedad en las salidas del modelo.
Este enfoque se alinea con discusiones más amplias en la investigación en IA sobre confiabilidad y explicabilidad, especialmente cuando los sistemas de IA se utilizan en educación, ciencia y apoyo en la toma de decisiones.
Acceso abierto para investigadores y desarrolladores
Al igual que con el conjunto de datos Genesis original, QVAC Genesis II se lanza de forma abierta. El conjunto de datos está disponible bajo una licencia Creative Commons Atribución-NoComercial 4.0, que permite a investigadores, instituciones académicas y desarrolladores independientes usar y estudiar los datos fuera de entornos comerciales.
El conjunto de datos y los modelos asociados están alojados en Hugging Face, junto con un artículo técnico detallado que describe la metodología de generación y los resultados de evaluación. Esta distribución abierta busca reducir las barreras para investigadores que no tienen acceso a grandes conjuntos de datos propietarios.
Al mantener una licencia no comercial, QVAC busca apoyar la investigación académica y comunitaria, limitando la explotación comercial directa.
Apoyo al desarrollo descentralizado de IA
El lanzamiento también encaja en una estrategia más amplia de Tether Data para fomentar el desarrollo descentralizado de IA. La compañía ha declarado que los datos de entrenamiento de alta calidad no deberían estar restringidos a organizaciones con acceso a infraestructura en la nube centralizada.
Al poner a disposición pública conjuntos de datos estructurados a gran escala, QVAC busca facilitar el entrenamiento local, la experimentación y el despliegue de modelos de IA. Este enfoque pretende apoyar entornos de investigación donde los recursos computacionales puedan ser limitados, pero las contribuciones intelectuales sigan siendo relevantes.
El énfasis en la descentralización refleja un interés creciente en reducir la dependencia de unas pocas plataformas dominantes de IA y en promover un ecosistema de investigación más distribuido.
El papel de Tether en la investigación en IA
QVAC funciona como la división de investigación en IA de Tether Data. Aunque Tether es ampliamente conocido por su papel en activos digitales y stablecoins, la compañía ha expandido sus actividades hacia la investigación en datos y IA en los últimos años.
A través de QVAC, Tether Data se ha enfocado en construir infraestructura y recursos que apoyen la investigación abierta. Los conjuntos de datos Genesis representan uno de los resultados más visibles de ese esfuerzo, posicionando a la compañía en debates sobre desarrollo abierto de IA y datos de entrenamiento enfocados en educación.
Este trabajo también refleja la creciente intersección entre fintech y la investigación avanzada en IA, ya que las empresas de tecnología financiera invierten cada vez más en ciencia de datos y capacidades de aprendizaje automático.
Perspectiva de liderazgo sobre el lanzamiento
La dirección de la compañía ha enmarcado el lanzamiento de Genesis II como un paso alejado de enfoques de entrenamiento que priorizan solo el volumen. El enfoque, según declaraciones del equipo ejecutivo de Tether, está en enseñar a los sistemas de IA a razonar y explicar en lugar de simplemente generar respuestas fluidas.
Paolo Ardoino, director ejecutivo de Tether, ha destacado que una IA confiable debe fundamentarse en entender por qué las respuestas son correctas. Ha indicado que hacer que el conjunto de datos esté abierto refleja la creencia de que una IA más fuerte y explicable beneficia a la sociedad en general.
Estas opiniones coinciden con las preocupaciones planteadas por investigadores sobre las limitaciones de modelos entrenados principalmente con texto no estructurado.
Alcance educativo y cobertura de dominios
Los conjuntos de datos combinados Genesis I y II cubren 19 dominios, con contenido diseñado a niveles de educación secundaria y terciaria. Los temas van desde matemáticas y física básicas hasta campos aplicados como econometría y aprendizaje automático.
Cada dominio incluye preguntas estructuradas, explicaciones y caminos de razonamiento destinados a reflejar cómo se enseñan y evalúan los conceptos en entornos educativos formales. Este diseño busca apoyar tareas de preentrenamiento que requieran coherencia lógica y profundidad conceptual.
Al regenerar y ampliar el contenido mediante métodos mejorados, QVAC busca perfeccionar la forma en que el material educativo se representa en conjuntos de datos sintéticos.
Evaluación y rendimiento de modelos
Según evaluaciones internas e independientes citadas por QVAC, los modelos entrenados con datos de Genesis II muestran un rendimiento mejorado en tareas que requieren razonamiento intensivo. Esto incluye responder preguntas estructuradas, explicar conclusiones y evitar respuestas ambiguas o contradictorias.
Los resultados de evaluación sugieren que la combinación de Análisis de Fallos y Razonamiento a Nivel de Opciones conduce a salidas más coherentes. Aunque la compañía no presenta el conjunto de datos como una solución independiente, lo considera una base sólida para entrenamiento adicional y ajuste fino.
Se espera que investigadores realicen evaluaciones adicionales a medida que el conjunto de datos se utilice más ampliamente en la comunidad.
Implicaciones para la investigación abierta en IA
El lanzamiento de un conjunto de datos tan grande y abierto puede influir en cómo investigadores académicos e independientes abordan el entrenamiento de modelos. El acceso a datos educativos estructurados a esta escala ha sido tradicionalmente limitado a organizaciones con recursos significativos.
Al ofrecer una alternativa, QVAC Genesis II podría facilitar experimentos con modelos más pequeños, entrenamientos localizados y estudios sobre métodos de IA explicable.
El conjunto de datos también puede servir como referencia para futuros proyectos de datos sintéticos que prioricen la calidad del razonamiento sobre el tamaño absoluto.
Posición en el ecosistema más amplio de IA
QVAC Genesis II ingresa en un ecosistema de IA caracterizado por un desarrollo rápido y una concentración creciente de recursos. Muchos de los modelos más avanzados se entrenan con conjuntos de datos propietarios que no son accesibles para revisión o replicación.
Los conjuntos de datos abiertos como Genesis II ofrecen una contraparte, permitiendo transparencia y progreso compartido. También plantean preguntas sobre cómo recursos abiertos pueden coexistir con el desarrollo comercial de IA.
La participación de una empresa con raíces en fintech y activos digitales destaca cómo la investigación en IA atrae interés de diversos sectores más allá de las empresas tecnológicas tradicionales.
Disponibilidad y próximos pasos
La documentación técnica completa del conjunto de datos, titulada “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”, ha sido publicada en el blog de investigación de QVAC. El acceso al conjunto de datos y modelos relacionados está disponible a través de Hugging Face.
QVAC ha indicado que continuará perfeccionando sus métodos y ampliando la cobertura educativa en futuras versiones. Se espera que los comentarios de la comunidad de investigación influyan en las próximas iteraciones.
Un impulso continuo por bases abiertas
Con Genesis II, QVAC refuerza su postura de que los datos de entrenamiento estructurados y abiertos son esenciales para construir sistemas de IA confiables. La publicación refleja la visión de que la inteligencia debe fundamentarse en el razonamiento y la explicación, no solo en asociaciones estadísticas.
A medida que los sistemas de IA se integren más en la educación, la ciencia y los servicios financieros, incluida la fintech, la calidad de sus datos de entrenamiento seguirá siendo una preocupación central.
Por ahora, el conjunto de datos ampliado de Genesis representa una contribución notable a la investigación abierta en IA, ofreciendo escala, estructura y accesibilidad en un nivel poco común fuera de entornos propietarios.