L'Université Jiaotong de Shanghai a publié un modèle de conception de protéines, introduisant l'IA pour concevoir efficacement et précisément des fonctions connexes.
Le 22 mars, l'équipe du professeur Hong Liang de l'Université Jiaotong de Shanghai a publié le modèle de conception de protéines Venus. Cette équipe a combiné l'IA avec la conception et la modification des protéines, établissant le plus grand ensemble de données de protéines au monde. Le modèle entraîné sur cet ensemble de données peut prédire et concevoir avec précision et efficacité les fonctions des protéines, transformant la production de protéines de "tentatives et erreurs lentes" en "conception précise et efficace".
Ce résultat, associé à des équipements automatisés de pointe dans l'industrie, a déjà été industrialisé, transformant la conception des protéines d'une "science complexe" à un "ingénierie simple".
L'ensemble de données de séquences de protéines Venus-Pod (Venus-Protein Outsize Dataset) établi par l'équipe Hongliang contient près de 9 milliards de séquences de protéines, avec des centaines de millions d'étiquettes fonctionnelles. C'est le plus grand ensemble de données au monde en termes de taille et d'étiquettes d'annotation fonctionnelle, représentant également 4 fois le volume des 2,1 milliards de séquences de protéines utilisées pour former le modèle américain ESM-C, qui est connu dans un autre secteur.
Cet ensemble de données contient 3,62 milliards de séquences de protéines microbiens terrestres, 2,64 milliards de séquences de protéines microbiens marins, 2,43 milliards de séquences de protéines d'anticorps et 60 millions de séquences de protéines virales, couvrant les informations sur les séquences de protéines des organismes de surface conventionnels aux microorganismes des environnements extrêmes, en particulier les centaines de millions d'étiquettes fonctionnelles fournies (température de fonctionnement des protéines, pH, pression, etc.).
Hongliang a déclaré que cet ensemble de données constitue une énorme "mine de protéines", permettant à l'humanité de découvrir de nouvelles protéines ou des biocatalyseurs, soutenant ainsi le développement rapide de la biopharmacie et de la biologie synthétique ; de plus, les grands modèles d'IA devraient, grâce à l'apprentissage de données massives, maîtriser les modèles d'évolution des protéines de la nature, fournissant ainsi des ressources d'apprentissage précieuses pour concevoir d'excellents produits protéiques.
En 2024, le prix Nobel de chimie a été décerné à l'équipe de Google DeepMind, qui a utilisé la technologie AI pour analyser avec précision la relation entre les séquences de protéines et les structures tridimensionnelles, résolvant ainsi un problème fondamental qui a préoccupé les biologistes pendant 50 ans.
Cependant, un problème réel est le suivant : si l'on modifie légèrement la séquence d'acides aminés d'une protéine, même avec un changement minuscule de 1 %, la structure globale de la protéine semble ne pas avoir subi de changement évident, mais sa fonction risque fortement de se détériorer, voire de disparaître complètement.
En d'autres termes, pour concevoir un produit protéique réussi, il ne suffit pas de se concentrer sur sa structure tridimensionnelle, mais il faut également être capable de prédire et de concevoir avec succès sa fonction.
Ainsi, l'équipe du professeur Hongliang a "pris un chemin différent", ne se concentrant plus sur la structure des protéines, mais visant directement l'objectif ultime de "prédiction fonctionnelle", transformant la conception complexe des protéines en un processus simple orienté vers les besoins, accompagné de peu d'expérimentations pour obtenir des résultats.
« Nous avons entraîné la série de modèles Venus, qui sont différents de l’AlphaFold de l’équipe DeepMind pour prédire les structures des protéines, et ce modèle apprend les règles d’organisation des séquences protéiques dans la nature et la relation entre elles et la fonction, et sa précision dans la prédiction de la fonction de mutation des protéines est la plus élevée de l’industrie. » », a déclaré Hong Liang.
La série de modèles Venus dispose de deux fonctions clés : "Évolution dirigée par l'IA" et "Extraction enzymatique par l'IA".
Le soi-disant "évolution dirigée par l'IA" désigne le fait que la série de modèles Venus peut optimiser plusieurs performances d'un produit protéique insatisfaisant, le transformant en un "guerrier hexagonal" pour répondre aux besoins d'application.
L'"AI Mining Enzymes" fait référence à la série de modèles Venus qui, sur la base de son vaste ensemble de données de protéines fonctionnelles inconnues, peut "sélectionner des guerriers surhumains" pour découvrir précisément des protéines possédant des fonctions extraordinaires répondant à des exigences d'application strictes, telles que la résistance extrême à la chaleur, la résistance extrême à l'acide, la résistance extrême à la base, et la résistance extrême à la digestion gastro-intestinale.
Ces protéines aux fonctions extraordinaires possèdent un immense potentiel d'application dans les biotechnologies, la recherche pharmaceutique et la production industrielle, pouvant apporter innovation et percée dans ces domaines.
En même temps, la première machine automatisée au monde pour l'expression, la purification et le test fonctionnel de grandes quantités de protéines à faible débit, associée à la série de modèles Venus, peut accomplir sans interruption l'expression, la purification et les tâches de détection de plus de 100 protéines en 24 heures, augmentant ainsi l'efficacité par rapport au travail humain de près de 10 fois. Cela réduira considérablement les investissements en main-d'œuvre, en ressources matérielles et en temps dans le processus de recherche et développement, améliorant ainsi l'efficacité des recherches en ingénierie protéique et en biologie synthétique. Son objectif est "Conception AI, Automatisation des expériences", permettant aux chercheurs de se libérer des conceptions et des expériences fastidieuses. Ils n'ont qu'à poser des questions, l'IA et l'automatisation se chargent de résoudre les problèmes, transformant finalement des découvertes complexes dans le domaine des protéines en un processus simple, semblable à celui d'un "appareil photo automatique".
Actuellement, plusieurs protéines conçues grâce à la série de modèles Venus ont été industrialisées.
Prenons l'exemple de la modification de la résistance alcaline des anticorps monovalents de l'entreprise leader en hormone de croissance domestique, Jin Sai Pharmaceutical. Améliorer la résistance alcaline des protéines a toujours été un travail extrêmement difficile. L'équipe de Hongliang a utilisé ce modèle pour combiner une petite quantité d'expérimentations humides avec des itérations fermées de validation, augmentant la résistance alcaline des anticorps monovalents ordinaires par 4 en moins d'un an, économisant ainsi des millions de yuans par an pour Jin Sai Pharmaceutical. Ce résultat a déjà été réalisé en plusieurs lots de production à grande échelle de 5000 litres, devenant le premier produit protéique au monde conçu par un grand modèle et produit à grande échelle.
Une autre application innovante de la série de modèles Venus est le projet de transformation de la phosphatase alcaline (ALP) d'une entreprise de diagnostic in vitro. L'ALP est largement utilisée comme enzyme marquée en raison de sa haute stabilité et de sa sensibilité ; plus son activité est élevée, plus la sensibilité de détection est grande, permettant ainsi de détecter des biomarqueurs extrêmement faibles. Cependant, augmenter l'activité de l'ALP a toujours été un défi. La série de modèles Venus a réussi à optimiser l'ALP, rendant son activité moléculaire trois fois supérieure à celle des produits des meilleures entreprises internationales, apportant une grande valeur pour les diagnostics ultra-sensibles (comme l'infarctus du myocarde et la maladie d'Alzheimer). Actuellement, l'ALP transformée est entrée dans la phase de production à l'échelle de 200L, marquant la réussite de la série de modèles Venus dans la réalisation de la transformation industrielle.
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Récompense
J'aime
1
Partager
Commentaire
0/400
GateUser-488cbe78
· 03-24 02:31
Actualités Odaily Ethena équipe a annoncé sur le canal officiel Discord que la page de consultation pour l'Airdrop de la Saison 3 sera lancée au cours de la première semaine d'avril. Avant cela, des détails supplémentaires concernant la répartition de l'Airdrop de la Saison 3 seront fournis par les officiels. De plus, Ethena a également annoncé que l'événement de la Saison 4 commencera le 24 mars et durera 6 mois jusqu'au 24 septembre.
L'Université Jiaotong de Shanghai a publié un modèle de conception de protéines, introduisant l'IA pour concevoir efficacement et précisément des fonctions connexes.
Le 22 mars, l'équipe du professeur Hong Liang de l'Université Jiaotong de Shanghai a publié le modèle de conception de protéines Venus. Cette équipe a combiné l'IA avec la conception et la modification des protéines, établissant le plus grand ensemble de données de protéines au monde. Le modèle entraîné sur cet ensemble de données peut prédire et concevoir avec précision et efficacité les fonctions des protéines, transformant la production de protéines de "tentatives et erreurs lentes" en "conception précise et efficace".
Ce résultat, associé à des équipements automatisés de pointe dans l'industrie, a déjà été industrialisé, transformant la conception des protéines d'une "science complexe" à un "ingénierie simple".
L'ensemble de données de séquences de protéines Venus-Pod (Venus-Protein Outsize Dataset) établi par l'équipe Hongliang contient près de 9 milliards de séquences de protéines, avec des centaines de millions d'étiquettes fonctionnelles. C'est le plus grand ensemble de données au monde en termes de taille et d'étiquettes d'annotation fonctionnelle, représentant également 4 fois le volume des 2,1 milliards de séquences de protéines utilisées pour former le modèle américain ESM-C, qui est connu dans un autre secteur.
Cet ensemble de données contient 3,62 milliards de séquences de protéines microbiens terrestres, 2,64 milliards de séquences de protéines microbiens marins, 2,43 milliards de séquences de protéines d'anticorps et 60 millions de séquences de protéines virales, couvrant les informations sur les séquences de protéines des organismes de surface conventionnels aux microorganismes des environnements extrêmes, en particulier les centaines de millions d'étiquettes fonctionnelles fournies (température de fonctionnement des protéines, pH, pression, etc.).
Hongliang a déclaré que cet ensemble de données constitue une énorme "mine de protéines", permettant à l'humanité de découvrir de nouvelles protéines ou des biocatalyseurs, soutenant ainsi le développement rapide de la biopharmacie et de la biologie synthétique ; de plus, les grands modèles d'IA devraient, grâce à l'apprentissage de données massives, maîtriser les modèles d'évolution des protéines de la nature, fournissant ainsi des ressources d'apprentissage précieuses pour concevoir d'excellents produits protéiques.
En 2024, le prix Nobel de chimie a été décerné à l'équipe de Google DeepMind, qui a utilisé la technologie AI pour analyser avec précision la relation entre les séquences de protéines et les structures tridimensionnelles, résolvant ainsi un problème fondamental qui a préoccupé les biologistes pendant 50 ans.
Cependant, un problème réel est le suivant : si l'on modifie légèrement la séquence d'acides aminés d'une protéine, même avec un changement minuscule de 1 %, la structure globale de la protéine semble ne pas avoir subi de changement évident, mais sa fonction risque fortement de se détériorer, voire de disparaître complètement.
En d'autres termes, pour concevoir un produit protéique réussi, il ne suffit pas de se concentrer sur sa structure tridimensionnelle, mais il faut également être capable de prédire et de concevoir avec succès sa fonction.
Ainsi, l'équipe du professeur Hongliang a "pris un chemin différent", ne se concentrant plus sur la structure des protéines, mais visant directement l'objectif ultime de "prédiction fonctionnelle", transformant la conception complexe des protéines en un processus simple orienté vers les besoins, accompagné de peu d'expérimentations pour obtenir des résultats.
« Nous avons entraîné la série de modèles Venus, qui sont différents de l’AlphaFold de l’équipe DeepMind pour prédire les structures des protéines, et ce modèle apprend les règles d’organisation des séquences protéiques dans la nature et la relation entre elles et la fonction, et sa précision dans la prédiction de la fonction de mutation des protéines est la plus élevée de l’industrie. » », a déclaré Hong Liang.
La série de modèles Venus dispose de deux fonctions clés : "Évolution dirigée par l'IA" et "Extraction enzymatique par l'IA".
Le soi-disant "évolution dirigée par l'IA" désigne le fait que la série de modèles Venus peut optimiser plusieurs performances d'un produit protéique insatisfaisant, le transformant en un "guerrier hexagonal" pour répondre aux besoins d'application.
L'"AI Mining Enzymes" fait référence à la série de modèles Venus qui, sur la base de son vaste ensemble de données de protéines fonctionnelles inconnues, peut "sélectionner des guerriers surhumains" pour découvrir précisément des protéines possédant des fonctions extraordinaires répondant à des exigences d'application strictes, telles que la résistance extrême à la chaleur, la résistance extrême à l'acide, la résistance extrême à la base, et la résistance extrême à la digestion gastro-intestinale.
Ces protéines aux fonctions extraordinaires possèdent un immense potentiel d'application dans les biotechnologies, la recherche pharmaceutique et la production industrielle, pouvant apporter innovation et percée dans ces domaines.
En même temps, la première machine automatisée au monde pour l'expression, la purification et le test fonctionnel de grandes quantités de protéines à faible débit, associée à la série de modèles Venus, peut accomplir sans interruption l'expression, la purification et les tâches de détection de plus de 100 protéines en 24 heures, augmentant ainsi l'efficacité par rapport au travail humain de près de 10 fois. Cela réduira considérablement les investissements en main-d'œuvre, en ressources matérielles et en temps dans le processus de recherche et développement, améliorant ainsi l'efficacité des recherches en ingénierie protéique et en biologie synthétique. Son objectif est "Conception AI, Automatisation des expériences", permettant aux chercheurs de se libérer des conceptions et des expériences fastidieuses. Ils n'ont qu'à poser des questions, l'IA et l'automatisation se chargent de résoudre les problèmes, transformant finalement des découvertes complexes dans le domaine des protéines en un processus simple, semblable à celui d'un "appareil photo automatique".
Actuellement, plusieurs protéines conçues grâce à la série de modèles Venus ont été industrialisées.
Prenons l'exemple de la modification de la résistance alcaline des anticorps monovalents de l'entreprise leader en hormone de croissance domestique, Jin Sai Pharmaceutical. Améliorer la résistance alcaline des protéines a toujours été un travail extrêmement difficile. L'équipe de Hongliang a utilisé ce modèle pour combiner une petite quantité d'expérimentations humides avec des itérations fermées de validation, augmentant la résistance alcaline des anticorps monovalents ordinaires par 4 en moins d'un an, économisant ainsi des millions de yuans par an pour Jin Sai Pharmaceutical. Ce résultat a déjà été réalisé en plusieurs lots de production à grande échelle de 5000 litres, devenant le premier produit protéique au monde conçu par un grand modèle et produit à grande échelle.
Une autre application innovante de la série de modèles Venus est le projet de transformation de la phosphatase alcaline (ALP) d'une entreprise de diagnostic in vitro. L'ALP est largement utilisée comme enzyme marquée en raison de sa haute stabilité et de sa sensibilité ; plus son activité est élevée, plus la sensibilité de détection est grande, permettant ainsi de détecter des biomarqueurs extrêmement faibles. Cependant, augmenter l'activité de l'ALP a toujours été un défi. La série de modèles Venus a réussi à optimiser l'ALP, rendant son activité moléculaire trois fois supérieure à celle des produits des meilleures entreprises internationales, apportant une grande valeur pour les diagnostics ultra-sensibles (comme l'infarctus du myocarde et la maladie d'Alzheimer). Actuellement, l'ALP transformée est entrée dans la phase de production à l'échelle de 200L, marquant la réussite de la série de modèles Venus dans la réalisation de la transformation industrielle.
(Source : Interface News)
Source : Oriental Fortune Network
Auteur : Interface News