3 heures de podcast/vidéo, 15 minutes pour l'essentiel.
J'ai créé une compétence pour Claude Code, il suffit de lui fournir un lien — supporte Xiaoyuzhou, YouTube, Bilibili, et fonctionne en chinois et en anglais. Les trois modèles d'IA travaillent chacun de leur côté : • Claude responsable de la gestion de l'ensemble du processus • Whisper convertit l'audio en texte • Gemini ingère un texte long de 50 000 mots et produit un résumé structuré Ce qui est le plus intéressant, c'est que les méthodes d'obtention de l'audio sur les trois plateformes sont complètement différentes. Xiaoyuzhou est le plus simple, le lien audio est directement caché dans le code source de la page. YouTube a un mécanisme anti-crawling, il faut contourner cela. Bilibili est le plus compliqué — toutes les méthodes classiques ont été bloquées, il a fallu utiliser directement leur API sous-jacente pour récupérer l'audio. Test pratique avec trois vidéos (voir image), 117min + 181min + 114min, tout fonctionne. La plus longue, 181 minutes, a été transcrite en plus de 50 000 mots. Autrefois, un podcast de 3 heures ne pouvait être qu'écouté ou ignoré, maintenant il y a une troisième option : regarder d'abord l'essentiel, puis revenir écouter la version complète si cela en vaut la peine.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
3 heures de podcast/vidéo, 15 minutes pour l'essentiel.
J'ai créé une compétence pour Claude Code, il suffit de lui fournir un lien — supporte Xiaoyuzhou, YouTube, Bilibili, et fonctionne en chinois et en anglais.
Les trois modèles d'IA travaillent chacun de leur côté :
• Claude responsable de la gestion de l'ensemble du processus
• Whisper convertit l'audio en texte
• Gemini ingère un texte long de 50 000 mots et produit un résumé structuré
Ce qui est le plus intéressant, c'est que les méthodes d'obtention de l'audio sur les trois plateformes sont complètement différentes. Xiaoyuzhou est le plus simple, le lien audio est directement caché dans le code source de la page. YouTube a un mécanisme anti-crawling, il faut contourner cela. Bilibili est le plus compliqué — toutes les méthodes classiques ont été bloquées, il a fallu utiliser directement leur API sous-jacente pour récupérer l'audio.
Test pratique avec trois vidéos (voir image), 117min + 181min + 114min, tout fonctionne. La plus longue, 181 minutes, a été transcrite en plus de 50 000 mots.
Autrefois, un podcast de 3 heures ne pouvait être qu'écouté ou ignoré, maintenant il y a une troisième option : regarder d'abord l'essentiel, puis revenir écouter la version complète si cela en vaut la peine.