Tencent a dévoilé HunyuanVideo, une nouvelle plateforme open-source dédiée à la formation et à l’inférence de modèles de génération vidéo à grande échelle. Cette initiative marque une avancée significative pour l’intelligence artificielle générative, avec des performances prometteuses qui rivalisent avec les modèles propriétaires les plus avancés (Kong et al. (2024).
Un cadre systématique pour la génération vidéo
HunyuanVideo repose sur une architecture innovante et utilise des technologies avancées pour surmonter les défis liés à la formation de modèles génératifs vidéo de grande taille. Avec plus de 13 milliards de paramètres, HunyuanVideo se distingue comme le plus grand modèle de génération vidéo open-source à ce jour. L’objectif est de fournir une alternative accessible à la communauté tout en égalant, voire surpassant, les modèles fermés.
Architecture et fonctionnalités clés
L’approche de HunyuanVideo se base sur une compression spatiale-temporelle dans un espace latent, facilitée par un modèle 3D VAE. Voici quelques fonctionnalités phares :
- Architecture unifiée pour les images et les vidéos : Une conception hybride « double flux vers flux unique » permet une interaction efficace entre les informations visuelles et textuelles.
- Encodeur de texte MLLM (Multimodal Large Language Model) : Optimisé pour l’alignement texte-image, il améliore la qualité des descriptions et des alignements contextuels.
- Compression vidéo avancée : Grâce à des ratios de compression élevés (vidéo : 4, espace : 8, canal : 16), le modèle peut gérer des vidéos en haute résolution et à un taux d’images élevé.
- Réécriture des prompts : Deux modes de réécriture (Normal et Master) ajustent les consignes utilisateur pour mieux s’adapter au modèle et améliorer la qualité visuelle des résultats.
Performances évaluées
HunyuanVideo a été rigoureusement testé face à des modèles propriétaires comme Runway Gen-3 et Luma 1.6. Les évaluations, menées par plus de 60 professionnels, ont analysé trois critères principaux : alignement texte-vidéo, qualité des mouvements et qualité visuelle. HunyuanVideo s’est classé premier grâce à ses performances exceptionnelles en qualité visuelle et en diversité des mouvements.
Comparaison des modèles
Modèle | Open Source | Durée | Alignement | Mouvements | Qualité Visuelle | Classement |
---|---|---|---|---|---|---|
HunyuanVideo (Ours) | ✔ | 5s | 61.8% | 66.5% | 95.7% | 1 |
CNTopA (API) | ✘ | 5s | 62.6% | 61.7% | 95.6% | 2 |
GEN-3 alpha (Web) | ✘ | 6s | 47.7% | 54.7% | 97.5% | 4 |
Un modèle accessible pour la communauté
En mettant à disposition les poids pré-entraînés, les outils d’inférence et les codes sources, Tencent vise à démocratiser l’accès à cette technologie. Des fonctionnalités comme la prise en charge multi-GPU, des interfaces conviviales (Gradio, Diffusers) et une compatibilité Docker renforcent l’accessibilité.
Spécifications techniques
- GPU recommandé : NVIDIA H800 ou H20 avec au moins 60 Go de mémoire pour des vidéos en 720p.
- Compatibilité : Systèmes Linux avec CUDA (versions 11.8 ou 12.0+).
- Outils fournis : Installation facile via Conda et Docker.
Implications pour la communauté IA
Avec HunyuanVideo, Tencent espère combler l’écart entre les modèles ouverts et fermés. En fournissant un cadre robuste pour la génération vidéo, l’entreprise invite les chercheurs et développeurs à expérimenter de nouvelles idées, favorisant un écosystème plus dynamique et collaboratif.
Source et Citation : https://github.com/Tencent/HunyuanVideo
Lire Aussi :
Amazon dévoile ses nouveaux modèles : une avancée pour l’IA générative
Amazon s’attaque aux hallucinations des LLMs : une solution pour des réponses fiables