La fonction principale de l’intelligence artificielle est de « réduire les coûts et accroître l’efficacité ». Sans ce principe, vanter l’avancée et l’efficacité d’un outil d’IA revient à jouer avec les concepts.
Lorsqu’il s’agit de montage vidéo, de nombreuses personnes peuvent penser que c’est un travail que seuls les professionnels peuvent faire et qu’il faut beaucoup d’efforts pour apprendre à utiliser différents logiciels de montage.
Imaginez si votre patron vous confiait une tâche importante et vous demandait de couper les moments forts ou les parties clés d’une longue vidéo en une courte vidéo, que feriez-vous ?
Par exemple, votre patron a participé à une interview dans une émission. Après avoir reçu la bande originale, il vous a demandé de couper séparément la partie où il s’exprimait. Que feriez-vous ?
La seule façon d’y parvenir est-elle de faire des heures supplémentaires pour visionner la vidéo entière à une vitesse 1,5 fois supérieure, puis de la monter image par image ? Existe-t-il une méthode plus efficace ? Mieux vaut éviter les heures supplémentaires. Aujourd’hui, j’ai pris rendez-vous avec mes amis joueurs de cartes pour une partie de mahjong après le travail.
Peu importe. Il existe désormais un outil de montage vidéo IA open source et gratuit. Il permet de monter automatiquement des vidéos en un clic et de réaliser le travail ci-dessus en 5 minutes.
FunClip est un outil d’édition IA open source développé par Alibaba, géant chinois de l’internet. Il utilise la technologie IA (les modèles open source FunASR Paraformer de la série Alibaba Tongyi Voice Laboratory) pour reconnaître précisément la parole dans les vidéos. En fonction du texte obtenu, les utilisateurs peuvent rapidement sélectionner le texte/l’orateur souhaité et le recadrer pour en faire un clip vidéo.
Fonctionnalités de FunClip :
Reconnaissance vocale automatisée
FunClip intègre le modèle industriel Paraformer-Large d’Alibaba, leader en matière de reconnaissance vocale, avec une grande précision et des horodatages de prédiction précis. Cela permet aux utilisateurs de trouver rapidement du contenu spécifique dans une vidéo grâce à la reconnaissance vocale.
Personnalisation des mots clés
Parfois, certains mots spécifiques de la vidéo requièrent une attention particulière, comme le nom d’une personne ou un événement spécifique. FunClip permet aux utilisateurs de spécifier ces mots clés grâce au modèle SeACo-Paraformer intégré afin d’améliorer la précision de leur reconnaissance.
Reconnaissance des locuteurs
FunClip intègre le modèle de reconnaissance des locuteurs CAM++. Cette fonctionnalité permet de recadrer des segments vidéo de certains locuteurs en fonction de leurs identifiants automatiquement identifiés. C’est très utile pour les clips vidéo nécessitant une distinction entre différents locuteurs.
Recadrage vidéo
Les utilisateurs peuvent sélectionner un segment de texte dans le résultat de la reconnaissance ou spécifier un interlocuteur, puis cliquer sur le bouton de recadrage pour obtenir le segment vidéo correspondant. Cette fonctionnalité simplifie le montage vidéo. Plus besoin de déplacer manuellement la timeline, ce qui représente un gain de temps considérable.
Prise en charge multi-clips
FunClip permet également aux utilisateurs de monter des vidéos en plusieurs segments, offrant ainsi des possibilités d’édition flexibles. Cela signifie que les utilisateurs peuvent éditer leurs vidéos avec plus de précision, selon leurs besoins.
FunClip peut être déployé localement, c’est-à-dire téléchargé sur l’ordinateur et configuré avec des environnements dépendants, pour une utilisation permanente et gratuite, même sans connexion Internet. Bien sûr, si vous ne savez pas comment télécharger et installer du code open source depuis GitHub, vous pouvez également visiter le site web suivant pour une expérience gratuite.
Adresse du projet Github : https://link.zhihu.com/?target=https%3A//github.com/modelscope/FunClip
Site Web de Magic Tower Experience :
https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary
Site Web d’expérience HuggingFace :
https://link.zhihu.com/?target=https%3A//huggingface.co/spaces/R1ckShi/FunClip
Son fonctionnement est très simple.
Étape 1 : Téléchargez votre vidéo
La deuxième étape consiste à identifier les intervenants (s’il y en a plusieurs dans la vidéo) et à définir les mots clés. Cette étape est basée sur vos besoins personnels, et vous pouvez choisir de ne pas en choisir.
La troisième étape consiste à extraire et à reconnaître la langue de la vidéo et à la convertir en texte
Dans la quatrième étape, vous pouvez copier des paragraphes du texte extrait à l’étape précédente dans le « texte à recadrer » ou saisir le « locuteur à recadrer » afin que l’IA sache à partir de quel paragraphe recadrer.
La cinquième étape consiste à définir les paramètres des sous-titres. Cette étape n’est pas obligatoire.
Étape 6 : Monter la vidéo
La vidéo finale éditée est générée très rapidement, presque en quelques secondes.