J’ai appris à faire un deepfake à synchronisation labiale en quelques heures seulement (et vous pouvez aussi)

Est-ce vraiment facile de créer un deepfake? Au cours des dernières années, il y a eu un flux constant de nouvelles méthodes et algorithmes qui fournissent des contrefaçons de plus en plus convaincantes générées par l’IA. Vous pouvez même maintenant effectuer des échanges de visage de base dans une poignée d’applications. Mais que faut-il pour transformer un code aléatoire que vous avez trouvé en ligne en un véritable deepfake? Je peux maintenant dire par expérience personnelle que vous n’avez vraiment besoin que de deux choses: du temps et de la patience.

Bien que j’aie écrit sur les deepfakes pendant des années, je ne les ai jamais créés qu’en utilisant des applications pré-emballées qui ont fait le travail pour moi. Mais quand j’ai vu une méthode apparemment simple pour créer des deepfakes rapides de synchronisation labiale en un rien de temps, j’ai su que je devais l’essayer moi-même.

Le mécanisme de base est extrêmement simple. Tout ce dont vous avez besoin est une vidéo de votre sujet et un clip audio que vous voulez qu’ils suivent. Écrasez ces deux choses ensemble en utilisant du code et, hé hop, vous avez un deepfake. (Vous pouvez dire que je n’ai pas beaucoup de connaissances techniques, non?) Le résultat final est des vidéos comme celle-ci de la reine chantant la reine:

Ou d’un groupe de personnages de films chantant cet hymne international, «All Star» de Smash Mouth:

Ou de Trump mimant avec ce classique irlandais:

Trouver les algorithmes

Maintenant, ces vidéos ne sont pas des deepfakes néfastes conçus pour saper la démocratie et provoquer l’infopocalypse. (Qui a besoin de deepfakes pour cela quand le montage normal fait tout aussi bien le travail?) Ils ne sont même pas aussi convaincants, du moins pas sans temps et efforts supplémentaires. Ce qu’ils sont est stupide et amusant – deux qualités que j’apprécie beaucoup lorsque je m’engage à perdre mon temps rédiger un article informatif et engageant pour mon employeur.

Comme James Kelleher, le designer irlandais qui a créé le Queen deepfake, noté sur Twitter, la méthode qu’il a utilisée pour réaliser les vidéos a été partagée en ligne par certains chercheurs en IA. Le document en question décrivant leur méthode (appelé Wav2Lip) a été posté il y a quelques semaines, avec une démo publique à essayer. La démo était à l’origine librement accessible, mais vous devez maintenant vous inscrire pour l’utiliser. KR Prajwal de IIIT Hyderabad, l’un des auteurs de l’ouvrage, a déclaré Le bord c’était pour dissuader les utilisations malveillantes, bien qu’il admette que l’enregistrement ne «dissuaderait pas un délinquant sérieux qui connaît bien la programmation».

«Nous reconnaissons définitivement le souci des gens de pouvoir utiliser ces outils librement, et par conséquent, nous suggérons fortement aux utilisateurs du code et du site Web de présenter clairement les vidéos comme synthétiques», a déclaré Prajwal. Lui et ses collègues chercheurs notent que le programme peut également être utilisé à de nombreuses fins bénéfiques, comme l’animation et le doublage de vidéos dans de nouvelles langues. Prajwal ajoute qu’ils espèrent que la mise à disposition du code «encouragera des recherches fructueuses sur des systèmes capables de lutter efficacement contre les abus».

Essayer (et échouer) avec la démo en ligne

J’ai d’abord essayé d’utiliser cette démo en ligne pour créer un deepfake. J’ai trouvé une vidéo de ma cible (le PDG d’Apple, Tim Cook) et du son pour qu’il mime (j’ai choisi Jim Carrey pour une raison quelconque). J’ai téléchargé les séquences vidéo en utilisant la fonction d’enregistrement d’écran de Quicktime et l’audio en utilisant une application pratique appelée Piezo. Ensuite, j’ai obtenu les deux fichiers et les ai connectés au site et j’ai attendu. Et j’ai attendu. Et finalement, rien ne s’est passé.

Pour une raison quelconque, la démo n’aimait pas mes clips. J’ai essayé d’en créer de nouveaux et de réduire leur résolution, mais cela n’a pas fait de différence. Cela, il s’avère, serait un motif dans mon expérience profonde: des barrages routiers aléatoires surgiraient que je n’avais tout simplement pas l’expertise technique pour analyser. Finalement, j’ai abandonné et j’ai demandé de l’aide à Kelleher. Il m’a suggéré de renommer mes fichiers pour supprimer les espaces. Je l’ai fait et pour une raison quelconque travaillé. J’avais maintenant un clip de Tim Cook mimant les tests d’écran de Jim Carrey pour Une série d’événements malheureux de Lemony Snickets. C’était terrible – vraiment incroyablement médiocre en termes de vraisemblance et d’humour – mais un exploit personnel tout de même.

Google Colab: le site de mes nombreuses batailles avec l’algorithme Wav2Lip.
Image: James Vincent

Déménagement à Colab

Pour essayer d’améliorer ces résultats, j’ai voulu exécuter les algorithmes plus directement. Pour cela, je me suis tourné vers le Github des auteurs, où ils avaient téléchargé le code sous-jacent. J’utiliserais Google Colab pour l’exécuter: l’équivalent de codage de Google Docs, qui vous permet d’exécuter des projets d’apprentissage automatique dans le cloud. Encore une fois, ce sont les auteurs originaux qui ont fait tout le travail en présentant le code en étapes faciles, mais cela ne m’a pas empêché de marcher dans le revers après revers comme Sideshow Bob s’attaquant à un parking rempli de râteaux.

Pourquoi ne puis-je pas autoriser Colab à accéder à mon Google Drive? (Parce que j’étais connecté à deux comptes Google différents.) Pourquoi le projet Colab n’a-t-il pas pu trouver les pondérations du réseau neuronal dans mon dossier Drive? (Parce que j’avais téléchargé le modèle Wav2Lip plutôt que la version Wav2Lip + GAN.) Pourquoi le fichier audio que j’ai téléchargé n’a-t-il pas été identifié par le programme? (Parce que j’avais mal orthographié «aduoi» dans le nom du fichier.) Et ainsi de suite et ainsi de suite.

Heureusement, beaucoup de mes problèmes ont été résolus par ce didacticiel YouTube, qui m’a alerté sur certaines des erreurs les plus subtiles que j’avais commises. Celles-ci comprenaient la création de deux dossiers séparés pour les entrées et le modèle, intitulés respectivement Wav2Lip et Wav2lip. (Notez la capitalisation différente sur «lip» – c’est ce qui m’a fait trébucher.) Après avoir regardé la vidéo à quelques reprises et passé des heures à dépanner les choses, j’ai finalement eu un modèle fonctionnel. Honnêtement, j’aurais pu pleurer, en partie à cause de ma propre incompétence apparente.

Les résultats finaux

Quelques expériences plus tard, j’avais appris certaines des bizarreries du programme (comme sa difficulté à gérer les visages qui ne sont pas droits) et j’ai décidé de créer ma pièce de résistance profonde: la synchronisation labiale d’Elon Musk avec «l’espace» de Tim Curry discours de Command & Conquer: alerte rouge 3. Vous pouvez voir les résultats par vous-même ci-dessous. Et bien sûr, ce n’est qu’une petite contribution à l’effacement continu des frontières entre réalité et fiction, mais au moins c’est la mienne:

Qu’est-ce que j’ai appris de cette expérience? Eh bien, créer des deepfakes est vraiment accessible, mais ce n’est pas forcément facile. Bien que ces algorithmes existent depuis des années et puissent être utilisés par toute personne souhaitant consacrer quelques heures de travail, il est toujours vrai que simplement éditer des clips vidéo à l’aide de méthodes traditionnelles est plus rapide et produit des résultats plus convaincants, si votre objectif est de diffuser de la désinformation. au moins.

D’un autre côté, ce qui m’a impressionné, c’est la rapidité avec laquelle cette technologie se répand. Cet algorithme de synchronisation labiale, Wav2Lip, a été créé par une équipe internationale de chercheurs affiliés à des universités en Inde et au Royaume-Uni. Ils ont partagé leur travail en ligne à la fin du mois d’août, puis il a été repris par les newsletters Twitter et AI (je l’ai vu dans un article bien connu appelé Import AI). Les chercheurs ont rendu le code accessible et ont même créé une démo publique, et en quelques semaines, des gens du monde entier ont commencé à l’expérimenter, créant leurs propres deepfakes pour le plaisir et, dans mon cas, du contenu. Recherchez «Wav2Lip» sur YouTube et vous trouverez des didacticiels, des démos et bien d’autres exemples de faux.

Pour marque-pages : Permaliens.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *