Dado que la IA generativa es una característica clave de todos sus nuevos proyectos de software y hardware, no debería sorprender que Microsoft haya estado desarrollando sus propios modelos de aprendizaje automático. VASA-1 es un ejemplo de ello, donde una sola imagen de una persona y una pista de audio se pueden convertir en un clip de vídeo convincente de dicha persona hablando la grabación.
Hace apenas unos años, cualquier cosa creada mediante IA generativa era identificable instantáneamente por varios factores. Con imágenes fijas, serían cosas como el número de dedos de la mano de una persona o incluso algo tan simple como tener el número correcto de piernas. Los vídeos generados por IA eran aún peores, pero al menos merecían un meme.
Sin embargo, un informe de investigación de Microsoft muestra que la naturaleza obvia de la IA generativa va a desaparecer rápidamente. VASA-1 es un modelo de aprendizaje automático que convierte una única imagen estática del rostro de una persona en un vídeo breve y realista, mediante el uso de una pista de audio de voz. El modelo examina los cambios de tono y ritmo del sonido y luego crea una secuencia de nuevas imágenes donde el rostro se modifica para que coincida con el discurso.
No le hago justicia con esa descripción, porque algunos de los ejemplos publicados por Microsoft son sorprendentemente buenos. Otros, sin embargo, no son tan atractivos y está claro que los investigadores seleccionaron los mejores ejemplos para mostrar lo que han logrado. En particular, un breve vídeo que muestra el uso del modelo en tiempo real destaca que todavía queda un largo camino por recorrer antes de que sea imposible distinguir la realidad real de la realidad generada por computadora.
Pero aun así, el hecho de que todo esto se haya hecho en una PC de escritorio, aunque use una RTX 4090, en lugar de una supercomputadora masiva, muestra que con acceso a dicho software, prácticamente cualquiera podría usar IA generativa para crear un deepfake impecable. Los investigadores lo reconocen en el informe de la investigación.
«No tiene como objetivo crear contenido que se utilice para engañar o engañar. Sin embargo, al igual que otras técnicas de generación de contenido relacionadas, aún podría usarse indebidamente para hacerse pasar por humanos. Nos oponemos a cualquier comportamiento para crear contenidos engañosos o dañinos de personas reales. y estamos interesados en aplicar nuestra técnica para avanzar en la detección de falsificaciones».
Probablemente esta sea la razón por la que la investigación de Microsoft permanece actualmente a puerta cerrada. Dicho esto, no puedo imaginar que pase mucho tiempo antes de que alguien logre no solo replicar el trabajo sino también mejorarlo y potencialmente usarlo para algún propósito nefasto. Por otro lado, si VASA-1 puede usarse para detectar deepfakes y podría implementarse en forma de una aplicación de escritorio simple, entonces esto sería un gran paso adelante, o más bien, un paso lejos de un mundo donde la IA condena al fracaso. todos nosotros. ¡Hurra!