VASA-1, el modelo de Microsoft capaz de converir fotografías de retrato en increíbles videos parlantes Microsoft ha lanzado un innovador modelo que puede dotar de movimiento a las imágenes estáticas, dándole una nueva dimensión a la interactividad digital.
Por Entrepreneur en Español Editado por Eduardo Scheffler Zawadzki
Esta tecnología se llama VASA-1 y tiene la capacidad de transformar imágenes estáticas en videos realistas animados utilizando simplemente una imagen y un clip de audio.
Este avance representa un paso significativo en el campo de la inteligencia artificial (IA), ya que permite que retratos aparentemente estáticos cobren vida de una manera sorprendentemente realista.
Según informa Quartz, VASA-1 no solo sincroniza los movimientos de los labios con el audio proporcionado, sino que también ajusta la mirada, las expresiones faciales y la orientación de la cabeza para reflejar emociones como la alegría o la sorpresa en tiempo real.
Microsoft publishes paper on VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
— AI Breakfast (@AiBreakfast) April 19, 2024
VASA is capable of generating a large spectrum of expressive facial nuances and natural head motions
It can handle long-form audio and stably output seamless talking face videos: pic.twitter.com/FiBb11G1ru
Además de su potencial en el ámbito del entretenimiento y la comunicación digital, esta tecnología presenta aplicaciones prometedoras en el campo de la asistencia y la terapia asistida por IA.
Microsoft ha decidido restringir el acceso a esta herramienta, con el objetivo de prevenir posibles abusos, como la creación de videos deepfake que podrían ser utilizados para actividades fraudulentas o desinformativas.
Por el momento, VASA-1 se integrará de manera controlada en sectores específicos, como la creación de asistentes virtuales para organismos públicos, o se ofrecerá como una característica avanzada dentro de productos existentes como Windows Copilot.
Microsoft just dropped VASA-1.
— Min Choi (@minchoi) April 18, 2024
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
"VASA-1 es capaz no solo de producir movimientos labiales exquisitamente sincronizados con el audio, sino también de capturar un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad", menciona el comunicado de Microsoft, publicado en el blog de la compañía.
Relacionado: ¿Ha lanzado Microsoft un creador de "deepfakes"?