¿Es Ésta la Nueva Cara de la Animación Facial para los Videojuegos?

Una de las partes más difíciles de ejecutar en los videojuegos y el cine es el realismo en la animación facial. Como humanos somos muy sensibles, consciente e inconscientemente, a pequeños detalles en las expresiones faciales y es al detectar estas incoherencias cuando nuestro cerebro desmiente a los personajes CG y los cataloga como “falsos”. Esto es debido a muchos factores pero en especial es la complejidad de la estructura facial humana contra los límites actuales en los sistemas de huesos y musculares así como su animación en el ambiente 3D.

Este año Siggraph vio la presentación de Remedy que en conjunción con Nvidia han estado desarrollando un sistema que ataca una de las áreas más costosas del desarrollo de los videojuegos modernos: motion capture y animación facial. Por medio de un complejo sistema de aprendizaje neuronal profundo (en sus palabras: deep learning neural network) que corre en un avasallador servidor Nvidia DGX-1 con 8 GPUs, Remedy presumió impresionantes y sofisticadas animaciones faciales 3D que genera en base a la decodificación de diálogos de actores pregrabados en video. En palabras del equipo de Remedy, esto nulifica horas de trabajo intensivo en conversión de información y su subsecuente retoque los cuales normalmente vienen asociados en el flujo de trabajo de animación facial y su captura en la forma que la conocemos actualmente.

Aún dejando de lado el alto costo que actualmente genera el crear animación facial (aunque se utilice motion capture) ésta raramente obtiene el mismo nivel de fidelidad que las otras (la corporal, por ejemplo). Esas expresiones raras y sin vida que notamos en los videojuegos AAA normalmente son a causa de los límites de la animación facial. Nvidia y Remedy están convencidos que su solución es capaz, no solo de igualar los resultados actuales, sino superarlos. Y en base a lo que mostraron incluso su sistema neuronal puede prescindir del video y generar animaciones con solo audios de diálogo.

Production-Level Facial Performance Capture Using Deep Convolutional Neural Networks


El resultado es impresionante. Incluso es posible comprender el diálogo al silenciar el audio e intentar leer los labios de las mallas 3D. Es asombroso el nivel de detalle que registra el sistema ya que hasta los más ligeros espasmos y movimientos, característicos del movimiento facial, están presentes. Al mismo tiempo es de destacar la fidelidad de la transferencia de los movimientos originales pregrabados hacia la malla 3D. Aún el sistema está actualmente en desarrollo y el equipo cree que todavía falta tiempo antes de que lo veamos aplicado en nuestros videojuegos favoritos.