Un brazo mecánico se encuentra en exhibición en el Robot Mall, la primera tienda de robots inteligentes encarnados del mundo, el 13 de agosto de 2025 en Beijing, China.
BEIJING — Alibaba Cloud está invirtiendo en un nuevo tipo de inteligencia artificial diseñada para replicar mejor el mundo real utilizando un enfoque diferente de los chatbots como ChatGPT de OpenAI.
El cambio reconoce los límites de los “modelos de lenguaje grandes” entrenados principalmente en texto. En cambio, los desarrolladores están comenzando a enfocarse más en “modelos del mundo” construidos en videos y escenarios físicos de la vida real.
Para unirse a la tendencia, Alibaba lideró una inversión de 2 mil millones de yuanes (290 millones de dólares) en ShengShu, la startup detrás de la herramienta de generación de videos de IA Vidu, anunció la compañía el viernes. TAL Education y Baidu Ventures también participaron en la ronda de financiación de la serie B.
La inversión llega aproximadamente dos meses después de que ShengShu recaudara 600 millones de yuanes de Qiming Venture Partners y otros patrocinadores. La startup se negó a revelar su valuación.
ShengShu dijo que la última financiación apoyará la construcción de un “modelo de mundo general” que puede utilizar la IA para conectar dos dominios actualmente separados: el mundo digital de los juegos y los videos generados por IA, y el mundo físico de la conducción autónoma y los robots.
“ShengShu cree que un modelo de mundo general, basado en datos multimodales como la visión, el audio y el tacto, captura de forma más natural cómo funciona el mundo físico que los modelos de lenguaje grandes”, dijo la startup de tres años en un comunicado.
“Aimamos a conectar percepción y acción”, añadió Zhu Jun, fundador de ShengShu en un comunicado, permitiendo que los sistemas de IA modelen y predigan mejor el comportamiento del mundo real de manera consistente.
El modelo más reciente de ShengShu, Vidu Q3 Pro, lanzado en enero, figura entre los 10 mejores modelos de IA para generar videos a partir de texto e imágenes, según Artificial Analysis.
La compañía lanzó Vidu a nivel mundial meses antes de que OpenAI pusiera a disposición ampliamente su herramienta Sora para la generación de videos por IA, que ahora está desactivada. Las empresas chinas de videos cortos Kuaishou y ByteDance también han lanzado herramientas de IA similares para generar videos.
Alibaba ha ampliado sus inversiones en startups relacionadas. El gigante tecnológico chino y Baidu Ventures lideraron el mes pasado una inversión de 50 millones de dólares en Tripo AI, una plataforma que utiliza IA para generar rápidamente modelos 3D digitales a partir de fotografías. Tripo dijo que también se está alejando de las técnicas utilizadas por los modelos de lenguaje hacia herramientas de IA fundamentadas en el espacio físico y está desarrollando su propio modelo de mundo.
En septiembre, Alibaba también lideró una inversión de 60 millones de dólares en PixVerse, que lanzó un modelo de mundo de IA a principios de este año que permite a los usuarios dirigir cómo se desarrolla un video mientras se genera.
Alibaba, que comenzó en el comercio electrónico, también ha lanzado modelos de IA gratuitos y de código abierto para la generación de videos y, en febrero, lanzó uno para alimentar robots.
Shengshu dijo el viernes que tiene asociaciones estratégicas con empresas que desarrollan IA encarnada —sistemas como robots humanoides que interactúan con el mundo físico— para su uso en entornos industriales, comerciales y domésticos.
Los modelos del mundo son críticos para la robótica porque la tecnología necesita más que LLMs para funcionar, escribió Kevin Kelly, cofundador de la revista tecnológica estadounidense Wired, el mes pasado en su Substack.
En última instancia, para replicar la inteligencia humana, la IA necesitará tres cosas: razón, comprensión del mundo físico y aprendizaje continuo, dijo Kelly. Aunque la IA para la categoría de aprendizaje aún no se ha desarrollado, los chatbots impulsados por LLM han creado el elemento de conocimiento, dijo, lo que convierte a los modelos del mundo en un área clave que requiere un avance.







