Meta presenta el Perception Language Model, una innovadora inteligencia artificial capaz de interpretar videos y describir acciones con precisión, impulsando la comunidad open source en visión artificial.

En un avance que promete transformar la forma en que las máquinas interpretan contenido visual, Meta ha lanzado su nuevo modelo de inteligencia artificial llamado Perception Language Model (PLM).
Este sistema abierto y reproducible está diseñado para abordar tareas visuales complejas y ofrecer una comprensión profunda de videos y escenas.
El PLM de Meta es capaz de analizar secuencias de video, identificar acciones y ofrecer descripciones detalladas de lo que está sucediendo en cada escena.
Además, puede determinar el contexto espacial y temporal de los eventos, lo que resulta fundamental para aplicaciones en vigilancia, automoción y asistencia en tareas automatizadas.
Este avance llega en un momento en que la inteligencia artificial está cada vez más presente en nuestra vida cotidiana. La comunidad de código abierto, en particular, ha estado buscando modelos que sean accesibles y flexibles para desarrollar nuevas soluciones en visión artificial.
El nuevo modelo de Meta busca potenciar estos esfuerzos, facilitando a desarrolladores e investigadores la creación de sistemas más robustos y precisos.
La historia de los modelos de visión por computadora está marcada por hitos importantes. Desde los primeros sistemas que reconocían objetos simples hasta las redes neuronales profundas que interpretan escenas complejas, la evolución ha sido constante.
Sin embargo, muchos de estos modelos estaban cerrados o requerían recursos computacionales elevados, limitando su uso y adaptación.
Meta, una de las principales empresas tecnológicas en inteligencia artificial, ha apostado por cambiar esto con el lanzamiento del PLM. La compañía explicó que este modelo es completamente abierto y puede ser reproducido por cualquier investigador o desarrollador interesado, fomentando así la innovación colaborativa.
¿Cuánto afecta, para bien y para mal, la IA a la información? Primer foro de debate en Zaragoza
El Ayuntamiento de Zaragoza ha acogido hoy el primer foro de debate sobre inteligencia artificial e información organizado por Periodismo 2030. Descubre las conclusiones de la encuesta nacional sobre medios de comunicación en relación a la IA.En términos económicos, proyectos similares en el pasado han recibido inversiones millonarias para su desarrollo y despliegue. Por ejemplo, OpenAI anunció en 2024 la construcción de una gigantesca instalación en Abilene, Texas, en colaboración con Oracle, con un coste estimado de aproximadamente 85.000 millones de euros. Aunque esta inversión busca impulsar la investigación en inteligencia artificial general, el nuevo modelo de Meta busca democratizar el acceso a tecnologías de visión artificial.
El impacto de estos desarrollos es vasto. Desde mejorar los sistemas de reconocimiento en dispositivos móviles hasta facilitar la interpretación automática de imágenes en entornos industriales, la IA está abriendo nuevas fronteras.
Además, la comunidad open source puede aprovechar el PLM para crear aplicaciones personalizadas, reducir costos y acelerar la innovación.
Por ahora, Meta ha publicado el documento de investigación y puesto a disposición del público el código fuente del modelo, permitiendo que investigadores y empresas puedan experimentar y mejorar sus capacidades.
La tendencia apunta a un futuro donde la inteligencia artificial sea cada vez más accesible y capaz de entender nuestro mundo visual con mayor precisión y detalle.
No te pierdas el siguiente vídeo de llama 3