2026 — Modelos unificados y robótica
May 13, 2026 Thinking Machines
Thinking Machines presenta Interaction Models para conversación de voz en tiempo real
Thinking Machines publicó una demostración de sus Interaction Models, un sistema de IA diseñado para la conversación de voz natural en tiempo real. El modelo puede esperar en silencio cuando corresponde, interrumpir con educación cuando es necesario, contar elementos visibles, observar la postura del usuario a través de la cámara y redirigir solicitudes que considera inseguras.Thinking Machines blog
Info
May 13, 2026 Google DeepMind
DeepMind presenta AI Pointer, un cursor consciente del contexto para editar por voz
Google DeepMind presentó AI Pointer, un cursor que interpreta la selección en pantalla más una instrucción hablada como una intención única. Los usuarios pueden destacar contenido — texto, regiones de imagen, elementos de lista — y decirle al sistema qué hacer con ello, eliminando la necesidad de alternar entre barras laterales de chat y manipulación directa.DeepMind blog
Info
May 13, 2026 World Labs
World Labs lanza imagen-a-3D de código abierto con física y audio
World Labs lanzó una herramienta de código abierto que convierte una sola fotografía en un entorno 3D navegable, con física, objetos móviles, iluminación y audio ambiental. El lanzamiento reduce significativamente la barrera para que aficionados y desarrolladores independientes produzcan escenas 3D jugables a partir de fotografía de referencia.World Labs
Info
Apr 16, 2026
Un robot cartografía y recupera piezas del naufragio más profundo de Francia
La Marina francesa y la unidad de arqueología submarina DRASSM utilizaron el ROV C 4000 para inspeccionar Camarat 4, un mercante del siglo XVI hallado a 2,5 km en el Mediterráneo. El robot, conectado por cable, captó unas 86.000 imágenes a hasta ocho por segundo y recuperó jarras cerámicas sin alterar el yacimiento — entre los objetos más profundos jamás recuperados de un pecio en Francia. El material alimenta un modelo 3D de un tipo de embarcación poco documentado en los textos del siglo XVI y apunta a un giro hacia la arqueología submarina no invasiva. A 2,5 km de profundidad, el ROV opera a casi 150 atmósferas, condiciones imposibles para el equipo humano convencional.CBS News ↗
Info
Apr 8, 2026
Un robot blando de Princeton se mueve sin motor ni engranajes
Ingenieros de Princeton han construido un robot híbrido blando-rígido que se mueve sin motor, caja de cambios ni línea neumática combinando un polímero imprimible —un elastómero de cristal líquido— con electrónica flexible y plegado al estilo del origami. La demostración, con forma de grulla, agita las alas con corriente eléctrica: el calentamiento dirigido del polímero hace el trabajo que normalmente correspondería a un actuador. El artículo —Bershadsky, Davidson, Paulino y Zhao, «Digital Actuation Control of Soft Robotic Origami With Self-Folding Liquid Crystal Elastomer Hinges»— se publicó en línea en Advanced Functional Materials el 21 de marzo de 2026. Eliminar el motor reduce el número de piezas y los modos de fallo, y abre aplicaciones en dispositivos médicos, rescate y robótica de inspección.Princeton Engineering ↗
Info
Mar 26, 2026 RAI Institute
El RAI Institute presenta Roadrunner, un robot bípedo con ruedas
El Robotics & AI Institute, dirigido por Marc Raibert (fundador de Boston Dynamics), presentó Roadrunner: un robot bípedo de 15 kg cuyos pies funcionan como ruedas y que alterna entre modos de patinaje paralelo y en línea, además de caminar, con el mismo hardware. Una única política de control aprendida gestiona todos los modos de locomoción, y comportamientos como levantarse del suelo o equilibrarse sobre una sola rueda se desplegaron sin entrenamiento adicional. Roadrunner se posiciona para logística y almacenes, donde las ruedas ahorran energía en superficie plana y las piernas resuelven obstáculos. El lanzamiento prolonga una tendencia de 2026: la locomoción multimodal —ruedas más piernas— sustituye a los diseños puramente bípedos en la robótica comercial de investigación.RAI Institute ↗
Info
Apr 2026
Coinbase lanza Agentic Wallets y x402 — los agentes de IA tienen su propio dinero
Coinbase lanzó Agentic Wallets junto con el protocolo de pagos x402, dando a los agentes de IA la capacidad de almacenar, enviar y recibir criptomonedas de forma autónoma, sin necesidad de aprobación humana en cada transacción. Por primera vez, un agente de IA podía pagar llamadas a APIs, adquirir capacidad de cómputo o liquidar facturas como parte de un flujo de trabajo, creando la capa de infraestructura financiera que los agentes autónomos necesitan para actuar de forma independiente en contextos económicos.
Info
Mar 12, 2026
LTX 2.3 genera vídeo y audio sincronizados en un solo paso
Lightricks lanzó LTX 2.3, un modelo de transformador de difusión con 22.000 millones de parámetros que genera vídeo y audio sincronizados en un único paso de propagación. El modelo admite resoluciones de hasta 4K a 50 fotogramas por segundo, lo que supone un salto considerable en la calidad de generación de medios en tiempo real.
Info
Mar 5, 2026
GPT-5.4 se lanza con una ventana de contexto de 1 millón de tokens
OpenAI lanzó GPT-5.4, su modelo de frontera más capaz, disponible en variantes Standard, Thinking y Pro. El modelo cuenta con una ventana de contexto de hasta 1 millón de tokens —la mayor de OpenAI—, una reducción del 33% en errores factuales respecto a GPT-5.2 y mejores capacidades en codificación, razonamiento y flujos de trabajo agentivos.
2025 — Robótica y razonamiento
December 11, 2025
LEAP 71 realiza pruebas de encendido de dos motores de cohete metalox diseñados por IA
Tras el ensayo de la Universidad de Sheffield en 2024, descrito como el primer motor de cohete diseñado por IA del mundo, LEAP 71 informó del encendido de dos motores metalox de clase orbital de 20 kN — una tobera de campana convencional y un aerospike a escala completa — pasando de la especificación al primer encendido en menos de tres semanas. Los motores se generaron de forma autónoma con Noyron, el modelo computacional de ingeniería de la empresa, y se imprimieron en 3D en cobre. LEAP 71 indicó que los motores probados representan aproximadamente una décima parte del empuje que planea ensayar en 2026, con la validación de fabricación ya en marcha para diseños de 200 kN y 2.000 kN.Sheffield ↗
Info
Aug 20, 2025
Atlas Humanoid con Neural Large Behavior Models
Boston Dynamics presentó un robot humanoide Atlas rediseñado, impulsado por Neural Large Behavior Models del Toyota Research Institute. El robot ejecutó secuencias complejas de múltiples tareas con autocorrección, aprendiendo políticas de control sin rutinas programadas a mano. Boston Dynamics tiene más de 500 robots desplegados y unos ingresos superiores a 130 millones de dólares.
Info
Jan 20, 2025
DeepSeek R1: modelo de razonamiento de código abierto
DeepSeek lanzó R1, un modelo de razonamiento de código abierto que ofrece un rendimiento competitivo frente a los modelos propietarios de frontera. La publicación incluye tanto los pesos completos como versiones destiladas, poniendo las capacidades de razonamiento avanzado al alcance de la comunidad de código abierto.
Warning
2024 — Capacidades de agentes y visión
Oct 29, 2024
Claude 3.5 Sonnet con uso del ordenador
Anthropic lanzó Claude 3.5 Sonnet con capacidades nativas de interacción con el ordenador, lo que le permite ver, entender y controlar una pantalla. Esto hace posible la ejecución autónoma de flujos de trabajo digitales con múltiples pasos, sin depender de APIs de herramientas separadas.
Warning
Sep 12, 2024
Lanzamiento del modelo de razonamiento OpenAI o1
OpenAI presentó o1, un modelo entrenado para dedicar más tiempo a pensar los problemas antes de responder. Alcanza resultados de vanguardia en tareas de razonamiento matemático, de codificación y científico, gracias al uso de aprendizaje por refuerzo para desarrollar procesos de razonamiento internos.
Warning
Jul 23, 2024
Meta Llama 3.1 405B: publicación de código abierto
Meta lanzó Llama 3.1 405B, un modelo de código abierto con 405.000 millones de parámetros que rivaliza con los modelos propietarios cerrados en pruebas de rendimiento. Los pesos completos se pusieron a disposición pública de forma gratuita para uso en investigación y aplicaciones comerciales.
Warning
May 13, 2024
GPT-4o: modelo multimodal
OpenAI lanzó GPT-4o, un modelo optimizado para manejar texto, visión y audio de forma unificada. Muestra mejoras de rendimiento notables respecto a GPT-4 y puede procesar audio e imágenes de forma nativa, sin conversiones intermedias.
Warning
May 8, 2024
AlphaFold 3 predice complejos proteína-ligando
DeepMind lanzó AlphaFold 3, ampliando la predicción de estructuras de proteínas a las interacciones proteína-ADN, proteína-ARN y proteína-ligando. El modelo logró una mejora del 50% en precisión respecto a AlphaFold 2 y contribuyó al entendimiento estructural que subyace al Premio Nobel de Química de 2024.
Info
2023 — Contexto y razonamiento
Feb 15, 2024
Google Gemini 1.5 Pro con contexto de 1 millón de tokens
Google presentó Gemini 1.5 Pro, un modelo capaz de procesar una ventana de contexto de hasta 1 millón de tokens. Esto le permite trabajar con libros enteros, largas transcripciones de vídeo y grandes repositorios de código en un solo prompt.
Info
Dec 11, 2023
Mixtral 8x7B: modelo de mezcla de expertos
Mistral AI lanzó Mixtral 8x7B, un modelo disperso de mezcla de expertos que logra un rendimiento comparable al de modelos mucho más grandes manteniendo la eficiencia. El modelo usa 8 redes de expertos y activa solo 2 por token para optimizar el coste computacional.
Warning
Nov 14, 2023
GraphCast logra una predicción meteorológica superior
DeepMind lanzó GraphCast, un modelo de red neuronal de grafos que predice el tiempo a nivel global con una resolución de 0,25 grados en menos de 1 minuto. El modelo superó al Centro Europeo de Previsiones Meteorológicas a Plazo Medio (ECMWF) en el 90% de las variables meteorológicas evaluadas, generando predicciones que los sistemas tradicionales tardan 10 minutos en calcular.
Info
Nov 6, 2023
GPT-4 Turbo con contexto de 128K
OpenAI lanzó GPT-4 Turbo con una ventana de contexto de 128.000 tokens, cuatro veces mayor que la del GPT-4 original. El modelo también presenta menores tasas de alucinación y un coste de API más bajo respecto a versiones anteriores.
Warning
Sep 6, 2023
Technology Innovation Institute publica Falcon 180B
El Technology Innovation Institute (TII) lanzó Falcon 180B, un modelo de lenguaje de código abierto con 180.000 millones de parámetros, entrenado con 3,5 billones de tokens. En el momento de su publicación era el modelo de lenguaje de acceso libre más grande disponible, superando a Llama 2 en varios indicadores de rendimiento, incluidos MMLU, LAMBADA y HellaSwag.
Info
Jul 18, 2023
Meta Llama 2: publicación de código abierto
Meta lanzó Llama 2, una familia de modelos de lenguaje de código abierto con entre 7.000 y 70.000 millones de parámetros. Disponibles gratuitamente para investigación y uso comercial, los modelos se entrenaron con 2 billones de tokens de datos públicos.
Warning
Jul 11, 2023
Publicación del modelo de lenguaje Claude 2
Anthropic lanzó Claude 2, una versión notablemente mejorada con mayor contexto (100.000 tokens), mejor rendimiento en tareas de razonamiento complejo y propiedades de seguridad mejoradas. El modelo estableció nuevos estándares en seguimiento de instrucciones y veracidad.
Warning
2022 — Multimodal y generativo
Mar 14, 2023
Lanzamiento de GPT-4
OpenAI lanzó GPT-4, un modelo multimodal que acepta tanto texto como imágenes como entrada. Mostró mejoras notables en razonamiento, seguridad y fiabilidad respecto a GPT-3.5, con un rendimiento superior al de expertos humanos en muchas pruebas profesionales.
Nov 30, 2022
Lanzamiento público de ChatGPT
OpenAI lanzó ChatGPT al público, una interfaz conversacional impulsada por GPT-3.5. Alcanzó 1 millón de usuarios en 5 días y 100 millones en 2 meses, convirtiéndose en la aplicación de mayor crecimiento de la historia.
Sep 21, 2022
OpenAI publica Whisper como código abierto
OpenAI lanzó Whisper, un modelo de reconocimiento automático del habla (ASR) de código abierto, entrenado con 680.000 horas de datos supervisados multilingües y multitarea recabados de la web. El modelo comete un 50% menos de errores que los modelos especializados del momento y admite transcripción en 96 idiomas.
Warning
Aug 22, 2022
Publicación pública de Stable Diffusion
Stability AI lanzó Stable Diffusion, un modelo de generación de imágenes a partir de texto de código abierto. Disponible bajo una licencia abierta, podía ejecutarse en hardware de consumo y desencadenó una oleada de aplicaciones creativas y variantes ajustadas.
Warning
Jul 11, 2022
BigScience lanza BLOOM 176B: modelo multilingüe
La iniciativa colaborativa BigScience lanzó BLOOM, un modelo de lenguaje de código abierto con 176.000 millones de parámetros entrenado en 46 idiomas naturales y 13 lenguajes de programación. En el momento de su publicación era el modelo de lenguaje de acceso libre más grande existente.
Info
Apr 6, 2022
DALL-E 2: modelo de generación de imágenes
OpenAI lanzó DALL-E 2, un modelo de texto a imagen muy mejorado, con mejor comprensión de los prompts en lenguaje natural y mayor calidad de imagen. El modelo demostró generalización sin ejemplos previos a conceptos nuevos y variaciones creativas.
Warning
2021 — Proteínas y escala
Dec 1, 2020
AlphaFold 2 resuelve el plegamiento de proteínas
AlphaFold 2 de DeepMind resolvió el problema del plegamiento de proteínas, prediciendo estructuras proteicas tridimensionales con una precisión cercana a la experimental en la competición CASP14. El avance combinó mecanismos de atención con conocimientos de biología evolutiva. El logro contribuyó al Premio Nobel de Química de 2024, otorgado a David Baker, Demis Hassabis y John Jumper.
Info
2020 — Escalado y aprendizaje con pocos ejemplos
Jun 11, 2020
GPT-3: avance en modelos de lenguaje
OpenAI publicó GPT-3, un modelo de lenguaje con 175.000 millones de parámetros que demostró aprendizaje con pocos ejemplos en tareas diversas sin ajuste fino específico por tarea. El modelo exhibió capacidades emergentes como el razonamiento en cadena de pensamiento y la generación básica de código.
2017 — Transformers
Jun 12, 2017
El artículo sobre transformers «Attention Is All You Need»
Investigadores de Google publicaron «Attention Is All You Need», introduciendo la arquitectura Transformer construida íntegramente sobre mecanismos de atención. Este artículo se convirtió en uno de los más citados en el aprendizaje automático y cambió fundamentalmente el diseño de las redes neuronales.
Info
2016 — Razonamiento profundo
Mar 9, 2016
AlphaGo derrota a Lee Sedol
AlphaGo de DeepMind derrotó al campeón mundial Lee Sedol en una partida de Go a cinco juegos, ganando 4-1. Usando redes neuronales profundas combinadas con búsqueda en árbol, AlphaGo mostró un juego intuitivo y una comprensión estratégica que se consideraban imposibles para las máquinas.
2014 — Modelos generativos
Jun 10, 2014
Introducción de las redes generativas adversariales (GANs)
Ian Goodfellow y sus colaboradores introdujeron las redes generativas adversariales, un marco en el que dos redes neuronales compiten: una genera datos y la otra distingue lo real de lo falso. Esto desencadenó una revolución en el modelado generativo y el aprendizaje no supervisado.
Info
2012 — La revolución del aprendizaje profundo
Sep 30, 2012
AlexNet gana la competición ImageNet
Una red neuronal convolucional profunda llamada AlexNet ganó el ImageNet Large Scale Visual Recognition Challenge con una tasa de error top-5 del 15,4%, muy por delante de los métodos tradicionales de visión artificial, que lograban un 26,2%. La victoria desencadenó la revolución del aprendizaje profundo en visión.