2026 — Modelos unificados e robótica
May 13, 2026 Thinking Machines
Thinking Machines lança Interaction Models para conversa de voz em tempo real
A Thinking Machines publicou uma demonstração dos seus Interaction Models, um sistema de IA projetado para conversa de voz natural em tempo real. O modelo pode esperar em silêncio quando deve, interromper com educação quando é necessário, contar elementos visíveis, observar a postura do utilizador pela câmara e redirecionar pedidos que considere inseguros.Thinking Machines blog
May 13, 2026 Google DeepMind
DeepMind apresenta AI Pointer — um cursor consciente do contexto para editar por voz
A Google DeepMind apresentou o AI Pointer, um cursor que interpreta a selecção no ecrã mais uma instrução falada como uma única intenção. Os utilizadores podem destacar conteúdo — texto, regiões de imagem, itens de lista — e dizer ao sistema o que fazer com ele, eliminando a necessidade de alternar entre barras laterais de chat e manipulação directa.DeepMind blog
May 13, 2026 World Labs
World Labs lança imagem-para-3D em código aberto com física e áudio
A World Labs lançou uma ferramenta de código aberto que converte uma única fotografia num ambiente 3D navegável, com física, objetos móveis, iluminação e áudio ambiente. O lançamento reduz significativamente a barreira para que entusiastas e programadores independentes produzam cenas 3D jogáveis a partir de fotografia de referência.World Labs
Apr 16, 2026
Um robô mapeia e recupera artefactos do naufrágio mais profundo de França
A Marinha francesa e a unidade de arqueologia subaquática DRASSM usaram o ROV C 4000 para inspecionar o Camarat 4, um navio mercante do século XVI encontrado a 2,5 km de profundidade no Mediterrâneo. O robô, ligado por cabo, captou cerca de 86 000 imagens a até oito por segundo e recolheu jarras de cerâmica sem perturbar o sítio — entre os objetos mais profundos alguma vez recuperados de um naufrágio em França.
O material alimenta um modelo 3D de um tipo de embarcação pouco documentado em textos do século XVI e aponta para uma viragem para a arqueologia subaquática não invasiva. A essa profundidade o ROV opera a quase 150 atmosferas, condições impraticáveis para o equipamento humano convencional.CBS News ↗
Apr 8, 2026
Um robô macio de Princeton move-se sem motor nem engrenagens
Engenheiros de Princeton construíram um robô híbrido macio-rígido que se move sem motor, caixa de velocidades ou linha pneumática, combinando um polímero imprimível — um elastómero de cristal líquido — com eletrónica flexível e dobragem em estilo origami. A demonstração, em forma de grou, bate as asas com corrente elétrica: o aquecimento dirigido do polímero faz o trabalho que normalmente caberia a um atuador.
O artigo — Bershadsky, Davidson, Paulino e Zhao, «Digital Actuation Control of Soft Robotic Origami With Self-Folding Liquid Crystal Elastomer Hinges» — foi publicado online na Advanced Functional Materials a 21 de março de 2026. Eliminar o motor reduz o número de peças e os modos de falha, abrindo aplicações em dispositivos médicos, busca e salvamento e robótica de inspeção.Princeton Engineering ↗
Mar 26, 2026 RAI Institute
O RAI Institute apresenta o Roadrunner, robô bípede com rodas
O Robotics & AI Institute, liderado por Marc Raibert (fundador da Boston Dynamics), apresentou o Roadrunner: um robô bípede de 15 kg cujos pés funcionam como rodas e que alterna entre modos de patinagem paralela e em linha, além de caminhar, no mesmo hardware. Uma única política de controlo aprendida gere todos os modos de locomoção, e comportamentos como levantar-se do chão ou equilibrar-se sobre uma roda foram implementados sem treino adicional.
O Roadrunner é posicionado para logística e armazéns, onde as rodas poupam energia em piso plano e as pernas resolvem obstáculos. O lançamento prolonga uma tendência de 2026: a locomoção multimodal — rodas mais pernas — substitui os desenhos puramente bípedes na robótica comercial de investigação.RAI Institute ↗
Apr 2026
Coinbase lança Agentic Wallets e x402 — os agentes de IA têm o seu próprio dinheiro
Coinbase lançou Agentic Wallets junto com o protocolo de pagamentos x402, dando aos agentes de IA a capacidade de guardar, enviar e receber criptomoedas de forma autónoma, sem necessidade de aprovação humana em cada transação. Pela primeira vez, um agente de IA podia pagar chamadas a APIs, adquirir capacidade de computação ou liquidar faturas como parte de um fluxo de trabalho, criando a camada de infraestrutura financeira de que os agentes autónomos precisam para agir de forma independente em contextos económicos.
Mar 12, 2026
LTX 2.3 gera vídeo e áudio sincronizados numa única passagem
Lightricks lançou LTX 2.3, um modelo de transformador de difusão com 22 mil milhões de parâmetros que gera vídeo e áudio sincronizados numa única passagem. O modelo suporta resoluções até 4K a 50 fotogramas por segundo, o que representa um salto considerável na qualidade de geração de conteúdo em tempo real.
Mar 5, 2026
GPT-5.4 é lançado com uma janela de contexto de 1 milhão de tokens
OpenAI lançou GPT-5.4, o seu modelo de fronteira mais capaz, disponível nas variantes Standard, Thinking e Pro. O modelo tem uma janela de contexto de até 1 milhão de tokens — a maior da OpenAI —, uma redução de 33% nos erros factuais em relação ao GPT-5.2 e capacidades melhoradas em codificação, raciocínio e fluxos de trabalho agentivos.
2025 — Robótica e raciocínio
December 11, 2025
LEAP 71 faz testes de ignição de dois motores de foguete metalox desenhados por IA
Depois do teste da Universidade de Sheffield em 2024, descrito como o primeiro motor de foguete desenhado por IA do mundo, a LEAP 71 relatou o ensaio de ignição de dois motores metalox de classe orbital de 20 kN — uma tubeira de sino convencional e um aerospike à escala completa — indo da especificação à primeira chama em menos de três semanas. Os motores foram gerados de forma autónoma pelo Noyron, o modelo computacional de engenharia da empresa, e impressos em 3D em cobre. A LEAP 71 referiu que os motores testados correspondem a cerca de um décimo do impulso que pretende ensaiar em 2026, com validação de fabrico já em curso para desenhos de 200 kN e 2.000 kN.Sheffield ↗
Aug 20, 2025
Atlas Humanoid com Neural Large Behavior Models
Boston Dynamics apresentou um robô humanoide Atlas redesenhado, impulsionado por Neural Large Behavior Models do Toyota Research Institute. O robô executou sequências complexas de múltiplas tarefas com autocorreção, aprendendo políticas de controlo sem rotinas programadas manualmente. Boston Dynamics tem mais de 500 robôs implementados com receitas superiores a 130 milhões de dólares.
Jan 20, 2025
DeepSeek R1: modelo de raciocínio de código aberto
DeepSeek lançou R1, um modelo de raciocínio de código aberto que demonstra um desempenho competitivo face aos modelos proprietários de fronteira. A publicação inclui tanto os pesos completos como versões destiladas, colocando capacidades de raciocínio avançado ao alcance da comunidade de código aberto.
2024 — Capacidades de agentes e visão
Oct 29, 2024
Claude 3.5 Sonnet com uso do computador
Anthropic lançou Claude 3.5 Sonnet com capacidades nativas de interação com o computador, permitindo ao modelo ver, entender e controlar um ecrã. Isto possibilita a execução autónoma de fluxos de trabalho digitais com múltiplos passos, sem depender de APIs de ferramentas separadas.
Sep 12, 2024
Lançamento do modelo de raciocínio OpenAI o1
OpenAI apresentou o1, um modelo treinado para dedicar mais tempo a raciocinar os problemas antes de responder. Alcança resultados de vanguarda em tarefas de raciocínio matemático, de codificação e científico, recorrendo a aprendizagem por reforço para desenvolver processos de raciocínio internos.
Jul 23, 2024
Meta Llama 3.1 405B: publicação de código aberto
Meta lançou Llama 3.1 405B, um modelo de código aberto com 405 mil milhões de parâmetros que rivaliza com os modelos proprietários fechados nos testes de desempenho. Os pesos completos foram disponibilizados gratuitamente para uso em investigação e aplicações comerciais.
May 13, 2024
GPT-4o: modelo multimodal
OpenAI lançou GPT-4o, um modelo optimizado para gerir texto, visão e áudio de forma unificada. Apresenta melhorias de desempenho notáveis face ao GPT-4 e pode processar áudio e imagens de forma nativa, sem conversões intermédias.
May 8, 2024
AlphaFold 3 prevê complexos proteína-ligando
DeepMind lançou AlphaFold 3, expandindo a previsão de estruturas de proteínas para as interações proteína-ADN, proteína-ARN e proteína-ligando. O modelo obteve uma melhoria de 50% na precisão em relação ao AlphaFold 2 e contribuiu para o entendimento estrutural que está na base do Prémio Nobel de Química de 2024.
2023 — Contexto e raciocínio
Feb 15, 2024
Google Gemini 1.5 Pro com contexto de 1 milhão de tokens
Google apresentou Gemini 1.5 Pro, um modelo capaz de processar uma janela de contexto de até 1 milhão de tokens. Isto permite-lhe trabalhar com livros inteiros, longas transcrições de vídeo e grandes repositórios de código num único prompt.
Dec 11, 2023
Mixtral 8x7B: modelo de mistura de especialistas
Mistral AI lançou Mixtral 8x7B, um modelo disperso de mistura de especialistas que alcança um desempenho comparável ao de modelos muito maiores mantendo a eficiência. O modelo usa 8 redes de especialistas e activa apenas 2 por token para optimizar o custo computacional.
Nov 14, 2023
GraphCast alcança uma previsão meteorológica superior
DeepMind lançou GraphCast, um modelo de rede neuronal de grafos que prevê o tempo a nível global com uma resolução de 0,25 graus em menos de 1 minuto. O modelo superou o Centro Europeu de Previsões Meteorológicas de Médio Prazo (ECMWF) em 90% das variáveis meteorológicas avaliadas, produzindo previsões que os sistemas tradicionais demoram 10 minutos a calcular.
Nov 6, 2023
GPT-4 Turbo com contexto de 128K
OpenAI lançou GPT-4 Turbo com uma janela de contexto de 128.000 tokens, quatro vezes maior que a do GPT-4 original. O modelo apresenta também menores taxas de alucinação e um custo de API mais baixo em relação às versões anteriores.
Sep 6, 2023
Technology Innovation Institute publica Falcon 180B
O Technology Innovation Institute (TII) lançou Falcon 180B, um modelo de linguagem de código aberto com 180 mil milhões de parâmetros, treinado com 3,5 biliões de tokens. No momento do lançamento era o maior modelo de linguagem de acesso livre disponível, superando Llama 2 em vários indicadores de desempenho, incluindo MMLU, LAMBADA e HellaSwag.
Jul 18, 2023
Meta Llama 2: publicação de código aberto
Meta lançou Llama 2, uma família de modelos de linguagem de código aberto com entre 7 e 70 mil milhões de parâmetros. Disponíveis gratuitamente para investigação e uso comercial, os modelos foram treinados com 2 biliões de tokens de dados públicos.
Jul 11, 2023
Publicação do modelo de linguagem Claude 2
Anthropic lançou Claude 2, uma versão notavelmente melhorada com maior contexto (100.000 tokens), melhor desempenho em tarefas de raciocínio complexo e propriedades de segurança aprimoradas. O modelo estabeleceu novos padrões em seguimento de instruções e veracidade.
2022 — Multimodal e generativo
Mar 14, 2023
Lançamento do GPT-4
OpenAI lançou GPT-4, um modelo multimodal que aceita texto e imagens como entrada. Demonstrou melhorias notáveis em raciocínio, segurança e fiabilidade em relação ao GPT-3.5, com um desempenho superior ao de especialistas humanos em muitos testes profissionais.
Nov 30, 2022
Lançamento público do ChatGPT
OpenAI lançou ChatGPT ao público, uma interface conversacional impulsionada por GPT-3.5. Atingiu 1 milhão de utilizadores em 5 dias e 100 milhões em 2 meses, tornando-se a aplicação de crescimento mais rápido da história.
Sep 21, 2022
OpenAI publica Whisper como código aberto
OpenAI lançou Whisper, um modelo de reconhecimento automático de fala (ASR) de código aberto, treinado com 680.000 horas de dados supervisionados multilingues e multitarefa recolhidos da web. O modelo comete 50% menos erros do que os modelos especializados da altura e suporta transcrição em 96 idiomas.
Aug 22, 2022
Lançamento público do Stable Diffusion
Stability AI lançou Stable Diffusion, um modelo de geração de imagens a partir de texto de código aberto. Disponível sob uma licença aberta, podia ser executado em hardware de consumo e desencadeou uma vaga de aplicações criativas e variantes ajustadas.
Jul 11, 2022
BigScience lança BLOOM 176B: modelo multilingue
A iniciativa colaborativa BigScience lançou BLOOM, um modelo de linguagem de código aberto com 176 mil milhões de parâmetros treinado em 46 línguas naturais e 13 linguagens de programação. No momento do lançamento era o maior modelo de linguagem de acesso livre existente.
Apr 6, 2022
DALL-E 2: modelo de geração de imagens
OpenAI lançou DALL-E 2, um modelo de texto para imagem muito melhorado, com melhor compreensão de prompts em linguagem natural e maior qualidade de imagem. O modelo demonstrou generalização sem exemplos anteriores para conceitos novos e variações criativas.
2021 — Proteínas e escala
Dec 1, 2020
AlphaFold 2 resolve o enrolamento de proteínas
AlphaFold 2 da DeepMind resolveu o problema do enrolamento de proteínas, prevendo estruturas proteicas tridimensionais com uma precisão próxima da experimental na competição CASP14. O avanço combinou mecanismos de atenção com conhecimentos de biologia evolutiva. O feito contribuiu para o Prémio Nobel de Química de 2024, atribuído a David Baker, Demis Hassabis e John Jumper.
2020 — Escalamento e aprendizagem com poucos exemplos
Jun 11, 2020
GPT-3: avanço em modelos de linguagem
OpenAI publicou GPT-3, um modelo de linguagem com 175 mil milhões de parâmetros que demonstrou aprendizagem com poucos exemplos em tarefas diversas sem ajuste fino específico por tarefa. O modelo exibiu capacidades emergentes como o raciocínio em cadeia de pensamento e a geração básica de código.
2017 — Transformers
Jun 12, 2017
O artigo sobre transformers «Attention Is All You Need»
Investigadores da Google publicaram «Attention Is All You Need», introduzindo a arquitetura Transformer construída inteiramente sobre mecanismos de atenção. Este artigo tornou-se um dos mais citados em aprendizagem automática e mudou fundamentalmente o design das redes neuronais.
2016 — Raciocínio profundo
Mar 9, 2016
AlphaGo derrota Lee Sedol
AlphaGo da DeepMind derrotou o campeão mundial Lee Sedol numa partida de Go a cinco jogos, ganhando por 4-1. Usando redes neuronais profundas combinadas com pesquisa em árvore, AlphaGo exibiu um jogo intuitivo e uma compreensão estratégica que se consideravam impossíveis para as máquinas.
2014 — Modelos generativos
Jun 10, 2014
Introdução das redes generativas adversariais (GANs)
Ian Goodfellow e colaboradores introduziram as redes generativas adversariais, um enquadramento em que duas redes neuronais competem: uma gera dados e a outra distingue o real do falso. Isto desencadeou uma revolução na modelação generativa e na aprendizagem não supervisionada.
2012 — A revolução do aprendizado profundo
Sep 30, 2012
AlexNet ganha a competição ImageNet
Uma rede neuronal convolucional profunda chamada AlexNet ganhou o ImageNet Large Scale Visual Recognition Challenge com uma taxa de erro top-5 de 15,4%, muito acima dos métodos tradicionais de visão computacional, que obtinham 26,2%. A vitória desencadeou a revolução do aprendizado profundo na visão.