Apple vient de publier une étude importante le 10 juin 2025, analysant la capacité des grands modèles de langage (LLMs) – comme ceux utilisés par ChatGPT – à raisonner vraiment. L’article, commenté par Gary Marcus dans Le Grand Continent, révèle que ces modèles fonctionnent très bien sur des tâches simples ou structurées. Mais dès que la complexité augmente (comme pour la célèbre “Tour de Hanoï”), leur performance s’effondre soudainement : ils passent presque de 100 % à 0 % d’efficacité. Cette chute dramatique survient même lorsque les modèles sont techniquement capables de traiter plus d’informations .
Article à lire obsolument sur Le Grand Continent : https://legrandcontinent.eu/fr/2025/06/10/ia-llm-marcus/
Et le blog d’Apple : https://machinelearning.apple.com https://machinelearning.apple.com/research/gsm-symbolic
Cela signifie que les LLMs ne raisonnent pas comme des humains : ils imitent des structures linguistiques plutôt que de planifier ou de déduire. Gary Marcus en conclut que, pour dépasser ce plafond, il faudra inventer des architectures hybrides associant les modèles probabilistes aux algorithmes symboliques — capables de manipuler des concepts logiques de manière robuste. Cette transition marque un tournant : ne plus seulement agrandir les modèles, mais les réinventer pour atteindre une véritable intelligence structurée .
HD Rapin