Hybride vs Transformateur : quels tokens sont mieux prédits ?
Les modèles hybrides surpassent-ils vraiment les transformateurs sur certains tokens ? Découvre les résultats surprenants d'une étude récente.
Les modèles hybrides comme Olmo Hybrid, conçus pour concurrencer les architectures transformer classiques, ont montré des différences notables dans leurs prédictions de tokens. Une étude récente a comparé le modèle hybride 7B Olmo Hybrid au transformateur Olmo 3, révélant que les hybrides excellent particulièrement avec les tokens porteurs de sens, tels que les noms, verbes et adjectifs.
Comparaison précise des capacités des modèles
Les tests ont démontré que les hybrides surclassent souvent les transformateurs. Par exemple, Olmo Hybrid prédict mieux les mots porteurs de sens avec un écart de perte d’environ 0.04, tandis que pour les mots fonctionnels, cet écart est plus réduit, près de 0.02.
Attention versus récurrence : un duel technique
Les transformateurs utilisent un mécanisme d’attention qui compare chaque token aux précédents, ce qui est efficace pour rappeler précisément des tokens antérieurs, même lointains. Cependant, cette approche devient coûteuse avec de longues séquences. En revanche, les modèles hybrides intègrent des couches récurrentes qui traitent chaque token séquentiellement, offrant un suivi continu de l’évolution de l’information.
Les modèles hybrides prédict mieux les tokens signifiants et évolutifs, mais perdent leur avantage lorsque les tokens sont des répétitions exactes. L’équilibre entre attention et récurrence révèle des forces complémentaires selon les cas d’usage.
Analyse fine des pertes par catégories de tokens
Une analyse des écarts de pertes par catégories de tokens démontre que les hybrides sont largement avantagés pour les mots significatifs comme les adverbes et les adjectifs. En revanche, pour des tokens comme les parenthèses de fermeture, les modèles transformeurs s’en sortent mieux grâce à leur capacité à représenter des structures de correspondance de manière efficace.
Quand l’hybride perd son avantage
Il est notable que le modèle hybride n’a plus d’avantage lorsque le token suivant est une simple répétition. Si un n-gramme est répété, le modèle transformer, capable d’attention sur les tokes passés, détecte mieux ces répétitions.
Au final, en dépit des promesses des modèles hybrides, les transformateurs conservent leur pertinence dans certains contextes spécifiques. L’art de choisir le bon modèle dépend du type de donnée et des besoins spécifiques de l’application.
« Les modèles hybrides se démarquent par leur capacité à prédire les tokens signifiants, mais perdent leur supériorité lorsque les séquences se répètent. »
Source : Étude Olmo Hybrid