Nyströmformer : révolutionner l’attention auto en O(n)
Le Nyströmformer optimise l'attention auto en O(n) temps et mémoire, changeant la donne pour le traitement de séquences longues.
L’entraînement des Transformers pour les tâches NLP ou Vision par ordinateur est souvent limité par la complexité O(n²) de l’attention auto, rendant les longues séquences coûteuses en termes de temps et de mémoire. Nyströmformer apporte une solution en réduisant cette complexité à O(n), tout en maintenant des performances compétitives.
Méthode de Nyström : Une approximation efficace
Au cœur du Nyströmformer se trouve la méthode de Nyström, qui permet d’approximer une matrice en ne prenant qu’un échantillon de ses lignes et colonnes. Imagine une matrice P, lourde à calculer dans son ensemble. En utilisant Nyström, on échantillonne les lignes et colonnes pour créer une approximation efficace, nécessitant moins de ressources.
De l’approximation matricielle à l’attention auto
Le défi majeur est de transposer l’approximation de Nyström pour l’attention auto, spécifiquement la matrice softmax dans l’attention standard. Traditionnellement, échantillonner une colonne signifie connaître tous les autres éléments pour appliquer le softmax, rendant une approche directe impraticable.
Adapation via les points de Nyström
Plutôt que de travailler directement sur les matrices softmax, Nyströmformer utilise des ‘landmarks’ des requêtes et clés pour créer des matrices F̃, Ã et B̃, facilitant une approximation plus légère et adaptée du softmax. Cette innovation permet de multiplier avec les valeurs V sans jamais calculer directement QK^T, évitant ainsi la complexité O(n²).
Nyströmformer redéfinit l’efficacité du traitement de l’attention auto en la rendant linéaire, idéal pour séquences longues.
Implémentation concrète du Nyströmformer
Les essais ont montré que même avec un nombre réduit de ‘landmarks’, par exemple 32 ou 64 pour des séquences aussi longues que 8192 éléments, les performances restent robustes. La méthodologie comprend la segmentation en groupes de tokens et l’utilisation du moyen de chaque segment pour construire les matrices désirées.
« Choisir juste 32 ou 64 landmarks permet une performance compétitive, même pour des séquences longues. »
Extrait de l’étude
En somme, le Nyströmformer n’apporte pas seulement une version plus légère de l’attention auto, mais il propose une solution pragmatique face aux limitations classiques des Transformers appliqués sur de longues séquences. Sa capacité à maintenir des performances élevées avec une complexité linéaire ouvre des perspectives nouvelles, et plus économiques, pour l’IA dans le traitement des langues et des images.