Hugging Face réduit ses coûts de stockage en découpant les fichiers en chunks. Découvrez les gains d'efficacité.
Imagine devoir ré-uploader plusieurs gigaoctets juste pour modifier une ligne de métadonnées. C’est le problème que la méthode traditionnelle de stockage chez Hugging Face avec Git LFS impose. Mais l’équipe Xet de Hugging Face propose une alternative radicale : découper les fichiers en chunks, une avancée qui pourrait transformer la façon dont on pense le stockage de données massives. Avec plus de 30 pétaoctets d’actifs à gérer, les implications sont immenses.
La fondation du chunking défini par le contenu
La technique nommée chunking défini par le contenu (CDC) permet de traiter les fichiers comme plusieurs unités au lieu d’une seule. L’algorithme de hachage glissant, au cœur de cette méthode, segmente les fichiers en fonction de séquences de données pré-définies. Par exemple, pour un simple fichier texte, le hachage peut déterminer les points de séparation en fonction de conditions spécifiques comme hash(data) % 2^12 == 0. Le secret réside dans la déduplication : beaucoup de données se répètent d’un fichier à l’autre, et CDC ne stocke chaque duplication qu’une seule fois.
Application pratique aux insertions et suppressions
Lorsqu’un fichier change, le CDC ne nécessite que le chargement des nouveaux chunks. Prenons un fichier initial avec ‘transformers’. Si l’on ajoute ‘super’, seuls ces nouveaux segments sont téléchargés, réduisant considérablement le temps et les ressources nécessaires. Dans des applications réelles, une expérimentation avec les dépôts de XetHub a montré une amélioration de 50 % du temps de transfert par rapport à Git LFS. Imagine le gain avec la gestion de larges datasets comme ceux de la recherche COVID-19 composées de mises à jour incrementales de données critiques.
Hugging Face adopte le chunking pour diminuer les coûts de stockage et améliorer la vitesse de transfert des fichiers. Un gain direct pour la gestion des modèles et datasets massifs.
CDC et Hugging Face : Une nouvelle ère du stockage
Quels sont les bénéfices pour le stockage sur le Hub de Hugging Face ? Un test sur deux versions de fichiers modèle.safetensors révèle qu’une réduction de stockage de 53 % est possible avec CDC. Pour les modèles pointus ou les checkpoints d’entraînement voir des déduplications allant jusqu’à 85 %, économisant jusqu’à 100 téraoctets instantanément et potentiellement jusqu’à 8 téraoctets chaque mois.
« Réduction forte et rapide des coûts, mais aussi amélioration des délais de téléchargement et d’upload. »
Impact CDC sur Hugging Face
Future orientation et implications économiques
La réduction des coûts de stockage n’est qu’une partie de l’équation. Avec CDC, les délais de transfert d’énormes volumes de données se réduisent drastiquement, allégeant ainsi la charge tant des machines que des utilisateurs. Cette technologie promet d’optimiser l’ensemble de la chaîne de gestion des données, facilitant la vie des équipes, un atout essentiel dans l’univers du deep learning en constante évolution.
Avec un proof-of-concept (POC) en cours, Hugging Face vise un déploiement sur le Hub au début de 2025. L’adoption du stockage basé sur Xet et CDC pourrait être déterminante pour les acteurs jonglant avec des versions multiples de datasets et de modèles, contribuant à la verticalisation efficace du stockage des données intelligentes.