Hugging Face Storage Buckets : Stockage ML optimisé et accessible

Si tu es une des nombreuses personnes impliquées dans la production de modèles de machine learning, tu sais qu’en dehors des résultats finaux, c’est un véritable casse-tête de gérer les artefacts intermédiaires. Checkpoints, états des optimiseurs, et dérivés occupent une place centrale. Les nouveaux Storage Buckets de Hugging Face pourraient bien être l’outil qui te manquait pour arrêter de perdre du temps.

Optimise tes artefacts ML avec les Buckets

Les Storage Buckets de Hugging Face proposent une solution au problème récurrent du stockage des artefacts éphémères en ML. Fonctionnant comme un système de stockage d’objets semblable à S3, ils permettent une écriture rapide, le remplacement si besoin, et même la synchronisation de répertoires complets via la CLI hf. Et grâce à Xet, leur système de backend dédupliqué, la bande passante nécessaire se retrouve grandement réduite.

Xet : un backend qui fait la différence

Xet, le backend sous-jacent des Buckets, est une pépite. Au lieu de traiter les fichiers comme des blocs monolithiques, Xet exploite des morceaux de données et déduplique intelligemment. Par exemple, si un ensemble de données traité est similaire à son état brut d’origine, Xet évite de transférer les portions déjà présentes, économisant ainsi temps et coût de stockage.

💡 À retenir

Les Hugging Face Storage Buckets simplifient le stockage des artefacts ML intermédiaires en permettant la gestion dédupliquée et optimisée des fichiers tout en réduisant considérablement la bande passante nécessaire.

Amélioration des performances avec la pré-mise en cache

Le stockage global par défaut des Buckets peut être un frein si ton travail nécessite de grandes quantités de données ou des checkpoints fréquents. Heureusement, Hugging Face propose la pré-mise en cache, une fonctionnalité qui rapproche les données des régions de calcul cloud choisies, améliorant ainsi directement le débit. Des partenariats avec AWS et GCP garantissent que cette option est accessible dès maintenant, avec d’autres fournisseurs cloud prévus pour bientôt.

Simplicité d’intégration dans ton workflow

En moins de deux minutes, tu peux avoir ton Storage Bucket opérationnel. À partir de la CLI hf, la création, la synchronisation et l’inspection de tes buckets sont un jeu d’enfant. Pour les utilisateurs Python, l’API huggingface_hub permet une intégration fluide, offrant même des téléchargements en lot et des mouvements de buckets selon les besoins. Même les utilisateurs JavaScript ne sont pas laissés pour compte grâce au support de @huggingface/hub.

Accès facile via l’intégration au système de fichiers

L’intégration des Buckets au système de fichiers via HfFileSystem rend leur contenu accessible directement par des opérations standard. Que tu sois un adepte de pandas, Polars, ou Dask, tu pourras gérer tes fichiers de bucket avec des chemins hf:// sans configuration complexe.

Les Storage Buckets de Hugging Face offrent un saut qualitatif pour ceux d’entre nous confrontés au défi du stockage des artefacts ML à haute fréquence. Leur accent mis sur l’efficacité et la facilité d’intégration place la barre haut pour les solutions de stockage dans l’IA.

« Les Hugging Face Storage Buckets sont un outil nécessaire pour le stockage optimisé de grandes quantités de données ML éphémères. »

Analyste en informatique

🔗 Source originaleLire l’article source

Hugging Face Storage Buckets : Stockage ML optimisé et accessible

Optimise tes artefacts ML avec les Buckets

Xet : un backend qui fait la différence

Amélioration des performances avec la pré-mise en cache

Simplicité d’intégration dans ton workflow

Accès facile via l’intégration au système de fichiers

Laisser un commentaire Annuler la réponse

Prenez une longueur d'avance.