Améliorer le stockage Parquet sur Hugging Face : Déduplication optimisée
Hugging Face optimise le stockage Parquet : nouvelles méthodes de déduplication pour un stockage plus efficace.
La plateforme Hugging Face, qui héberge environ 11PB de données, cherche à optimiser son système de stockage, notamment les fichiers Parquet. Avec plus de 2.2PB représentant uniquement des fichiers Parquet, chaque espace économisé par une meilleure déduplication est crucial. C’est ce que le Xet team s’efforce de faire en rendant le stockage plus efficace et plus rapide pour les utilisateurs.
Comment fonctionne la déduplication de fichiers Parquet ?
L’architecture des fichiers Parquet repose sur des groupes de lignes fixes — typiquement 1000 lignes par groupe. Chaque colonne est alors compressée et stockée indépendamment. Les opérations de modifications ou d’ajouts qui respectent cette structure devraient, en théorie, être bien dédupliquées. Via des expériences, l’équipe a testé cette théorie.
Ajouts et modifications : résultats de l’expérimentation
Lorsque l’on ajoute 10,000 lignes au fichier Parquet, les résultats ont montré que 99,1% du fichier peut être dédupliqué, ne nécessitant que 20MB de stockage supplémentaire. À l’inverse, une modification mineure dans une ligne existante a exposé un problème de réécriture des en-têtes de colonne, amenant à seulement 89% de déduplication, nécessitant 230MB supplémentaires.
Défis face à la suppression et l’insertion de données
Supprimer une ligne représente un défi majeur : chaque réorganisation des groupes de lignes compresse le fichier différemment, causant des blocs entièrement réécrits. Ceci limite l’efficacité de la déduplication, bien que la désactivation de la compression améliore les résultats, mais double la taille du fichier.
L’optimisation Parquet de Hugging Face vise à maximiser l’efficacité du stockage en améliorant la déduplication. Les ajustements actuels et futurs pourraient fortement impacter l’espace requis pour des mises à jour fréquentes.
Vers une nouvelle architecture de déduplication
Pour pallier ces défis, une approche mixte utilisant des groupes de lignes définis par du contenu plutôt qu’un nombre fixe pourrait offrir une solution. Cela proposerait une déduplication plus efficace sans trop sacrifier la compression.
« Hugging Face’s approach to Parquet optimization could redefine data storage efficiency across major platforms. »
Expert du stockage de données
Si Apache Arrow est impliqué dans cette démarche, cela pourrait être un pas significatif vers l’universalisation de ces protocoles de stockage efficace.
La déduplication des fichiers Parquet sur Hugging Face représente un exemple de l’importance d’optimiser la gestion des données à grande échelle. Cette initiative témoigne des défis mais aussi des opportunités qui se présentent aux entreprises technologiques cherchant à maximiser l’usage de leurs ressources de stockage. L’application efficace de telles techniques pourrait bien influencer d’autres plateformes à emboîter le pas, menant à une ère de stockage de données plus économique et avancée.