Réduis le temps de transfert de fichiers Parquet sur Hugging Face grâce au chunking défini par le contenu.
Hugging Face, connu pour abriter près de 21 pétaoctets de jeux de données, s’attaque enfin à une montagne de stockage Parquet. Environ 4 pétaoctets proviennent uniquement des fichiers Parquet. Avec la mise en œuvre du Parquet Content-Defined Chunking (CDC), l’optimisation de ce format de stockage est en passe de devenir bien plus efficace.
Parquet CDC : Pourquoi c’est intéressant pour les développeurs
Le chunking défini par le contenu permet une réduction significative des coûts de stockage et des temps de transfert en chargeant ou téléchargeant uniquement les morceaux de données qui ont changé. Cela contraste avec les systèmes de fichiers traditionnels incapables de deduplicater efficacement, surtout lorsque les fichiers ne changent que légèrement en termes de contenu.
L’application de CDC avec Xet : Cas réels
Imagine un scénario où des copies exactes d’un même tableau Parquet sont ré-uploadées. Dans un système traditionnel, cela impliquerait un transfert complet des données. Avec CDC, seuls les morceaux modifiés sont envoyés, économisant énormément de bande passante.
Comment utiliser Parquet CDC avec Pandas et PyArrow
Pour activer CDC, ajoute simplement l’argument use_content_defined_chunking=True dans tes appels à la fonction df.to_parquet() de Pandas ou pq.write_table() de PyArrow. Ainsi, chaque modification au niveau des colonnes, des types, ou des lignes de tes datasets est efficacement gérée.
Parquet Content-Defined Chunking réduit les coûts de transfert et de stockage en ne transférant que les données modifiées, s’intégrant parfaitement avec le système de stockage Xet de Hugging Face.
« Parquet CDC est une avancée majeure pour le stockage de données chez Hugging Face. »
Krisztian Szucs
La stratégie de Hugging Face pour optimiser le stockage numérique est bien définie avec l’adoption de CDC. Pour les développeurs et ingénieurs de données, c’est un gain de temps et une réduction de l’utilisation des ressources.