Hugging Face et Argilla unissent leurs forces pour créer des datasets collaboratifs. Découvrez comment et pourquoi cela change le jeu.
En quelques mois, plus de 385 personnes se sont mobilisées autour de l’initiative « Data Is Better Together » (DIBT) de Hugging Face. Ce projet collaboratif, en partenariat avec Argilla et soutenu par la communauté open-source, vise à créer des datasets d’ampleur mondiale, et le résultat est bluffant.
Collaborations communautaires autour du classement de prompts
Avec un objectif ambitieux, le projet DIBT a débuté par la création d’un dataset composé de 10 000 prompts, aussi bien synthétiques qu’humains, classés par qualité. Plus de 385 contributeurs ont rejoint le projet en quelques jours seulement, démontrant un fort engagement de la communauté. Le dataset créé, DIBT/10k_prompts_ranked, a non seulement permis des avancées en classement de prompts mais a aussi servi de base à de nouveaux modèles comme SPIN.
Vers un modèle multilingue
Face au constat du manque de benchmarks multilingues, DIBT a lancé le Multilingual Prompt Evaluation Project (MPEP). Ce projet vise à traduire une sélection de 500 prompts de haute qualité dans de multiples langues. À ce jour, les traductions ont été complétées en néerlandais, russe et espagnol. Cette approche multilingue vise à surmonter les inégalités linguistiques et à enrichir les bases de données disponibles pour les LLM open-source.
« La communauté se réjouit de travailler ensemble sur des datasets, malgré les inégalités existantes dans les ressources disponibles. »
Hugging Face Initiative
Guides pratiques et ressources disponibles
Dans le cadre de DIBT, des guides et des outils spécifiques ont été développés pour aider la communauté à construire leurs propres datasets. Des initiatives comme les datasets Domaine Spécifique ou encore les DPO/ORPO ont vu le jour, permettant la collaboration entre ingénieurs et experts de domaine pour des applications variées.
DIBT de Hugging Face renforce la communauté open-source avec des datasets multilingues et outils pratiques, encouragés par une collaboration mondiale active.
Pourquoi vous devriez vous impliquer
La participation à DIBT est ouverte à toute personne intéressée par la création collaborative de datasets. Que ce soit en contribuant à de nouveaux guides, en partageant vos résultats ou en rejoignant le canal Discord dédié, chaque contribution renforce la robustesse et la richesse des ressources mises à disposition de tous.
Rejoignez le mouvement #data-is-better-together sur Discord de Hugging Face pour partager vos idées et projets. Ensemble, créons des datasets qui reflètent véritablement la diversité et la richesse de notre monde.