OpenR1-Math-220k révolutionne le raisonnement mathématique avec 220k problèmes, générés localement sur 512 H100s pour des données de haute qualité.
La construction de datasets de qualité supérieure pour le raisonnement mathématique a longtemps été une tâche complexe. Avec le projet OpenR1, une nouvelle étape a été franchie. OpenR1-Math-220k, un dataset de raisonnement mathématique à grande échelle, a vu le jour, généré localement sur 512 H100s, pour un total de 220 000 problèmes mathématiques soigneusement élaborés.
Nouveautés du dataset OpenR1-Math-220k
OpenR1-Math-220k se distingue grâce à ses 800 000 traces de raisonnement générées, dont 220 000 ont été retenues pour leur qualité. Contrairement à de nombreux datasets précédents, les générateurs d’OpenR1-Math-220k se sont focalisés sur l’exécution locale plutôt que sur des API externes, utilisant vLLM et SGLang pour acquérir jusqu’à 180 000 traces par jour.
Le processus de génération expliqué
Pour générer OpenR1-220k, l’équipe a utilisé DeepSeek R1, ciblant 400 000 problèmes de NuminaMath 1.5. Une instruction commune (« Veuillez raisonner étape par étape et mettre votre réponse finale dans boxed{} ») a été ajoutée, favorisant la génération précise. Avec un pic à 25 solutions par heure par H100, cette méthode a produit 300 000 solutions par jour, prouvant une optimisation impressionnante du processus par rapport aux méthodes antérieures, doublant presque la vitesse.
Filtrage des données de raisonnement
La qualité est primordiale : pour ne retenir que les meilleures traces de raisonnement, Math Verify a été employé, éliminant les réponses incorrectes. L’amélioration notable de Math-Verify a permis de gérer des formats d’output plus variés. En combinant cela avec des méthodes d’évaluation par Llama3.3-70B-Instruct, 28 000 problèmes initialement rejetés ont trouvé une seconde chance d’être validés.
OpenR1-Math-220k propose 220k problèmes de raisonnement vérifiés, générés localement et a démontré l’efficacité des infrastructures internes pour des données de haute qualité.
Implications futures de ce dataset
L’importance d’OpenR1-Math-220k dépasse le raisonnement mathématique. L’idée derrière ce dataset est de prouver que des outils similaires peuvent être appliqués à d’autres domaines tels que la génération de code. Le succès du pipeline d’OpenR1 pourrait inspirer de nouvelles approches pour améliorer la qualité et l’efficacité des datasets dans d’autres secteurs de l’IA.
« OpenR1-Math-220k represents not only a milestone in mathematical reasoning but a blueprint for the future scalability of high-quality data generation. »
Hugging Face Team
Avec cette nouvelle avancée, Open R1 lance un signal fort : la possibilité de produire à grande échelle des datasets de qualité exceptionnelle est bien réelle et promise à s’élargir à d’autres domaines techniques et créatifs.