Explore une nouvelle pipeline open-source pour l'entraînement des modèles à prouver des théorèmes formels avec Kimina-Prover-RL.
Avec Kimina-Prover-RL, l’open-source s’offre une percée dans l’entraînement des modèles à résoudre des théorèmes formels. L’utilisation de Lean 4 en tandem avec une structure raisonnement-génération transforme la manière dont ces modèles apprennent et performent. Deux nouveaux modèles de 1,7B et 0,6B paramètres redéfinissent le standard sur le benchmark MiniF2F, avec des scores respectifs de 76,63% et 71,30% en Pass@32, établissant de nouveaux records pour les modèles open-source de leur catégorie.
Structuration avancée de la formation avec GRPO
Dans un monde où la précision des modèles est cruciale, Kimina-Prover-RL adopte un paradigme split en deux temps, inspiré par DeepSeek-R1. Cette structuration permet à un modèle de séparer le raisonnement et l’exécution, favorisant une meilleure explicabilité, récupération d’erreurs et généralisation. L’approche GRPO, un modèle de renforcement adapté aux LLMs, joue ici un rôle central en assignant des récompenses basées sur la validation des preuves Lean générées.
Optimisation des vérifications parallèles avec Kimina-Client
Le traitement à grande échelle des théorèmes Lean 4 requiert un système de vérification performant et Kimina-lean-server répond parfaitement à ce besoin. Avec plus de modularité, Kimina-Client facilite l’intégration pour les développeurs, offrant une interface Python robuste pour interagir avec l’API serveur, supportant ainsi la vérification simultanée en masse.
« Kimina-Prover-RL permet une rigueur et un contrôle exceptionnels dans le processus de formation avec Lean 4. »
Thibaut Barroyer, AI-MO
Curated Datasets : le NuminaMath-LEAN en action
La qualité du dataset est primordiale. Kimina-Prover-Promptset, extrait de NuminaMath-LEAN, illustre une sélection minutieuse pour offrir des problèmes théoriques de grande valeur. En supprimant les défis trop simples (taux de victoire historique >0,5) et en dupliquant les problèmes difficiles, le dataset assuré induit des modèles plus performants et diversifiés. Ajoutons à cela l’augmentation des problèmes via Gemini pour maximiser l’éventail des situations rencontrées par le modèle.
Récompense sur le format : un gage de cohérence
Assurer la constance dans la sortie des modèles LLM est un défi que Kimina-Prover prend très au sérieux. Le mécanisme de récompense incite à respecter un format structuré : un bloc de raisonnement suivi d’un bloc de code Lean 4. Les outputs mal formés reçoivent une pénalité, soulignant l’importance de la méthodologie et du contrôle rigoureux lors des entraînements, ce qui accroît la stabilité et la qualité des générations.
Kimina-Prover-RL renforce l’apprentissage de manière structurée dans Lean 4. Avec des modèles au top du marché open-source, sa méthodologie de deux étages améliore l’explicabilité et la constance.
En intégrant des mécanismes d’apprentissage fondés sur la correction d’erreurs, Kimina-Prover-RL offre une flexibilité d’adaptation non négligeable. En stimulant le modèle à corriger ses propositions incorrectes suivant des retours Lean spécifiques, on observe une montée en compétence rapide, offrant aux développeurs une formidable boîte à outils pour former des LLMs sophistiqués sans compromettre la robustesse ou la précision.