🏷️ post-training
2 articles sur post-training — guides, tutoriels et comparatifs pour maîtriser ce sujet sur AI-master.dev.
General Preference RL : ce papier unifie le reinforcement learning et l'optimisation de préférences pour les LLM
Découvrez le papier General Preference RL qui unifie le reinforcement learning et l'optimisation de préférences pour résoudre le post-training des LLM.
LLM & Modèles
débutant
SDAR : comment entraîner des agents IA avec du reinforcement learning sans les casser — la self-distillation agentic
Découvrez le SDAR (Self-Distillation Agentic Reinforcement) : la méthode pour entraîner vos agents IA avec du reinforcement learning sans les casser.
LLM & Modèles
débutant