🏷️ post-training

2 articles sur post-training — guides, tutoriels et comparatifs pour maîtriser ce sujet sur AI-master.dev.

General Preference RL : ce papier unifie le reinforcement learning et l'optimisation de préférences pour les LLM

Découvrez le papier General Preference RL qui unifie le reinforcement learning et l'optimisation de préférences pour résoudre le post-training des LLM.

LLM & Modèles débutant

SDAR : comment entraîner des agents IA avec du reinforcement learning sans les casser — la self-distillation agentic

Découvrez le SDAR (Self-Distillation Agentic Reinforcement) : la méthode pour entraîner vos agents IA avec du reinforcement learning sans les casser.

LLM & Modèles débutant