Curso gratuito
Revisado por calidad

Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica

Curso avanzado para ingenieros de ML que desean dominar técnicas de ajuste fino de modelos de lenguaje con aprendizaje por refuerzo. Aprenderás a implementar RLHF y DPO en modelos open-source, optimizando respuestas con retroalimentación humana y preferencias. Al finalizar, podrás desplegar modelos ajustados para aplicaciones reales con métricas de evaluación robustas.

Avanzado
IA / ML
8 semanas
4 módulos
19 lecciones

19

Lecciones

19

Prácticas

19

Quizzes

Filtro de calidad

Público solo si tiene profundidad, práctica y evaluación.

Aprendizaje aplicable

Lecciones orientadas a entregables, casos y decisiones reales.

Listo para equipos

Podemos adaptar rutas para onboarding, upskilling o ventas.

Evidencia de calidad

6.350

Caracteres promedio por lección

12

Lecciones con práctica

19

Quizzes evaluables

0

Pendientes antes de publicar

Vas a practicar con

  • Ejercicio práctico: Carga y preprocesamiento de un dataset de ejemplo
  • Mini-proyecto: Ajuste fino de un modelo pequeño con RLHF
  • Ejercicio práctico: Ajuste de un modelo con DPO en un dataset real
  • Selección del modelo y dataset para el proyecto

Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica

Curso completo19 lecciones

Contenido del curso

Este módulo establece las bases teóricas de RLHF y DPO mientras configuras un entorno práctico con herramientas como Hugging Face y PyTorch. Aprenderás por qué estas técnicas son cruciales para alinear modelos con valores humanos y cómo preparar datos de entrenamiento efectivos.

Aquí implementarás RLHF paso a paso, entendiendo por qué cada componente (política, modelo de recompensa, optimización PPO) es esencial para entrenar modelos que generen respuestas seguras y útiles. Construirás un pipeline funcional con métricas de evaluación.

En este módulo, explorarás DPO como una alternativa eficiente a RLHF, aprendiendo por qué simplifica el entrenamiento al eliminar el modelo de recompensa. Implementarás DPO en código y compararás resultados con RLHF para decisiones informadas.

Este módulo final integra todo lo aprendido en un proyecto real, donde ajustarás un modelo open-source con RLHF o DPO, evaluarás su desempeño con métricas avanzadas y desplegarás una API. Aprenderás por qué la evaluación rigurosa es clave para aplicaciones en producción.

Para estudiantes y creadores

Aprendé este tema o creá una versión para tu audiencia.

Empezá el curso o postulá tu experiencia si querés publicar una ruta revisada en el marketplace.

Para empresas

Capacitación a medida

Si querés este contenido para un equipo, armamos rutas con objetivos, seguimiento y cursos propios.

Hablar por equipos