Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica
Curso avanzado para ingenieros de ML que desean dominar técnicas de ajuste fino de modelos de lenguaje con aprendizaje por refuerzo. Aprenderás a implementar RLHF y DPO en modelos open-source, optimizando respuestas con retroalimentación humana y preferencias. Al finalizar, podrás desplegar modelos ajustados para aplicaciones reales con métricas de evaluación robustas.
19
Lecciones
19
Prácticas
19
Quizzes
Filtro de calidad
Público solo si tiene profundidad, práctica y evaluación.
Aprendizaje aplicable
Lecciones orientadas a entregables, casos y decisiones reales.
Listo para equipos
Podemos adaptar rutas para onboarding, upskilling o ventas.
Evidencia de calidad
6.350
Caracteres promedio por lección
12
Lecciones con práctica
19
Quizzes evaluables
0
Pendientes antes de publicar
Vas a practicar con
- Ejercicio práctico: Carga y preprocesamiento de un dataset de ejemplo
- Mini-proyecto: Ajuste fino de un modelo pequeño con RLHF
- Ejercicio práctico: Ajuste de un modelo con DPO en un dataset real
- Selección del modelo y dataset para el proyecto

Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica
Contenido del curso
Este módulo establece las bases teóricas de RLHF y DPO mientras configuras un entorno práctico con herramientas como Hugging Face y PyTorch. Aprenderás por qué estas técnicas son cruciales para alinear modelos con valores humanos y cómo preparar datos de entrenamiento efectivos.
- 1.1Introducción a RLHF y DPO: conceptos clave y diferenciasLectura15 min
- 1.2Configuración del entorno con Hugging Face y bibliotecas esencialesLectura20 min
- 1.3Preparación de datasets para retroalimentación y preferenciasLectura25 min
- 1.4Ejercicio práctico: Carga y preprocesamiento de un dataset de ejemploQuiz30 min
Aquí implementarás RLHF paso a paso, entendiendo por qué cada componente (política, modelo de recompensa, optimización PPO) es esencial para entrenar modelos que generen respuestas seguras y útiles. Construirás un pipeline funcional con métricas de evaluación.
- 2.1Diseño de la política y el modelo de recompensa en RLHFLectura20 min
- 2.2Implementación del algoritmo PPO para optimizaciónLectura25 min
- 2.3Entrenamiento y evaluación del modelo con RLHFLectura30 min
- 2.4Mini-proyecto: Ajuste fino de un modelo pequeño con RLHFQuiz40 min
- 2.5Quiz: Evaluación de conceptos de RLHFQuiz15 min
En este módulo, explorarás DPO como una alternativa eficiente a RLHF, aprendiendo por qué simplifica el entrenamiento al eliminar el modelo de recompensa. Implementarás DPO en código y compararás resultados con RLHF para decisiones informadas.
- 3.1Teoría de DPO: ventajas y aplicaciones prácticasLectura15 min
- 3.2Implementación de DPO con PyTorch y TransformersLectura30 min
- 3.3Comparación de RLHF vs DPO: rendimiento y complejidadLectura20 min
- 3.4Ejercicio práctico: Ajuste de un modelo con DPO en un dataset realQuiz35 min
- 3.5Quiz: Diferencias clave entre RLHF y DPOQuiz10 min
Este módulo final integra todo lo aprendido en un proyecto real, donde ajustarás un modelo open-source con RLHF o DPO, evaluarás su desempeño con métricas avanzadas y desplegarás una API. Aprenderás por qué la evaluación rigurosa es clave para aplicaciones en producción.
- 4.1Selección del modelo y dataset para el proyectoLectura20 min
- 4.2Implementación del pipeline de fine-tuning (RLHF o DPO)Lectura40 min
- 4.3Evaluación del modelo con métricas de alineamiento y calidadLectura25 min
- 4.4Despliegue del modelo ajustado como API con FastAPIQuiz30 min
- 4.5Presentación del proyecto y lecciones aprendidasQuiz20 min
Cursos relacionados
Seguí aprendiendo dentro de la misma ruta.

Containerización y Despliegue de Modelos de ML con Docker y Kubernetes
Aprende a containerizar tus flujos de Machine Learning con Docker y desplegarlos en Kubernetes para producción. Este curso práctico te guiará desde la creación de imágenes personalizadas hasta la orquestación de servicios escalables, optimizado para científicos de datos.

LangGraph Avanzado: Construcción de Agentes de IA con Memoria y Herramientas
Curso práctico para ingenieros senior de IA que desean dominar LangGraph en la creación de agentes inteligentes con capacidades de memoria, uso de herramientas y lógica condicional. Aprenderás a diseñar sistemas que toman decisiones autónomas y ejecutan tareas complejas en entornos reales.

FastAPI para APIs de Machine Learning en Producción
Curso práctico para ML Engineers que desean desplegar modelos de machine learning como APIs REST robustas usando FastAPI. Aprenderás a implementar validación de datos, monitoreo en tiempo real y despliegue escalable, culminando con un proyecto completo listo para producción.
Para estudiantes y creadores
Aprendé este tema o creá una versión para tu audiencia.
Empezá el curso o postulá tu experiencia si querés publicar una ruta revisada en el marketplace.
Para empresas
Capacitación a medida
Si querés este contenido para un equipo, armamos rutas con objetivos, seguimiento y cursos propios.
Hablar por equipos