Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica

Curso avanzado para ingenieros de ML que desean dominar técnicas de ajuste fino de modelos de lenguaje con aprendizaje por refuerzo. Aprenderás a implementar RLHF y DPO en modelos open-source, optimizando respuestas con retroalimentación humana y preferencias. Al finalizar, podrás desplegar modelos ajustados para aplicaciones reales con métricas de evaluación robustas.

Avanzado

IA / ML

8 semanas

4 módulos

19 lecciones

Lecciones

Prácticas

Quizzes

Filtro de calidad

Público solo si tiene profundidad, práctica y evaluación.

Aprendizaje aplicable

Lecciones orientadas a entregables, casos y decisiones reales.

Listo para equipos

Podemos adaptar rutas para onboarding, upskilling o ventas.

Evidencia de calidad

6.350

Caracteres promedio por lección

Lecciones con práctica

Quizzes evaluables

Pendientes antes de publicar

Vas a practicar con

Ejercicio práctico: Carga y preprocesamiento de un dataset de ejemplo
Mini-proyecto: Ajuste fino de un modelo pequeño con RLHF
Ejercicio práctico: Ajuste de un modelo con DPO en un dataset real
Selección del modelo y dataset para el proyecto

Empezar curso gratis

Compartir:WA X In

Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica

Curso completo19 lecciones

Contenido del curso

Este módulo establece las bases teóricas de RLHF y DPO mientras configuras un entorno práctico con herramientas como Hugging Face y PyTorch. Aprenderás por qué estas técnicas son cruciales para alinear modelos con valores humanos y cómo preparar datos de entrenamiento efectivos.

Aquí implementarás RLHF paso a paso, entendiendo por qué cada componente (política, modelo de recompensa, optimización PPO) es esencial para entrenar modelos que generen respuestas seguras y útiles. Construirás un pipeline funcional con métricas de evaluación.

En este módulo, explorarás DPO como una alternativa eficiente a RLHF, aprendiendo por qué simplifica el entrenamiento al eliminar el modelo de recompensa. Implementarás DPO en código y compararás resultados con RLHF para decisiones informadas.

Este módulo final integra todo lo aprendido en un proyecto real, donde ajustarás un modelo open-source con RLHF o DPO, evaluarás su desempeño con métricas avanzadas y desplegarás una API. Aprenderás por qué la evaluación rigurosa es clave para aplicaciones en producción.

Cursos relacionados

Seguí aprendiendo dentro de la misma ruta.

Ver catálogo

Intermedio

IA / ML

Containerización y Despliegue de Modelos de ML con Docker y Kubernetes

Aprende a containerizar tus flujos de Machine Learning con Docker y desplegarlos en Kubernetes para producción. Este curso práctico te guiará desde la creación de imágenes personalizadas hasta la orquestación de servicios escalables, optimizado para científicos de datos.

20 lecciones5 semanas

Avanzado

IA / ML

LangGraph Avanzado: Construcción de Agentes de IA con Memoria y Herramientas

Curso práctico para ingenieros senior de IA que desean dominar LangGraph en la creación de agentes inteligentes con capacidades de memoria, uso de herramientas y lógica condicional. Aprenderás a diseñar sistemas que toman decisiones autónomas y ejecutan tareas complejas en entornos reales.

20 lecciones6 semanas

Intermedio

IA / ML

FastAPI para APIs de Machine Learning en Producción

Curso práctico para ML Engineers que desean desplegar modelos de machine learning como APIs REST robustas usando FastAPI. Aprenderás a implementar validación de datos, monitoreo en tiempo real y despliegue escalable, culminando con un proyecto completo listo para producción.

20 lecciones4 semanas

Para estudiantes y creadores