Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica
Curso avanzado para ingenieros de ML que desean dominar técnicas de ajuste fino de modelos de lenguaje con aprendizaje por refuerzo. Aprenderás a implementar RLHF y DPO en modelos open-source, optimizando respuestas con retroalimentación humana y preferencias. Al finalizar, podrás desplegar modelos ajustados para aplicaciones reales con métricas de evaluación robustas.
Contenido del curso
Este módulo establece las bases teóricas de RLHF y DPO mientras configuras un entorno práctico con herramientas como Hugging Face y PyTorch. Aprenderás por qué estas técnicas son cruciales para alinear modelos con valores humanos y cómo preparar datos de entrenamiento efectivos.
- 1.1Introducción a RLHF y DPO: conceptos clave y diferenciasLectura15 min
- 1.2Configuración del entorno con Hugging Face y bibliotecas esencialesLectura20 min
- 1.3Preparación de datasets para retroalimentación y preferenciasLectura25 min
- 1.4Ejercicio práctico: Carga y preprocesamiento de un dataset de ejemploQuiz30 min
Aquí implementarás RLHF paso a paso, entendiendo por qué cada componente (política, modelo de recompensa, optimización PPO) es esencial para entrenar modelos que generen respuestas seguras y útiles. Construirás un pipeline funcional con métricas de evaluación.
- 2.1Diseño de la política y el modelo de recompensa en RLHFLectura20 min
- 2.2Implementación del algoritmo PPO para optimizaciónLectura25 min
- 2.3Entrenamiento y evaluación del modelo con RLHFLectura30 min
- 2.4Mini-proyecto: Ajuste fino de un modelo pequeño con RLHFQuiz40 min
- 2.5Quiz: Evaluación de conceptos de RLHFQuiz15 min
En este módulo, explorarás DPO como una alternativa eficiente a RLHF, aprendiendo por qué simplifica el entrenamiento al eliminar el modelo de recompensa. Implementarás DPO en código y compararás resultados con RLHF para decisiones informadas.
- 3.1Teoría de DPO: ventajas y aplicaciones prácticasLectura15 min
- 3.2Implementación de DPO con PyTorch y TransformersLectura30 min
- 3.3Comparación de RLHF vs DPO: rendimiento y complejidadLectura20 min
- 3.4Ejercicio práctico: Ajuste de un modelo con DPO en un dataset realQuiz35 min
- 3.5Quiz: Diferencias clave entre RLHF y DPOQuiz10 min
Este módulo final integra todo lo aprendido en un proyecto real, donde ajustarás un modelo open-source con RLHF o DPO, evaluarás su desempeño con métricas avanzadas y desplegarás una API. Aprenderás por qué la evaluación rigurosa es clave para aplicaciones en producción.
- 4.1Selección del modelo y dataset para el proyectoLectura20 min
- 4.2Implementación del pipeline de fine-tuning (RLHF o DPO)Lectura40 min
- 4.3Evaluación del modelo con métricas de alineamiento y calidadLectura25 min
- 4.4Despliegue del modelo ajustado como API con FastAPIQuiz30 min
- 4.5Presentación del proyecto y lecciones aprendidasQuiz20 min
Crea tu propio curso
La IA genera el contenido. Vos elegis el tema. En minutos tenes un curso completo para compartir.
Crear curso gratis