Curso gratuito

Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica

Curso avanzado para ingenieros de ML que desean dominar técnicas de ajuste fino de modelos de lenguaje con aprendizaje por refuerzo. Aprenderás a implementar RLHF y DPO en modelos open-source, optimizando respuestas con retroalimentación humana y preferencias. Al finalizar, podrás desplegar modelos ajustados para aplicaciones reales con métricas de evaluación robustas.

Avanzado
8 semanas
4 modulos
19 lecciones

Contenido del curso

Este módulo establece las bases teóricas de RLHF y DPO mientras configuras un entorno práctico con herramientas como Hugging Face y PyTorch. Aprenderás por qué estas técnicas son cruciales para alinear modelos con valores humanos y cómo preparar datos de entrenamiento efectivos.

Aquí implementarás RLHF paso a paso, entendiendo por qué cada componente (política, modelo de recompensa, optimización PPO) es esencial para entrenar modelos que generen respuestas seguras y útiles. Construirás un pipeline funcional con métricas de evaluación.

En este módulo, explorarás DPO como una alternativa eficiente a RLHF, aprendiendo por qué simplifica el entrenamiento al eliminar el modelo de recompensa. Implementarás DPO en código y compararás resultados con RLHF para decisiones informadas.

Este módulo final integra todo lo aprendido en un proyecto real, donde ajustarás un modelo open-source con RLHF o DPO, evaluarás su desempeño con métricas avanzadas y desplegarás una API. Aprenderás por qué la evaluación rigurosa es clave para aplicaciones en producción.

Crea tu propio curso

La IA genera el contenido. Vos elegis el tema. En minutos tenes un curso completo para compartir.

Crear curso gratis