+1 (323) 555-9876

[email protected]

Acceso Registro

Categorías

Inicio Cursos Instructores Tienda Foros

Empezar a aprender

Cursos Cursos Cursalo

Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica

Curso avanzado para ingenieros de ML que desean dominar técnicas de ajuste fino de modelos de lenguaje con aprendizaje por refuerzo. Aprenderás a implementar RLHF y DPO en modelos open-source, optimizando respuestas con retroalimentación humana y preferencias. Al finalizar, podrás desplegar modelos ajustados para aplicaciones reales con métricas de evaluación robustas.

0 Estudiantes

19 Clases

Elena Suárez

Instructora

Acerca de este curso

Elena Suárez

8 Cursos

0 Estudiantes

Elena Suárez es Diseñadora instruccional y UX con base en Caracas, Venezuela. Su trabajo se enfoca en transformar temas complejos en rutas de aprendizaje claras, prácticas y fáciles de seguir.

Ha acompañado a estudiantes, profesionales y equipos de empresas en procesos de formación online, combinando teoría útil con ejercicios aplicables desde la primera clase.

En Cursalo diseña experiencias de aprendizaje con ejemplos reales, lenguaje directo y una estructura pensada para avanzar paso a paso sin perder contexto.

Resumen del temario

Este curso incluye 4 modulos, 19 lecciones y 7:45 horas de materiales.

Fundamentos de RLHF y preparación del entorno

4 Partes | 1:30 Horas

Introducción a RLHF y DPO: conceptos clave y diferencias

Gratis

Concepto claveEl Fine-tuning de LLMs con técnicas de aprendizaje por refuerzo representa un salto cualitativo en la alineación de modelos de lenguaje con preferencias humanas. RLHF (Reinforcement Learning from Human Feedback) es un proceso de tres etapas que comienza con un modelo base preentrenado, luego se ajusta con aprendizaje supervisado usando demostraciones humanas, y finalmente se optimiza mediante aprendizaje por refuerzo donde un modelo de recompensa, entrenado con comparaciones humana

Tiempo de estudio 15 Minutos

Archivos adjuntos 0

Leer

Configuración del entorno con Hugging Face y bibliotecas esenciales

Gratis

Tipo de lección: VideoConcepto claveLa configuración del entorno para fine-tuning con RLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) es como preparar una cocina profesional para un chef estrella. No basta con tener los ingredientes (modelos y datos); necesitas herramientas específicas, espacio organizado y flujos de trabajo optimizados para que el proceso sea eficiente y reproducible.En el contexto de ML avanzado, configurar el entorno significa establec

Tiempo de estudio 20 Minutos

Archivos adjuntos 0

Leer

Preparación de datasets para retroalimentación y preferencias

Gratis

Concepto claveLa preparación de datasets para RLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) es el proceso de crear conjuntos de datos estructurados que capturan preferencias humanas sobre respuestas generadas por modelos de lenguaje. Imagina que estás entrenando a un asistente virtual: en lugar de decirle exactamente qué responder (como en el entrenamiento supervisado), le muestras múltiples respuestas a la misma pregunta y le indicas cuál prefieres. Es

Tiempo de estudio 25 Minutos

Archivos adjuntos 0

Leer

Ejercicio práctico: Carga y preprocesamiento de un dataset de ejemplo

Gratis

Tipo de lección: QuizConcepto claveEl preprocesamiento de datasets para RLHF (Reinforcement Learning from Human Feedback) es el proceso de transformar datos crudos en un formato estructurado que pueda ser consumido por modelos de lenguaje durante el fine-tuning. Imagina que estás preparando ingredientes para un chef de alta cocina: no le das vegetales sin lavar o carne sin cortar; limpias, cortas y organizas todo para que pueda enfocarse en la cocción. En RLHF, los datos típicamente incluyen pro

Tiempo de estudio 30 Minutos

Archivos adjuntos 0

Leer

Implementación de RLHF: desde la política hasta la recompensa

5 Partes | 2:10 Horas

Diseño de la política y el modelo de recompensa en RLHF

Gratis

Concepto claveEn RLHF, el diseño de la política y el modelo de recompensa son los dos componentes centrales que determinan cómo un LLM aprende a alinearse con preferencias humanas. La política es el modelo de lenguaje que estamos ajustando, que toma decisiones sobre qué tokens generar, mientras que el modelo de recompensa es una función que asigna un valor numérico a las respuestas generadas, reflejando qué tan bien se alinean con las preferencias humanas.Piensa en esto como entrenar a un escrit

Tiempo de estudio 20 Minutos

Archivos adjuntos 0

Leer

Implementación del algoritmo PPO para optimización

Gratis

Tipo de lección: VideoConcepto claveEl Proximal Policy Optimization (PPO) es un algoritmo de aprendizaje por refuerzo diseñado para optimizar políticas de manera estable y eficiente. A diferencia de métodos tradicionales que pueden sufrir de actualizaciones demasiado grandes y divergentes, PPO introduce una restricción que limita el cambio en la política en cada iteración. Imagina que estás ajustando un modelo de lenguaje como si fuera un piloto de avión: no puedes cambiar bruscamente los contro

Tiempo de estudio 25 Minutos

Archivos adjuntos 0

Leer

Entrenamiento y evaluación del modelo con RLHF

Gratis

Concepto claveEl entrenamiento con RLHF (Reinforcement Learning from Human Feedback) transforma un modelo de lenguaje base en uno alineado con preferencias humanas mediante un proceso de tres fases: recolección de datos de preferencia, entrenamiento de un modelo de recompensa y optimización del modelo de política con aprendizaje por refuerzo. Imagina que estás entrenando a un asistente virtual: primero observas cómo responde a preguntas, luego calificas sus respuestas, y finalmente ajustas su co

Tiempo de estudio 30 Minutos

Archivos adjuntos 0

Leer

Mini-proyecto: Ajuste fino de un modelo pequeño con RLHF

Gratis

Tipo de lección: QuizConcepto claveEl fine-tuning con RLHF (Reinforcement Learning from Human Feedback) es un proceso de dos fases que transforma un modelo de lenguaje pre-entrenado en uno alineado con preferencias humanas. Primero, se crea un modelo de recompensa que aprende a puntuar respuestas según la calidad percibida por humanos. Luego, este modelo guía el ajuste del modelo principal mediante aprendizaje por refuerzo, optimizando una política para maximizar recompensas esperadas.Imagina en

Tiempo de estudio 40 Minutos

Archivos adjuntos 0

Leer

Quiz: Evaluación de conceptos de RLHF

Gratis

Tipo de lección: QuizConcepto claveEl fine-tuning con RLHF (Reinforcement Learning from Human Feedback) es una técnica avanzada que ajusta modelos de lenguaje grandes (LLMs) utilizando señales de recompensa derivadas de preferencias humanas. En lugar de optimizar directamente para una métrica técnica como la pérdida de entropía cruzada, RLHF entrena al modelo para generar respuestas que los humanos prefieran, lo que alinea mejor el comportamiento del modelo con valores humanos como la utilidad,

Tiempo de estudio 15 Minutos

Archivos adjuntos 0

Leer

Dominando DPO: optimización directa de preferencias

5 Partes | 1:50 Horas

Teoría de DPO: ventajas y aplicaciones prácticas

Gratis

Concepto claveLa Optimización Directa de Preferencias (DPO) es un método de fine-tuning que entrena modelos de lenguaje directamente sobre preferencias humanas, sin necesidad de un modelo de recompensa explícito. A diferencia de RLHF, que requiere entrenar un modelo de recompensa separado y luego usar aprendizaje por refuerzo, DPO reformula el problema como una clasificación directa entre respuestas preferidas y no preferidas.Imagina que estás entrenando a un asistente virtual para escribir corr

Tiempo de estudio 15 Minutos

Archivos adjuntos 0

Leer

Implementación de DPO con PyTorch y Transformers

Gratis

Tipo de lección: VideoConcepto claveLa Optimización Directa de Preferencias (DPO) es una técnica que reformula el problema de alineación de modelos de lenguaje con preferencias humanas como un problema de clasificación simple, evitando la complejidad del aprendizaje por refuerzo tradicional. En lugar de entrenar un modelo de recompensa separado y luego usar algoritmos como PPO, DPO optimiza directamente el modelo de lenguaje para maximizar la probabilidad de respuestas preferidas sobre las no pr

Tiempo de estudio 30 Minutos

Archivos adjuntos 0

Leer

Comparación de RLHF vs DPO: rendimiento y complejidad

Gratis

Concepto claveLa comparación entre RLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) representa un cambio fundamental en cómo ajustamos modelos de lenguaje. Imagina que RLHF es como entrenar a un atleta con un equipo completo de entrenadores, nutricionistas y fisioterapeutas: es poderoso pero complejo y costoso. DPO, en cambio, es como tener un entrenador personalizado que optimiza directamente los movimientos clave: más eficiente, menos pasos intermedios.R

Tiempo de estudio 20 Minutos

Archivos adjuntos 0

Leer

Ejercicio práctico: Ajuste de un modelo con DPO en un dataset real

Gratis

Tipo de lección: QuizConcepto claveLa Optimización Directa de Preferencias (DPO) es una técnica que permite ajustar modelos de lenguaje directamente utilizando datos de preferencias humanas, sin necesidad de un modelo de recompensa explícito. A diferencia de RLHF, que requiere entrenar un modelo de recompensa separado y luego usar aprendizaje por refuerzo, DPO reformula el problema como una optimización supervisada directa.Imagina que estás entrenando a un asistente virtual para que dé respuesta

Tiempo de estudio 35 Minutos

Archivos adjuntos 0

Leer

Quiz: Diferencias clave entre RLHF y DPO

Gratis

Tipo de lección: QuizConcepto claveRLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) son dos enfoques para fine-tuning de modelos de lenguaje, pero con filosofias distintas. RLHF utiliza un proceso de tres etapas: entrenar un modelo de recompensa con preferencias humanas, luego usar aprendizaje por refuerzo (como PPO) para optimizar el modelo de lenguaje contra esa recompensa. Es como entrenar a un perro: primero defines que comportamientos son buenos (reco

Tiempo de estudio 10 Minutos

Archivos adjuntos 0

Leer

Proyecto integrador: Sistema completo de fine-tuning con evaluación

5 Partes | 2:15 Horas

Selección del modelo y dataset para el proyecto

Gratis

Concepto claveLa selección del modelo base y dataset es el fundamento arquitectónico de cualquier proyecto de fine-tuning con RLHF (Reinforcement Learning from Human Feedback) o DPO (Direct Preference Optimization). Imagina que estás construyendo un rascacielos: el modelo base es el terreno sobre el que construyes, y el dataset son los materiales de construcción. Si eliges un terreno pantanoso o materiales de baja calidad, por más sofisticada que sea tu técnica de construcción (RLHF/DPO), la est

Tiempo de estudio 20 Minutos

Archivos adjuntos 0

Leer

Implementación del pipeline de fine-tuning (RLHF o DPO)

Gratis

Tipo de lección: VideoConcepto claveEl fine-tuning con RLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) es el proceso de ajustar un modelo de lenguaje pre-entrenado usando preferencias humanas para alinearlo con valores específicos. Imagina que tienes un asistente virtual genérico que responde de manera neutral; con RLHF/DPO, lo entrenas para que prefiera respuestas útiles, inofensivas y honestas, como enseñarle a un empleado nuevo las politicas de tu empr

Tiempo de estudio 40 Minutos

Archivos adjuntos 0

Leer

Evaluación del modelo con métricas de alineamiento y calidad

Gratis

Concepto claveLa evaluación de modelos LLM fine-tuneados con RLHF y DPO va más allá de las métricas tradicionales de NLP. Aquí, medimos dos dimensiones críticas: alineamiento (cómo el modelo sigue instrucciones humanas y valores) y calidad (coherencia, relevancia y utilidad de las respuestas).Imagina entrenar un asistente virtual: no solo debe responder correctamente (calidad), sino hacerlo de forma útil, ética y segura (alineamiento). Las métricas de alineamiento evalúan si el modelo "comprende

Tiempo de estudio 25 Minutos

Archivos adjuntos 0

Leer

Despliegue del modelo ajustado como API con FastAPI

Gratis

Tipo de lección: QuizConcepto claveDesplegar un modelo ajustado como API con FastAPI es el puente entre el desarrollo de ML y la producción. Imagina que tu modelo fine-tuneado es un chef experto que ha aprendido recetas específicas: la API es el restaurante donde los clientes (aplicaciones) piden platos (predicciones) sin conocer la cocina. FastAPI, un framework moderno de Python, actúa como el maître, gestionando solicitudes, validaciones y respuestas de forma eficiente, similar a como un siste

Tiempo de estudio 30 Minutos

Archivos adjuntos 0

Leer

Presentación del proyecto y lecciones aprendidas

Gratis

Tipo de lección: QuizConcepto claveEl fine-tuning con RLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) representa la evolución de cómo ajustamos modelos de lenguaje grandes para alinearlos con preferencias humanas específicas. Imagina que estás entrenando a un asistente personal: primero aprendió el idioma y conocimientos generales (pre-entrenamiento), luego le enseñaste tareas específicas (fine-tuning tradicional), y ahora lo refinas para que tome decisio

Tiempo de estudio 20 Minutos

Archivos adjuntos 0

Leer

Leave a Comentario

Por favor log in to leave a comment.

0 Reseñas

Calidad del contenido (0)

Habilidades del instructor (0)

Valor de compra (0)

Calidad de soporte (0)

Este curso incluye

Soporte del formador

Favorito

Reporte Contenido

Curso specifications

Secciones

Lecciones

Capacidad

Ilimitado

Duración

7:45 Horas

Estudiantes

Fecha de Created

4 abr. 2026

Fecha de Updated

21 jun. 2026

Elena Suárez

Diseñadora instruccional y UX · Venezuela

Perfil

Ricardo dave

Data Analyst at Microsoft

Perfil

El instructor no esta disponible actualmente.

I am not available for 2 days due to a business trip

Estas viendo

Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica

Fine-tuning de LLMs con RLHF y DPO: De la teoría a la implementación práctica