Concepto clave

En RLHF, el diseño de la política y el modelo de recompensa son los dos componentes centrales que determinan cómo un LLM aprende a alinearse con preferencias humanas. La política es el modelo de lenguaje que estamos ajustando, que toma decisiones sobre qué tokens generar, mientras que el modelo de recompensa es una función que asigna un valor numérico a las respuestas generadas, reflejando qué tan bien se alinean con las preferencias humanas.

Piensa en esto como entrenar a un escritor novel (la política) con un editor experimentado (el modelo de recompensa). El escritor produce borradores, y el editor los califica según criterios como claridad, relevancia y tono. Con el tiempo, el escritor aprende a producir borradores que reciben mejores calificaciones, sin necesidad de que el editor corrija cada línea manualmente. En RLHF, este proceso se automatiza mediante algoritmos de aprendizaje por refuerzo como PPO, donde la política se optimiza para maximizar la recompensa esperada.

Cómo funciona en la práctica

El proceso típico involucra estos pasos:

Recolección de datos de preferencias: Se presentan pares de respuestas a evaluadores humanos, quienes indican cuál prefieren.
Entrenamiento del modelo de recompensa: Se entrena un modelo separado (por ejemplo, un clasificador) para predecir las preferencias humanas, usando los datos recolectados. Este modelo asigna puntajes a respuestas.
Fine-tuning de la política con PPO: Se utiliza el modelo de recompensa para guiar el ajuste del LLM, maximizando la recompensa mientras se mantiene cercano al modelo original para evitar divergencias.

Por ejemplo, si estamos ajustando un modelo para respuestas de servicio al cliente:

Respuesta A	Respuesta B	Preferencia humana
"Lo siento, no puedo ayudarte."	"Entiendo tu frustración, déjame buscar una solución."	B
"Reinicia el dispositivo."	"Podrías intentar reiniciar el dispositivo para resolver el problema."	B

El modelo de recompensa aprende a dar puntajes más altos a respuestas empáticas y útiles.

Caso de estudio

Considera el ajuste de un LLM open-source como Llama 3 para generar respuestas de asistente médico que sean precisas y compasivas. Primero, se recogen datos de preferencias de médicos y pacientes sobre pares de respuestas a preguntas comunes de salud. Luego, se entrena un modelo de recompensa basado en BERT para predecir estas preferencias, con características como:

Precisión médica (verificada contra bases de datos)
Claridad del lenguaje
Tono empático

Finalmente, se aplica PPO para ajustar Llama 3, usando este modelo de recompensa. Después del entrenamiento, el modelo genera respuestas como:

"Entiendo que estés preocupado por esos síntomas. Es importante consultar a un profesional para un diagnóstico preciso, pero puedo explicarte opciones generales basadas en guías médicas."

Esto muestra cómo la política optimizada produce respuestas que maximizan la recompensa (equilibrando precisión y empatía), mejorando la alineación con valores humanos.

Errores comunes

Modelo de recompensa sobreajustado: Si el modelo de recompensa se entrena con datos limitados o sesgados, puede recompensar comportamientos no deseados, como respuestas demasiado verbosas o evasivas. Solución: Usar datos diversos y validar con evaluaciones humanas continuas.
Divergencia de la política: Durante PPO, si la política se aleja demasiado del modelo original, puede perder capacidades generales o generar texto incoherente. Solución: Aplicar una penalización KL fuerte y monitorear métricas de divergencia.
Ignorar el sesgo en preferencias: Las preferencias humanas pueden reflejar sesgos culturales o personales, llevando a un modelo de recompensa que perpetúe estos sesgos. Solución: Incluir múltiples perspectivas en la recolección de datos y ajustar con técnicas de debiasing.
Complejidad computacional excesiva: RLHF puede ser costoso en recursos. Solución: Empezar con modelos más pequeños, usar optimizaciones como gradient checkpointing, y considerar alternativas como DPO para casos con recursos limitados.

Checklist de dominio

¿Puedes explicar la diferencia entre política y modelo de recompensa en RLHF?
¿Has implementado un pipeline de recolección de datos de preferencias para un caso real?
¿Sabes entrenar un modelo de recompensa usando comparaciones por pares?
¿Puedes configurar y ejecutar PPO para ajustar un LLM open-source?
¿Eres capaz de identificar y mitigar la divergencia de la política durante el entrenamiento?
¿Has evaluado un modelo ajustado con RLHF usando métricas como win rate o preferencias humanas?
¿Puedes comparar RLHF con DPO en términos de ventajas y desventajas prácticas?

Implementación de un modelo de recompensa básico para RLHF

En este ejercicio, crearás un modelo de recompensa simple para RLHF usando datos sintéticos y lo integrarás en un pipeline de ajuste. Sigue estos pasos:

Prepara los datos: Genera un dataset sintético de 100 pares de respuestas para un asistente de cocina. Cada par debe incluir dos respuestas a una pregunta como "¿Cómo hacer pasta?", con una etiqueta de preferencia (0 o 1) basada en criterios como claridad y utilidad. Usa un LLM como GPT-4 o un script para simular preferencias humanas.
Entrena el modelo de recompensa: Implementa un modelo de clasificación usando una arquitectura como BERT-base. Fine-túnalo en tu dataset para predecir la preferencia. Divide los datos en 80% entrenamiento y 20% validación, y usa pérdida de entropía cruzada binaria.
Evalúa el modelo: Calcula la precisión en el conjunto de validación y genera puntajes para nuevas respuestas. Por ejemplo, prueba con respuestas como "Hierve agua y añade pasta" vs. "La pasta se hace cocinándola en agua hirviendo", y verifica que el modelo asigne puntajes más altos a la más clara.
Integra con una política: Toma un modelo pequeño como GPT-2 y usa PPO (puedes usar bibliotecas como TRL) para ajustarlo, usando tu modelo de recompensa. Configura hiperparámetros como learning rate de 1e-5 y coeficiente KL de 0.1.
Analiza resultados: Compara las respuestas generadas antes y después del ajuste, y discute cómo el modelo de recompensa influyó en la calidad.

Pistas

Usa la biblioteca Transformers de Hugging Face para cargar BERT y GPT-2, simplificando la implementación.
Para datos sintéticos, define reglas claras de preferencia (ej., respuestas con pasos numerados son preferidas) para asegurar consistencia.
En PPO, monitorea la pérdida KL para evitar divergencia; ajusta el coeficiente si es necesario.

Evalua tu comprension

Completa el quiz interactivo de arriba para ganar XP.

Diseño de la política y el modelo de recompensa en RLHF