Instructora
Elena Suárez es Diseñadora instruccional y UX con base en Caracas, Venezuela. Su trabajo se enfoca en transformar temas complejos en rutas de aprendizaje claras, prácticas y fáciles de seguir.
Ha acompañado a estudiantes, profesionales y equipos de empresas en procesos de formación online, combinando teoría útil con ejercicios aplicables desde la primera clase.
En Cursalo diseña experiencias de aprendizaje con ejemplos reales, lenguaje directo y una estructura pensada para avanzar paso a paso sin perder contexto.
Este curso incluye 4 modulos, 19 lecciones y 7:45 horas de materiales.
Concepto claveEl Fine-tuning de LLMs con técnicas de aprendizaje por refuerzo representa un salto cualitativo en la alineación de modelos de lenguaje con preferencias humanas. RLHF (Reinforcement Learning from Human Feedback) es un proceso de tres etapas que comienza con un modelo base preentrenado, luego se ajusta con aprendizaje supervisado usando demostraciones humanas, y finalmente se optimiza mediante aprendizaje por refuerzo donde un modelo de recompensa, entrenado con comparaciones humana
Tipo de lección: VideoConcepto claveLa configuración del entorno para fine-tuning con RLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) es como preparar una cocina profesional para un chef estrella. No basta con tener los ingredientes (modelos y datos); necesitas herramientas específicas, espacio organizado y flujos de trabajo optimizados para que el proceso sea eficiente y reproducible.En el contexto de ML avanzado, configurar el entorno significa establec
Concepto claveLa preparación de datasets para RLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) es el proceso de crear conjuntos de datos estructurados que capturan preferencias humanas sobre respuestas generadas por modelos de lenguaje. Imagina que estás entrenando a un asistente virtual: en lugar de decirle exactamente qué responder (como en el entrenamiento supervisado), le muestras múltiples respuestas a la misma pregunta y le indicas cuál prefieres. Es
Tipo de lección: QuizConcepto claveEl preprocesamiento de datasets para RLHF (Reinforcement Learning from Human Feedback) es el proceso de transformar datos crudos en un formato estructurado que pueda ser consumido por modelos de lenguaje durante el fine-tuning. Imagina que estás preparando ingredientes para un chef de alta cocina: no le das vegetales sin lavar o carne sin cortar; limpias, cortas y organizas todo para que pueda enfocarse en la cocción. En RLHF, los datos típicamente incluyen pro
Concepto claveEn RLHF, el diseño de la política y el modelo de recompensa son los dos componentes centrales que determinan cómo un LLM aprende a alinearse con preferencias humanas. La política es el modelo de lenguaje que estamos ajustando, que toma decisiones sobre qué tokens generar, mientras que el modelo de recompensa es una función que asigna un valor numérico a las respuestas generadas, reflejando qué tan bien se alinean con las preferencias humanas.Piensa en esto como entrenar a un escrit
Tipo de lección: VideoConcepto claveEl Proximal Policy Optimization (PPO) es un algoritmo de aprendizaje por refuerzo diseñado para optimizar políticas de manera estable y eficiente. A diferencia de métodos tradicionales que pueden sufrir de actualizaciones demasiado grandes y divergentes, PPO introduce una restricción que limita el cambio en la política en cada iteración. Imagina que estás ajustando un modelo de lenguaje como si fuera un piloto de avión: no puedes cambiar bruscamente los contro
Concepto claveEl entrenamiento con RLHF (Reinforcement Learning from Human Feedback) transforma un modelo de lenguaje base en uno alineado con preferencias humanas mediante un proceso de tres fases: recolección de datos de preferencia, entrenamiento de un modelo de recompensa y optimización del modelo de política con aprendizaje por refuerzo. Imagina que estás entrenando a un asistente virtual: primero observas cómo responde a preguntas, luego calificas sus respuestas, y finalmente ajustas su co
Tipo de lección: QuizConcepto claveEl fine-tuning con RLHF (Reinforcement Learning from Human Feedback) es un proceso de dos fases que transforma un modelo de lenguaje pre-entrenado en uno alineado con preferencias humanas. Primero, se crea un modelo de recompensa que aprende a puntuar respuestas según la calidad percibida por humanos. Luego, este modelo guía el ajuste del modelo principal mediante aprendizaje por refuerzo, optimizando una política para maximizar recompensas esperadas.Imagina en
Tipo de lección: QuizConcepto claveEl fine-tuning con RLHF (Reinforcement Learning from Human Feedback) es una técnica avanzada que ajusta modelos de lenguaje grandes (LLMs) utilizando señales de recompensa derivadas de preferencias humanas. En lugar de optimizar directamente para una métrica técnica como la pérdida de entropía cruzada, RLHF entrena al modelo para generar respuestas que los humanos prefieran, lo que alinea mejor el comportamiento del modelo con valores humanos como la utilidad,
Concepto claveLa Optimización Directa de Preferencias (DPO) es un método de fine-tuning que entrena modelos de lenguaje directamente sobre preferencias humanas, sin necesidad de un modelo de recompensa explícito. A diferencia de RLHF, que requiere entrenar un modelo de recompensa separado y luego usar aprendizaje por refuerzo, DPO reformula el problema como una clasificación directa entre respuestas preferidas y no preferidas.Imagina que estás entrenando a un asistente virtual para escribir corr
Tipo de lección: VideoConcepto claveLa Optimización Directa de Preferencias (DPO) es una técnica que reformula el problema de alineación de modelos de lenguaje con preferencias humanas como un problema de clasificación simple, evitando la complejidad del aprendizaje por refuerzo tradicional. En lugar de entrenar un modelo de recompensa separado y luego usar algoritmos como PPO, DPO optimiza directamente el modelo de lenguaje para maximizar la probabilidad de respuestas preferidas sobre las no pr
Concepto claveLa comparación entre RLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) representa un cambio fundamental en cómo ajustamos modelos de lenguaje. Imagina que RLHF es como entrenar a un atleta con un equipo completo de entrenadores, nutricionistas y fisioterapeutas: es poderoso pero complejo y costoso. DPO, en cambio, es como tener un entrenador personalizado que optimiza directamente los movimientos clave: más eficiente, menos pasos intermedios.R
Tipo de lección: QuizConcepto claveLa Optimización Directa de Preferencias (DPO) es una técnica que permite ajustar modelos de lenguaje directamente utilizando datos de preferencias humanas, sin necesidad de un modelo de recompensa explícito. A diferencia de RLHF, que requiere entrenar un modelo de recompensa separado y luego usar aprendizaje por refuerzo, DPO reformula el problema como una optimización supervisada directa.Imagina que estás entrenando a un asistente virtual para que dé respuesta
Tipo de lección: QuizConcepto claveRLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) son dos enfoques para fine-tuning de modelos de lenguaje, pero con filosofias distintas. RLHF utiliza un proceso de tres etapas: entrenar un modelo de recompensa con preferencias humanas, luego usar aprendizaje por refuerzo (como PPO) para optimizar el modelo de lenguaje contra esa recompensa. Es como entrenar a un perro: primero defines que comportamientos son buenos (reco
Concepto claveLa selección del modelo base y dataset es el fundamento arquitectónico de cualquier proyecto de fine-tuning con RLHF (Reinforcement Learning from Human Feedback) o DPO (Direct Preference Optimization). Imagina que estás construyendo un rascacielos: el modelo base es el terreno sobre el que construyes, y el dataset son los materiales de construcción. Si eliges un terreno pantanoso o materiales de baja calidad, por más sofisticada que sea tu técnica de construcción (RLHF/DPO), la est
Tipo de lección: VideoConcepto claveEl fine-tuning con RLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) es el proceso de ajustar un modelo de lenguaje pre-entrenado usando preferencias humanas para alinearlo con valores específicos. Imagina que tienes un asistente virtual genérico que responde de manera neutral; con RLHF/DPO, lo entrenas para que prefiera respuestas útiles, inofensivas y honestas, como enseñarle a un empleado nuevo las politicas de tu empr
Concepto claveLa evaluación de modelos LLM fine-tuneados con RLHF y DPO va más allá de las métricas tradicionales de NLP. Aquí, medimos dos dimensiones críticas: alineamiento (cómo el modelo sigue instrucciones humanas y valores) y calidad (coherencia, relevancia y utilidad de las respuestas).Imagina entrenar un asistente virtual: no solo debe responder correctamente (calidad), sino hacerlo de forma útil, ética y segura (alineamiento). Las métricas de alineamiento evalúan si el modelo "comprende
Tipo de lección: QuizConcepto claveDesplegar un modelo ajustado como API con FastAPI es el puente entre el desarrollo de ML y la producción. Imagina que tu modelo fine-tuneado es un chef experto que ha aprendido recetas específicas: la API es el restaurante donde los clientes (aplicaciones) piden platos (predicciones) sin conocer la cocina. FastAPI, un framework moderno de Python, actúa como el maître, gestionando solicitudes, validaciones y respuestas de forma eficiente, similar a como un siste
Tipo de lección: QuizConcepto claveEl fine-tuning con RLHF (Reinforcement Learning from Human Feedback) y DPO (Direct Preference Optimization) representa la evolución de cómo ajustamos modelos de lenguaje grandes para alinearlos con preferencias humanas específicas. Imagina que estás entrenando a un asistente personal: primero aprendió el idioma y conocimientos generales (pre-entrenamiento), luego le enseñaste tareas específicas (fine-tuning tradicional), y ahora lo refinas para que tome decisio
Data Analyst at Microsoft
Responder al comentario