Concepto clave
La selección del modelo base y dataset es el fundamento arquitectónico de cualquier proyecto de fine-tuning con RLHF (Reinforcement Learning from Human Feedback) o DPO (Direct Preference Optimization). Imagina que estás construyendo un rascacielos: el modelo base es el terreno sobre el que construyes, y el dataset son los materiales de construcción. Si eliges un terreno pantanoso o materiales de baja calidad, por más sofisticada que sea tu técnica de construcción (RLHF/DPO), la estructura colapsará.
Para proyectos avanzados, no se trata solo de elegir el modelo más grande disponible. Debes considerar el trade-off tripartito: capacidad computacional (¿puedes ejecutar el modelo en tu infraestructura?), calidad de salida (¿el modelo base ya tiene competencias relevantes para tu dominio?), y coste de ajuste (¿cuántos parámetros necesitas actualizar?). En la industria real, rara vez usamos modelos de 70B parámetros para proyectos de fine-tuning, a menos que tengas un cluster de GPUs dedicado.
Cómo funciona en la práctica
Veamos un ejemplo paso a paso para un proyecto de asistente médico:
- Definir requisitos: Necesitamos un modelo que entienda terminología médica en español, pueda generar respuestas seguras, y funcione en una sola GPU A100 40GB.
- Evaluar modelos base:
Modelo Tamaño Dominio médico Memoria GPU Llama-3-8B 8B parámetros Básico 16GB Meditron-7B 7B parámetros Especializado 14GB Mistral-7B 7B parámetros General 14GB - Seleccionar dataset: Para RLHF/DPO necesitamos dos tipos de datos:
- Dataset de instrucción-respuesta: 10,000 ejemplos de consultas médicas y respuestas validadas
- Dataset de preferencias: 5,000 pares donde humanos han rankeado respuestas (mejor vs peor)
- Decisión final: Elegimos Meditron-7B como base (ya tiene conocimiento médico) y complementamos con nuestro dataset específico de hospital.
Regla de oro en producción: Es mejor un modelo 7B bien ajustado con datos de calidad que un modelo 70B mal ajustado. El 80% del éxito está en la selección inicial.
Caso de estudio
Proyecto: Sistema de soporte técnico para una empresa de telecomunicaciones con 2M clientes.
Requisitos: El modelo debe entender terminología técnica de redes, generar respuestas en menos de 2 segundos, y operar en 2 GPUs T4 (16GB cada una).
Selección realizada:
- Modelo base: CodeLlama-7B (sorprendentemente bueno para documentación técnica y troubleshooting)
- Dataset de instrucción: 8,000 tickets históricos anonimizados con soluciones validadas
- Dataset de preferencias: 3,000 pares donde expertos técnicos rankearon respuestas según: precisión técnica, claridad, y tiempo de resolución
- Justificación: CodeLlama ya entiende estructuras lógicas y documentación, lo que reduce el esfuerzo de fine-tuning. Los datasets son específicos del dominio, asegurando relevancia.
Resultado: Después de fine-tuning con DPO, el modelo redujo el tiempo promedio de resolución de tickets en un 40%, con una precisión del 92% en diagnósticos iniciales.
Errores comunes
- Elegir el modelo más grande disponible: Los modelos grandes (70B+) requieren infraestructura masiva y son overkill para dominios específicos. Cómo evitarlo: Empieza con modelos 7B-13B y escala solo si las métricas lo justifican.
- Usar datasets genéricos para dominios especializados: Fine-tuning un modelo médico con datasets generales de conversación diluye el expertise. Cómo evitarlo: Invierte en curar o generar datasets específicos de tu dominio, aunque sea más pequeño.
- Ignorar el bias en datasets de preferencias: Si tus evaluadores humanos tienen sesgos, el modelo los aprenderá y amplificará. Cómo evitarlo: Implementa múltiples rounds de evaluación con equipos diversos y guías de evaluación claras.
- Subestimar los requisitos de memoria para RLHF: RLHF requiere mantener múltiples versiones del modelo en memoria simultáneamente. Cómo evitarlo: Calcula: memoria_necesaria = (model_size * 4) * 3 (para policy, reference, y reward models).
- No considerar la inferencia post-fine-tuning: Un modelo fine-tuned debe funcionar en producción. Cómo evitarlo: Prueba la inferencia con cargas realistas durante la fase de selección.
Checklist de dominio
- ✓ He definido claramente los requisitos de inferencia (latencia, throughput, hardware disponible)
- ✓ He evaluado al menos 3 modelos base considerando: tamaño, dominio de conocimiento, y requisitos computacionales
- ✓ Tengo datasets específicos para mi dominio, con al menos 5,000 ejemplos de instrucción-respuesta
- ✓ He preparado un dataset de preferencias con al menos 2,000 pares rankeados por expertos del dominio
- ✓ He calculado los requisitos de memoria total considerando todos los componentes del pipeline RLHF/DPO
- ✓ He validado que el modelo base seleccionado puede cargarse y ejecutarse en mi infraestructura objetivo
- ✓ He establecido métricas de evaluación específicas para mi caso de uso antes de comenzar el fine-tuning
Selección de modelo y dataset para chatbot financiero
Eres ML Engineer en un banco que necesita un chatbot para asesoría de inversiones. Sigue estos pasos:
- Define requisitos: El chatbot debe entender términos financieros en español, evitar recomendaciones riesgosas, funcionar en 4 GPUs V100 32GB, y responder en <3 segundos.
- Investiga modelos base: Compara estos tres candidatos:
- Bloom-7B: Multilingüe, entrenado con datos financieros
- Llama-2-13B: General pero con buen razonamiento
- FinGPT-7B: Especializado en finanzas pero solo en inglés
- Diseña el dataset:
- Dataset de instrucción: Describe 3 tipos de ejemplos necesarios (ej: consultas sobre fondos indexados, análisis de riesgo, explicación de términos)
- Dataset de preferencias: Define 2 criterios de ranking específicos para finanzas (ej: conservadurismo de recomendación, claridad de explicación de riesgos)
- Toma decisión: Justifica por escrito tu elección de modelo y estrategia de dataset, considerando los trade-offs.
- Calcula recursos: Estima la memoria total necesaria para fine-tuning con DPO (considera: modelo base, modelo fine-tuned, y optimizador).
- Recuerda que los modelos multilingües pueden tener menos capacidad en español que los monolingües
- En dominios regulados como finanzas, la seguridad y explicabilidad son más importantes que la creatividad
- Para DPO, necesitas aproximadamente 2-3x la memoria del modelo base durante el entrenamiento
Evalua tu comprension
Completa el quiz interactivo de arriba para ganar XP.