IA aplicada a bajo costo: cómo automatizamos un flujo de contenidos con Haiku
Detallamos cómo construimos un sistema multi-agente de IA para gestión de contenidos usando modelos económicos como Claude Haiku, con costos reales por publicación y estrategias de optimización.
Contenido
IA aplicada a bajo costo: cómo automatizamos un flujo de contenidos con Haiku
La inteligencia artificial generativa tiene un problema de percepción: muchas empresas asumen que implementarla requiere presupuestos enormes, GPUs dedicadas y equipos de data science. La realidad es diferente. En este artículo mostramos cómo construimos un sistema completo de gestión de contenidos con IA gastando menos de lo que cuesta un café diario.
El problema que resolvimos
Nuestro cliente necesitaba mantener presencia activa en redes sociales y canales de comunicación, publicando contenido relevante sobre su sector de forma consistente. El flujo manual era el siguiente:
- Un equipo revisaba docenas de fuentes de noticias cada mañana.
- Seleccionaban las más relevantes.
- Redactaban publicaciones adaptadas a cada plataforma (Mastodon, Telegram).
- Verificaban que no hubieran publicado algo similar recientemente.
- Programaban las publicaciones a lo largo del día.
Este proceso consumía entre 3 y 4 horas diarias de una persona cualificada. La pregunta era: ¿cuánto de esto puede automatizarse sin perder calidad?
Arquitectura multi-agente: dividir para conquistar
En lugar de usar un solo modelo grande para todo, diseñamos un sistema de agentes especializados, cada uno responsable de una tarea concreta. Esta es la arquitectura de Sumud, nuestra plataforma:
Agente Recolector: recorre las fuentes RSS y APIs configuradas, extrae el contenido y lo normaliza en un formato uniforme. No usa IA, es puro scraping inteligente con manejo de errores robusto.
Agente Clasificador: recibe cada pieza de contenido y determina su relevancia, categoría temática e idioma. Usa Claude Haiku, el modelo más económico de Anthropic, porque la clasificación es una tarea que no requiere razonamiento complejo.
Agente de Deduplicación: antes de procesar un contenido, verifica que no sea redundante. Genera un embedding vectorial del texto y lo compara contra los embeddings de publicaciones recientes usando similitud coseno. Si la similitud supera el 85%, el contenido se descarta. Esto evita publicar tres variantes de la misma noticia.
Agente Compositor: toma el contenido clasificado como relevante y genera una publicación adaptada a cada plataforma. Ajusta el tono, la extensión y el formato según las convenciones de Mastodon (500 caracteres, hashtags) o Telegram (formato más extenso, con enlaces). También usa Haiku para esta tarea.
Agente Revisor: este es el único punto donde usamos Claude Sonnet, un modelo más capaz y costoso. El revisor evalúa la calidad de la publicación generada, verifica la coherencia con el contenido original y puede solicitar correcciones al compositor. Es el control de calidad final.
Agente Publicador: recibe las publicaciones aprobadas y las envía a las APIs de Mastodon y Telegram en los horarios programados.
Por qué Haiku y no GPT-4 o Sonnet para todo
La elección del modelo es una decisión de ingeniería, no de marketing. Cada tarea tiene requisitos diferentes:
| Tarea | Modelo | Costo por llamada | Justificación |
|---|---|---|---|
| Clasificación | Haiku | ~$0.0003 | Tarea simple, respuesta binaria/categórica |
| Composición | Haiku | ~$0.0008 | Texto corto, formato predefinido, prompt bien estructurado |
| Revisión | Sonnet | ~$0.005 | Requiere juicio cualitativo, detección de errores sutiles |
Usar Sonnet o GPT-4 para clasificar sería como usar un camión para ir a comprar pan. Funciona, pero el costo por kilómetro es absurdo.
La clave está en que Haiku produce resultados excelentes cuando el prompt es preciso y la tarea está bien delimitada. Un prompt vago como "clasifica esta noticia" dará resultados mediocres con cualquier modelo. Un prompt que especifica las categorías exactas, los criterios de relevancia y el formato de respuesta esperado obtiene un 95% de acierto con Haiku.
Costos reales de operación
Estos son los costos reales de un mes de operación procesando aproximadamente 800 contenidos de fuentes y generando 150 publicaciones:
| Concepto | Costo mensual (USD) |
|---|---|
| Claude Haiku (clasificación, ~800 llamadas) | $0.24 |
| Claude Haiku (composición, ~200 llamadas) | $0.16 |
| Claude Sonnet (revisión, ~180 llamadas) | $0.90 |
| Embeddings (deduplicación) | $0.05 |
| Total IA | $1.35 |
| Servidor VPS (2 GB RAM, compartido) | $5.00 |
| Total mensual | $6.35 |
Seis dólares con treinta y cinco centavos al mes. Menos que un café con leche en cualquier capital latinoamericana. Comparado con las 80-100 horas mensuales de trabajo manual que reemplaza, el retorno de inversión es extraordinario.
Embeddings vectoriales para deduplicación
La deduplicación es un problema más sutil de lo que parece. Dos noticias pueden tratar el mismo tema con palabras completamente diferentes, o usar las mismas palabras para hablar de temas distintos. La comparación textual simple (como buscar coincidencias de palabras) tiene demasiados falsos positivos y falsos negativos.
Los embeddings vectoriales resuelven esto al convertir cada texto en un vector numérico de alta dimensión que captura su significado semántico. Dos textos sobre el mismo tema tendrán vectores cercanos, independientemente de las palabras exactas que usen.
En Sumud almacenamos los embeddings en PostgreSQL con la extensión pgvector, lo que permite hacer búsquedas de similitud eficientes directamente en la base de datos, sin necesidad de un servicio externo como Pinecone o Weaviate.
Publicación multiplataforma
Cada plataforma tiene sus particularidades:
Mastodon: límite de 500 caracteres, soporte nativo de hashtags, posibilidad de adjuntar imágenes y videos. El agente compositor genera textos concisos con 3-5 hashtags relevantes. Si el contenido original incluye video, se descarga, se comprime al formato compatible y se adjunta a la publicación.
Telegram: sin límite práctico de caracteres, soporte de formato HTML básico, enlaces inline. Aquí el compositor genera un texto más elaborado con contexto adicional y enlaces a las fuentes originales.
El agente publicador maneja la autenticación con cada plataforma, los reintentos en caso de error y el respeto de los rate limits para no ser bloqueado.
Scheduler: el cerebro operativo
Todo el flujo está orquestado por un scheduler construido en Rust con Tokio. Las tareas se ejecutan según un cronograma configurable:
- Recolección de fuentes: cada 2 horas
- Clasificación y deduplicación: inmediata tras la recolección
- Composición y revisión: en lotes, 3 veces al día
- Publicación: distribuida a lo largo del día en horarios óptimos
El scheduler es resiliente a fallos: si una tarea falla, se reintenta con backoff exponencial. Si un agente no responde, los demás siguen funcionando. Todas las operaciones se registran en logs estructurados para diagnóstico.
Lecciones aprendidas
- El modelo más caro no es siempre el mejor: para el 80% de las tareas de IA, el modelo más económico con un buen prompt supera al modelo premium con un prompt genérico.
- La ingeniería de prompts es ingeniería de verdad: un prompt bien diseñado es la diferencia entre un sistema que funciona y uno que genera basura.
- Los costos de IA son marginales: el verdadero costo está en el desarrollo del sistema, no en las llamadas a la API.
- La supervisión humana sigue siendo necesaria: el sistema reduce drásticamente el trabajo, pero una revisión periódica de la calidad del output es indispensable.
¿Te interesa?
Si tu equipo de marketing o comunicaciones dedica horas diarias a tareas repetitivas de contenido, podemos automatizar ese flujo sin comprometer la calidad. No necesitas un presupuesto de Silicon Valley: la IA aplicada de forma inteligente es accesible para cualquier organización.
Contáctanos para explorar cómo la IA puede optimizar tus procesos o revisa nuestros servicios de inteligencia artificial.
Ockham-Libra
Consultoría tecnológica: desarrollo en Rust, IA aplicada, transformación digital y potenciamiento empresarial.