Alcides, tu nuevo agente de IA para analizar peleas de UFC
Un caso práctico de inteligencia artificial (IA) y visión computacional aplicado al análisis táctico de peleas de UFC.
Alcides y su existencia
Analizar una pelea de UFC sigue siendo, en gran parte, un trabajo manual. Un coach, un analista de transmisión o un oddsmaker revisan minutos y minutos de video para responder preguntas muy concretas: qué pasó, cómo terminó la pelea y qué patrones aparecen en el estilo de cada peleador.
No se trata de interpretar toda la pelea de golpe, sino de encontrar el momento correcto y explicar qué está ocurriendo ahí.
Bajo esa premisa nace Alcides: un agente de IA capaz de convertir el análisis de video en un flujo más rápido, local y accionable. El sistema funciona con un despliegue híbrido: una parte corre en mi DGX Spark (GB10) y otra en un servidor remoto de mayor capacidad. En conjunto, Alcides puede analizar peleas de UFC, reconstruir KOs y TKOs, detectar acciones específicas y generar replays narrados en 1080p con segmentación por peleador.
Cómo funciona Alcides
Alcides funciona con una lógica simple: primero encuentra el momento correcto y después lo analiza.
En lugar de pedirle al modelo que entienda toda la pelea de una sola vez, aunque también puede hacerlo, el agente divide el video en segmentos cortos y evalúa cada tramo con preguntas concretas: si ahí termina la pelea, si aparece una acción específica o si hay un patrón táctico relevante.
Cuando encuentra el fragmento correcto, Alcides activa el resto del flujo: extrae el clip, analiza lo que ocurre, identifica a cada peleador, genera una explicación y, cuando corresponde, produce un replay narrado en 1080p con segmentación visual.
La clave está en que el agente no solo responde preguntas. Coordina herramientas. Decide cuándo buscar, cuándo analizar, cuándo segmentar, cuándo narrar y cuándo devolver una respuesta final. Esa coordinación es lo que convierte a Alcides en un agente autónomo capaz de analizar distintas peleas de UFC.
Las maquinas detras de Alcides
Alcides funciona con una arquitectura híbrida. La parte visual corre localmente en mi DGX Spark, mientras que la planificación del agente se apoya en un modelo remoto de mayor capacidad. La DGX Spark concentra el procesamiento más pesado: video, clips, segmentación, overlays y renderizado de replays. Para este flujo, la memoria unificada CPU/GPU es clave, porque permite trabajar con video en 1080p y modelos de visión sin estar moviendo datos constantemente entre componentes separados.
El modelo de visión principal es Cosmos-Reason2-8B-NVFP4. Lo elegí porque está pensado para razonar sobre video, no solo sobre imágenes aisladas. En Alcides, Cosmos analiza fragmentos cortos de pelea y responde preguntas concretas sobre lo que ocurre en cada tramo: si hay un final, si aparece una acción específica o cómo se desarrolla una secuencia. Esa capacidad espacio-temporal lo hace más útil para este caso que un modelo de visión tradicional.
Para la segmentación uso SAM 3.1 Multiplex. Esta fue una decisión importante porque en UFC no basta con detectar “personas” en cada frame. Los peleadores se cruzan, se tapan, cambian de posición y la transmisión corta de cámara constantemente. SAM 3.1 permite seguir a cada peleador a partir de una descripción, como “peleador con short rojo” o “peleador con short blanco”, y mantener esa identidad a lo largo del clip. Eso hace posible generar replays donde cada atleta conserva su máscara visual de forma consistente.
La coordinación del agente corre con Llama 3.3 70B en un servidor remoto. Este modelo no ve directamente los frames de la pelea. Su trabajo es planificar, decidir qué herramienta ejecutar, interpretar resultados intermedios y construir una respuesta final coherente.
En resumen: Cosmos entiende el video, SAM 3.1 sigue a los peleadores y Llama coordina el agente. Esa separación permite que Alcides combine análisis visual local con razonamiento de alto nivel sin convertir todo el sistema en una infraestructura distribuida demasiado compleja.
Alcides en acción
Alcides cambia el punto de partida de todo análisis. No reemplaza al coach ni al analista; les entrega un primer borrador táctico con acciones detectadas, momentos reconstruidos y puntos concretos para revisar. El criterio final sigue siendo humano, pero ya no depende de pasar horas frente a un video antes de poder redactar un análisis.
En el modo broadcast, ese primer borrador se vuelve visual: Alcides toma un momento clave, segmenta a los peleadores y genera un replay narrado en 1080p.
UFC fue el primer caso porque las preguntas son concretas y el valor de acelerar la revisión inicial es alto. Pero la arquitectura se generaliza a cualquier dominio donde haya que encontrar eventos relevantes en uno o varios videos de distintas duraciones: retail, seguridad industrial, almacenes, manufactura, entre otros.
Aprendizajes
Lo que más me sorprendió fue que el stack de modelos no fue la parte más difícil. Cosmos, SAM 3.1 y Llama 3.3 70B cumplen bien su rol. El reto estuvo en conectarlos de forma consistente para que el agente pudiera ejecutar tareas distintas según la pregunta del usuario.
Operar en hardware propio también cambió el problema. Consumir un servicio externo es más simple; hacerlo localmente obliga a desplegar, optimizar y observar cada parte del pipeline.
La observabilidad terminó siendo clave para entender el flujo de decisiones del agente: qué herramienta eligió, qué información recibió, qué respuesta generó e incluso determinar en que momento el agente decidio no seguir el plan.
Alcides corre en una máquina que cabe dentro de una caja de zapatos. El video se mantiene local. El primer borrador llega lo suficientemente rápido como para que el analista no pierda el hilo esperando el resultado. Ese era el estándar que quería alcanzar.

