<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:googleplay="http://www.google.com/schemas/play-podcasts/1.0"><channel><title><![CDATA[Praephos AI]]></title><description><![CDATA[Machine learning e inteligencia artificial.]]></description><link>https://blog.praephos.com</link><image><url>https://substackcdn.com/image/fetch/$s_!PTal!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fef21104f-8bf7-4a27-858c-3da226143dec_1024x1024.png</url><title>Praephos AI</title><link>https://blog.praephos.com</link></image><generator>Substack</generator><lastBuildDate>Thu, 04 Jun 2026 00:33:43 GMT</lastBuildDate><atom:link href="https://blog.praephos.com/feed" rel="self" type="application/rss+xml"/><copyright><![CDATA[Diego García Rieckhof]]></copyright><language><![CDATA[es]]></language><webMaster><![CDATA[diegogarcarieckhof@substack.com]]></webMaster><itunes:owner><itunes:email><![CDATA[diegogarcarieckhof@substack.com]]></itunes:email><itunes:name><![CDATA[Diego García Rieckhof]]></itunes:name></itunes:owner><itunes:author><![CDATA[Diego García Rieckhof]]></itunes:author><googleplay:owner><![CDATA[diegogarcarieckhof@substack.com]]></googleplay:owner><googleplay:email><![CDATA[diegogarcarieckhof@substack.com]]></googleplay:email><googleplay:author><![CDATA[Diego García Rieckhof]]></googleplay:author><itunes:block><![CDATA[Yes]]></itunes:block><item><title><![CDATA[Alcides, tu nuevo agente de IA para analizar peleas de UFC]]></title><description><![CDATA[Un caso pr&#225;ctico de inteligencia artificial (IA) y visi&#243;n computacional aplicado al an&#225;lisis t&#225;ctico de peleas de UFC.]]></description><link>https://blog.praephos.com/p/alcides-tu-nuevo-agente-de-ia-para</link><guid isPermaLink="false">https://blog.praephos.com/p/alcides-tu-nuevo-agente-de-ia-para</guid><dc:creator><![CDATA[Diego García Rieckhof]]></dc:creator><pubDate>Tue, 26 May 2026 13:03:09 GMT</pubDate><enclosure url="https://substack-post-media.s3.amazonaws.com/public/images/e108dd0a-1cb7-4e4d-840c-9a2d8a47f963_1465x1074.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<h3>Alcides y su existencia</h3><p>Analizar una pelea de UFC sigue siendo, en gran parte, un trabajo manual. Un coach, un analista de transmisi&#243;n o un oddsmaker revisan minutos y minutos de video para responder preguntas muy concretas: qu&#233; pas&#243;, c&#243;mo termin&#243; la pelea y qu&#233; patrones aparecen en el estilo de cada peleador.</p><p>No se trata de interpretar toda la pelea de golpe, sino de encontrar el momento correcto y explicar qu&#233; est&#225; ocurriendo ah&#237;.</p><p>Bajo esa premisa nace <strong>Alcides</strong>: un <strong>agente de IA</strong> capaz de convertir el an&#225;lisis de video en un flujo m&#225;s r&#225;pido, local y accionable. El sistema funciona con un despliegue h&#237;brido: una parte corre en mi <strong>DGX Spark (GB10)</strong> y otra en un servidor remoto de mayor capacidad. En conjunto, Alcides puede analizar peleas de UFC, reconstruir KOs y TKOs, detectar acciones espec&#237;ficas y generar replays narrados en 1080p con segmentaci&#243;n por peleador.</p><div class="native-video-embed" data-component-name="VideoPlaceholder" data-attrs="{&quot;mediaUploadId&quot;:&quot;3a95b768-9582-4535-b345-9e8cef07f248&quot;,&quot;duration&quot;:null}"></div><h3>C&#243;mo funciona Alcides</h3><p>Alcides funciona con una l&#243;gica simple: primero encuentra el momento correcto y despu&#233;s lo analiza.</p><p>En lugar de pedirle al modelo que entienda toda la pelea de una sola vez, aunque tambi&#233;n puede hacerlo, el agente divide el video en segmentos cortos y eval&#250;a cada tramo con preguntas concretas: si ah&#237; termina la pelea, si aparece una acci&#243;n espec&#237;fica o si hay un patr&#243;n t&#225;ctico relevante.</p><p>Cuando encuentra el fragmento correcto, Alcides activa el resto del flujo: extrae el clip, analiza lo que ocurre, identifica a cada peleador, genera una explicaci&#243;n y, cuando corresponde, produce un replay narrado en 1080p con segmentaci&#243;n visual.</p><p>La clave est&#225; en que el agente no solo responde preguntas. Coordina herramientas. Decide cu&#225;ndo buscar, cu&#225;ndo analizar, cu&#225;ndo segmentar, cu&#225;ndo narrar y cu&#225;ndo devolver una respuesta final. Esa coordinaci&#243;n es lo que convierte a Alcides en un agente aut&#243;nomo capaz de analizar distintas peleas de UFC.</p><h3>Las maquinas detras de Alcides</h3><p>Alcides funciona con una arquitectura h&#237;brida. La parte visual corre localmente en mi <strong>DGX Spark</strong>, mientras que la planificaci&#243;n del agente se apoya en un modelo remoto de mayor capacidad. La DGX Spark concentra el procesamiento m&#225;s pesado: video, clips, segmentaci&#243;n, overlays y renderizado de replays. Para este flujo, la memoria unificada CPU/GPU es clave, porque permite trabajar con video en 1080p y modelos de visi&#243;n sin estar moviendo datos constantemente entre componentes separados.</p><p>El modelo de visi&#243;n principal es <strong>Cosmos-Reason2-8B-NVFP4</strong>. Lo eleg&#237; porque est&#225; pensado para razonar sobre video, no solo sobre im&#225;genes aisladas. En Alcides, Cosmos analiza fragmentos cortos de pelea y responde preguntas concretas sobre lo que ocurre en cada tramo: si hay un final, si aparece una acci&#243;n espec&#237;fica o c&#243;mo se desarrolla una secuencia. Esa capacidad espacio-temporal lo hace m&#225;s &#250;til para este caso que un modelo de visi&#243;n tradicional.</p><p>Para la segmentaci&#243;n uso <strong>SAM 3.1 Multiplex</strong>. Esta fue una decisi&#243;n importante porque en UFC no basta con detectar &#8220;personas&#8221; en cada frame. Los peleadores se cruzan, se tapan, cambian de posici&#243;n y la transmisi&#243;n corta de c&#225;mara constantemente. SAM 3.1 permite seguir a cada peleador a partir de una descripci&#243;n, como &#8220;peleador con short rojo&#8221; o &#8220;peleador con short blanco&#8221;, y mantener esa identidad a lo largo del clip. Eso hace posible generar replays donde cada atleta conserva su m&#225;scara visual de forma consistente.</p><p>La coordinaci&#243;n del agente corre con <strong>Llama 3.3 70B</strong> en un servidor remoto. Este modelo no ve directamente los frames de la pelea. Su trabajo es planificar, decidir qu&#233; herramienta ejecutar, interpretar resultados intermedios y construir una respuesta final coherente.</p><p>En resumen: <strong>Cosmos entiende el video, SAM 3.1 sigue a los peleadores y Llama coordina el agente</strong>. Esa separaci&#243;n permite que Alcides combine an&#225;lisis visual local con razonamiento de alto nivel sin convertir todo el sistema en una infraestructura distribuida demasiado compleja.</p><h3>Alcides en acci&#243;n</h3><p>Alcides cambia el punto de partida de todo an&#225;lisis. No reemplaza al coach ni al analista; les entrega un primer borrador t&#225;ctico con acciones detectadas, momentos reconstruidos y puntos concretos para revisar. El criterio final sigue siendo humano, pero ya no depende de pasar horas frente a un video antes de poder redactar un an&#225;lisis.</p><p>En el modo broadcast, ese primer borrador se vuelve visual: Alcides toma un momento clave, segmenta a los peleadores y genera un replay narrado en 1080p.</p><div class="native-video-embed" data-component-name="VideoPlaceholder" data-attrs="{&quot;mediaUploadId&quot;:&quot;169086d1-fc6b-4129-931f-3a24ebcfa9d2&quot;,&quot;duration&quot;:null}"></div><p>UFC fue el primer caso porque las preguntas son concretas y el valor de acelerar la revisi&#243;n inicial es alto. Pero la arquitectura se generaliza a cualquier dominio donde haya que encontrar eventos relevantes en uno o varios videos de distintas duraciones: retail, seguridad industrial, almacenes, manufactura, entre otros.</p><h3>Aprendizajes</h3><p>Lo que m&#225;s me sorprendi&#243; fue que el stack de modelos no fue la parte m&#225;s dif&#237;cil. Cosmos, SAM 3.1 y Llama 3.3 70B cumplen bien su rol. El reto estuvo en conectarlos de forma consistente para que el agente pudiera ejecutar tareas distintas seg&#250;n la pregunta del usuario.</p><p>Operar en hardware propio tambi&#233;n cambi&#243; el problema. Consumir un servicio externo es m&#225;s simple; hacerlo localmente obliga a desplegar, optimizar y observar cada parte del pipeline.</p><p>La observabilidad termin&#243; siendo clave para entender el flujo de decisiones del agente: qu&#233; herramienta eligi&#243;, qu&#233; informaci&#243;n recibi&#243;, qu&#233; respuesta gener&#243; e incluso determinar en que momento el agente decidio no seguir el plan.</p><p>Alcides corre en una m&#225;quina que cabe dentro de una caja de zapatos. El video se mantiene local. El primer borrador llega lo suficientemente r&#225;pido como para que el analista no pierda el hilo esperando el resultado. Ese era el est&#225;ndar que quer&#237;a alcanzar.</p><div><hr></div><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://blog.praephos.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscribirse&quot;,&quot;language&quot;:&quot;es&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">Gracias por leer <strong>Praephos AI</strong>. Suscr&#237;bete para recibir nuevas publicaciones.</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="Escribe tu correo electr&#243;nico..." tabindex="-1"><input type="submit" class="button primary" value="Suscribirse"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><div><hr></div>]]></content:encoded></item><item><title><![CDATA[Harness engineering para agentes de IA]]></title><description><![CDATA[M&#225;s all&#225; del modelo de lenguaje (LLM): qu&#233; convierte a un modelo en un agente]]></description><link>https://blog.praephos.com/p/harness-engineering-para-agentes</link><guid isPermaLink="false">https://blog.praephos.com/p/harness-engineering-para-agentes</guid><dc:creator><![CDATA[Diego García Rieckhof]]></dc:creator><pubDate>Wed, 29 Apr 2026 13:02:22 GMT</pubDate><enclosure url="https://substack-post-media.s3.amazonaws.com/public/images/00d8c752-5c2c-4da7-8faf-bf91f4236c09_1402x1122.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Durante meses hemos construido agentes como si todo girara alrededor del modelo. Incluso pensando que si el modelo no tiene m&#225;s de X billones de par&#225;metros es inservible para desplegarlo como un agente aut&#243;nomo.</p><p>No es una locura. El modelo es lo m&#225;s visible, lo que m&#225;s mejora y lo que parece explicar el comportamiento.</p><p>Modelos m&#225;s peque&#241;os pueden comportarse como agentes aut&#243;nomos &#250;tiles, pero no por el modelo en s&#237;, sino por la infraestructura que los rodea.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!3k8C!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!3k8C!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png 424w, https://substackcdn.com/image/fetch/$s_!3k8C!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png 848w, https://substackcdn.com/image/fetch/$s_!3k8C!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png 1272w, https://substackcdn.com/image/fetch/$s_!3k8C!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!3k8C!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png" width="1456" height="971" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:971,&quot;width&quot;:1456,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:1263790,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/png&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:false,&quot;topImage&quot;:true,&quot;internalRedirect&quot;:&quot;https://blog.praephos.com/i/195794343?img=https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png&quot;,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!3k8C!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png 424w, https://substackcdn.com/image/fetch/$s_!3k8C!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png 848w, https://substackcdn.com/image/fetch/$s_!3k8C!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png 1272w, https://substackcdn.com/image/fetch/$s_!3k8C!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8b3e7e5c-ab1e-4446-9641-4638e56b0140_1536x1024.png 1456w" sizes="100vw" fetchpriority="high"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">Se estima que modelos como GPT y Opus duplican en tama&#241;o a deepseek v4.</figcaption></figure></div><h2>M&#225;s all&#225; del modelo: el harness</h2><p>Un agente es m&#225;s que solo un modelo de lenguaje. Est&#225; definido por el entorno en el que ese modelo se ejecuta. A ese entorno le llamamos harness.</p><p>Este entorno est&#225; compuesto por varias capas que hacen posible que el agente opere m&#225;s all&#225; de una llamada:</p><ol><li><p>Estado inicial</p></li><li><p>Gesti&#243;n de estado</p></li><li><p>Memoria persistente</p></li><li><p>Acceso a herramientas</p></li><li><p>Aislamiento por sesi&#243;n o usuario</p></li><li><p>Routing de inputs y outputs</p></li><li><p>Pol&#237;ticas de ejecuci&#243;n</p></li><li><p>Recuperaci&#243;n tras fallos</p></li></ol><p>Estas capas no son inherentes al modelo de lenguaje. Tampoco pertenecen necesariamente al prompt. Sin embargo, son las que determinan c&#243;mo evoluciona el sistema a lo largo del tiempo.</p><p>Para este experimento utilizamos <a href="https://hermes-agent.nousresearch.com/">Hermes Agent</a>, desarrollado por <a href="https://nousresearch.com/">Nous Research</a>, como base. No como sistema final, sino como punto de partida sobre el que a&#241;adiremos m&#225;s capas.</p><h2>El experimento</h2><p>Utilizamos Hermes Agent como base por dos razones: facilidad de despliegue y soporte nativo para m&#250;ltiples canales de comunicaci&#243;n (Discord, Slack, Signal, WeChat, Telegram, WhatsApp). Esto nos permiti&#243; centrarnos en la capa operativa sin tener que construir el gateway desde cero.</p><p>Desde el inicio, el problema no era desplegarlo, sino el control del entorno de ejecuci&#243;n. En particular:</p><ul><li><p>Aislamiento entre usuarios</p></li><li><p>Aislamiento entre agentes</p></li><li><p>Control expl&#237;cito de estado</p></li><li><p>Prevenci&#243;n de acceso cruzado a memoria o recursos</p></li></ul><p>Para resolver estos puntos, decid&#237; a&#241;adir capas adicionales orientadas a definir fronteras claras para los usuarios de prueba y sus agentes.</p><p>La primera decisi&#243;n fue separar el ambiente de ejecuci&#243;n (usuario) del perfil de cada agente. A nivel de usuario definimos los recursos disponibles, los servicios accesibles, las configuraciones compartidas y la red interna. A nivel de agente definimos la identidad, configuraci&#243;n, memoria y pol&#237;ticas de comportamiento.</p><p>Esto permite desplegar m&#250;ltiples usuarios y m&#250;ltiples agentes de forma controlada, evitando interferencias y manteniendo el estado aislado.</p><p>La segunda decisi&#243;n fue c&#243;mo permitir que los agentes mejoren y se adapten con el tiempo. Para esto utilizamos <a href="https://honcho.dev/">Honcho</a>, que gestiona la memoria de corto y largo plazo de forma aislada por agente. Esto permite que el agente evolucione a medida que interact&#250;a con el usuario.</p><p>Adicionalmente, introdujimos un proceso de introspecci&#243;n en background. En periodos de inactividad, el agente puede revisar interacciones pasadas y evaluar c&#243;mo podr&#237;a haber respondido mejor. Este proceso no es continuo ni global, y se controla de forma expl&#237;cita.</p><p>La tercera decisi&#243;n fue desacoplar las capacidades externas del agente. Servicios como b&#250;squeda en internet, crawling o ejecuci&#243;n se tratan como infraestructura externa. El agente no contiene estas capacidades, solo define c&#243;mo utilizarlas. Esto permite modificar la infraestructura sin afectar directamente a los agentes.</p><p>La cuarta decisi&#243;n fue que no todos los agentes deben comportarse igual. Esto va m&#225;s all&#225; del prompt. Definimos dos tipos de agentes: el agente general y el agente acompa&#241;ante. Ambos comparten capacidades, pero difieren en comportamiento. El primero es reactivo. El segundo puede iniciar interacci&#243;n bajo ciertas condiciones, por ejemplo para hacer seguimiento o retomar contexto previo.</p><p>Finalmente, como todo sistema, es necesario un m&#243;dulo de observabilidad. Para esto registramos eventos como uso de herramientas, transiciones de estado, errores, sesiones, actividad de memoria, latencias y comportamiento por agente. Esto nos permite analizar el sistema y ajustar configuraciones de forma controlada.</p><h2>Resultados</h2><p>Esta vez el experimento cont&#243; con usuarios beta. Participaron m&#225;s de 10 usuarios activos (en su mayor&#237;a perfiles no t&#233;cnicos) a lo largo del mes de abril y m&#225;s de 20 agentes operando en paralelo. En total, se generaron aproximadamente 360 millones de tokens (casi 220 millones de palabras) a trav&#233;s de OpenRouter. El modelo principal fue Nemotron 120B A12B; para tareas de visi&#243;n utilizamos Gemma 4 26B A4B en todos los perfiles.</p><p>M&#225;s all&#225; de los n&#250;meros, lo relevante fue la interacci&#243;n entre los usuarios y sus agentes.</p><p>Varios usuarios comentaron que la experiencia se sent&#237;a distinta a usar ChatGPT, no tanto por la calidad de la respuesta, sino por el contexto de la conversaci&#243;n y el entendimiento que se constru&#237;a a medida que interactuaban m&#225;s. El agente recordaba, manten&#237;a l&#237;neas de conversaci&#243;n y no requer&#237;a repetir instrucciones constantemente.</p><p>Tambi&#233;n apareci&#243; algo inesperado: el canal importa. Poder interactuar a trav&#233;s de Discord cambi&#243; la forma de uso. Esto aument&#243; la frecuencia de interacci&#243;n sin necesidad de &#8220;abrir&#8221; el agente expl&#237;citamente. Muchos usuarios mencionaron que tenerlo en aplicaciones que utilizan con frecuencia facilitaba la experiencia, algo que tambi&#233;n se observ&#243; en otras plataformas de mensajer&#237;a.</p><p>En tareas concretas, algunos usuarios lograron automatizar flujos peque&#241;os que antes no resolv&#237;an bien con herramientas tradicionales. No por la capacidad del modelo en s&#237;, sino por la combinaci&#243;n de memoria, herramientas y persistencia.</p><p>La funcionalidad de companion tuvo un comportamiento distinto al esperado. No se utiliz&#243; como un asistente utilitario, sino como un espacio de reflexi&#243;n. Algunos usuarios lo integraron en procesos de journaling, aprovechando la memoria y la continuidad para dar seguimiento a ideas, decisiones y estado personal a lo largo de varios d&#237;as. Otros destacaron la capacidad de hacer follow-up incluso sobre temas que hab&#237;an conversado una semana antes.</p><p>Lo interesante de estos agentes no es solo su capacidad, sino su maleabilidad para adaptarse a distintas tareas y roles seg&#250;n el usuario.</p><h2>Conclusiones</h2><p>La principal conclusi&#243;n de este experimento es que no necesitamos los modelos m&#225;s grandes para tener agentes aut&#243;nomos funcionales. Con la infraestructura adecuada, incluso un modelo m&#225;s peque&#241;o puede tener un desempe&#241;o comparable al de modelos significativamente mayores.</p><p>Esto no implica que no existan diferencias. En tareas espec&#237;ficas o en el uso de ciertas herramientas, los modelos m&#225;s grandes siguen teniendo ventaja, en gran parte porque es m&#225;s probable que hayan visto ese tipo de problemas durante su entrenamiento.</p><p>Sin embargo, al centrarnos en un usuario m&#225;s estandarizado, en este caso perfiles no t&#233;cnicos, estas diferencias resultan mucho menos perceptibles en el uso cotidiano.</p><p>Si te interesa probar este tipo de agentes o explorar c&#243;mo se comportan en tu propio flujo de trabajo, puedes comentar al final del post o escribirme directamente.</p><div><hr></div><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://blog.praephos.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscribirse&quot;,&quot;language&quot;:&quot;es&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">Gracias por leer <strong>Praephos AI</strong>. Suscr&#237;bete para recibir nuevas publicaciones.</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="Escribe tu correo electr&#243;nico..." tabindex="-1"><input type="submit" class="button primary" value="Suscribirse"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><div><hr></div>]]></content:encoded></item><item><title><![CDATA[Surf e inteligencia artificial, una nueva perspectiva]]></title><description><![CDATA[Un experimento que combina surfing, bodyboarding y visi&#243;n computacional para analizar tus sesiones.]]></description><link>https://blog.praephos.com/p/surf-e-inteligencia-artificial-una</link><guid isPermaLink="false">https://blog.praephos.com/p/surf-e-inteligencia-artificial-una</guid><dc:creator><![CDATA[Diego García Rieckhof]]></dc:creator><pubDate>Tue, 17 Mar 2026 13:45:52 GMT</pubDate><enclosure url="https://substack-post-media.s3.amazonaws.com/public/images/36b2d38c-3314-4262-8f3e-b00bf8343f2e_1536x1024.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<h2>Modelos en el mundo real</h2><p>En el <a href="https://blog.praephos.com/p/vision-computacional-rf-detr">art&#237;culo anterior</a> exploramos algunos de los modelos que hoy permiten construir m&#250;ltiples sistemas de visi&#243;n computacional capaces de detectar, segmentar y seguir objetos en videos. Si te lo perdiste y est&#225;s interesado en la tecnolog&#237;a que le da vida a este proyecto, no dudes en leerlo.</p><blockquote><p>Pero en el d&#237;a a d&#237;a los modelos no son el objetivo, sino lo que habilitan.</p></blockquote><p>El verdadero reto nace cuando vamos m&#225;s all&#225; de los benchmarks y nos enfrentamos a nuevos contextos, donde las condiciones son mucho m&#225;s complejas y menos controladas.</p><p>Surfing y bodyboarding son deportes profundamente visuales. Gran parte del an&#225;lisis del rendimiento ocurre revisando videos de sesiones: trayectorias en la ola, selecci&#243;n de secciones, timing o ejecuci&#243;n de maniobras. Sin embargo, ese an&#225;lisis sigue siendo principalmente manual.</p><div class="pullquote"><p>Este proyecto parte de una pregunta simple: <strong>&#191;qu&#233; ocurre cuando aplicamos visi&#243;n computacional a este tipo de escenas?</strong></p></div><div class="native-video-embed" data-component-name="VideoPlaceholder" data-attrs="{&quot;mediaUploadId&quot;:&quot;40381bfb-8f71-428a-9d14-bc2234a3f097&quot;,&quot;duration&quot;:null}"></div><p>En el video vemos a <a href="https://www.youtube.com/watch?v=pOQQAFf_TnU">John John Florence</a> (incre&#237;ble surfer) en uno de los videos que analizaremos. Este tipo de material es el punto de partida del experimento. M&#225;s adelante veremos c&#243;mo transformamos un video de este estilo utilizando visi&#243;n computacional.</p><h2>El surf todav&#237;a carece de anal&#237;tica real</h2><p>En muchos deportes el an&#225;lisis del rendimiento ya forma parte del entrenamiento diario. En f&#250;tbol se analizan mapas de calor y trayectorias de jugadores. En ciclismo se miden potencia, cadencia y eficiencia. Incluso en running cada sesi&#243;n puede descomponerse en m&#233;tricas detalladas.</p><p>Sin embargo, surfing y bodyboarding siguen dependiendo en gran medida de la observaci&#243;n directa y la revisi&#243;n manual de videos. Atletas, entrenadores y aficionados revisan sesiones para entender decisiones como la selecci&#243;n de olas, la l&#237;nea tomada en la pared o el timing de una maniobra.</p><p>Ese proceso funciona, pero tiene limitaciones claras. El an&#225;lisis suele ser subjetivo, es dif&#237;cil comparar sesiones a lo largo del tiempo y gran parte de la informaci&#243;n presente en el video simplemente no se cuantifica.</p><blockquote><p>Esto crea una brecha interesante.</p></blockquote><p>Existe una enorme cantidad de videos de surf y bodyboard, pero todav&#237;a hay muy pocas herramientas que permitan transformarlo en datos para analizar el rendimiento de forma sistem&#225;tica.</p><div class="pullquote"><p>Ah&#237; es donde este experimento en visi&#243;n computacional empieza a ser relevante.</p></div><h2>Caso de uso: Surfing</h2><p>A partir de un video es posible comenzar a detectar y seguir a los riders a lo largo de una ola. Esto permite reconstruir trayectorias, analizar la duraci&#243;n del rider en la ola y observar c&#243;mo se mueve a lo largo de ella.</p><p>Aunque este es solo un primer experimento, incluso este nivel b&#225;sico de an&#225;lisis ya permite empezar a extraer informaci&#243;n interesante de una sesi&#243;n. Por ejemplo, c&#243;mo cambia la l&#237;nea tomada en distintas olas o cu&#225;nto tiempo permanece un rider en la pared antes de salir de la secci&#243;n.</p><div class="native-video-embed" data-component-name="VideoPlaceholder" data-attrs="{&quot;mediaUploadId&quot;:&quot;1cbaf562-d8ef-40e7-863b-52ae9d81a08b&quot;,&quot;duration&quot;:null}"></div><p></p><p>En el video anterior vimos un ejemplo con John John Florence. El sistema detecta al surfista y lo sigue a lo largo de la ola, generando una representaci&#243;n simple pero &#250;til de su trayectoria.</p><p>Este tipo de informaci&#243;n puede ser el primer paso hacia herramientas que permitan analizar sesiones de surf de manera m&#225;s sistem&#225;tica.</p><h2>Caso de uso: Bodyboarding</h2><p>Aunque comparte el mismo entorno que el surf, la din&#225;mica del movimiento es distinta. La postura del atleta, la forma en que se interact&#250;a con la ola y el tipo de maniobras cambian considerablemente. Esto hace que el bodyboarding sea un buen segundo caso para probar la robustez del sistema.</p><p>En este ejemplo analizamos una sesi&#243;n de <a href="https://www.youtube.com/watch?v=7XNebQ8s76E">Pierre Louis Costes</a>, uno de los bodyboarders m&#225;s reconocidos del circuito profesional.</p><div class="native-video-embed" data-component-name="VideoPlaceholder" data-attrs="{&quot;mediaUploadId&quot;:&quot;33abf840-b2ab-4067-8bbe-761bfcfbb413&quot;,&quot;duration&quot;:null}"></div><p></p><p>Al igual que en el caso anterior, el sistema detecta al atleta y lo sigue a lo largo de la ola. A partir de esa informaci&#243;n es posible reconstruir trayectorias dentro de la secci&#243;n, observar c&#243;mo se posiciona en la pared de la ola y analizar la duraci&#243;n de cada ride.</p><div class="pullquote"><p>El mismo enfoque de visi&#243;n computacional puede extenderse a distintos deportes acuaticos sin necesidad de redise&#241;ar completamente el sistema.</p></div><h2>Conclusi&#243;n</h2><p>Surfing y bodyboarding generan enormes cantidades de video, pero todav&#237;a existen pocas herramientas que permitan analizar ese material de forma sistem&#225;tica. Esto abre una oportunidad interesante para explorar c&#243;mo la visi&#243;n computacional puede transformar esas sesiones en datos y nuevas formas de analizar el rendimiento.</p><p>Este proyecto es un primer experimento en esa direcci&#243;n. Incluso en esta etapa inicial ya es posible empezar a observar patrones, trayectorias y decisiones dentro de una ola desde una perspectiva distinta.</p><p>Si este experimento te resulta interesante o tienes ideas sobre c&#243;mo expandir el sistema, te invito a dejar tus comentarios. Y si te interesa explorar aplicaciones m&#225;s all&#225; de estos deportes o colaborar en el desarrollo del proyecto, no dudes en escribirme.</p><div><hr></div><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://blog.praephos.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscribirse&quot;,&quot;language&quot;:&quot;es&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">Gracias por leer <strong>Praephos AI</strong>. Suscr&#237;bete para recibir nuevas publicaciones.</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="Escribe tu correo electr&#243;nico..." tabindex="-1"><input type="submit" class="button primary" value="Suscribirse"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><div><hr></div>]]></content:encoded></item><item><title><![CDATA[Visión computacional: RF-DETR]]></title><description><![CDATA[Arquitectura, optimizacion y diferencias frente a YOLO y DETR]]></description><link>https://blog.praephos.com/p/vision-computacional-rf-detr</link><guid isPermaLink="false">https://blog.praephos.com/p/vision-computacional-rf-detr</guid><dc:creator><![CDATA[Diego García Rieckhof]]></dc:creator><pubDate>Tue, 03 Mar 2026 13:30:30 GMT</pubDate><enclosure url="https://substack-post-media.s3.amazonaws.com/public/images/78eadcc1-eed8-413b-912f-0ebec7d8b524_1536x1024.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Este art&#237;culo analiza <strong><a href="https://github.com/roboflow/rf-detr">RF-DETR</a></strong> dentro del ecosistema actual de <strong>visi&#243;n computacional </strong><em><strong>(computer vision)</strong></em>, espec&#237;ficamente en <strong>deteccion y segmentacion de objetos</strong>. El objetivo es entender las diferencias estructurales frente a <strong><a href="https://github.com/ultralytics/ultralytics">YOLO </a></strong><em><strong><a href="https://github.com/ultralytics/ultralytics">(You Only Look Once)</a></strong></em> y a modelos basados en <strong><a href="https://github.com/facebookresearch/detr">DETR </a></strong><em><strong><a href="https://github.com/facebookresearch/detr">(Detection Transformer)</a></strong></em>, y evaluar qu&#233; cambia en t&#233;rminos de arquitectura y optimizaci&#243;n.</p><p>La comparaci&#243;n se organiza en tres niveles:</p><ol><li><p>Diferencias en la arquitectura de cada modelo.</p></li><li><p>Implicancias en latencia y eficiencia.</p></li><li><p>Impacto en el ciclo de dise&#241;o y despliegue de modelos.</p></li></ol><h3>Estado actual</h3><p>La deteccion de objetos en visi&#243;n computacional <em><strong>(computer vision)</strong></em> ha evolucionado hacia tres lineas principales. Aunque todas buscan localizar y clasificar objetos en una imagen, difieren en c&#243;mo estructuran el problema. Para entender esas diferencias es &#250;til definir tres conceptos:</p><ol><li><p><strong>Redundancia:</strong> Producir multiples predicciones para un mismo objeto. Por ejemplo, un unico auto puede aparecer marcado por varias cajas superpuestas.</p></li><li><p><strong>Asignacion:</strong> El mecanismo que empareja las predicciones del modelo con los objetos reales durante el entrenamiento.</p></li><li><p><strong>Postprocesamiento:</strong> Pasos adicionales aplicados despues de que la red genera sus salidas, como eliminar duplicados o ajustar resultados.</p></li></ol><p>Con estos conceptos claros, podemos diferenciar las tres familias principales.</p><h4>Modelos de prediccion densa: la familia YOLO</h4><p>Los modelos <strong>YOLO </strong><em><strong>(You Only Look Once)</strong></em> generan muchas predicciones en paralelo sobre distintas regiones de la imagen. La redundancia es intencional: el modelo produce multiples bounding boxes candidatas y luego filtra.</p><p>El filtrado se realiza mediante <strong>NMS </strong><em><strong>(Non-Maximum Suppression)</strong></em>, un algoritmo que elimina cajas superpuestas conservando la de mayor confianza segun un umbral de solapamiento medido con <em><strong>Intersection over Union</strong></em><strong> (IoU)</strong>. <strong>NMS</strong> es un paso de postprocesamiento externo al modelo.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!Ae68!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!Ae68!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 424w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 848w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 1272w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!Ae68!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png" width="520" height="273.72222222222223" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:379,&quot;width&quot;:720,&quot;resizeWidth&quot;:520,&quot;bytes&quot;:null,&quot;alt&quot;:&quot;YOLOv10: Paper Explanation and Inference Results&quot;,&quot;title&quot;:null,&quot;type&quot;:null,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="YOLOv10: Paper Explanation and Inference Results" title="YOLOv10: Paper Explanation and Inference Results" srcset="https://substackcdn.com/image/fetch/$s_!Ae68!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 424w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 848w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 1272w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">NMS (Non-Maximum Suppression)</figcaption></figure></div><p>Durante el entrenamiento, la asignacion es local: cada celda o anchor se asocia a un objeto cercano segun reglas geom&#233;tricas.</p><p>En este enfoque:</p><ul><li><p>Se acepta redundancia.</p></li><li><p>Se corrige mediante <strong>NMS</strong>.</p></li><li><p>La asignacion es local.</p></li></ul><h4>Modelos basados en DETR</h4><p><strong>DETR </strong><em><strong>(Detection Transformer)</strong></em> reformula el problema como prediccion de un conjunto <em><strong>(set prediction)</strong></em>. En lugar de producir muchas predicciones y luego filtrarlas, intenta generar directamente un conjunto coherente de objetos.</p><p>La arquitectura utiliza un <em><strong>encoder-decoder Transformer</strong></em>. El <em><strong>decoder</strong></em> opera sobre un conjunto fijo de <em><strong>object queries</strong></em> aprendibles, donde cada query intenta representar un objeto.</p><div class="captioned-image-container"><figure><a class="image-link image2" target="_blank" href="https://substackcdn.com/image/fetch/$s_!8wBa!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!8wBa!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 424w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 848w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 1272w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!8wBa!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png" width="1204" height="267" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:267,&quot;width&quot;:1204,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:null,&quot;alt&quot;:&quot;High-level DETR architecture, from arXiv:2005.12872v3&quot;,&quot;title&quot;:null,&quot;type&quot;:null,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="High-level DETR architecture, from arXiv:2005.12872v3" title="High-level DETR architecture, from arXiv:2005.12872v3" srcset="https://substackcdn.com/image/fetch/$s_!8wBa!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 424w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 848w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 1272w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 1456w" sizes="100vw" loading="lazy"></picture><div></div></div></a></figure></div><p>Durante el entrenamiento se emplea <em><strong>Hungarian matching</strong></em>, un algoritmo de asignacion bipartita que empareja predicciones y objetos reales de forma uno a uno. Esto obliga al modelo a producir una unica prediccion por objeto.</p><p>Como consecuencia, en principio no requiere <strong>NMS</strong> como componente central.</p><p>En este enfoque:</p><ul><li><p>Se evita la redundancia desde el dise&#241;o.</p></li><li><p>No depende de <strong>NMS</strong>.</p></li><li><p>La asignacion es global y uno a uno.</p></li></ul><h4>Detectores open-vocabulary</h4><p>Una tercera linea integra modelos <em><strong>vision-language</strong></em>. Estos incorporan un <em><strong>text encoder</strong></em> y combinan representaciones visuales y textuales mediante mecanismos de <em><strong>cross-attention</strong></em>.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!1iky!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!1iky!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 424w, https://substackcdn.com/image/fetch/$s_!1iky!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 848w, https://substackcdn.com/image/fetch/$s_!1iky!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 1272w, https://substackcdn.com/image/fetch/$s_!1iky!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!1iky!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png" width="382" height="398.0027027027027" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:771,&quot;width&quot;:740,&quot;resizeWidth&quot;:382,&quot;bytes&quot;:null,&quot;alt&quot;:&quot;Verifying Vision-Language Alignment with Cross-Attention Map (feat. DINO)&quot;,&quot;title&quot;:null,&quot;type&quot;:null,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="Verifying Vision-Language Alignment with Cross-Attention Map (feat. DINO)" title="Verifying Vision-Language Alignment with Cross-Attention Map (feat. DINO)" srcset="https://substackcdn.com/image/fetch/$s_!1iky!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 424w, https://substackcdn.com/image/fetch/$s_!1iky!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 848w, https://substackcdn.com/image/fetch/$s_!1iky!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 1272w, https://substackcdn.com/image/fetch/$s_!1iky!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">Caron, M. et al. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of ICCV.</figcaption></figure></div><p>La diferencia principal no es el manejo de duplicados, sino la ampliacion del espacio semantico: permiten detectar categorias fuera de un conjunto cerrado.</p><p>Esto implica:</p><ul><li><p>Procesamiento adicional en inferencia.</p></li><li><p>Mayor costo computacional.</p></li><li><p>Dependencia del preentrenamiento multimodal.</p></li></ul><h3>Diferencias entre arquitecturas</h3><p>La diferencia principal entre las tres arquitecturas es c&#243;mo parametrizan el espacio de salida, es decir, la representaci&#243;n latente sobre la que se define el proceso de b&#250;squeda de objetos.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!I3J4!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!I3J4!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 424w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 848w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 1272w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!I3J4!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png" width="1114" height="777" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:777,&quot;width&quot;:1114,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:92781,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/png&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:&quot;https://blog.praephos.com/i/188006498?img=https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png&quot;,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!I3J4!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 424w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 848w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 1272w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">Elaboraci&#243;n propia</figcaption></figure></div><p>Consideremos una imagen con tres objetos: un auto parcialmente tapado por otro objeto, un peat&#243;n peque&#241;o al fondo y una bicicleta que se cruza visualmente con el auto. Es un caso t&#237;pico: objetos de distinto tama&#241;o, parcialmente visibles y con regiones que se superponen.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!yfXo!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!yfXo!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 424w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 848w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 1272w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!yfXo!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png" width="335" height="335" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/e72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:1024,&quot;width&quot;:1024,&quot;resizeWidth&quot;:335,&quot;bytes&quot;:2222748,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/png&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:&quot;https://blog.praephos.com/i/188006498?img=https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png&quot;,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!yfXo!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 424w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 848w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 1272w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">Imagen generada mediante IA (Google Gemini, 2026)</figcaption></figure></div><p>En una arquitectura tipo <strong>YOLO</strong>, distintas regiones de la imagen pueden activarse sobre el mismo objeto. El auto puede generar varias cajas candidatas porque varias celdas &#8220;ven&#8221; partes distintas del mismo objeto. El modelo no evita esa duplicaci&#243;n. Produce m&#250;ltiples hip&#243;tesis y luego <strong>NMS</strong> decide cu&#225;l conservar seg&#250;n el solapamiento (IoU). <strong>La ambig&#252;edad se resuelve despu&#233;s de predecir</strong>.</p><p>En <strong>DETR</strong>, la situaci&#243;n es distinta. El modelo dispone de un <strong>conjunto fijo de representaciones</strong> latentes (object queries). Cada una debe explicar, como m&#225;ximo, un objeto. Durante entrenamiento, la asignaci&#243;n uno a uno obliga a que el auto sea representado por una &#250;nica predicci&#243;n. <strong>Si dos queries intentan representar el mismo objeto, una ser&#225; penalizada</strong>. La ambig&#252;edad se resuelve dentro del modelo, no en un paso externo.</p><p><strong>RF-DETR</strong> mantiene la formulaci&#243;n de <strong>DETR</strong> como predicci&#243;n de un conjunto con asignaci&#243;n uno a uno. La diferencia es que no entrena una &#250;nica arquitectura fija.</p><p>Se entrena una superred con pesos compartidos que contiene m&#250;ltiples subconfiguraciones. Despu&#233;s del entrenamiento, se puede seleccionar una configuraci&#243;n m&#225;s peque&#241;a o m&#225;s grande sin reentrenar desde cero.</p><h3>Conclusiones e implicaciones</h3><p>El objetivo de este art&#237;culo no es comparar cu&#225;l modelo obtiene mejor resultado en un benchmark espec&#237;fico, sino entender c&#243;mo cada arquitectura define el problema y qu&#233; implica esa definici&#243;n para nuestro sistema.</p><p><strong>YOLO</strong>, <strong>DETR</strong> y <strong>RF-DETR</strong> son m&#225;s que variaciones t&#233;cnicas. Representan decisiones distintas sobre:</p><ul><li><p>C&#243;mo se parametriza el espacio de salida.</p></li><li><p>D&#243;nde se controla la redundancia.</p></li><li><p>En qu&#233; etapa se fijan las restricciones del sistema.</p></li></ul><p><strong>YOLO</strong> coloca parte de la coherencia en inferencia. <strong>DETR</strong> la internaliza en el aprendizaje. <strong>RF-DETR</strong> mantiene esa formulaci&#243;n, pero introduce flexibilidad en c&#243;mo se concreta la arquitectura entrenada.</p><blockquote><p>El principal trade-off es estructura versus control.</p></blockquote><p>Elegir un enfoque implica decidir:</p><ul><li><p>Si se prefiere una arquitectura fija y expl&#237;cita.</p></li><li><p>Si se prioriza coherencia estructural desde el entrenamiento.</p></li><li><p>Si se necesita capacidad de adaptaci&#243;n posterior sin redefinir la l&#243;gica de predicci&#243;n.</p></li></ul><p>La elecci&#243;n deber&#237;a basarse en lo que esperamos que el sistema haga y bajo qu&#233; restricciones debe operar.</p><div><hr></div><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://blog.praephos.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscribirse&quot;,&quot;language&quot;:&quot;es&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">Gracias por leer <strong>Praephos AI</strong>. Suscr&#237;bete para recibir nuevas publicaciones.</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="Escribe tu correo electr&#243;nico..." tabindex="-1"><input type="submit" class="button primary" value="Suscribirse"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><div><hr></div>]]></content:encoded></item><item><title><![CDATA[Praephos AI]]></title><description><![CDATA[Experimento, luego entiendo.]]></description><link>https://blog.praephos.com/p/praephos-ai</link><guid isPermaLink="false">https://blog.praephos.com/p/praephos-ai</guid><dc:creator><![CDATA[Diego García Rieckhof]]></dc:creator><pubDate>Tue, 17 Feb 2026 13:31:41 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!K0Zr!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Descartes buscaba una certeza en el pensamiento; es de ah&#237; que m&#225;s de alguna vez habremos escuchado <strong>&#8220;Cogito ergo sum&#8221; o, en espa&#241;ol, &#8220;Pienso, luego existo&#8221;.</strong> Si lo llevamos a otros &#225;mbitos, podr&#237;amos decir que sin experimentaci&#243;n no hay comprensi&#243;n real de ning&#250;n fen&#243;meno.</p><p>En base a esta premisa nace <strong>Praephos</strong>, la evoluci&#243;n de <strong>The Data Chronicles</strong>. Cuando comenc&#233; a escribir en este blog, mi idea era muy sencilla: contar historias a trav&#233;s de datos, descomponer conceptos y estructurar ideas.</p><p>Sin embargo, entender desde fuera tiene un l&#237;mite.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!K0Zr!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!K0Zr!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 424w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 848w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 1272w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!K0Zr!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png" width="540" height="360.1236263736264" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/c0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:971,&quot;width&quot;:1456,&quot;resizeWidth&quot;:540,&quot;bytes&quot;:2857069,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/png&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:false,&quot;topImage&quot;:true,&quot;internalRedirect&quot;:&quot;https://blog.praephos.com/i/187706595?img=https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png&quot;,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!K0Zr!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 424w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 848w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 1272w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 1456w" sizes="100vw" fetchpriority="high"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">Las ideas y los experimentos construyen la realidad.</figcaption></figure></div><h3>Un nuevo espacio</h3><p>Entender los datos a trav&#233;s de historias, e incluso descubrirlas con datos, sigue siendo valioso. La claridad sigue siendo importante, pero la comprensi&#243;n real exige algo m&#225;s.</p><p>La sociedad no avanza solo porque consume informaci&#243;n. Avanza cuando interviene en la realidad. Todos, en alg&#250;n momento, consciente o inconscientemente, formulamos hip&#243;tesis, probamos caminos, definimos qu&#233; significa que algo funcione y evaluamos resultados. Cuando no funciona, ajustamos o aceptamos que no era la ruta adecuada.</p><blockquote><p>Ese ciclo no es exclusivo de la ciencia. Es el n&#250;cleo del desarrollo intelectual.</p></blockquote><h3>Crecer implica exponerse al error</h3><p>El aprendizaje real no ocurre cuando acumulamos conceptos. Ocurre cuando nuestras ideas encuentran cierta fricci&#243;n.</p><p>En machine learning, un modelo mejora porque se enfrenta al error. Ajusta sus par&#225;metros, corrige las desviaciones y vuelve a intentarlo. Sin medici&#243;n no hay progreso.</p><p>Con nosotros pasa algo similar.</p><p>Crecer implica formular una idea propia y arriesgarse a que est&#233; equivocada. Implica actuar, observar consecuencias y ajustar criterio. Sin exposici&#243;n al error solo reforzamos intuiciones c&#243;modas.</p><p>La diferencia entre consumo y desarrollo est&#225; ah&#237;. Consumir es absorber informaci&#243;n sin ninguna fricci&#243;n. Desarrollar es intervenir y aceptar que no siempre saldr&#225;n las cosas como esperamos.</p><p>Praephos se posiciona en ese segundo terreno.</p><h3>Una evoluci&#243;n necesaria</h3><p>Praephos no es solo una evoluci&#243;n del blog. Es una consecuencia natural del punto al que lleg&#243; este proceso.</p><p>Si el an&#225;lisis fue el primer paso, ahora el foco est&#225; en involucrarse directamente con las ideas. No basta con entender c&#243;mo funcionan las cosas en teor&#237;a. Es necesario trabajar con ellas, probarlas, medirlas y aceptar sus l&#237;mites.</p><p>La inteligencia artificial no avanza por explicaciones elegantes, sino por iteraci&#243;n. Algo similar ocurre con el pensamiento cuando se toma en serio. La claridad importa, pero el criterio se forma cuando una idea se contrasta con la realidad.</p><p>Por eso el enfoque cambia.</p><p>Experimento, luego entiendo no es una frase suelta que se me ocurri&#243; o &#191;copi&#233;?. Es la direcci&#243;n que quiero tomar a partir de ahora y, en cierta forma, una manera de cuestionar la forma en que consumimos contenido en la era digital.</p><div><hr></div><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://blog.praephos.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscribirse&quot;,&quot;language&quot;:&quot;es&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">Gracias por leer <strong>Praephos AI</strong>. Suscr&#237;bete para recibir nuevas publicaciones.</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="Escribe tu correo electr&#243;nico..." tabindex="-1"><input type="submit" class="button primary" value="Suscribirse"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><div><hr></div>]]></content:encoded></item></channel></rss>