<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:googleplay="http://www.google.com/schemas/play-podcasts/1.0"><channel><title><![CDATA[Praephos AI]]></title><description><![CDATA[Machine learning e inteligencia artificial.]]></description><link>https://blog.praephos.com</link><image><url>https://substackcdn.com/image/fetch/$s_!PTal!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fef21104f-8bf7-4a27-858c-3da226143dec_1024x1024.png</url><title>Praephos AI</title><link>https://blog.praephos.com</link></image><generator>Substack</generator><lastBuildDate>Sun, 19 Apr 2026 15:27:13 GMT</lastBuildDate><atom:link href="https://blog.praephos.com/feed" rel="self" type="application/rss+xml"/><copyright><![CDATA[Diego García Rieckhof]]></copyright><language><![CDATA[es]]></language><webMaster><![CDATA[diegogarcarieckhof@substack.com]]></webMaster><itunes:owner><itunes:email><![CDATA[diegogarcarieckhof@substack.com]]></itunes:email><itunes:name><![CDATA[Diego García Rieckhof]]></itunes:name></itunes:owner><itunes:author><![CDATA[Diego García Rieckhof]]></itunes:author><googleplay:owner><![CDATA[diegogarcarieckhof@substack.com]]></googleplay:owner><googleplay:email><![CDATA[diegogarcarieckhof@substack.com]]></googleplay:email><googleplay:author><![CDATA[Diego García Rieckhof]]></googleplay:author><itunes:block><![CDATA[Yes]]></itunes:block><item><title><![CDATA[Surf e inteligencia artificial, una nueva perspectiva]]></title><description><![CDATA[Un experimento que combina surfing, bodyboarding y visi&#243;n computacional para analizar tus sesiones.]]></description><link>https://blog.praephos.com/p/surf-e-inteligencia-artificial-una</link><guid isPermaLink="false">https://blog.praephos.com/p/surf-e-inteligencia-artificial-una</guid><dc:creator><![CDATA[Diego García Rieckhof]]></dc:creator><pubDate>Tue, 17 Mar 2026 13:45:52 GMT</pubDate><enclosure url="https://substack-post-media.s3.amazonaws.com/public/images/36b2d38c-3314-4262-8f3e-b00bf8343f2e_1536x1024.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<h2>Modelos en el mundo real</h2><p>En el <a href="https://blog.praephos.com/p/vision-computacional-rf-detr">art&#237;culo anterior</a> exploramos algunos de los modelos que hoy permiten construir m&#250;ltiples sistemas de visi&#243;n computacional capaces de detectar, segmentar y seguir objetos en videos. Si te lo perdiste y est&#225;s interesado en la tecnolog&#237;a que le da vida a este proyecto, no dudes en leerlo.</p><blockquote><p>Pero en el d&#237;a a d&#237;a los modelos no son el objetivo, sino lo que habilitan.</p></blockquote><p>El verdadero reto nace cuando vamos m&#225;s all&#225; de los benchmarks y nos enfrentamos a nuevos contextos, donde las condiciones son mucho m&#225;s complejas y menos controladas.</p><p>Surfing y bodyboarding son deportes profundamente visuales. Gran parte del an&#225;lisis del rendimiento ocurre revisando videos de sesiones: trayectorias en la ola, selecci&#243;n de secciones, timing o ejecuci&#243;n de maniobras. Sin embargo, ese an&#225;lisis sigue siendo principalmente manual.</p><div class="pullquote"><p>Este proyecto parte de una pregunta simple: <strong>&#191;qu&#233; ocurre cuando aplicamos visi&#243;n computacional a este tipo de escenas?</strong></p></div><div class="native-video-embed" data-component-name="VideoPlaceholder" data-attrs="{&quot;mediaUploadId&quot;:&quot;40381bfb-8f71-428a-9d14-bc2234a3f097&quot;,&quot;duration&quot;:null}"></div><p>En el video vemos a <a href="https://www.youtube.com/watch?v=pOQQAFf_TnU">John John Florence</a> (incre&#237;ble surfer) en uno de los videos que analizaremos. Este tipo de material es el punto de partida del experimento. M&#225;s adelante veremos c&#243;mo transformamos un video de este estilo utilizando visi&#243;n computacional.</p><h2>El surf todav&#237;a carece de anal&#237;tica real</h2><p>En muchos deportes el an&#225;lisis del rendimiento ya forma parte del entrenamiento diario. En f&#250;tbol se analizan mapas de calor y trayectorias de jugadores. En ciclismo se miden potencia, cadencia y eficiencia. Incluso en running cada sesi&#243;n puede descomponerse en m&#233;tricas detalladas.</p><p>Sin embargo, surfing y bodyboarding siguen dependiendo en gran medida de la observaci&#243;n directa y la revisi&#243;n manual de videos. Atletas, entrenadores y aficionados revisan sesiones para entender decisiones como la selecci&#243;n de olas, la l&#237;nea tomada en la pared o el timing de una maniobra.</p><p>Ese proceso funciona, pero tiene limitaciones claras. El an&#225;lisis suele ser subjetivo, es dif&#237;cil comparar sesiones a lo largo del tiempo y gran parte de la informaci&#243;n presente en el video simplemente no se cuantifica.</p><blockquote><p>Esto crea una brecha interesante.</p></blockquote><p>Existe una enorme cantidad de videos de surf y bodyboard, pero todav&#237;a hay muy pocas herramientas que permitan transformarlo en datos para analizar el rendimiento de forma sistem&#225;tica.</p><div class="pullquote"><p>Ah&#237; es donde este experimento en visi&#243;n computacional empieza a ser relevante.</p></div><h2>Caso de uso: Surfing</h2><p>A partir de un video es posible comenzar a detectar y seguir a los riders a lo largo de una ola. Esto permite reconstruir trayectorias, analizar la duraci&#243;n del rider en la ola y observar c&#243;mo se mueve a lo largo de ella.</p><p>Aunque este es solo un primer experimento, incluso este nivel b&#225;sico de an&#225;lisis ya permite empezar a extraer informaci&#243;n interesante de una sesi&#243;n. Por ejemplo, c&#243;mo cambia la l&#237;nea tomada en distintas olas o cu&#225;nto tiempo permanece un rider en la pared antes de salir de la secci&#243;n.</p><div class="native-video-embed" data-component-name="VideoPlaceholder" data-attrs="{&quot;mediaUploadId&quot;:&quot;1cbaf562-d8ef-40e7-863b-52ae9d81a08b&quot;,&quot;duration&quot;:null}"></div><p></p><p>En el video anterior vimos un ejemplo con John John Florence. El sistema detecta al surfista y lo sigue a lo largo de la ola, generando una representaci&#243;n simple pero &#250;til de su trayectoria.</p><p>Este tipo de informaci&#243;n puede ser el primer paso hacia herramientas que permitan analizar sesiones de surf de manera m&#225;s sistem&#225;tica.</p><h2>Caso de uso: Bodyboarding</h2><p>Aunque comparte el mismo entorno que el surf, la din&#225;mica del movimiento es distinta. La postura del atleta, la forma en que se interact&#250;a con la ola y el tipo de maniobras cambian considerablemente. Esto hace que el bodyboarding sea un buen segundo caso para probar la robustez del sistema.</p><p>En este ejemplo analizamos una sesi&#243;n de <a href="https://www.youtube.com/watch?v=7XNebQ8s76E">Pierre Louis Costes</a>, uno de los bodyboarders m&#225;s reconocidos del circuito profesional.</p><div class="native-video-embed" data-component-name="VideoPlaceholder" data-attrs="{&quot;mediaUploadId&quot;:&quot;33abf840-b2ab-4067-8bbe-761bfcfbb413&quot;,&quot;duration&quot;:null}"></div><p></p><p>Al igual que en el caso anterior, el sistema detecta al atleta y lo sigue a lo largo de la ola. A partir de esa informaci&#243;n es posible reconstruir trayectorias dentro de la secci&#243;n, observar c&#243;mo se posiciona en la pared de la ola y analizar la duraci&#243;n de cada ride.</p><div class="pullquote"><p>El mismo enfoque de visi&#243;n computacional puede extenderse a distintos deportes acuaticos sin necesidad de redise&#241;ar completamente el sistema.</p></div><h2>Conclusi&#243;n</h2><p>Surfing y bodyboarding generan enormes cantidades de video, pero todav&#237;a existen pocas herramientas que permitan analizar ese material de forma sistem&#225;tica. Esto abre una oportunidad interesante para explorar c&#243;mo la visi&#243;n computacional puede transformar esas sesiones en datos y nuevas formas de analizar el rendimiento.</p><p>Este proyecto es un primer experimento en esa direcci&#243;n. Incluso en esta etapa inicial ya es posible empezar a observar patrones, trayectorias y decisiones dentro de una ola desde una perspectiva distinta.</p><p>Si este experimento te resulta interesante o tienes ideas sobre c&#243;mo expandir el sistema, te invito a dejar tus comentarios. Y si te interesa explorar aplicaciones m&#225;s all&#225; de estos deportes o colaborar en el desarrollo del proyecto, no dudes en escribirme.</p><div><hr></div><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://blog.praephos.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscribirse&quot;,&quot;language&quot;:&quot;es&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">Gracias por leer <strong>Praephos AI</strong>. Suscr&#237;bete para recibir nuevas publicaciones.</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="Escribe tu correo electr&#243;nico..." tabindex="-1"><input type="submit" class="button primary" value="Suscribirse"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><div><hr></div>]]></content:encoded></item><item><title><![CDATA[Visión computacional: RF-DETR]]></title><description><![CDATA[Arquitectura, optimizacion y diferencias frente a YOLO y DETR]]></description><link>https://blog.praephos.com/p/vision-computacional-rf-detr</link><guid isPermaLink="false">https://blog.praephos.com/p/vision-computacional-rf-detr</guid><dc:creator><![CDATA[Diego García Rieckhof]]></dc:creator><pubDate>Tue, 03 Mar 2026 13:30:30 GMT</pubDate><enclosure url="https://substack-post-media.s3.amazonaws.com/public/images/78eadcc1-eed8-413b-912f-0ebec7d8b524_1536x1024.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Este art&#237;culo analiza <strong><a href="https://github.com/roboflow/rf-detr">RF-DETR</a></strong> dentro del ecosistema actual de <strong>visi&#243;n computacional </strong><em><strong>(computer vision)</strong></em>, espec&#237;ficamente en <strong>deteccion y segmentacion de objetos</strong>. El objetivo es entender las diferencias estructurales frente a <strong><a href="https://github.com/ultralytics/ultralytics">YOLO </a></strong><em><strong><a href="https://github.com/ultralytics/ultralytics">(You Only Look Once)</a></strong></em> y a modelos basados en <strong><a href="https://github.com/facebookresearch/detr">DETR </a></strong><em><strong><a href="https://github.com/facebookresearch/detr">(Detection Transformer)</a></strong></em>, y evaluar qu&#233; cambia en t&#233;rminos de arquitectura y optimizaci&#243;n.</p><p>La comparaci&#243;n se organiza en tres niveles:</p><ol><li><p>Diferencias en la arquitectura de cada modelo.</p></li><li><p>Implicancias en latencia y eficiencia.</p></li><li><p>Impacto en el ciclo de dise&#241;o y despliegue de modelos.</p></li></ol><h3>Estado actual</h3><p>La deteccion de objetos en visi&#243;n computacional <em><strong>(computer vision)</strong></em> ha evolucionado hacia tres lineas principales. Aunque todas buscan localizar y clasificar objetos en una imagen, difieren en c&#243;mo estructuran el problema. Para entender esas diferencias es &#250;til definir tres conceptos:</p><ol><li><p><strong>Redundancia:</strong> Producir multiples predicciones para un mismo objeto. Por ejemplo, un unico auto puede aparecer marcado por varias cajas superpuestas.</p></li><li><p><strong>Asignacion:</strong> El mecanismo que empareja las predicciones del modelo con los objetos reales durante el entrenamiento.</p></li><li><p><strong>Postprocesamiento:</strong> Pasos adicionales aplicados despues de que la red genera sus salidas, como eliminar duplicados o ajustar resultados.</p></li></ol><p>Con estos conceptos claros, podemos diferenciar las tres familias principales.</p><h4>Modelos de prediccion densa: la familia YOLO</h4><p>Los modelos <strong>YOLO </strong><em><strong>(You Only Look Once)</strong></em> generan muchas predicciones en paralelo sobre distintas regiones de la imagen. La redundancia es intencional: el modelo produce multiples bounding boxes candidatas y luego filtra.</p><p>El filtrado se realiza mediante <strong>NMS </strong><em><strong>(Non-Maximum Suppression)</strong></em>, un algoritmo que elimina cajas superpuestas conservando la de mayor confianza segun un umbral de solapamiento medido con <em><strong>Intersection over Union</strong></em><strong> (IoU)</strong>. <strong>NMS</strong> es un paso de postprocesamiento externo al modelo.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!Ae68!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!Ae68!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 424w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 848w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 1272w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!Ae68!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png" width="520" height="273.72222222222223" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:379,&quot;width&quot;:720,&quot;resizeWidth&quot;:520,&quot;bytes&quot;:null,&quot;alt&quot;:&quot;YOLOv10: Paper Explanation and Inference Results&quot;,&quot;title&quot;:null,&quot;type&quot;:null,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="YOLOv10: Paper Explanation and Inference Results" title="YOLOv10: Paper Explanation and Inference Results" srcset="https://substackcdn.com/image/fetch/$s_!Ae68!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 424w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 848w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 1272w, https://substackcdn.com/image/fetch/$s_!Ae68!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6b07ef1f-fc07-4bd5-a0d7-6351f56157b5_720x379.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">NMS (Non-Maximum Suppression)</figcaption></figure></div><p>Durante el entrenamiento, la asignacion es local: cada celda o anchor se asocia a un objeto cercano segun reglas geom&#233;tricas.</p><p>En este enfoque:</p><ul><li><p>Se acepta redundancia.</p></li><li><p>Se corrige mediante <strong>NMS</strong>.</p></li><li><p>La asignacion es local.</p></li></ul><h4>Modelos basados en DETR</h4><p><strong>DETR </strong><em><strong>(Detection Transformer)</strong></em> reformula el problema como prediccion de un conjunto <em><strong>(set prediction)</strong></em>. En lugar de producir muchas predicciones y luego filtrarlas, intenta generar directamente un conjunto coherente de objetos.</p><p>La arquitectura utiliza un <em><strong>encoder-decoder Transformer</strong></em>. El <em><strong>decoder</strong></em> opera sobre un conjunto fijo de <em><strong>object queries</strong></em> aprendibles, donde cada query intenta representar un objeto.</p><div class="captioned-image-container"><figure><a class="image-link image2" target="_blank" href="https://substackcdn.com/image/fetch/$s_!8wBa!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!8wBa!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 424w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 848w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 1272w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!8wBa!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png" width="1204" height="267" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:267,&quot;width&quot;:1204,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:null,&quot;alt&quot;:&quot;High-level DETR architecture, from arXiv:2005.12872v3&quot;,&quot;title&quot;:null,&quot;type&quot;:null,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="High-level DETR architecture, from arXiv:2005.12872v3" title="High-level DETR architecture, from arXiv:2005.12872v3" srcset="https://substackcdn.com/image/fetch/$s_!8wBa!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 424w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 848w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 1272w, https://substackcdn.com/image/fetch/$s_!8wBa!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9967f2bb-6b56-406b-9b64-b13f1d4ffdcc_1204x267.png 1456w" sizes="100vw" loading="lazy"></picture><div></div></div></a></figure></div><p>Durante el entrenamiento se emplea <em><strong>Hungarian matching</strong></em>, un algoritmo de asignacion bipartita que empareja predicciones y objetos reales de forma uno a uno. Esto obliga al modelo a producir una unica prediccion por objeto.</p><p>Como consecuencia, en principio no requiere <strong>NMS</strong> como componente central.</p><p>En este enfoque:</p><ul><li><p>Se evita la redundancia desde el dise&#241;o.</p></li><li><p>No depende de <strong>NMS</strong>.</p></li><li><p>La asignacion es global y uno a uno.</p></li></ul><h4>Detectores open-vocabulary</h4><p>Una tercera linea integra modelos <em><strong>vision-language</strong></em>. Estos incorporan un <em><strong>text encoder</strong></em> y combinan representaciones visuales y textuales mediante mecanismos de <em><strong>cross-attention</strong></em>.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!1iky!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!1iky!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 424w, https://substackcdn.com/image/fetch/$s_!1iky!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 848w, https://substackcdn.com/image/fetch/$s_!1iky!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 1272w, https://substackcdn.com/image/fetch/$s_!1iky!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!1iky!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png" width="382" height="398.0027027027027" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:771,&quot;width&quot;:740,&quot;resizeWidth&quot;:382,&quot;bytes&quot;:null,&quot;alt&quot;:&quot;Verifying Vision-Language Alignment with Cross-Attention Map (feat. DINO)&quot;,&quot;title&quot;:null,&quot;type&quot;:null,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="Verifying Vision-Language Alignment with Cross-Attention Map (feat. DINO)" title="Verifying Vision-Language Alignment with Cross-Attention Map (feat. DINO)" srcset="https://substackcdn.com/image/fetch/$s_!1iky!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 424w, https://substackcdn.com/image/fetch/$s_!1iky!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 848w, https://substackcdn.com/image/fetch/$s_!1iky!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 1272w, https://substackcdn.com/image/fetch/$s_!1iky!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9e9a939b-c206-49d4-940b-e1db9dce8865_740x771.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">Caron, M. et al. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of ICCV.</figcaption></figure></div><p>La diferencia principal no es el manejo de duplicados, sino la ampliacion del espacio semantico: permiten detectar categorias fuera de un conjunto cerrado.</p><p>Esto implica:</p><ul><li><p>Procesamiento adicional en inferencia.</p></li><li><p>Mayor costo computacional.</p></li><li><p>Dependencia del preentrenamiento multimodal.</p></li></ul><h3>Diferencias entre arquitecturas</h3><p>La diferencia principal entre las tres arquitecturas es c&#243;mo parametrizan el espacio de salida, es decir, la representaci&#243;n latente sobre la que se define el proceso de b&#250;squeda de objetos.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!I3J4!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!I3J4!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 424w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 848w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 1272w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!I3J4!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png" width="1114" height="777" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:777,&quot;width&quot;:1114,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:92781,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/png&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:&quot;https://blog.praephos.com/i/188006498?img=https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png&quot;,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!I3J4!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 424w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 848w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 1272w, https://substackcdn.com/image/fetch/$s_!I3J4!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7441525d-3144-4289-9b8a-b8bcceeb6312_1114x777.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">Elaboraci&#243;n propia</figcaption></figure></div><p>Consideremos una imagen con tres objetos: un auto parcialmente tapado por otro objeto, un peat&#243;n peque&#241;o al fondo y una bicicleta que se cruza visualmente con el auto. Es un caso t&#237;pico: objetos de distinto tama&#241;o, parcialmente visibles y con regiones que se superponen.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!yfXo!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!yfXo!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 424w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 848w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 1272w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!yfXo!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png" width="335" height="335" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/e72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:1024,&quot;width&quot;:1024,&quot;resizeWidth&quot;:335,&quot;bytes&quot;:2222748,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/png&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:&quot;https://blog.praephos.com/i/188006498?img=https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png&quot;,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!yfXo!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 424w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 848w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 1272w, https://substackcdn.com/image/fetch/$s_!yfXo!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe72194d2-cd3f-469e-916b-cb2657365107_1024x1024.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">Imagen generada mediante IA (Google Gemini, 2026)</figcaption></figure></div><p>En una arquitectura tipo <strong>YOLO</strong>, distintas regiones de la imagen pueden activarse sobre el mismo objeto. El auto puede generar varias cajas candidatas porque varias celdas &#8220;ven&#8221; partes distintas del mismo objeto. El modelo no evita esa duplicaci&#243;n. Produce m&#250;ltiples hip&#243;tesis y luego <strong>NMS</strong> decide cu&#225;l conservar seg&#250;n el solapamiento (IoU). <strong>La ambig&#252;edad se resuelve despu&#233;s de predecir</strong>.</p><p>En <strong>DETR</strong>, la situaci&#243;n es distinta. El modelo dispone de un <strong>conjunto fijo de representaciones</strong> latentes (object queries). Cada una debe explicar, como m&#225;ximo, un objeto. Durante entrenamiento, la asignaci&#243;n uno a uno obliga a que el auto sea representado por una &#250;nica predicci&#243;n. <strong>Si dos queries intentan representar el mismo objeto, una ser&#225; penalizada</strong>. La ambig&#252;edad se resuelve dentro del modelo, no en un paso externo.</p><p><strong>RF-DETR</strong> mantiene la formulaci&#243;n de <strong>DETR</strong> como predicci&#243;n de un conjunto con asignaci&#243;n uno a uno. La diferencia es que no entrena una &#250;nica arquitectura fija.</p><p>Se entrena una superred con pesos compartidos que contiene m&#250;ltiples subconfiguraciones. Despu&#233;s del entrenamiento, se puede seleccionar una configuraci&#243;n m&#225;s peque&#241;a o m&#225;s grande sin reentrenar desde cero.</p><h3>Conclusiones e implicaciones</h3><p>El objetivo de este art&#237;culo no es comparar cu&#225;l modelo obtiene mejor resultado en un benchmark espec&#237;fico, sino entender c&#243;mo cada arquitectura define el problema y qu&#233; implica esa definici&#243;n para nuestro sistema.</p><p><strong>YOLO</strong>, <strong>DETR</strong> y <strong>RF-DETR</strong> son m&#225;s que variaciones t&#233;cnicas. Representan decisiones distintas sobre:</p><ul><li><p>C&#243;mo se parametriza el espacio de salida.</p></li><li><p>D&#243;nde se controla la redundancia.</p></li><li><p>En qu&#233; etapa se fijan las restricciones del sistema.</p></li></ul><p><strong>YOLO</strong> coloca parte de la coherencia en inferencia. <strong>DETR</strong> la internaliza en el aprendizaje. <strong>RF-DETR</strong> mantiene esa formulaci&#243;n, pero introduce flexibilidad en c&#243;mo se concreta la arquitectura entrenada.</p><blockquote><p>El principal trade-off es estructura versus control.</p></blockquote><p>Elegir un enfoque implica decidir:</p><ul><li><p>Si se prefiere una arquitectura fija y expl&#237;cita.</p></li><li><p>Si se prioriza coherencia estructural desde el entrenamiento.</p></li><li><p>Si se necesita capacidad de adaptaci&#243;n posterior sin redefinir la l&#243;gica de predicci&#243;n.</p></li></ul><p>La elecci&#243;n deber&#237;a basarse en lo que esperamos que el sistema haga y bajo qu&#233; restricciones debe operar.</p><div><hr></div><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://blog.praephos.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscribirse&quot;,&quot;language&quot;:&quot;es&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">Gracias por leer <strong>Praephos AI</strong>. Suscr&#237;bete para recibir nuevas publicaciones.</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="Escribe tu correo electr&#243;nico..." tabindex="-1"><input type="submit" class="button primary" value="Suscribirse"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><div><hr></div>]]></content:encoded></item><item><title><![CDATA[Praephos AI]]></title><description><![CDATA[Experimento, luego entiendo.]]></description><link>https://blog.praephos.com/p/praephos-ai</link><guid isPermaLink="false">https://blog.praephos.com/p/praephos-ai</guid><dc:creator><![CDATA[Diego García Rieckhof]]></dc:creator><pubDate>Tue, 17 Feb 2026 13:31:41 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!K0Zr!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Descartes buscaba una certeza en el pensamiento; es de ah&#237; que m&#225;s de alguna vez habremos escuchado <strong>&#8220;Cogito ergo sum&#8221; o, en espa&#241;ol, &#8220;Pienso, luego existo&#8221;.</strong> Si lo llevamos a otros &#225;mbitos, podr&#237;amos decir que sin experimentaci&#243;n no hay comprensi&#243;n real de ning&#250;n fen&#243;meno.</p><p>En base a esta premisa nace <strong>Praephos</strong>, la evoluci&#243;n de <strong>The Data Chronicles</strong>. Cuando comenc&#233; a escribir en este blog, mi idea era muy sencilla: contar historias a trav&#233;s de datos, descomponer conceptos y estructurar ideas.</p><p>Sin embargo, entender desde fuera tiene un l&#237;mite.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!K0Zr!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!K0Zr!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 424w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 848w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 1272w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!K0Zr!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png" width="540" height="360.1236263736264" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/c0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:971,&quot;width&quot;:1456,&quot;resizeWidth&quot;:540,&quot;bytes&quot;:2857069,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/png&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:false,&quot;topImage&quot;:true,&quot;internalRedirect&quot;:&quot;https://blog.praephos.com/i/187706595?img=https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png&quot;,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!K0Zr!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 424w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 848w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 1272w, https://substackcdn.com/image/fetch/$s_!K0Zr!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc0938ba3-ea77-4858-88a3-6af0076887c6_1536x1024.png 1456w" sizes="100vw" fetchpriority="high"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a><figcaption class="image-caption">Las ideas y los experimentos construyen la realidad.</figcaption></figure></div><h3>Un nuevo espacio</h3><p>Entender los datos a trav&#233;s de historias, e incluso descubrirlas con datos, sigue siendo valioso. La claridad sigue siendo importante, pero la comprensi&#243;n real exige algo m&#225;s.</p><p>La sociedad no avanza solo porque consume informaci&#243;n. Avanza cuando interviene en la realidad. Todos, en alg&#250;n momento, consciente o inconscientemente, formulamos hip&#243;tesis, probamos caminos, definimos qu&#233; significa que algo funcione y evaluamos resultados. Cuando no funciona, ajustamos o aceptamos que no era la ruta adecuada.</p><blockquote><p>Ese ciclo no es exclusivo de la ciencia. Es el n&#250;cleo del desarrollo intelectual.</p></blockquote><h3>Crecer implica exponerse al error</h3><p>El aprendizaje real no ocurre cuando acumulamos conceptos. Ocurre cuando nuestras ideas encuentran cierta fricci&#243;n.</p><p>En machine learning, un modelo mejora porque se enfrenta al error. Ajusta sus par&#225;metros, corrige las desviaciones y vuelve a intentarlo. Sin medici&#243;n no hay progreso.</p><p>Con nosotros pasa algo similar.</p><p>Crecer implica formular una idea propia y arriesgarse a que est&#233; equivocada. Implica actuar, observar consecuencias y ajustar criterio. Sin exposici&#243;n al error solo reforzamos intuiciones c&#243;modas.</p><p>La diferencia entre consumo y desarrollo est&#225; ah&#237;. Consumir es absorber informaci&#243;n sin ninguna fricci&#243;n. Desarrollar es intervenir y aceptar que no siempre saldr&#225;n las cosas como esperamos.</p><p>Praephos se posiciona en ese segundo terreno.</p><h3>Una evoluci&#243;n necesaria</h3><p>Praephos no es solo una evoluci&#243;n del blog. Es una consecuencia natural del punto al que lleg&#243; este proceso.</p><p>Si el an&#225;lisis fue el primer paso, ahora el foco est&#225; en involucrarse directamente con las ideas. No basta con entender c&#243;mo funcionan las cosas en teor&#237;a. Es necesario trabajar con ellas, probarlas, medirlas y aceptar sus l&#237;mites.</p><p>La inteligencia artificial no avanza por explicaciones elegantes, sino por iteraci&#243;n. Algo similar ocurre con el pensamiento cuando se toma en serio. La claridad importa, pero el criterio se forma cuando una idea se contrasta con la realidad.</p><p>Por eso el enfoque cambia.</p><p>Experimento, luego entiendo no es una frase suelta que se me ocurri&#243; o &#191;copi&#233;?. Es la direcci&#243;n que quiero tomar a partir de ahora y, en cierta forma, una manera de cuestionar la forma en que consumimos contenido en la era digital.</p><div><hr></div><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://blog.praephos.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscribirse&quot;,&quot;language&quot;:&quot;es&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">Gracias por leer <strong>Praephos AI</strong>. Suscr&#237;bete para recibir nuevas publicaciones.</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="Escribe tu correo electr&#243;nico..." tabindex="-1"><input type="submit" class="button primary" value="Suscribirse"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><div><hr></div>]]></content:encoded></item></channel></rss>