Analicemos el hardware y veamos qué modelo local es viable.
Autoscaneo gratuíto
A continuación tendrá un diagnóstico aproximado de que modelos iA locales pueden funcionar en su equipo.
También verá opciones de optimización.
Qué tengo y qué necesito para iA Soberana
Protocolo de selección de recursos para la ejecución de iA local.
(Sugerido: Brave o Chrome para máxima precisión de diagnóstico)
Comparativa de Capacidad Cognitiva
Análisis comparativo entre modelos cerrados (Cloud) y modelos soberanos (Local)
-
En la columna de Score, no verás una calificación del 1 al 100. Utilizamos el Rating Elo, el mismo sistema empleado en el ajedrez profesional y los videojuegos competitivos.
¿Cómo funciona? El sistema no le pone una nota al modelo, sino que lo hace "competir". Dos modelos anónimos responden a la misma pregunta y un experto humano elige la mejor respuesta sin saber quién es quién.
¿Cómo interpretarlo?
No es un porcentaje: Un score de 1200 no significa que el modelo tenga un 1200% de éxito.
Es una medida de fuerza relativa: Cuanto más alto es el número, más veces ha ganado el modelo frente a otros competidores.
Diferencia de nivel: Una diferencia pequeña en los puntos puede representar una diferencia notable en la calidad del código generado.
-
Este catálogo aplica un filtro estricto para eliminar el "ruido" del marketing (hype). Para aparecer aquí, un modelo debe cumplir tres condiciones:
Pruebas Ciegas: Solo aceptamos resultados de evaluaciones donde el evaluador no conoce la marca del modelo.
Rendimiento Técnico: Priorizamos la capacidad de razonamiento lógico y escritura de código eficiente sobre la capacidad de "conversar".
Filtro de Gobernanza: Excluimos deliberadamente a empresas cuyos modelos no cumplen con nuestros estándares de transparencia o cuyos intereses comerciales interfieren con la neutralidad técnica.
-
Este es un documento vivo. A medida que la tecnología avance, añadiremos nuevas dimensiones de análisis, tales como:
Latencia: Qué tan rápido responde el modelo.
Costo por Token: Eficiencia económica para implementaciones reales.
Ventana de Contexto: Cuánta información puede procesar el modelo de una sola vez.
Indice de Rendimiento Real: Sin Hype
Bienvenido al catálogo de modelos de inteligencia artificial de capitania.org. A diferencia de los rankings comerciales, este espacio funciona como un observatorio técnico.
No medimos la popularidad, sino la capacidad real de resolución de problemas.
Cero Marketing: No medimos descargas ni presupuestos de publicidad. Solo resultados técnicos verificables.
Evaluaciones Ciegas: Solo incluimos modelos evaluados mediante pruebas donde el juez no sabe quién responde, eliminando el sesgo de marca.
Filtro Ético/Técnico: Aplicamos un veto estricto a proveedores que no cumplen con los estándares de transparencia y gobernanza.
Nuestras Fuentes de Verificación y Transparencia
Para garantizar la total transparencia de este catálogo, los datos son extraídos de los benchmarks más rigurosos de la industria. Usted puede verificar los resultados en tiempo real en los siguientes enlaces:
1. LMSYS Chatbot Arena (Coding Category)
Es la fuente principal de nuestro ranking. Utiliza un sistema de "torneo" donde miles de programadores comparan respuestas anónimas. Es la prueba más real de utilidad percibida porque el evaluador no sabe qué modelo está usando.
2. LiveCodeBench
Utilizamos esta fuente para evitar la "contaminación de datos". A diferencia de otros tests, LiveCodeBench utiliza problemas de programación publicados después de que los modelos fueron entrenados, obligando a la IA a razonar en lugar de recordar.
3. Hugging Face Open LLM Leaderboard
La referencia global para modelos de código abierto. Aquí verificamos las métricas técnicas puras y la eficiencia de los modelos que no pertenecen a las grandes corporaciones cerradas.
-
En la columna de Score, no verás una calificación del 1 al 100. Utilizamos el Rating Elo, el mismo sistema empleado en el ajedrez profesional y los videojuegos competitivos.
¿Cómo funciona? El sistema no le pone una nota al modelo, sino que lo hace "competir". Dos modelos anónimos responden a la misma pregunta y un experto humano elige la mejor respuesta sin saber quién es quién.
¿Cómo interpretarlo?
No es un porcentaje: Un score de 1200 no significa que el modelo tenga un 1200% de éxito.
Es una medida de fuerza relativa: Cuanto más alto es el número, más veces ha ganado el modelo frente a otros competidores.
Diferencia de nivel: Una diferencia pequeña en los puntos puede representar una diferencia notable en la calidad del código generado.
-
Este catálogo aplica un filtro estricto para eliminar el "ruido" del marketing (hype). Para aparecer aquí, un modelo debe cumplir tres condiciones:
Pruebas Ciegas: Solo aceptamos resultados de evaluaciones donde el evaluador no conoce la marca del modelo.
Rendimiento Técnico: Priorizamos la capacidad de razonamiento lógico y escritura de código eficiente sobre la capacidad de "conversar".
Filtro de Gobernanza: Excluimos deliberadamente a empresas cuyos modelos no cumplen con nuestros estándares de transparencia o cuyos intereses comerciales interfieren con la neutralidad técnica.
-
Este es un documento vivo. A medida que la tecnología avance, añadiremos nuevas dimensiones de análisis, tales como:
Latencia: Qué tan rápido responde el modelo.
Costo por Token: Eficiencia económica para implementaciones reales.
Ventana de Contexto: Cuánta información puede procesar el modelo de una sola vez.

