Analicemos el hardware y veamos qué modelo local es viable.
Autoscan de Hardware
Esta es un área de tests de hardware. A continuación usted podrá evaluar de forma aproximada las capacidades de su equipo.
Además puede llevarse en formato PDF el resultado del test.
Qué tengo y qué necesito para iA Soberana
Protocolo de selección de recursos para la ejecución de iA local.
(Sugerido: Brave o Chrome para máxima precisión de diagnóstico)
Indice de Rendimiento Real: Sin Hype
Bienvenido al catálogo de modelos de inteligencia artificial de capitania.org. A diferencia de los rankings comerciales, este espacio funciona como un observatorio técnico.
No medimos la popularidad, sino la capacidad real de resolución de problemas.
Cero Marketing: No medimos descargas ni presupuestos de publicidad. Solo resultados técnicos verificables.
Evaluaciones Ciegas: Solo incluimos modelos evaluados mediante pruebas donde el juez no sabe quién responde, eliminando el sesgo de marca.
Filtro Ético/Técnico: Aplicamos un veto estricto a proveedores que no cumplen con los estándares de transparencia y gobernanza.
Para garantizar la total transparencia de este catálogo, los datos son extraídos de los benchmarks más rigurosos de la industria. Usted puede verificar la metodología y los resultados en los siguientes enlaces:
LMSYS Chatbot Arena (Metodología y Paper)
Es la fuente principal de nuestro ranking. Utiliza un sistema de "torneo" donde miles de programadores comparan respuestas anónimas. Es la prueba más real de utilidad percibida porque el evaluador no sabe qué modelo está usando.LiveCodeBench (Paper sobre Contaminación de Datos)
Utilizamos esta fuente para evitar la "contaminación de datos". A diferencia de otros tests, LiveCodeBench utiliza problemas de programación publicados después de que los modelos fueron entrenados, obligando a la IA a razonar en lugar de recordar.Hugging Face Open LLM (Motor de Evaluación Técnica)
La referencia global para modelos de código abierto. Aquí verificamos las métricas técnicas puras a través del LM Evaluation Harness, el estándar de código abierto que permite reproducir y validar científicamente el rendimiento de los modelos.
-
En la columna de Score, no verá una calificación del 1 al 100. Utilizamos el Rating Elo, el mismo sistema empleado en el ajedrez profesional y los videojuegos competitivos.
¿Cómo funciona? El sistema no le pone una nota al modelo, sino que lo hace "competir". Dos modelos anónimos responden a la misma pregunta y un experto humano elige la mejor respuesta sin saber quién es quién.
¿Cómo interpretarlo?
No es un porcentaje: Un score de 1200 no significa que el modelo tenga un 1200% de éxito.
Es una medida de fuerza relativa: Cuanto más alto es el número, más veces ha ganado el modelo frente a otros competidores.
Diferencia de nivel: Una diferencia pequeña en los puntos puede representar una diferencia notable en la calidad del código generado.
-
Este catálogo aplica un filtro estricto para eliminar el "ruido" del marketing (hype). Para aparecer aquí, un modelo debe cumplir tres condiciones:
Pruebas Ciegas: Solo aceptamos resultados de evaluaciones donde el evaluador no conoce la marca del modelo.
Rendimiento Técnico: Priorizamos la capacidad de razonamiento lógico y escritura de código eficiente sobre la capacidad de "conversar".
Filtro de Gobernanza: Excluimos deliberadamente a empresas cuyos modelos no cumplen con nuestros estándares de transparencia o cuyos intereses comerciales interfieren con la neutralidad técnica.
-
Este es un documento vivo. A medida que la tecnología avance, añadiremos nuevas dimensiones de análisis, tales como:
Latencia: Qué tan rápido responde el modelo.
Costo por Token: Eficiencia económica para implementaciones reales.
Ventana de Contexto: Cuánta información puede procesar el modelo de una sola vez.
Comparativa de Capacidad Cognitiva
Análisis comparativo entre modelos cerrados (Cloud) y modelos soberanos (Local)

