./Tech

Diagnóstico de hardware y ranking de iA soberana Sin Hype.

  • Test de Viabilidad iA — escanea tu equipo y determina qué modelo local puedes ejecutar. Resultado exportable en PDF.

  • Local vs. Cloud — comparativa de capacidad cognitiva entre modelos de suscripción (GPT-4o, Claude, Gemini) y modelos soberanos ejecutables en tu propio hardware, en cuatro dimensiones: razonamiento, programación, creatividad y multilingüismo.

  • Ranking Top iA Local — los 8 mejores modelos Open Weights actualizados a mayo 2026, con score, VRAM requerida y plataformas compatibles. Sin marketing. Sin hype.

Autoscan de Hardware

Esta es un área de tests de hardware. A continuación usted podrá evaluar de forma aproximada las capacidades de su equipo.

Además puede llevarse en formato PDF el resultado del test.

Qué tengo y qué necesito para iA Soberana

Protocolo de selección de recursos para la ejecución de iA local.

(Sugerido: Brave o Chrome para máxima precisión de diagnóstico)

Indice de Rendimiento Real: Sin Hype

Bienvenido al catálogo de modelos de inteligencia artificial de capitania.org. A diferencia de los rankings comerciales, este espacio funciona como un observatorio técnico.

No medimos la popularidad, sino la capacidad real de resolución de problemas.

  • Cero Marketing: No medimos descargas ni presupuestos de publicidad. Solo resultados técnicos verificables.

  • Evaluaciones Ciegas: Solo incluimos modelos evaluados mediante pruebas donde el juez no sabe quién responde, eliminando el sesgo de marca.

  • Filtro Ético/Técnico: Aplicamos un veto estricto a proveedores que no cumplen con los estándares de transparencia y gobernanza.

Para garantizar la total transparencia de este catálogo, los datos son extraídos de los benchmarks más rigurosos de la industria. Usted puede verificar la metodología y los resultados en los siguientes enlaces:

  1. LMSYS Chatbot Arena (Metodología y Paper)
    Es la fuente principal de nuestro ranking. Utiliza un sistema de "torneo" donde miles de programadores comparan respuestas anónimas. Es la prueba más real de utilidad percibida porque el evaluador no sabe qué modelo está usando.

  2. LiveCodeBench (Paper sobre Contaminación de Datos)
    Utilizamos esta fuente para evitar la "contaminación de datos". A diferencia de otros tests, LiveCodeBench utiliza problemas de programación publicados después de que los modelos fueron entrenados, obligando a la IA a razonar en lugar de recordar.

  3. Hugging Face Open LLM (Motor de Evaluación Técnica)
    La referencia global para modelos de código abierto. Aquí verificamos las métricas técnicas puras a través del LM Evaluation Harness, el estándar de código abierto que permite reproducir y validar científicamente el rendimiento de los modelos.

  • En la columna de Score, no verá una calificación del 1 al 100. Utilizamos el Rating Elo, el mismo sistema empleado en el ajedrez profesional y los videojuegos competitivos.

    • ¿Cómo funciona? El sistema no le pone una nota al modelo, sino que lo hace "competir". Dos modelos anónimos responden a la misma pregunta y un experto humano elige la mejor respuesta sin saber quién es quién.

    • ¿Cómo interpretarlo?

      • No es un porcentaje: Un score de 1200 no significa que el modelo tenga un 1200% de éxito.

      • Es una medida de fuerza relativa: Cuanto más alto es el número, más veces ha ganado el modelo frente a otros competidores.

      • Diferencia de nivel: Una diferencia pequeña en los puntos puede representar una diferencia notable en la calidad del código generado.

  • Este catálogo aplica un filtro estricto para eliminar el "ruido" del marketing (hype). Para aparecer aquí, un modelo debe cumplir tres condiciones:

    1. Pruebas Ciegas: Solo aceptamos resultados de evaluaciones donde el evaluador no conoce la marca del modelo.

    2. Rendimiento Técnico: Priorizamos la capacidad de razonamiento lógico y escritura de código eficiente sobre la capacidad de "conversar".

    3. Filtro de Gobernanza: Excluimos deliberadamente a empresas cuyos modelos no cumplen con nuestros estándares de transparencia o cuyos intereses comerciales interfieren con la neutralidad técnica.

  • Este es un documento vivo. A medida que la tecnología avance, añadiremos nuevas dimensiones de análisis, tales como:

    • Latencia: Qué tan rápido responde el modelo.

    • Costo por Token: Eficiencia económica para implementaciones reales.

    • Ventana de Contexto: Cuánta información puede procesar el modelo de una sola vez.

Comparativa de Capacidad Cognitiva - Capitania.org

COMPARATIVA DE CAPACIDAD COGNITIVA

Análisis comparativo entre modelos cerrados (Cloud) y modelos soberanos (Local)

SELECCIONAR DIMENSIÓN DE ANÁLISIS
Última actualización: 12 de mayo de 2026 • Se actualiza semanalmente los días lunes
iA GLOBAL (CLOUD) iA SOBERANA (LOCAL)

Ranking Top 8 Modelos Open Weights / iA Local

Actualizado: 12 de May de 2026

Posición Modelo Descripción / Fortalezas principales Score VRAM (Q4/Q5) Plataformas
1 Kimi K2.6
Moonshot AI
Líder actual en razonamiento, agentic y tareas complejas. Muy fuerte en tool-calling. 1255 18-28 GB Ollama · LM Studio · Jan
2 Qwen 3.6 32B MoE
Alibaba
Mejor multilingual (español excelente), coding y eficiencia. 1240 14-24 GB Ollama · LM Studio · Jan
3 DeepSeek V4 / R1
DeepSeek
Especialista en matemáticas, razonamiento profundo y agentic. 1235 16-28 GB Ollama · LM Studio · Jan
4 GLM-5
Zhipu AI
Muy fuerte en coding, software engineering y agentic de largo plazo. 1220 18-26 GB Ollama · LM Studio · Jan
5 Gemma 4 31B
Google
Mejor eficiencia + multimodal (texto + imagen + audio). 1210 14-22 GB Ollama · LM Studio · Jan
6 MiniMax M2.7
MiniMax
Enfocado en productividad y workflows de ingeniería. 1198 16-24 GB Ollama · LM Studio · Jan
7 Mistral Small 4
Mistral
Velocidad + calidad equilibrada para uso diario. 1185 14-20 GB Ollama · LM Studio · Jan
8 Qwen 3.5 Coder
Alibaba
Variante especializada en coding puro y desarrollo. 1175 12-22 GB Ollama · LM Studio · Jan

Nota: Todos los modelos son Open Weights con licencias permisivas (Apache 2.0 / MIT).*
Los scores son compuestos basados en leaderboards públicos. Ver leaderboards →

* Open Weights = Se liberan los pesos entrenados del modelo (permite uso local y fine-tuning), pero no el código completo de entrenamiento ni los datos originales.

Plataformas Recomendadas para Ejecución Local - Capitania.org

Plataformas Recomendadas para Ejecución Local

Actualizado: 12 de mayo de 2026
Plataforma Prestación / Rendimiento Nivel de dificultad Perfil recomendado
Ollama Más alto Intermedio / Avanzado Usuarios que buscan máximo rendimiento y automatización
LM Studio Alto Intermedio Usuarios que desean buen equilibrio entre rendimiento y facilidad de uso
Jan.ai Bueno Muy fácil Usuarios que priorizan una interfaz intuitiva y rápida configuración