./Tech

Diagnóstico de hardware y ranking de iA soberana Sin Hype.

Test de Viabilidad iA — escanea tu equipo y determina qué modelo local puedes ejecutar. Resultado exportable en PDF.
Local vs. Cloud — comparativa de capacidad cognitiva entre modelos de suscripción (GPT-4o, Claude, Gemini) y modelos soberanos ejecutables en tu propio hardware, en cuatro dimensiones: razonamiento, programación, creatividad y multilingüismo.
Ranking Top iA Local — los 8 mejores modelos Open Weights actualizados a mayo 2026, con score, VRAM requerida y plataformas compatibles. Sin marketing. Sin hype.

Autoscan de Hardware

Esta es un área de tests de hardware. A continuación usted podrá evaluar de forma aproximada las capacidades de su equipo.

Además puede llevarse en formato PDF el resultado del test.

Qué tengo y qué necesito para iA Soberana

Protocolo de selección de recursos para la ejecución de iA local.

(Sugerido: Brave o Chrome para máxima precisión de diagnóstico)

Indice de Rendimiento Real: Sin Hype

Bienvenido al catálogo de modelos de inteligencia artificial de capitania.org. A diferencia de los rankings comerciales, este espacio funciona como un observatorio técnico.

No medimos la popularidad, sino la capacidad real de resolución de problemas.

Cero Marketing: No medimos descargas ni presupuestos de publicidad. Solo resultados técnicos verificables.
Evaluaciones Ciegas: Solo incluimos modelos evaluados mediante pruebas donde el juez no sabe quién responde, eliminando el sesgo de marca.
Filtro Ético/Técnico: Aplicamos un veto estricto a proveedores que no cumplen con los estándares de transparencia y gobernanza.

Para garantizar la total transparencia de este catálogo, los datos son extraídos de los benchmarks más rigurosos de la industria. Usted puede verificar la metodología y los resultados en los siguientes enlaces:

LMSYS Chatbot Arena (Metodología y Paper)
Es la fuente principal de nuestro ranking. Utiliza un sistema de "torneo" donde miles de programadores comparan respuestas anónimas. Es la prueba más real de utilidad percibida porque el evaluador no sabe qué modelo está usando.
LiveCodeBench (Paper sobre Contaminación de Datos)
Utilizamos esta fuente para evitar la "contaminación de datos". A diferencia de otros tests, LiveCodeBench utiliza problemas de programación publicados después de que los modelos fueron entrenados, obligando a la IA a razonar en lugar de recordar.
Hugging Face Open LLM (Motor de Evaluación Técnica)
La referencia global para modelos de código abierto. Aquí verificamos las métricas técnicas puras a través del LM Evaluation Harness, el estándar de código abierto que permite reproducir y validar científicamente el rendimiento de los modelos.

En la columna de Score, no verá una calificación del 1 al 100. Utilizamos el Rating Elo, el mismo sistema empleado en el ajedrez profesional y los videojuegos competitivos.
- ¿Cómo funciona? El sistema no le pone una nota al modelo, sino que lo hace "competir". Dos modelos anónimos responden a la misma pregunta y un experto humano elige la mejor respuesta sin saber quién es quién.
- ¿Cómo interpretarlo?
  - No es un porcentaje: Un score de 1200 no significa que el modelo tenga un 1200% de éxito.
  - Es una medida de fuerza relativa: Cuanto más alto es el número, más veces ha ganado el modelo frente a otros competidores.
  - Diferencia de nivel: Una diferencia pequeña en los puntos puede representar una diferencia notable en la calidad del código generado.
Este catálogo aplica un filtro estricto para eliminar el "ruido" del marketing (hype). Para aparecer aquí, un modelo debe cumplir tres condiciones:
1. Pruebas Ciegas: Solo aceptamos resultados de evaluaciones donde el evaluador no conoce la marca del modelo.
2. Rendimiento Técnico: Priorizamos la capacidad de razonamiento lógico y escritura de código eficiente sobre la capacidad de "conversar".
3. Filtro de Gobernanza: Excluimos deliberadamente a empresas cuyos modelos no cumplen con nuestros estándares de transparencia o cuyos intereses comerciales interfieren con la neutralidad técnica.
Este es un documento vivo. A medida que la tecnología avance, añadiremos nuevas dimensiones de análisis, tales como:
- Latencia: Qué tan rápido responde el modelo.
- Costo por Token: Eficiencia económica para implementaciones reales.
- Ventana de Contexto: Cuánta información puede procesar el modelo de una sola vez.

Comparativa de Capacidad Cognitiva - Capitania.org

COMPARATIVA DE CAPACIDAD COGNITIVA

Análisis comparativo entre modelos cerrados (Cloud) y modelos soberanos (Local)

SELECCIONAR DIMENSIÓN DE ANÁLISIS

Última actualización: 12 de mayo de 2026 • Se actualiza semanalmente los días lunes

iA GLOBAL (CLOUD)				iA SOBERANA (LOCAL)

Ver iA Local en Escenarios por Profesión

Ranking Top 8 Modelos Open Weights / iA Local

Actualizado: 12 de May de 2026

Posición	Modelo	Descripción / Fortalezas principales	Score	VRAM (Q4/Q5)	Plataformas
1	Kimi K2.6 Moonshot AI	Líder actual en razonamiento, agentic y tareas complejas. Muy fuerte en tool-calling.	1255	18-28 GB	Ollama · LM Studio · Jan
2	Qwen 3.6 32B MoE Alibaba	Mejor multilingual (español excelente), coding y eficiencia.	1240	14-24 GB	Ollama · LM Studio · Jan
3	DeepSeek V4 / R1 DeepSeek	Especialista en matemáticas, razonamiento profundo y agentic.	1235	16-28 GB	Ollama · LM Studio · Jan
4	GLM-5 Zhipu AI	Muy fuerte en coding, software engineering y agentic de largo plazo.	1220	18-26 GB	Ollama · LM Studio · Jan
5	Gemma 4 31B Google	Mejor eficiencia + multimodal (texto + imagen + audio).	1210	14-22 GB	Ollama · LM Studio · Jan
6	MiniMax M2.7 MiniMax	Enfocado en productividad y workflows de ingeniería.	1198	16-24 GB	Ollama · LM Studio · Jan
7	Mistral Small 4 Mistral	Velocidad + calidad equilibrada para uso diario.	1185	14-20 GB	Ollama · LM Studio · Jan
8	Qwen 3.5 Coder Alibaba	Variante especializada en coding puro y desarrollo.	1175	12-22 GB	Ollama · LM Studio · Jan

Nota: Todos los modelos son Open Weights con licencias permisivas (Apache 2.0 / MIT).^*
Los scores son compuestos basados en leaderboards públicos. Ver leaderboards →

* Open Weights = Se liberan los pesos entrenados del modelo (permite uso local y fine-tuning), pero no el código completo de entrenamiento ni los datos originales.

Plataformas Recomendadas para Ejecución Local - Capitania.org
      Plataformas Recomendadas para Ejecución Local
    
      Actualizado: 12 de mayo de 2026
    
          Plataforma
          Prestación / Rendimiento
          Nivel de dificultad
          Perfil recomendado
        
          Ollama
          Más alto
          Intermedio / Avanzado
          Usuarios que buscan máximo rendimiento y automatización
        
          LM Studio
          Alto
          Intermedio
          Usuarios que desean buen equilibrio entre rendimiento y facilidad de uso
        
          Jan.ai
          Bueno
          Muy fácil
          Usuarios que priorizan una interfaz intuitiva y rápida configuración
        
      Recomendación: Para la mayoría de usuarios se recomienda comenzar con LM Studio, ya que ofrece un excelente equilibrio entre facilidad de uso y rendimiento. 
      Una vez familiarizado con el entorno, se sugiere migrar a Ollama para obtener el máximo rendimiento posible.

./Tech

Diagnóstico de hardware y ranking de iA soberana Sin Hype.

Autoscan de Hardware

Esta es un área de tests de hardware. A continuación usted podrá evaluar de forma aproximada las capacidades de su equipo.

Además puede llevarse en formato PDF el resultado del test.

Qué tengo y qué necesito para iA Soberana

Modelos que puede ejecutar hoy

Blueprint

Opciones para mejorar el rendimiento

Análisis de Capacidad Cognitiva y Procesamiento

Indice de Rendimiento Real: Sin Hype

COMPARATIVA DE CAPACIDAD COGNITIVA

Ranking Top 8 Modelos Open Weights / iA Local

Plataformas Recomendadas para Ejecución Local

El camino hacia una iA soberana comienza con un diagnóstico claro.