Vision Model Benchmark — Video Debugging

Benchmark de modelos de vision local para la skill video-debugger. Fecha: 2026-03-24.

Setup

Hardware: MacBook Pro M4 Max, 65 GB RAM
Video: Gifox MOV, 0.9s, 15fps, 2104×2100, ProRes
Test: 3 frames clave (before/during/after un cambio de UI)
Resize: 800px wide antes de enviar al modelo

Dependencias para reproducir

brew install ffmpeg
pip3 install mlx-vlm                    # macOS Apple Silicon
# Modelos MLX desde LM Studio UI o:
huggingface-cli download mlx-community/Qwen3-VL-30B-A3B-Instruct-4bit
# Para LM Studio backend: descargar LM Studio desde https://lmstudio.ai

Nota sobre Qwen3.5 MLX

La version MLX del Qwen3.5-35B-A3B (mlx-community/Qwen3.5-35B-A3B-4bit) no funciona para vision con mlx-vlm ni vmlx. El Qwen3VLVideoProcessor de transformers v5 requiere PyTorch tensors. Usar la version GGUF via LM Studio.

Prompt: Mismo para todos — describir cambios entre frames, detectar glitches

Bug real en el video

El video muestra: 1) UI completa con grid, toolbar, prompt central, minimap. 2) Desaparición abrupta de toda la UI → pantalla negra. 3) Reaparición con vista 3D en perspectiva, sin el prompt central original.

Resultados

Modelo	Tamaño	Backend	Tiempo	¿Detectó el bug?	Calidad	Rating
Qwen3-VL-4B	2.9 GB	mlx-vlm	11s	❌ No	Describe movimiento del botón pero no la desaparición de UI. Dice “smooth”.	2/5
Qwen3-VL-8B	5.4 GB	mlx-vlm	15s	✅ Sí	Detecta “complete disappearance”, dice “not smooth”, “sudden jumps”. Identifica que es un glitch.	4/5
Qwen3-VL-30B-A3B	17 GB	mlx-vlm	23s	✅ Sí	El más detallado. Describe cada elemento que desaparece/reaparece. Identifica “catastrophic failure in rendering pipeline”. Nota que la vista cambió de top-down a perspectiva.	5/5
Qwen3.5-35B-A3B	21 GB	lmstudio	27s	✅ Sí	Buena descripción. Nota el cambio de vista ortográfica a perspectiva. Dice “hard cut to black”. Más cauteloso que el 30B (dice “could be loading state”).	4/5

Análisis detallado

Qwen3-VL-4B (2.9 GB) — Rating: 2/5

No detectó el bug. Describe el botón rojo moviéndose entre frames pero no identifica la desaparición masiva de la UI. Dice que las transiciones son “smooth” cuando claramente no lo son. Alucinó un toolbar “Click para seleccionar” en Frame 2 que no existe. Muy limitado para debug de UI.

Qwen3-VL-8B (5.4 GB) — Rating: 4/5

Detectó el bug correctamente. Identifica la “complete disappearance” de la UI entre Frame 1 y 2. Nota que la pantalla va a negro. Describe la reaparición con “significant layout shift”. Explícitamente dice que las transiciones son “not smooth” y que hay “sudden jumps”. Único punto débil: no notó el cambio de vista (ortográfica → perspectiva).

Qwen3-VL-30B-A3B MoE (17 GB) — Rating: 5/5

El mejor. Detalle excepcional:

Enumera cada elemento visible en cada frame (toolbar, minimap, text prompts, control panel)
Nota la desaparición del contenido central y el viewport
Identifica que el canvas va a “completely black”
En la reaparición, nota que el wall icon está ausente (cambio de estado)
Clasifica las transiciones como “glitch” y “catastrophic failure in rendering pipeline”
Nota que es un crash + recovery, no una transición intencional
5551 bytes de output vs ~3400 de los demás

Qwen3.5-35B-A3B GGUF (21 GB) — Rating: 4/5

Buen análisis pero menos específico que el 30B-VL. Puntos fuertes:

Nota el cambio de vista (top-down → perspective) que el 8B no detectó
Identifica elementos faltantes (left sidebar, instructional text no vuelven)
Más cauteloso: dice “could be loading state” en vez de “crash”
Nota el cursor rojo en el bottom-left en Frame 2

Más conservador en sus conclusiones — útil si querés evitar false positives.

Recomendación

Caso de uso	Modelo recomendado	Por qué
Default (balance velocidad/calidad)	Qwen3-VL-8B	15s, 5.4 GB, detecta el bug, 4/5 calidad
Máxima calidad	Qwen3-VL-30B-A3B	23s, 17 GB, mejor detalle, 5/5 calidad
Máxima velocidad	Qwen3-VL-4B	11s, 2.9 GB, pero no detectó el bug — no confiable
Sin mlx-vlm (GGUF only)	Qwen3.5-35B-A3B	27s, 21 GB, buena calidad pero requiere LM Studio

Default para la skill: Qwen3-VL-8B — mejor ratio calidad/recursos. El 4B no es confiable para detección de bugs reales.

Raw outputs

Los outputs completos de cada modelo están en debug-frames/benchmark/.