Vision Model Benchmark — Video Debugging
Benchmark de modelos de vision local para la skill video-debugger. Fecha: 2026-03-24.
Setup
- Hardware: MacBook Pro M4 Max, 65 GB RAM
- Video: Gifox MOV, 0.9s, 15fps, 2104×2100, ProRes
- Test: 3 frames clave (before/during/after un cambio de UI)
- Resize: 800px wide antes de enviar al modelo
Dependencias para reproducir
brew install ffmpeg
pip3 install mlx-vlm # macOS Apple Silicon
# Modelos MLX desde LM Studio UI o:
huggingface-cli download mlx-community/Qwen3-VL-30B-A3B-Instruct-4bit
# Para LM Studio backend: descargar LM Studio desde https://lmstudio.ai
Nota sobre Qwen3.5 MLX
La version MLX del Qwen3.5-35B-A3B (mlx-community/Qwen3.5-35B-A3B-4bit) no funciona para vision con mlx-vlm ni vmlx. El Qwen3VLVideoProcessor de transformers v5 requiere PyTorch tensors. Usar la version GGUF via LM Studio.
- Prompt: Mismo para todos — describir cambios entre frames, detectar glitches
Bug real en el video
El video muestra: 1) UI completa con grid, toolbar, prompt central, minimap. 2) Desaparición abrupta de toda la UI → pantalla negra. 3) Reaparición con vista 3D en perspectiva, sin el prompt central original.
Resultados
| Modelo | Tamaño | Backend | Tiempo | ¿Detectó el bug? | Calidad | Rating |
|---|---|---|---|---|---|---|
| Qwen3-VL-4B | 2.9 GB | mlx-vlm | 11s | ❌ No | Describe movimiento del botón pero no la desaparición de UI. Dice “smooth”. | 2/5 |
| Qwen3-VL-8B | 5.4 GB | mlx-vlm | 15s | ✅ Sí | Detecta “complete disappearance”, dice “not smooth”, “sudden jumps”. Identifica que es un glitch. | 4/5 |
| Qwen3-VL-30B-A3B | 17 GB | mlx-vlm | 23s | ✅ Sí | El más detallado. Describe cada elemento que desaparece/reaparece. Identifica “catastrophic failure in rendering pipeline”. Nota que la vista cambió de top-down a perspectiva. | 5/5 |
| Qwen3.5-35B-A3B | 21 GB | lmstudio | 27s | ✅ Sí | Buena descripción. Nota el cambio de vista ortográfica a perspectiva. Dice “hard cut to black”. Más cauteloso que el 30B (dice “could be loading state”). | 4/5 |
Análisis detallado
Qwen3-VL-4B (2.9 GB) — Rating: 2/5
No detectó el bug. Describe el botón rojo moviéndose entre frames pero no identifica la desaparición masiva de la UI. Dice que las transiciones son “smooth” cuando claramente no lo son. Alucinó un toolbar “Click para seleccionar” en Frame 2 que no existe. Muy limitado para debug de UI.
Qwen3-VL-8B (5.4 GB) — Rating: 4/5
Detectó el bug correctamente. Identifica la “complete disappearance” de la UI entre Frame 1 y 2. Nota que la pantalla va a negro. Describe la reaparición con “significant layout shift”. Explícitamente dice que las transiciones son “not smooth” y que hay “sudden jumps”. Único punto débil: no notó el cambio de vista (ortográfica → perspectiva).
Qwen3-VL-30B-A3B MoE (17 GB) — Rating: 5/5
El mejor. Detalle excepcional:
- Enumera cada elemento visible en cada frame (toolbar, minimap, text prompts, control panel)
- Nota la desaparición del contenido central y el viewport
- Identifica que el canvas va a “completely black”
- En la reaparición, nota que el wall icon está ausente (cambio de estado)
- Clasifica las transiciones como “glitch” y “catastrophic failure in rendering pipeline”
- Nota que es un crash + recovery, no una transición intencional
- 5551 bytes de output vs ~3400 de los demás
Qwen3.5-35B-A3B GGUF (21 GB) — Rating: 4/5
Buen análisis pero menos específico que el 30B-VL. Puntos fuertes:
- Nota el cambio de vista (top-down → perspective) que el 8B no detectó
- Identifica elementos faltantes (left sidebar, instructional text no vuelven)
- Más cauteloso: dice “could be loading state” en vez de “crash”
- Nota el cursor rojo en el bottom-left en Frame 2
Más conservador en sus conclusiones — útil si querés evitar false positives.
Recomendación
| Caso de uso | Modelo recomendado | Por qué |
|---|---|---|
| Default (balance velocidad/calidad) | Qwen3-VL-8B | 15s, 5.4 GB, detecta el bug, 4/5 calidad |
| Máxima calidad | Qwen3-VL-30B-A3B | 23s, 17 GB, mejor detalle, 5/5 calidad |
| Máxima velocidad | Qwen3-VL-4B | 11s, 2.9 GB, pero no detectó el bug — no confiable |
| Sin mlx-vlm (GGUF only) | Qwen3.5-35B-A3B | 27s, 21 GB, buena calidad pero requiere LM Studio |
Default para la skill: Qwen3-VL-8B — mejor ratio calidad/recursos. El 4B no es confiable para detección de bugs reales.
Raw outputs
Los outputs completos de cada modelo están en debug-frames/benchmark/.