Vision Model Benchmark — Video Debugging

Benchmark de modelos de vision local para la skill video-debugger. Fecha: 2026-03-24.

Setup

  • Hardware: MacBook Pro M4 Max, 65 GB RAM
  • Video: Gifox MOV, 0.9s, 15fps, 2104×2100, ProRes
  • Test: 3 frames clave (before/during/after un cambio de UI)
  • Resize: 800px wide antes de enviar al modelo

Dependencias para reproducir

brew install ffmpeg
pip3 install mlx-vlm                    # macOS Apple Silicon
# Modelos MLX desde LM Studio UI o:
huggingface-cli download mlx-community/Qwen3-VL-30B-A3B-Instruct-4bit
# Para LM Studio backend: descargar LM Studio desde https://lmstudio.ai

Nota sobre Qwen3.5 MLX

La version MLX del Qwen3.5-35B-A3B (mlx-community/Qwen3.5-35B-A3B-4bit) no funciona para vision con mlx-vlm ni vmlx. El Qwen3VLVideoProcessor de transformers v5 requiere PyTorch tensors. Usar la version GGUF via LM Studio.

  • Prompt: Mismo para todos — describir cambios entre frames, detectar glitches

Bug real en el video

El video muestra: 1) UI completa con grid, toolbar, prompt central, minimap. 2) Desaparición abrupta de toda la UI → pantalla negra. 3) Reaparición con vista 3D en perspectiva, sin el prompt central original.

Resultados

Modelo Tamaño Backend Tiempo ¿Detectó el bug? Calidad Rating
Qwen3-VL-4B 2.9 GB mlx-vlm 11s ❌ No Describe movimiento del botón pero no la desaparición de UI. Dice “smooth”. 2/5
Qwen3-VL-8B 5.4 GB mlx-vlm 15s ✅ Sí Detecta “complete disappearance”, dice “not smooth”, “sudden jumps”. Identifica que es un glitch. 4/5
Qwen3-VL-30B-A3B 17 GB mlx-vlm 23s ✅ Sí El más detallado. Describe cada elemento que desaparece/reaparece. Identifica “catastrophic failure in rendering pipeline”. Nota que la vista cambió de top-down a perspectiva. 5/5
Qwen3.5-35B-A3B 21 GB lmstudio 27s ✅ Sí Buena descripción. Nota el cambio de vista ortográfica a perspectiva. Dice “hard cut to black”. Más cauteloso que el 30B (dice “could be loading state”). 4/5

Análisis detallado

Qwen3-VL-4B (2.9 GB) — Rating: 2/5

No detectó el bug. Describe el botón rojo moviéndose entre frames pero no identifica la desaparición masiva de la UI. Dice que las transiciones son “smooth” cuando claramente no lo son. Alucinó un toolbar “Click para seleccionar” en Frame 2 que no existe. Muy limitado para debug de UI.

Qwen3-VL-8B (5.4 GB) — Rating: 4/5

Detectó el bug correctamente. Identifica la “complete disappearance” de la UI entre Frame 1 y 2. Nota que la pantalla va a negro. Describe la reaparición con “significant layout shift”. Explícitamente dice que las transiciones son “not smooth” y que hay “sudden jumps”. Único punto débil: no notó el cambio de vista (ortográfica → perspectiva).

Qwen3-VL-30B-A3B MoE (17 GB) — Rating: 5/5

El mejor. Detalle excepcional:

  • Enumera cada elemento visible en cada frame (toolbar, minimap, text prompts, control panel)
  • Nota la desaparición del contenido central y el viewport
  • Identifica que el canvas va a “completely black”
  • En la reaparición, nota que el wall icon está ausente (cambio de estado)
  • Clasifica las transiciones como “glitch” y “catastrophic failure in rendering pipeline”
  • Nota que es un crash + recovery, no una transición intencional
  • 5551 bytes de output vs ~3400 de los demás

Qwen3.5-35B-A3B GGUF (21 GB) — Rating: 4/5

Buen análisis pero menos específico que el 30B-VL. Puntos fuertes:

  • Nota el cambio de vista (top-down → perspective) que el 8B no detectó
  • Identifica elementos faltantes (left sidebar, instructional text no vuelven)
  • Más cauteloso: dice “could be loading state” en vez de “crash”
  • Nota el cursor rojo en el bottom-left en Frame 2

Más conservador en sus conclusiones — útil si querés evitar false positives.

Recomendación

Caso de uso Modelo recomendado Por qué
Default (balance velocidad/calidad) Qwen3-VL-8B 15s, 5.4 GB, detecta el bug, 4/5 calidad
Máxima calidad Qwen3-VL-30B-A3B 23s, 17 GB, mejor detalle, 5/5 calidad
Máxima velocidad Qwen3-VL-4B 11s, 2.9 GB, pero no detectó el bug — no confiable
Sin mlx-vlm (GGUF only) Qwen3.5-35B-A3B 27s, 21 GB, buena calidad pero requiere LM Studio

Default para la skill: Qwen3-VL-8B — mejor ratio calidad/recursos. El 4B no es confiable para detección de bugs reales.

Raw outputs

Los outputs completos de cada modelo están en debug-frames/benchmark/.