CORAMO

Identidad del proyecto

¿Qué significa CORAMO?

Cada letra del nombre define un pilar de diseño irrenunciable.

Colaborativo

Trabaja junto a personas, no las reemplaza. Diseñado para compartir espacio físico con humanos de forma segura.

Reprogramable

Aprende nuevas tareas cambiando software. Sin rediseño mecánico para agregar nuevas funciones.

Autónomo

Toma decisiones por sí mismo basado en lo que escucha y ve. Sin operador humano en tiempo real.

Modular

Cada subsistema es reemplazable de forma independiente. Brazos, manos, sensores — intercambiables.

Inteligencia artificial local

Pipeline de voz → acción

Del micrófono al motor, todo corre en hardware local sin ninguna llamada externa.

Micrófono USB

Audio capturado en tiempo real. PCM2902 o equivalente.

Silero VAD — CPU

Detecta cuándo el usuario empieza y termina de hablar. Corta tras ~1 s de silencio.

~0 s

Whisper small — GPU 1 (RX 580)

Transcribe el audio en español. Modelo ggml-small.bin (487 MB, 244M parámetros). Ejecutado como subprocess por llamada.

~5 s — CUELLO DE BOTELLA (83% de la latencia)

Check wake word — CPU

Verifica si el texto contiene "coramo". Usa fuzzy matching para tolerar errores de transcripción. Si no detecta wake word, descarta.

<0.01 s

Qwen3-4B — GPU 0 (RX 580)

LLM con function calling. Genera solo un JSON de tool call (≤30 tokens). tool_choice=required garantiza que siempre llame una función. Temperatura 0.0.

~1 s

Ejecución de función

Acción física: Arduino Mega → PCA9685 → 5 servos SG90. Sin respuesta verbal.
Respuesta verbal: Piper TTS en español, streaming por oración.

~0.1 s (acción) / ~1-2 s (TTS)

Cerebro del robot

Hardware: de la Raspberry Pi al Xeon

Las mismas GPUs. El slot correcto. 35× más ancho de banda. Ese es el cambio.

Característica	Raspberry Pi 5 (actual)	Xeon + P9X79 (nuevo)
CPU	ARM Cortex-A76	Intel Xeon E5-2670
Núcleos / Hilos	4C / 4T	8C / 16T
RAM	8 GB LPDDR4X	32 GB DDR3 Quad-Channel
Ancho de banda RAM	~17 GB/s	~50 GB/s
GPUs	2× AMD RX 580 (8 GB c/u)	2× AMD RX 580 (8 GB c/u)
PCIe por GPU	~0.4 GB/s (x1 compartido)	~14 GB/s (x16 real)
Carga modelo Whisper	~3.5 s	~0.03 s
Latencia total	~6 s	~1.7 s (estimado)
Consumo	~60–80 W	~200–300 W

Análisis de latencia

El problema de los 6 segundos

Raspberry Pi 5 — Actual

~6.0 s

Whisper small~5 s (83%)

LLM Qwen3-4B~1 s (17%)

Arduino serial~0.1 s (2%)

VAD / wake word~0 s

Xeon + PCIe x16 — Estimado

~1.7 s

Whisper small~0.8 s

LLM Qwen3-4B~0.8 s

Arduino serial~0.1 s

VAD / wake word~0 s

Progreso del proyecto

Estado actual

Lo que funciona, lo que está en desarrollo, y lo que viene.

Completado

✓

Conectividad de red con failover WiFi USB

✓

Kernel Linux con soporte amdgpu en ARM64

✓

Dos GPU RX 580 operativas en Raspberry Pi

✓

Whisper small en GPU (~5 s transcripción)

✓

Pipeline: VAD → Whisper → wake word → LLM

✓

Qwen3-4B con GPU (~1 s inferencia)

✓

Piper TTS en español, streaming

✓

Function calling → mano robótica 5 dedos

✓

Gestos: abrir, cerrar, paz, ok, rock, pulgar

✓

Silero VAD para detección fin de habla

✓

Fuzzy matching en detección de wake word

✓

KV cache warmup del system prompt

En progreso

→

Migración Raspberry Pi 5 → Xeon P9X79 (placa en camino)

→

Objetivo: bajar latencia de 6 s a ~1.7 s

Pendiente

○

Integrar visión estereoscópica al pipeline

○

Expandir function calling al brazo completo

○

Segundo brazo

○

Sistema de piernas (sim-to-real)

○

Detección y manipulación de objetos por visión

○

Aprendizaje por demostración

Visión a largo plazo

Roadmap

Seis fases hacia un robot humanoide completamente autónomo.

Fase 1 — En progreso

Cerebro

Nuevo hardware (Xeon P9X79) con latencia < 2 s. Pipeline de voz estable y rápido.

Fase 2

Brazo completo

Function calling para control del brazo completo. Cinemática inversa por voz.

Fase 3

Visión activa

Integración de cámaras estereoscópicas. Detección de objetos. Manipulación guiada por visión.

Fase 4

Bimanual

Segundo brazo construido e integrado. Coordinación de ambos brazos para tareas complejas.

Fase 5

Locomoción

Entrenamiento de política de marcha en MuJoCo/Isaac Sim. Transferencia sim-to-real. CORAMO camina.

Fase 6

Aprendizaje

Imitation learning. CORAMO aprende tareas nuevas siendo guiado físicamente.

Búsqueda del modelo correcto

Comparativa de modelos Whisper

Tres intentos fallidos antes de encontrar el equilibrio entre velocidad y precisión.

Modelo	Tamaño	Tiempo	Precisión ES	Resultado	Estado
`ggml-base.bin`	147 MB	~2.5 s	Mala	"[MÚSICA]" o "Thank you." con ruido	Descartado
`ggml-small.bin`	487 MB	~5.0 s	Buena	244M parámetros, español robusto	ACTIVO
`ggml-medium-q5_0`	515 MB	~30 s	Muy buena	Sin FP16 nativo en GCN 4 → FP32 emulado	Descartado
`whisper-server (small)`	487 MB	~29 s	Buena	Bug Vulkan en GCN 4 — recrea shaders SPIR-V por llamada	Bug activo