Proyecto independiente — Chile — 2026

CORAMO

Robot humanoide de doble brazo controlado por voz con IA completamente local. Sin internet. Sin nube. Sin terceros.

Ver en GitHub Canal YouTube
5
Dedos robóticos
GPU RX 580
~6s
Latencia actual
0
Dependencias cloud

Identidad del proyecto

¿Qué significa CORAMO?

Cada letra del nombre define un pilar de diseño irrenunciable.

CO
Colaborativo

Trabaja junto a personas, no las reemplaza. Diseñado para compartir espacio físico con humanos de forma segura.

R
Reprogramable

Aprende nuevas tareas cambiando software. Sin rediseño mecánico para agregar nuevas funciones.

A
Autónomo

Toma decisiones por sí mismo basado en lo que escucha y ve. Sin operador humano en tiempo real.

MO
Modular

Cada subsistema es reemplazable de forma independiente. Brazos, manos, sensores — intercambiables.


Inteligencia artificial local

Pipeline de voz → acción

Del micrófono al motor, todo corre en hardware local sin ninguna llamada externa.

1
Micrófono USB
Audio capturado en tiempo real. PCM2902 o equivalente.
2
Silero VAD — CPU
Detecta cuándo el usuario empieza y termina de hablar. Corta tras ~1 s de silencio.
~0 s
3
Whisper small — GPU 1 (RX 580)
Transcribe el audio en español. Modelo ggml-small.bin (487 MB, 244M parámetros). Ejecutado como subprocess por llamada.
~5 s — CUELLO DE BOTELLA (83% de la latencia)
4
Check wake word — CPU
Verifica si el texto contiene "coramo". Usa fuzzy matching para tolerar errores de transcripción. Si no detecta wake word, descarta.
<0.01 s
5
Qwen3-4B — GPU 0 (RX 580)
LLM con function calling. Genera solo un JSON de tool call (≤30 tokens). tool_choice=required garantiza que siempre llame una función. Temperatura 0.0.
~1 s
6
Ejecución de función
Acción física: Arduino Mega → PCA9685 → 5 servos SG90. Sin respuesta verbal.
Respuesta verbal: Piper TTS en español, streaming por oración.
~0.1 s (acción) / ~1-2 s (TTS)

Hardware: de la Raspberry Pi al Xeon

Las mismas GPUs. El slot correcto. 35× más ancho de banda. Ese es el cambio.

Característica Raspberry Pi 5 (actual) Xeon + P9X79 (nuevo)
CPU ARM Cortex-A76 Intel Xeon E5-2670
Núcleos / Hilos 4C / 4T 8C / 16T
RAM 8 GB LPDDR4X 32 GB DDR3 Quad-Channel
Ancho de banda RAM ~17 GB/s ~50 GB/s
GPUs 2× AMD RX 580 (8 GB c/u) 2× AMD RX 580 (8 GB c/u)
PCIe por GPU ~0.4 GB/s (x1 compartido) ~14 GB/s (x16 real)
Carga modelo Whisper ~3.5 s ~0.03 s
Latencia total ~6 s ~1.7 s (estimado)
Consumo ~60–80 W ~200–300 W

El problema de los 6 segundos

Raspberry Pi 5 — Actual
~6.0 s
Whisper small~5 s (83%)
LLM Qwen3-4B~1 s (17%)
Arduino serial~0.1 s (2%)
VAD / wake word~0 s
Xeon + PCIe x16 — Estimado
~1.7 s
Whisper small~0.8 s
LLM Qwen3-4B~0.8 s
Arduino serial~0.1 s
VAD / wake word~0 s

Progreso del proyecto

Estado actual

Lo que funciona, lo que está en desarrollo, y lo que viene.

Completado
Conectividad de red con failover WiFi USB
Kernel Linux con soporte amdgpu en ARM64
Dos GPU RX 580 operativas en Raspberry Pi
Whisper small en GPU (~5 s transcripción)
Pipeline: VAD → Whisper → wake word → LLM
Qwen3-4B con GPU (~1 s inferencia)
Piper TTS en español, streaming
Function calling → mano robótica 5 dedos
Gestos: abrir, cerrar, paz, ok, rock, pulgar
Silero VAD para detección fin de habla
Fuzzy matching en detección de wake word
KV cache warmup del system prompt
En progreso
Migración Raspberry Pi 5 → Xeon P9X79 (placa en camino)
Objetivo: bajar latencia de 6 s a ~1.7 s
Pendiente
Integrar visión estereoscópica al pipeline
Expandir function calling al brazo completo
Segundo brazo
Sistema de piernas (sim-to-real)
Detección y manipulación de objetos por visión
Aprendizaje por demostración

Roadmap

Seis fases hacia un robot humanoide completamente autónomo.

Fase 1 — En progreso
Cerebro
Nuevo hardware (Xeon P9X79) con latencia < 2 s. Pipeline de voz estable y rápido.
Fase 2
Brazo completo
Function calling para control del brazo completo. Cinemática inversa por voz.
Fase 3
Visión activa
Integración de cámaras estereoscópicas. Detección de objetos. Manipulación guiada por visión.
Fase 4
Bimanual
Segundo brazo construido e integrado. Coordinación de ambos brazos para tareas complejas.
Fase 5
Locomoción
Entrenamiento de política de marcha en MuJoCo/Isaac Sim. Transferencia sim-to-real. CORAMO camina.
Fase 6
Aprendizaje
Imitation learning. CORAMO aprende tareas nuevas siendo guiado físicamente.

Canal ExodiusRobot

Videos

Documentando el proceso real, incluyendo los fallos.

Publicado
Cómo Controlar una Mano Robótica con Arduino desde Cero
Mano robótica con 5 servos SG90, PCA9685, Arduino. Sweep suave 0–180°, gestos predefinidos. Código disponible en GitHub.
Próximo
Por qué la Raspberry Pi no fue Suficiente para mi Robot con IA
Pipeline de voz de CORAMO, análisis de latencia detallado, los tres intentos fallidos con Whisper, y la solución con Xeon + PCIe x16. ~35 minutos.
Futuro
¿Los números se cumplen? Probando el Cerebro de CORAMO
Benchmarks reales del nuevo hardware. Comparativa entre latencia medida y latencia predicha.
Ver canal ExodiusRobot

Código abierto

GitHub

Todo el código del proyecto es público y documentado.

⚙️
coramo
Repositorio principal. Pipeline de voz, function calling, control de la mano robótica, documentación completa.
🖥️
gpu-rx-580-en-raspberry
Cómo hacer funcionar una GPU AMD RX 580 en Raspberry Pi 5. Kernel personalizado, firmware, parámetros.