CORAMO robot
Proyecto independiente — Chile — 2026

CORAMO

Robot humanoide de doble brazo controlado por voz con IA completamente local. Sin internet. Sin nube. Sin terceros.

Ver en GitHub Canal YouTube
24
Actuadores
32GB
RAM DDR3
16GB
VRAM
~6s
Latencia actual
0
Dependencias cloud

Identidad del proyecto

¿Qué significa CORAMO?

Cada letra del nombre define un pilar de diseño irrenunciable.

CO
Colaborativo

Trabaja junto a personas, no las reemplaza. Diseñado para compartir espacio físico con humanos de forma segura.

R
Reprogramable

Aprende nuevas tareas cambiando software. Sin rediseño mecánico para agregar nuevas funciones.

A
Autónomo

Toma decisiones por sí mismo basado en lo que escucha y ve. Sin operador humano en tiempo real.

MO
Modular

Cada subsistema es reemplazable de forma independiente. Brazos, manos, sensores — intercambiables.


Inteligencia artificial local

Pipeline de voz → acción

Del micrófono al motor, todo corre en hardware local sin ninguna llamada externa.

1
Micrófono USB
Audio capturado en tiempo real. PCM2902 o equivalente.
2
Silero VAD — CPU
Detecta cuándo el usuario empieza y termina de hablar. Corta tras ~1 s de silencio.
~0 s
3
Whisper small — GPU 1 (RX 580)
Transcribe el audio en español. Modelo ggml-small.bin (487 MB, 244M parámetros). Ejecutado como subprocess por llamada.
~5 s — CUELLO DE BOTELLA (83% de la latencia)
4
Check wake word — CPU
Verifica si el texto contiene "coramo". Usa fuzzy matching para tolerar errores de transcripción. Si no detecta wake word, descarta.
<0.01 s
5
Qwen3-4B — GPU 0 (RX 580)
LLM con function calling. Genera solo un JSON de tool call (≤30 tokens). tool_choice=required garantiza que siempre llame una función. Temperatura 0.0.
~1 s
6
Ejecución de función
Acción física: Arduino Mega → PCA9685 → 5 servos SG90. Sin respuesta verbal.
Respuesta verbal: Piper TTS en español, streaming por oración.
~0.1 s (acción) / ~1-2 s (TTS)

Hardware: de la Raspberry Pi al Xeon

Las mismas GPUs. El slot correcto. 35× más ancho de banda. Ese es el cambio.

Característica Raspberry Pi 5 (actual) Xeon + P9X79 (nuevo)
CPU ARM Cortex-A76 Intel Xeon E5-2670
Núcleos / Hilos 4C / 4T 8C / 16T
RAM 8 GB LPDDR4X 32 GB DDR3 Quad-Channel
Ancho de banda RAM ~17 GB/s ~50 GB/s
GPUs 2× AMD RX 580 (8 GB c/u) 2× AMD RX 580 (8 GB c/u)
PCIe por GPU ~0.4 GB/s (x1 compartido) ~14 GB/s (x16 real)
Carga modelo Whisper ~3.5 s ~0.03 s
Latencia total ~6 s ~1.7 s (estimado)
Consumo ~60–80 W ~200–300 W

El problema de los 6 segundos

Raspberry Pi 5 — Actual
~6.0 s
Whisper small~5 s (83%)
LLM Qwen3-4B~1 s (17%)
Arduino serial~0.1 s (2%)
VAD / wake word~0 s
Xeon + PCIe x16 — Estimado
~1.7 s
Whisper small~0.8 s
LLM Qwen3-4B~0.8 s
Arduino serial~0.1 s
VAD / wake word~0 s

Progreso del proyecto

Estado actual

Lo que funciona, lo que está en desarrollo, y lo que viene.

Completado
Conectividad de red con failover WiFi USB
Kernel Linux con soporte amdgpu en ARM64
Dos GPU RX 580 operativas en Raspberry Pi
Whisper small en GPU (~5 s transcripción)
Pipeline: VAD → Whisper → wake word → LLM
Qwen3-4B con GPU (~1 s inferencia)
Piper TTS en español, streaming
Function calling → mano robótica 5 dedos
Gestos: abrir, cerrar, paz, ok, rock, pulgar
Silero VAD para detección fin de habla
Fuzzy matching en detección de wake word
KV cache warmup del system prompt
En progreso
Migración Raspberry Pi 5 → Xeon P9X79 (placa en camino)
Objetivo: bajar latencia de 6 s a ~1.7 s
Pendiente
Integrar visión estereoscópica al pipeline
Expandir function calling al brazo completo
Segundo brazo
Sistema de piernas (sim-to-real)
Detección y manipulación de objetos por visión
Aprendizaje por demostración

Roadmap

Seis fases hacia un robot humanoide completamente autónomo.

Fase 1 — En progreso
Cerebro
Nuevo hardware (Xeon P9X79) con latencia < 2 s. Pipeline de voz estable y rápido.
Fase 2
Brazo completo
Function calling para control del brazo completo. Cinemática inversa por voz.
Fase 3
Visión activa
Integración de cámaras estereoscópicas. Detección de objetos. Manipulación guiada por visión.
Fase 4
Bimanual
Segundo brazo construido e integrado. Coordinación de ambos brazos para tareas complejas.
Fase 5
Locomoción
Entrenamiento de política de marcha en MuJoCo/Isaac Sim. Transferencia sim-to-real. CORAMO camina.
Fase 6
Aprendizaje
Imitation learning. CORAMO aprende tareas nuevas siendo guiado físicamente.

Comparativa de modelos Whisper

Tres intentos fallidos antes de encontrar el equilibrio entre velocidad y precisión.

Modelo Tamaño Tiempo Precisión ES Resultado Estado
ggml-base.bin 147 MB ~2.5 s Mala "[MÚSICA]" o "Thank you." con ruido Descartado
ggml-small.bin 487 MB ~5.0 s Buena 244M parámetros, español robusto ACTIVO
ggml-medium-q5_0 515 MB ~30 s Muy buena Sin FP16 nativo en GCN 4 → FP32 emulado Descartado
whisper-server (small) 487 MB ~29 s Buena Bug Vulkan en GCN 4 — recrea shaders SPIR-V por llamada Bug activo

Costo del hardware

Construido con hardware de segunda mano y componentes de bajo costo. Sin financiamiento institucional.

Parte superior
0
CLP
Torso, cabeza, un brazo, mano robótica y electrónica completa
Robot completo
0
CLP
Estimado incluyendo piernas y segundo brazo
Valor de mercado estimado
0
CLP
Precio de venta estimado para el robot completo

Sistema completo

Arquitectura del sistema

De los sensores a los actuadores — todo el flujo de datos de CORAMO.

Sensores
🎙️ Micrófono USB
PCM2902
📷 Cámara Est. L
RPi Camera
📷 Cámara Est. R
RPi Camera
──────► ──────► ──────►
Cerebro
RPi5 / Xeon E5-2670 + P9X79
GPU 0 — Qwen3-4B
LLM + Function Calling
GPU 1 — Whisper small
Transcripción + Visión
USB / I2C ──────►
Actuadores
🧠 RPi Pico 2W
Control de impedancia
Ángulo · Velocidad · Torque
⚙️ Motores DC
+ encoders AS5600
📟 PCA9685
PWM I2C
✋ 5 Servos SG90
Mano robótica
Cerebro
──────►
🔊 Piper TTS
es_ES-davefx (CPU)
──────►
🔈 Altavoz USB

Demo en vivo

CORAMO moviéndose — control real de la mano robótica.


Construcción real

Fotos del robot

CORAMO construido desde cero con piezas impresas en 3D y perfiles de aluminio.

CORAMO completo
Vista completa del robot
Cabeza de CORAMO
Cabeza con cámaras estereoscópicas
Mano robótica
Mano robótica — 5 dedos con servos SG90
Brazo de CORAMO
Sistema de transmisión del brazo
Torso de CORAMO
Torso y articulación del hombro
Detalle del robot
Detalle mecánico

Canal ExodiusRobot

Videos

Documentando el proceso real, incluyendo los fallos.

Publicado
Cómo Controlar una Mano Robótica con Arduino desde Cero
Mano robótica con 5 servos SG90, PCA9685, Arduino. Sweep suave 0–180°, gestos predefinidos.
Próximo
Por qué la Raspberry Pi no fue Suficiente para mi Robot con IA
Pipeline de voz de CORAMO, análisis de latencia detallado, los tres intentos fallidos con Whisper, y la solución con Xeon + PCIe x16. ~35 minutos.
Futuro
¿Los números se cumplen? Probando el Cerebro de CORAMO
Benchmarks reales del nuevo hardware. Comparativa entre latencia medida y latencia predicha.
Ver canal ExodiusRobot

Código abierto

GitHub

Todo el código del proyecto es público y documentado.

⚙️
coramo
Repositorio principal. Pipeline de voz, function calling, control de la mano robótica, documentación completa.
🖥️
gpu-rx-580-en-raspberry
Cómo hacer funcionar una GPU AMD RX 580 en Raspberry Pi 5. Kernel personalizado, firmware, parámetros.

Comparte CORAMO

Si el proyecto te parece interesante, ayuda compartiéndolo. Cada persona que lo conoce puede aportar ideas, colaboración o simplemente apoyo.


Hablemos

Contacto

¿Tienes preguntas sobre el proyecto, quieres colaborar, o simplemente te interesa CORAMO?

Correo
contacto@coramo.cl
Respondo en menos de 48 horas.
Envíame un mensaje
Hubo un error. Intenta de nuevo.
✓ Mensaje enviado. ¡Gracias por escribir!