service-SLM y Yo-Yo — Estado Operativo
TopicFrom the PointSav Documentation
Visión general del enrutador de inferencia de tres niveles de service-SLM y la instancia GPU de explosión Yo-Yo, incluyendo el límite de costo y el techo de gastos mensuales.
service-SLM es el componente Anillo 3 de la plataforma: la capa de Inteligencia Opcional. Actúa como enrutador de inferencia de tres niveles, dirigiendo el trabajo de rutina — ediciones editoriales, traducción bilingüe, generación de salida estructurada — hacia el modelo apropiado sin necesidad de enviar datos a una API de terceros. Los anillos 1 y 2 (ingesta de límites y procesamiento de conocimiento) funcionan de forma completa sin él; el Anillo 3 es estructuralmente opcional.
El Yo-Yo es la instancia GPU de explosión a demanda de la plataforma: una máquina virtual en GCE que ejecuta un modelo de 32 mil millones de parámetros a aproximadamente 50-100 tokens por segundo. Se inicia bajo demanda y se apaga automáticamente tras 30 minutos de inactividad.
[edit]Arquitectura de tres niveles
El sistema define tres niveles de cómputo, enrutados por el Doorman:
- Tier A — local:
llama-serverejecutandoOLMo-3-1125-7B-Think-Q4_K_M.ggufen la CPU de la VM de trabajo (e2-standard-4). Siempre disponible. Rendimiento: aproximadamente 2-3 tokens por segundo. Suficiente para tareas cortas; insuficiente para trabajo editorial a escala. - Tier B — Yo-Yo:
llama-servercon soporte CUDA enyoyo-tier-b-1(g2-standard-4, GPU NVIDIA L4 de 24 GB), ejecutandoOLMo-2-0325-32B-Instruct-Q4_K_S.gguf. Rendimiento: aproximadamente 50-100 tokens por segundo. A demanda, no spot. - Tier C — API externa: configurado para uso futuro; sin claves activas en el período operativo actual.
[edit]El límite del Doorman
Todas las solicitudes de inferencia pasan por el Doorman antes de llegar a cualquier nivel. El Doorman es un binario Rust (local-doorman.service) vinculado a 127.0.0.1:9080. Sus responsabilidades:
- Retener todas las claves API (tokens de Tier C y el token bearer de Tier B). Las claves no existen en ningún otro punto de la ruta de solicitud.
- Enrutar solicitudes al nivel correcto según heurísticas de complejidad (tamaño de la solicitud, requisitos de salida estructurada).
- Registrar cada tránsito en el libro de auditoría por inquilino (
/var/lib/local-doorman/audit/<tenant>/<YYYY-MM>.jsonl). - Drenar la cola de borradores de aprendizaje (
data/apprenticeship/queue/).
[edit]Cola de aprendizaje
Cada confirmación en la plataforma activa el gancho de captura posterior a la confirmación, que escribe un borrador de aprendizaje en data/apprenticeship/queue/. El trabajador de drenaje del Doorman sondea la cola cada 30 segundos, envía el borrador al nivel apropiado (Tier A por defecto; Tier B cuando el borrador supera SLM_BRIEF_TIER_B_THRESHOLD_CHARS=500 caracteres) y registra el resultado en el corpus de entrenamiento. La cola es durable: acumula trabajos mientras el Yo-Yo está detenido y los procesa cuando se reinicia.
[edit]Techo de costos — monitor de inactividad
La VM Yo-Yo cuesta aproximadamente $0.71 USD por hora en funcionamiento. El monitor de inactividad (bin/yoyo-idle-monitor.sh, programado cada cinco minutos) sondea el endpoint /slots del Yo-Yo. Tras 30 minutos consecutivos sin inferencias activas, el monitor llama a gcloud compute instances stop yoyo-tier-b-1.
Con una utilización típica de desarrollo de aproximadamente el 25 por ciento, el techo de apagado por inactividad reduce el gasto mensual a aproximadamente $130-150 USD. Los clientes que replican este patrón operan bajo la misma economía.
[edit]Trabajo de rutina en la plataforma
El flujo de trabajo de ingeniería de la plataforma enruta el trabajo de rutina a Tier B: actualizaciones mecánicas de documentación, ediciones conformes al esquema, refactorizaciones basadas en patrones, borradores de traducción bilingüe, informes de estado rutinarios y código repetitivo. Las decisiones arquitectónicas, el diseño original y la coordinación entre capas se enrutan al nivel de modelo de frontera. service-SLM es el multiplicador del trabajo rutinario; el modelo de frontera es el motor del juicio.
[edit]Véase también
- compounding-substrate — el patrón arquitectónico de cinco propiedades que implementa el Yo-Yo
- service-slm — descripción general del servicio service-SLM
- apprenticeship-substrate — cómo se acumula la señal de entrenamiento a partir de tuplas del corpus operativo
- brief-queue-substrate — la cola durable que conecta el aprendizaje con el procesamiento en Tier A/B
- worm-ledger-architecture — el libro mayor de auditoría que registra cada llamada externa