Grafo de aprendizaje — Cola de aprendizaje, pares DPO y captura de trayectorias

La plataforma construye un sustrato acumulativo: cada interacción del operador con una sesión de IA se convierte en una tupla de entrenamiento estructurada, enrutada a través de un único límite auditable (Doorman), capturada en un ledger de solo adición y reincorporada al SLM local mediante ajuste fino periódico. El resultado es un entorno de desarrollo que aprende de cómo se usa — las sugerencias de código se acercan a los patrones que escribe este operador, las propuestas de borrador se alinean más con la voz editorial de esta casa, las extracciones de entidades se afinan a medida que el grafo se enriquece.

[edit]Puntos clave

El sustrato acumula señal de entrenamiento a través de cuatro patas distintas: captura de trayectorias al cierre de sesión, una cola de aprendizaje que se activa en cada confirmación, pares DPO editoriales del flujo editorial de embudo inverso y destilación de trayectorias negativas a partir de correcciones del operador. Cada pata captura una dimensión diferente de la intención del operador.
Toda la señal de entrenamiento pasa por el mismo límite auditable — Doorman — y aterriza en el ledger de solo adición. Nada evita el ledger; nada sale del entorno local. El bucle de aprendizaje está aislado del exterior y es autónomo.
El corpus se acumula con cada sesión. A mediados de 2026 el corpus de aprendizaje contaba con 502 tuplas y el corpus de DPO editorial con 34 pares. Estos números crecen sin curación manual — el nivel base del modelo sube a medida que el operador utiliza el entorno.
La única pata aún no conectada es el bucle de entidades estructuradas: un endpoint POST /v1/draft/generate en service-content que fundamentaría la generación en entidades del grafo. La infraestructura de soporte (cola, ledger, hooks, enrutamiento de auditoría) ya está implementada; lo que resta es un esfuerzo de ingeniería Rust de varias semanas.

El sustrato tiene cuatro patas.

Captura de trayectorias. Un hook de cierre de sesión se activa al final de cada sesión, escribiendo una entrada JSONL estructurada en el ledger de auditoría: estado de la rama, recuento de archivos sin confirmar, SHA de la cabeza y un indicador de promoción pendiente. Una cosecha nocturna de transcripciones copia las transcripciones del día en el mismo ledger, etiquetadas por operador y archivo.

Cola de aprendizaje. Un hook post-commit emite un brief para cada confirmación del espacio de trabajo. Un drenador de 15 minutos llama al SLM local (OLMo-2 7B Q4) contra cada brief, captura el intento del modelo y escribe la tupla (brief, intento, diff_real) en el corpus de aprendizaje. A 2026-05-18 se habían acumulado 502 tuplas.

Pares DPO editoriales. Cada borrador que pasa por el patrón editorial de embudo inverso — de crudo a refinado a editado creativamente — emite dos pares de preferencia directa (DPO, del inglés direct preference optimisation) en el corpus de edición de prosa. El par captura los deltas de mejora editorial. A esa fecha se habían acumulado 34 pares.

Destilación de trayectorias negativas. Un script de análisis de buzones lee las correcciones del operador de los mensajes archivados y emite señales de trayectoria negativa en el corpus de retroalimentación. Esta cuarta pata captura lo que el modelo no debe hacer.

Lo que queda por conectar — trabajo de ingeniería en Rust de varias semanas: el bucle de entidades estructuradas. service-content (grafo respaldado por LadybugDB) necesita un endpoint POST /v1/draft/generate que consulte el grafo para obtener entidades relevantes, ensamble un prompt fundamentado de 2K tokens, llame al Doorman y escriba la respuesta como tupla de corpus fundamentado en el grafo. Un planificador LoRA deberá activar el cómputo GPU de nivel B para el entrenamiento nocturno de adaptadores.

El sustrato se acumula en dos direcciones: estructuralmente (la densidad de citas y las cadenas de supersedencia se enriquecen con cada borrador) y generativamente (cada adaptador eleva el nivel del "crudo" para que cada ciclo de refinamiento comience más cerca de lo publicable).

[edit]Véase también

compounding-substrate — la disciplina de sustrato que esta arquitectura instancia
service-slm — el servicio SLM local que ejecuta la inferencia del modelo en el bucle
totebox-session — el modelo de sesión que la captura de trayectorias instrumenta al final de cada sesión
mailbox-atomicity — la disciplina de escritura atómica que protege el ledger de auditoría de condiciones de carrera