Skip to content

El sustrato de aprendizaje

Topic

From the PointSav Documentation

El mecanismo de plataforma que enruta el trabajo de código y editorial primero a través de un modelo de lenguaje pequeño local, captura un veredicto sénior firmado para cada intento, y usa los pares de preferencia resultantes como señal de preentrenamiento continuo.

Updated 2026-05-22 · HistoryEspañol

Cuando un ingeniero sénior revisa el trabajo de un júnior, la corrección es el artefacto más valioso de la sala — y casi toda organización lo descarta. El razonamiento detrás de un arreglo se dice una vez, se aplica una vez y nunca se captura. El siguiente júnior, y el siguiente modelo, empiezan desde cero.

El sustrato de aprendizaje lo captura. Cada tarea de código y editorial se enruta primero a través de un modelo de lenguaje pequeño local; un revisor sénior firma luego un veredicto sobre el intento. El desacuerdo firmado entre el intento del aprendiz y el veredicto del sénior se convierte en datos de pares de preferencia.

El enrutamiento opera en tres etapas por tipo de tarea — review, spot-check y autonomous — con umbrales de promoción precisos. Un tipo de tarea graduado elimina los tokens de autoría sénior en esa clase de trabajo, y el enrutamiento en sombra recoge datos de entrenamiento de cada otro commit de código en la flota.

Para un comprador regulado la consecuencia es concreta. La IA mejora sobre el trabajo de la propia organización, y ese trabajo nunca sale del despliegue. Por el lenguaje de divulgación continua de [ni-51-102], la trayectoria hacia la eliminación de tokens en tipos de tarea graduados es prospectiva; la estructura de enrutamiento está operativa hoy.

[edit]Descripción general

La observación capturada entrena al modelo sobre lo que escribió el sénior. La interacción capturada — intento del aprendiz más veredicto sénior firmado — entrena con un orden de magnitud más eficiencia por tupla. Los datos de preferencia firmados son la entrada de entrenamiento más valiosa, un hallazgo establecido en la literatura de aprendizaje por retroalimentación de 2024-2026.

Este patrón de enrutamiento produce esas tuplas de interacción sobre trabajo de producción real, no sobre benchmarks sintéticos. Cada sesión ejercita al aprendiz; cada veredicto firmado es una tupla de entrenamiento; cada tipo de tarea graduado elimina tokens externos de forma monótona.

[edit]Anillo y función

El sustrato de aprendizaje abarca el Anillo 3 — Inteligencia Opcional — y la infraestructura del corpus de entrenamiento. service-slm, el Doorman, es el servicio del Anillo 3 que ejecuta el enrutamiento del aprendiz. El libro de promoción y los scripts de captura del corpus viven dentro del propio despliegue del cliente.

[edit]Las tres etapas

El enrutamiento opera por tipo de tarea. La promoción es automática al cruzar el umbral; la degradación es automática ante cualquier reversión post-commit rastreada a un diff del aprendiz.

Etapa Enrutamiento Revisión sénior
review El aprendiz intenta; el sénior revisa cada diff antes del commit Cada diff
spot-check El aprendiz commitea; el sénior revisa una muestra 1-en-N y anomalías auto-marcadas Muestreado y marcado
autonomous El aprendiz commitea autónomamente; auditoría mensual por lotes Auditoría por lotes

La promoción de review a spot-check exige al menos 50 veredictos con una tasa de aceptación de 0,85 sobre los 50 más recientes. La promoción a autonomous exige al menos 100 veredictos con una tasa de 0,95 sobre los 100 más recientes, con cero reversiones post-commit rastreadas a diffs del aprendiz. Una sola reversión rastreada a un diff del aprendiz degrada el tipo de tarea una etapa. Los tipos nuevos empiezan en review.

[edit]Brief, intento, veredicto

El sénior que escribiría un diff emite en su lugar un brief. El brief declara qué se está haciendo, los invariantes que el diff debe preservar, las restricciones citadas y la prueba de aceptación que el aprendiz debe hacer pasar.

El aprendiz responde con un intento: razonamiento que cita los invariantes del brief, una confianza propia calibrada contra su registro previo en este tipo de tarea, y un diff unificado. Si la confianza cae por debajo de 0,5, el aprendiz escala sin diff.

El sénior lee el intento y firma un veredicto: accept, refine, reject o defer-tier-c. Los veredictos refine y reject llevan una nota de una oración — los datos de entrenamiento de mayor señal que produce el corpus. La firma usa ssh-keygen -Y sign con una etiqueta de espacio de nombres que la vincula a este protocolo, de modo que una firma de commit no puede reutilizarse como veredicto.

[edit]Enrutamiento de producción y enrutamiento en sombra

Dos rutas corren en paralelo.

El enrutamiento de producción opera sobre tipos de tarea graduados: el sénior emite un brief antes de escribir un diff, el intento del aprendiz es el diff candidato, y en accept ese diff se incluye en el commit. Esto elimina los tokens de autoría sénior en los tipos graduados.

El enrutamiento en sombra opera sobre cada otro commit de código en cada cluster activo. Después de que el diff se escribe de la forma habitual, la sesión envía un brief al aprendiz; la triple (brief, intento, diff-real) se captura al corpus sin veredicto y sin firma.

La producción elimina tokens en los tipos graduados. La sombra genera los datos que gradúan el siguiente tipo. Las dos rutas se componen.

[edit]Tubería de captura

El corpus de aprendizaje es un cuarto corpus junto a los corpus constitucional, de ingeniería y de runtime de inquilino. La partición por inquilino vive a nivel de directorio:

data/training-corpus/apprenticeship/<task-type>/<tenant>/<ulid>.jsonl

Un archivo contiene una triple (brief, intento, veredicto). Los registros privados del inquilino nunca salen de su infraestructura. Un veredicto refine o reject produce además una triple de Optimización Directa de Preferencias — intento rechazado, diff corregido, etiqueta de violación de restricción — que alimenta el entrenamiento de adaptadores.

[edit]Configuración

El primer tipo de tarea registrado es version-bump-manifest. Cada incremento MINOR y PATCH de la plataforma toca MANIFEST.md y CHANGELOG.md: trabajo bien formado, sin juicio arquitectónico, fácilmente verificable. El aprendiz gradúa este tipo primero; los tokens sénior bajan en esa clase de trabajo; el siguiente tipo se registra.

Cuatro condiciones hacen funcionar el sustrato, y las cuatro son propiedades estructurales de un despliegue propiedad del cliente: una carta de gobernanza por cliente, identidades de firma por cliente, granularidad por tipo de tarea en el libro de promoción, y preentrenamiento continuo por cliente. Una plataforma de IA gestionada en la nube carece de las cuatro — entrenar sobre datos de interacción del cliente exige agruparlos, lo que elimina la garantía de aislamiento por cliente.

Por [ni-51-102], la trayectoria hacia la eliminación de tokens es prospectiva; la forma del enrutamiento está establecida hoy.

[edit]Véase también

Edit this page · View source