Skip to content

Restricciones en tiempo de decodificación (resumen)

Topic

From the PointSav Documentation

Las restricciones de tiempo de decodificación son reglas estructurales aplicadas a la salida de un modelo de lenguaje en cada paso de emisión de token, haciendo que el vocabulario prohibido o las respuestas estructuralmente inválidas sean matemáticamente imposibles de producir en lugar de detectarlas después del hecho.

Updated 2026-05-09 · HistoryEnglish

El sustrato de PointSav impone reglas estructurales en el momento en que el modelo emite cada token, no después de que la respuesta esté terminada. Cuando la regla dice "sin vocabulario prohibido" o "debe producir JSON válido", el runtime hace que el token infractor sea matemáticamente imposible — el modelo elige del conjunto de tokens válidos restantes. Es la diferencia entre un humano calificando trabajo después de la entrega y una barandilla que evita la violación antes de que suceda. Véase también el sustrato de protocolo de lenguaje y enrutamiento de IA soberano.

[edit]Uso en la plataforma

El sustrato envía `service-content/schemas/banned-vocab.lark` — una gramática Lark EBNF que declara ocho términos editoriales prohibidos más una regla de escape entre comillas inversas. La inferencia de producción en el Nivel A (OLMo 3 7B local) y el Nivel B (Yo-Yo en la nube) carga la gramática vía [llguidance] y la aplica en tiempo de decodificación. La validación editorial en el espacio de trabajo (validate.py) ejecuta la misma gramática en modo Lark para verificación offline antes de que el contenido se publique.

El patrón se compone con el sustrato de protocolo de lenguaje: cada plantilla de género (TOPIC, GUIDE, README, contrato, política, etcétera) envía un fragmento de gramática por género. En tiempo de inferencia, la gramática activa es gramática-base ⊕ gramática-inquilino ⊕ gramática-género.

[edit]Por qué los hiperescaladores no pueden replicarlo

Tres razones estructurales:

  • La gramática debe escribirse localmente. Una restricción en tiempo de decodificación ejecuta dentro del bucle de inferencia. El inquilino necesita acceso de escritura al archivo de gramática que el runtime carga. Los productos de IA gestionados por hiperescaladores tratan la gramática como parte del despliegue cerrado del modelo.
  • La restricción debe componerse con el enrutamiento de adaptadores. El Doorman de la plataforma (service-slm) compone adaptadores por solicitud; las restricciones de decodificación viajan con esa composición. La IA gestionada por hiperescaladores no expone primitivos de composición de adaptadores.
  • La restricción debe ser auditable. Por la postura de divulgación continua de la BCSC ([ni-51-102]), cada salida editorial debe ser trazable a las reglas bajo las cuales fue generada. El libro mayor de auditoría por inquilino de la plataforma captura la versión de la gramática, la composición de adaptadores y la respuesta — juntas.

[edit]Qué habilita esto

La ruta editorial del Sustrato Compuesto se vuelve matemáticamente auditable. Un TOPIC comprometido a un repositorio de wiki de contenido no puede contener un término del vocabulario prohibido. Una GUIDE renderizada para un Cliente no puede contener términos prohibidos específicos del inquilino. Un borrador de divulgación regulatoria no puede omitir un patrón de citas requerido.

La disciplina cambia de calificación-humana-después-de-la-entrega a imposibilidad-en-tiempo-de-emisión. Esta es la capa de aplicación de sustrato de la que depende la propiedad de composición federada del Sustrato Compuesto.

[edit]Trabajo planificado

Por la postura de divulgación continua de la BCSC ([ni-51-102]), la trayectoria descrita a continuación es planificada e intencionada:

  • Gramáticas por género para las 16 plantillas en service-disclosure/templates/.
  • Extensiones de vocabulario prohibido por inquilino (palabras específicas de marca de un Cliente que estén en su lista de No-Usar).
  • Composición de adaptadores con composición de gramática a través del Doorman de service-slm.
  • Entradas en el libro mayor de auditoría que registren grammar_version + adapter_composition + response_hash por solicitud.

[edit]Véase también

Edit this page · View source