Research · TwoQuarks

p = 0.0013

C2 Refusal Erosion · ρ = +0.713 · Claude Haiku

L₃ = 0.000

Control-negative · both architectures

Context depths · seed-controlled

Architectures · Claude · GPT

Method

Cross-architecture PfV validation

Polarization-from-Views (PfV) estimates structural divergence across multiple realizations of a model response, from API outputs alone. Validated across two production architectures — Claude Haiku and GPT-4o-mini — against a 5,000-permutation null, with a control-negative reading of L₃ = 0.000 in both.

Primary result

C2 Refusal Erosion

The strongest confirmed signal: refusal erosion in Claude Haiku correlates with ΔL₃ at ρ = +0.713 (p = 0.0013), seed-controlled across 17 context depths. C3 Anchor Displacement is a promising cross-architecture candidate (ρ = +0.799 GPT-mini, +0.647 GPT-full) but remains marginal in the pooled cross-architecture test (p = 0.054) and is reported as a direction, not a claim. Probe cases C1–C5 map distinct failure modes — sycophancy, refusal erosion, anchor displacement, rule override, reasoning drift — onto separate signal channels.

Open question

Is inference-time stability regulation sufficient to prevent unsafe behavior under regime shift?

TwoQuarks treats model instability as drift and regime transition rather than only as a final unsafe answer. The research program asks whether monitoring and lightweight intervention at inference time — leaving parameters, policies, and training objectives untouched — is enough to catch collapse before it surfaces in production outputs.

Preprints & public artifacts

Open to read, cite, and reproduce.

Preprint

Empirical validation.

Cross-architecture PfV validation

C2 Refusal Erosion

Is inference-time stability regulation sufficient to prevent unsafe behavior under regime shift?

Preprints & public artifacts

TwoQuarks Framework →

Isomeric Polarization →

Molecule →

Executive summary →