neural-activations

# language-models → introspection → model-transparency → concept-injection → neural-activations

1 link tagged with all of: language-models + introspection + model-transparency + concept-injection + neural-activations

Links

Signs of introspection in large language models

Researchers used a “concept injection” method to compare Claude’s self-reported thoughts with its actual neural activity. They found Claude Opus 4 and 4.1 sometimes detect and control injected concepts, suggesting limited but real introspective abilities that improve with model capacity.

Last saved Oct 30, 2025 · 6 min read

introspection concept-injection neural-activations language-models model-transparency