FairSteer BAD Classifier (Secure)

Base Model: TinyLlama/TinyLlama-1.1B-Chat-v1.0
Target Layer: 14
Architecture: Linear Probe (Dropout -&gt; Linear)
Performance: 67.90% Balanced Accuracy

Biased Activation Detection (BAD) classifier optimized for TinyLlama-1.1B. This model detects whether an LLM's internal activation indicates biased reasoning.

This repository contains only SafeTensors weights for security.