LLaDA-8B-BGPO - a THU-KEG Collection

THU-KEG 's Collections

SIRI

VerIF

OpenSAE-LLaMA-3.1-8B

Crab

ADELIE

LLaDA-8B-BGPO

updated Oct 11, 2025

Boundary-Guided Policy Optimization for Memory-Efficient RL of Diffusion Large Language Models

THU-KEG/LLaDA-8B-BGPO-math

Reinforcement Learning • 8B • Updated Oct 14, 2025 • 11 • 1
THU-KEG/LLaDA-8B-BGPO-code

Reinforcement Learning • 8B • Updated Oct 14, 2025 • 13 • 1
THU-KEG/LLaDA-8B-BGPO-countdown

Reinforcement Learning • 8B • Updated Oct 14, 2025 • 7 • 1
THU-KEG/LLaDA-8B-BGPO-sudoku

Reinforcement Learning • 8B • Updated Oct 14, 2025 • 10 • 1