Uni-DPO

psp-dada 's Collections

updated 16 days ago

[ICLR 2026] Official repository of "Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs". Repo: https://github.com/pspdada/Uni-DPO

Upvote

Omni-DPO: A Dual-Perspective Paradigm for Dynamic Preference Learning of LLMs

Paper • 2506.10054 • Published Jun 11, 2025 • 3
psp-dada/Uni-DPO

Preview • Updated 10 days ago • 58 • 1
psp-dada/Qwen2.5-7B-Uni-DPO

Text Generation • 8B • Updated 10 days ago • 20 • 1
psp-dada/Llama-3-8B-Instruct-Uni-DPO-v2-GPT-4o

Text Generation • 8B • Updated 10 days ago • 15 • 1
psp-dada/Llama-3-8B-Instruct-Uni-DPO-v2-ArmoRM

Text Generation • 8B • Updated 10 days ago • 35 • 1
psp-dada/Llama-3-8B-Base-SFT-Uni-DPO

Text Generation • 8B • Updated 10 days ago • 19 • 1
psp-dada/Llama-3-8B-Base-SFT-Uni-DPO-v2-Qwen

Text Generation • 8B • Updated 10 days ago • 37 • 1
psp-dada/Gemma2-9B-IT-Uni-DPO

Text Generation • 9B • Updated 10 days ago • 24 • 1
psp-dada/Llama-3-8B-Base-SFT-Uni-DPO-v2-GPT-4

Text Generation • 8B • Updated 10 days ago • 17 • 1
psp-dada/Llama-3-8B-Instruct-Uni-DPO

Text Generation • 8B • Updated 10 days ago • 17 • 1
psp-dada/Qwen2.5-Math-7B-Uni-DPO

Text Generation • 8B • Updated 10 days ago • 19 • 1

Upvote