Quit Emailing Yourself

# language-models → optimization → machine-learning → dual-learning

1 link tagged with all of: language-models + optimization + machine-learning + dual-learning

DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

DuPO introduces a dual learning-based preference optimization framework designed to generate annotation-free feedback, overcoming limitations of existing methods such as RLVR and traditional dual learning. By decomposing a task's input into known and unknown components and reconstructing the unknown part, DuPO enhances various tasks, achieving significant improvements in translation quality and mathematical reasoning accuracy. This framework positions itself as a scalable and general approach for optimizing large language models (LLMs) without the need for costly labels.

Saved by tldr-importer · Last saved October 29, 2025 · 2 min read

machine-learning ✓ optimization ✓ + self-supervision dual-learning ✓ language-models ✓

Links

DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization