lvshangke's picture

6

lvshangke

paradox122

AI & ML interests

None yet

Organizations

None yet

upvoted a paper 4 months ago

UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

Paper • 2509.11543 • Published Sep 15, 2025 • 47

upvoted a paper 5 months ago

Hierarchical Budget Policy Optimization for Adaptive Reasoning

Paper • 2507.15844 • Published Jul 21, 2025 • 16

upvoted a paper 6 months ago

LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

Paper • 2507.15758 • Published Jul 21, 2025 • 35

upvoted 3 papers 8 months ago

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

Paper • 2505.15801 • Published May 21, 2025 • 17

Let LLMs Break Free from Overthinking via Self-Braking Tuning

Paper • 2505.14604 • Published May 20, 2025 • 23

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

Paper • 2505.14684 • Published May 20, 2025 • 24