Xiaoyang Cao's picture

5

Xiaoyang Cao

Sean13

·

https://xiaoyangcao1113.github.io/

AI & ML interests

RLFH, Deep Reinfrocement Learning

Recent Activity

updated a model 10 days ago

Sean13/grpo_nocurriculum_Qwen3-1.7B-100step

published a model 10 days ago

Sean13/grpo_nocurriculum_Qwen3-1.7B-100step

updated a model 10 days ago

Sean13/maxrl_nocurriculum_Qwen3-1.7B-100step

View all activity

Organizations

None yet

models 72

Sean13/grpo_nocurriculum_Qwen3-1.7B-100step

Reinforcement Learning • 2B • Updated 10 days ago • 11

Sean13/maxrl_nocurriculum_Qwen3-1.7B-100step

Reinforcement Learning • 2B • Updated 10 days ago • 15

Sean13/maxrl_curriculum_Qwen3-1.7B-200step

Reinforcement Learning • 2B • Updated 11 days ago • 16

Sean13/role-drift-compound-systems

Updated 14 days ago

Sean13/maxrl_curriculum_Qwen3-1.7B

2B • Updated 14 days ago • 17

Sean13/grpo_curriculum_Qwen3-1.7B

2B • Updated 14 days ago • 32

Sean13/repo-best-llama-re-dpo

Sean13/repo-best-llama-dpo

Sean13/repo-best-mistral-dpo

Sean13/repo-best-mistral-re-dpo

datasets 0

None public yet