mamba413 (Jin Zhu)

Papers 3

arxiv:2510.01268

arxiv:2504.03784

arxiv:2212.14468

models 11

datasets 8

mamba413/GenerateText_Qwen2.5-1.5B-Instruct_GRPO_HH_Seed1

Viewer • Updated Jun 10, 2025 • 7.06k • 4

mamba413/GenerateText_HH_Seed1

Viewer • Updated Mar 25, 2025 • 11.8k • 16

mamba413/GenerateText_HH_Seed1_new

Viewer • Updated Mar 24, 2025 • 640 • 35

mamba413/RewardModel-BENCH-HH-Seed1

Viewer • Updated Mar 23, 2025 • 64 • 5

mamba413/RewardModel-DR-HH-Seed1

Viewer • Updated Mar 23, 2025 • 64 • 5

mamba413/train_data_imdb_simu_valid

Viewer • Updated Mar 16, 2025 • 48.1k • 27

mamba413/train_data_imdb_simu

Viewer • Updated Mar 15, 2025 • 48.1k • 23

mamba413/train_data_imdb

Viewer • Updated Mar 3, 2025 • 2 • 6

Jin Zhu

AI & ML interests

Organizations

Papers 3

models 11

mamba413/L2D

mamba413/Qwen2.5-1.5B-PPO-DR-HH-Seed1

mamba413/Qwen2.5-1.5B-PPO-BENCH-HH-Seed1

mamba413/Qwen2.5-1.5B-Instruct-Reward-BENCH-HH-Seed1

mamba413/Qwen2.5-1.5B-Instruct-Reward-BENCH-HH-Seed0

mamba413/Qwen2.5-1.5B-Instruct-Reward-DR-HH-Seed0

mamba413/Qwen2-0.5B-Reward-DR-HH-Seed0

mamba413/Qwen2.5-1.5B-Reward-DR-IMDB-Seed0

mamba413/Qwen2.5-1.5B-Reward-DR-SIMU-Seed0

mamba413/Qwen2-0.5B-Reward-DR-SIMU-Seed0

datasets 8

mamba413/GenerateText_Qwen2.5-1.5B-Instruct_GRPO_HH_Seed1

mamba413/GenerateText_HH_Seed1

mamba413/GenerateText_HH_Seed1_new

mamba413/RewardModel-BENCH-HH-Seed1

mamba413/RewardModel-DR-HH-Seed1

mamba413/train_data_imdb_simu_valid

mamba413/train_data_imdb_simu

mamba413/train_data_imdb

Jin Zhu

AI & ML interests

Organizations

Papers 3

models 11 Sort: Recently updated

datasets 8 Sort: Recently updated

models 11

datasets 8