Sean13
/

llama-8b-instruct-rdpo-full-multipref-init-eta-0.80

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

llama-8b-instruct-rdpo-full-multipref-init-eta-0.80 / training_args.bin

Commit History

Training in progress, step 229

f1eecc8
verified

Sean13 commited on Nov 20, 2025