prav719
/

DeepSeek-R1-Distill-Qwen-32B-flash-attention-2_H100

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

DeepSeek-R1-Distill-Qwen-32B-flash-attention-2_H100 / runs

133 kB

1 contributor

History: 3 commits

prav719's picture

Model save

80691f4 verified 10 months ago