SmolVLM2-2.2B-Instruct-Agentic-GUI / trainer_state.json

PUSH last checkpoint

32624be 3 months ago

77.3 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 100,
	"global_step": 1408,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.007109215320359016,
	"grad_norm": 22.657577985866105,
	"learning_rate": 9.302325581395349e-06,
	"loss": 2.574,
	"mean_token_accuracy": 0.5464246176183224,
	"num_tokens": 4589382.0,
	"step": 5
	},
	{
	"epoch": 0.014218430640718031,
	"grad_norm": 2.3543289370923013,
	"learning_rate": 2.0930232558139536e-05,
	"loss": 1.4882,
	"mean_token_accuracy": 0.6589333653450012,
	"num_tokens": 9171524.0,
	"step": 10
	},
	{
	"epoch": 0.021327645961077047,
	"grad_norm": 0.8063547574982903,
	"learning_rate": 3.2558139534883724e-05,
	"loss": 1.0174,
	"mean_token_accuracy": 0.7330243036150932,
	"num_tokens": 13765157.0,
	"step": 15
	},
	{
	"epoch": 0.028436861281436063,
	"grad_norm": 0.572573905518242,
	"learning_rate": 4.418604651162791e-05,
	"loss": 0.8773,
	"mean_token_accuracy": 0.7569610200822353,
	"num_tokens": 18369874.0,
	"step": 20
	},
	{
	"epoch": 0.035546076601795075,
	"grad_norm": 0.5738482260117446,
	"learning_rate": 5.5813953488372095e-05,
	"loss": 0.7975,
	"mean_token_accuracy": 0.7729738861322403,
	"num_tokens": 22960290.0,
	"step": 25
	},
	{
	"epoch": 0.042655291922154094,
	"grad_norm": 0.5016568944917689,
	"learning_rate": 6.744186046511628e-05,
	"loss": 0.7632,
	"mean_token_accuracy": 0.778630904853344,
	"num_tokens": 27556623.0,
	"step": 30
	},
	{
	"epoch": 0.049764507242513106,
	"grad_norm": 0.4845613474361907,
	"learning_rate": 7.906976744186047e-05,
	"loss": 0.7326,
	"mean_token_accuracy": 0.7872321248054505,
	"num_tokens": 32158408.0,
	"step": 35
	},
	{
	"epoch": 0.056873722562872125,
	"grad_norm": 0.4270154516127363,
	"learning_rate": 9.069767441860465e-05,
	"loss": 0.7095,
	"mean_token_accuracy": 0.7919960044324398,
	"num_tokens": 36742233.0,
	"step": 40
	},
	{
	"epoch": 0.06398293788323114,
	"grad_norm": 0.499498695141066,
	"learning_rate": 9.9999880816326e-05,
	"loss": 0.6973,
	"mean_token_accuracy": 0.7952379912137986,
	"num_tokens": 41335670.0,
	"step": 45
	},
	{
	"epoch": 0.07109215320359015,
	"grad_norm": 0.4645180201543763,
	"learning_rate": 9.999570945402425e-05,
	"loss": 0.6853,
	"mean_token_accuracy": 0.7981184311211109,
	"num_tokens": 45940079.0,
	"step": 50
	},
	{
	"epoch": 0.07820136852394917,
	"grad_norm": 0.434255531179794,
	"learning_rate": 9.998557953932929e-05,
	"loss": 0.6688,
	"mean_token_accuracy": 0.8012012615799904,
	"num_tokens": 50533771.0,
	"step": 55
	},
	{
	"epoch": 0.08531058384430819,
	"grad_norm": 0.393754634337621,
	"learning_rate": 9.99694924136941e-05,
	"loss": 0.6725,
	"mean_token_accuracy": 0.800255061686039,
	"num_tokens": 55133444.0,
	"step": 60
	},
	{
	"epoch": 0.0924197991646672,
	"grad_norm": 0.49718727212066355,
	"learning_rate": 9.99474502074547e-05,
	"loss": 0.6664,
	"mean_token_accuracy": 0.801218880712986,
	"num_tokens": 59726447.0,
	"step": 65
	},
	{
	"epoch": 0.09952901448502621,
	"grad_norm": 0.4005142024066312,
	"learning_rate": 9.991945583954808e-05,
	"loss": 0.6549,
	"mean_token_accuracy": 0.8056452445685863,
	"num_tokens": 64319917.0,
	"step": 70
	},
	{
	"epoch": 0.10663822980538523,
	"grad_norm": 0.3774090383980249,
	"learning_rate": 9.988551301712567e-05,
	"loss": 0.6454,
	"mean_token_accuracy": 0.806719920784235,
	"num_tokens": 68898868.0,
	"step": 75
	},
	{
	"epoch": 0.11374744512574425,
	"grad_norm": 0.3995895890256704,
	"learning_rate": 9.984562623506235e-05,
	"loss": 0.6464,
	"mean_token_accuracy": 0.8064703330397606,
	"num_tokens": 73481972.0,
	"step": 80
	},
	{
	"epoch": 0.12085666044610326,
	"grad_norm": 0.3801619159341505,
	"learning_rate": 9.979980077536136e-05,
	"loss": 0.6462,
	"mean_token_accuracy": 0.8080633491277694,
	"num_tokens": 78079419.0,
	"step": 85
	},
	{
	"epoch": 0.1279658757664623,
	"grad_norm": 0.37074794226689833,
	"learning_rate": 9.974804270645462e-05,
	"loss": 0.6362,
	"mean_token_accuracy": 0.8091117829084397,
	"num_tokens": 82670195.0,
	"step": 90
	},
	{
	"epoch": 0.13507509108682128,
	"grad_norm": 0.37193721608812236,
	"learning_rate": 9.969035888239937e-05,
	"loss": 0.635,
	"mean_token_accuracy": 0.8079991653561592,
	"num_tokens": 87257953.0,
	"step": 95
	},
	{
	"epoch": 0.1421843064071803,
	"grad_norm": 0.36251703620037773,
	"learning_rate": 9.96267569419703e-05,
	"loss": 0.6315,
	"mean_token_accuracy": 0.8096475720405578,
	"num_tokens": 91838382.0,
	"step": 100
	},
	{
	"epoch": 0.1421843064071803,
	"eval_loss": 0.5971412062644958,
	"eval_mean_token_accuracy": 0.8093206621052926,
	"eval_num_tokens": 91838382.0,
	"eval_runtime": 141.8153,
	"eval_samples_per_second": 25.653,
	"eval_steps_per_second": 0.804,
	"step": 100
	},
	{
	"epoch": 0.14929352172753932,
	"grad_norm": 0.41583625971563776,
	"learning_rate": 9.955724530764809e-05,
	"loss": 0.6381,
	"mean_token_accuracy": 0.8077230393886566,
	"num_tokens": 96431755.0,
	"step": 105
	},
	{
	"epoch": 0.15640273704789834,
	"grad_norm": 0.3705693803444073,
	"learning_rate": 9.948183318450413e-05,
	"loss": 0.6197,
	"mean_token_accuracy": 0.8116156131029129,
	"num_tokens": 101027690.0,
	"step": 110
	},
	{
	"epoch": 0.16351195236825736,
	"grad_norm": 0.3214510651452395,
	"learning_rate": 9.940053055898133e-05,
	"loss": 0.6313,
	"mean_token_accuracy": 0.8089181430637836,
	"num_tokens": 105628547.0,
	"step": 115
	},
	{
	"epoch": 0.17062116768861638,
	"grad_norm": 0.34220731720085373,
	"learning_rate": 9.93133481975719e-05,
	"loss": 0.6077,
	"mean_token_accuracy": 0.814984206855297,
	"num_tokens": 110243592.0,
	"step": 120
	},
	{
	"epoch": 0.1777303830089754,
	"grad_norm": 0.35675802487560043,
	"learning_rate": 9.922029764539148e-05,
	"loss": 0.6263,
	"mean_token_accuracy": 0.8096928559243679,
	"num_tokens": 114832845.0,
	"step": 125
	},
	{
	"epoch": 0.1848395983293344,
	"grad_norm": 0.3422296936678833,
	"learning_rate": 9.912139122465027e-05,
	"loss": 0.6116,
	"mean_token_accuracy": 0.8140982151031494,
	"num_tokens": 119435421.0,
	"step": 130
	},
	{
	"epoch": 0.1919488136496934,
	"grad_norm": 0.3599918244922273,
	"learning_rate": 9.901664203302126e-05,
	"loss": 0.6052,
	"mean_token_accuracy": 0.8154805108904839,
	"num_tokens": 124028647.0,
	"step": 135
	},
	{
	"epoch": 0.19905802897005243,
	"grad_norm": 0.3595154303423279,
	"learning_rate": 9.890606394190588e-05,
	"loss": 0.6126,
	"mean_token_accuracy": 0.8132404424250126,
	"num_tokens": 128628413.0,
	"step": 140
	},
	{
	"epoch": 0.20616724429041144,
	"grad_norm": 0.3711012466200944,
	"learning_rate": 9.878967159459693e-05,
	"loss": 0.6068,
	"mean_token_accuracy": 0.8164977565407753,
	"num_tokens": 133219422.0,
	"step": 145
	},
	{
	"epoch": 0.21327645961077046,
	"grad_norm": 0.35910926284617867,
	"learning_rate": 9.866748040433956e-05,
	"loss": 0.6099,
	"mean_token_accuracy": 0.8152773261070252,
	"num_tokens": 137825952.0,
	"step": 150
	},
	{
	"epoch": 0.22038567493112948,
	"grad_norm": 0.4205439208166243,
	"learning_rate": 9.853950655229009e-05,
	"loss": 0.6064,
	"mean_token_accuracy": 0.815191026777029,
	"num_tokens": 142422368.0,
	"step": 155
	},
	{
	"epoch": 0.2274948902514885,
	"grad_norm": 0.32091150374802263,
	"learning_rate": 9.840576698537329e-05,
	"loss": 0.6093,
	"mean_token_accuracy": 0.8135301224887371,
	"num_tokens": 147015990.0,
	"step": 160
	},
	{
	"epoch": 0.23460410557184752,
	"grad_norm": 0.32627028158119226,
	"learning_rate": 9.826627941403811e-05,
	"loss": 0.5969,
	"mean_token_accuracy": 0.8182829037308693,
	"num_tokens": 151627096.0,
	"step": 165
	},
	{
	"epoch": 0.2417133208922065,
	"grad_norm": 0.32405674248273,
	"learning_rate": 9.812106230991248e-05,
	"loss": 0.6068,
	"mean_token_accuracy": 0.8159149341285229,
	"num_tokens": 156218968.0,
	"step": 170
	},
	{
	"epoch": 0.24882253621256553,
	"grad_norm": 0.3206982540127891,
	"learning_rate": 9.79701349033571e-05,
	"loss": 0.6039,
	"mean_token_accuracy": 0.8161494679749012,
	"num_tokens": 160797401.0,
	"step": 175
	},
	{
	"epoch": 0.2559317515329246,
	"grad_norm": 0.3360732448004463,
	"learning_rate": 9.78135171809189e-05,
	"loss": 0.6068,
	"mean_token_accuracy": 0.8159954428672791,
	"num_tokens": 165402684.0,
	"step": 180
	},
	{
	"epoch": 0.26304096685328354,
	"grad_norm": 0.33789233259366286,
	"learning_rate": 9.76512298826844e-05,
	"loss": 0.6026,
	"mean_token_accuracy": 0.8167447924613953,
	"num_tokens": 169997282.0,
	"step": 185
	},
	{
	"epoch": 0.27015018217364256,
	"grad_norm": 0.3089560668153988,
	"learning_rate": 9.748329449953302e-05,
	"loss": 0.5904,
	"mean_token_accuracy": 0.8193566597998142,
	"num_tokens": 174589836.0,
	"step": 190
	},
	{
	"epoch": 0.2772593974940016,
	"grad_norm": 0.32060053414915524,
	"learning_rate": 9.73097332702914e-05,
	"loss": 0.6044,
	"mean_token_accuracy": 0.8175870932638645,
	"num_tokens": 179181747.0,
	"step": 195
	},
	{
	"epoch": 0.2843686128143606,
	"grad_norm": 0.32004664048912745,
	"learning_rate": 9.713056917878818e-05,
	"loss": 0.5888,
	"mean_token_accuracy": 0.8192018747329712,
	"num_tokens": 183760367.0,
	"step": 200
	},
	{
	"epoch": 0.2843686128143606,
	"eval_loss": 0.5599971413612366,
	"eval_mean_token_accuracy": 0.8188303473748659,
	"eval_num_tokens": 183760367.0,
	"eval_runtime": 145.8536,
	"eval_samples_per_second": 24.943,
	"eval_steps_per_second": 0.782,
	"step": 200
	},
	{
	"epoch": 0.2914778281347196,
	"grad_norm": 0.3094551492752116,
	"learning_rate": 9.694582595081057e-05,
	"loss": 0.5872,
	"mean_token_accuracy": 0.819921114295721,
	"num_tokens": 188360903.0,
	"step": 205
	},
	{
	"epoch": 0.29858704345507864,
	"grad_norm": 0.36254147904822126,
	"learning_rate": 9.67555280509623e-05,
	"loss": 0.5942,
	"mean_token_accuracy": 0.817745155096054,
	"num_tokens": 192932381.0,
	"step": 210
	},
	{
	"epoch": 0.30569625877543766,
	"grad_norm": 0.3377909564779145,
	"learning_rate": 9.655970067942405e-05,
	"loss": 0.5994,
	"mean_token_accuracy": 0.8163805276155471,
	"num_tokens": 197505985.0,
	"step": 215
	},
	{
	"epoch": 0.3128054740957967,
	"grad_norm": 0.30751780494672465,
	"learning_rate": 9.63583697686162e-05,
	"loss": 0.5902,
	"mean_token_accuracy": 0.8196643941104412,
	"num_tokens": 202105424.0,
	"step": 220
	},
	{
	"epoch": 0.3199146894161557,
	"grad_norm": 0.34345028355301316,
	"learning_rate": 9.615156197976477e-05,
	"loss": 0.582,
	"mean_token_accuracy": 0.8217154465615749,
	"num_tokens": 206686951.0,
	"step": 225
	},
	{
	"epoch": 0.3270239047365147,
	"grad_norm": 0.3216135018716631,
	"learning_rate": 9.593930469937087e-05,
	"loss": 0.5708,
	"mean_token_accuracy": 0.8250658005475998,
	"num_tokens": 211278788.0,
	"step": 230
	},
	{
	"epoch": 0.33413312005687373,
	"grad_norm": 0.32564659909940696,
	"learning_rate": 9.572162603558393e-05,
	"loss": 0.5928,
	"mean_token_accuracy": 0.819525595754385,
	"num_tokens": 215877205.0,
	"step": 235
	},
	{
	"epoch": 0.34124233537723275,
	"grad_norm": 0.4839583335140069,
	"learning_rate": 9.549855481447954e-05,
	"loss": 0.5882,
	"mean_token_accuracy": 0.8204580388963223,
	"num_tokens": 220486454.0,
	"step": 240
	},
	{
	"epoch": 0.34835155069759177,
	"grad_norm": 0.3268671171699921,
	"learning_rate": 9.527012057624224e-05,
	"loss": 0.5836,
	"mean_token_accuracy": 0.8208626843988895,
	"num_tokens": 225080225.0,
	"step": 245
	},
	{
	"epoch": 0.3554607660179508,
	"grad_norm": 0.3244498327733708,
	"learning_rate": 9.50363535712535e-05,
	"loss": 0.586,
	"mean_token_accuracy": 0.8207595020532608,
	"num_tokens": 229657012.0,
	"step": 250
	},
	{
	"epoch": 0.3625699813383098,
	"grad_norm": 0.29889265357291406,
	"learning_rate": 9.479728475608593e-05,
	"loss": 0.5919,
	"mean_token_accuracy": 0.8190862230956555,
	"num_tokens": 234248976.0,
	"step": 255
	},
	{
	"epoch": 0.3696791966586688,
	"grad_norm": 0.34636883393423384,
	"learning_rate": 9.455294578940384e-05,
	"loss": 0.5765,
	"mean_token_accuracy": 0.8226364821195602,
	"num_tokens": 238829734.0,
	"step": 260
	},
	{
	"epoch": 0.3767884119790278,
	"grad_norm": 0.3092592234408446,
	"learning_rate": 9.430336902777083e-05,
	"loss": 0.576,
	"mean_token_accuracy": 0.821333235502243,
	"num_tokens": 243418989.0,
	"step": 265
	},
	{
	"epoch": 0.3838976272993868,
	"grad_norm": 0.30454136223380207,
	"learning_rate": 9.404858752136499e-05,
	"loss": 0.5771,
	"mean_token_accuracy": 0.8237294301390647,
	"num_tokens": 248015701.0,
	"step": 270
	},
	{
	"epoch": 0.39100684261974583,
	"grad_norm": 0.30289215095264577,
	"learning_rate": 9.378863500960222e-05,
	"loss": 0.5709,
	"mean_token_accuracy": 0.8236084163188935,
	"num_tokens": 252613191.0,
	"step": 275
	},
	{
	"epoch": 0.39811605794010485,
	"grad_norm": 0.3010273864601919,
	"learning_rate": 9.352354591666827e-05,
	"loss": 0.5861,
	"mean_token_accuracy": 0.820894256979227,
	"num_tokens": 257210808.0,
	"step": 280
	},
	{
	"epoch": 0.40522527326046387,
	"grad_norm": 0.30175911100812025,
	"learning_rate": 9.325335534696017e-05,
	"loss": 0.5753,
	"mean_token_accuracy": 0.8225005254149437,
	"num_tokens": 261790131.0,
	"step": 285
	},
	{
	"epoch": 0.4123344885808229,
	"grad_norm": 0.28871941798325856,
	"learning_rate": 9.29780990804375e-05,
	"loss": 0.5799,
	"mean_token_accuracy": 0.821347926557064,
	"num_tokens": 266377324.0,
	"step": 290
	},
	{
	"epoch": 0.4194437039011819,
	"grad_norm": 0.28095014086273895,
	"learning_rate": 9.269781356788424e-05,
	"loss": 0.581,
	"mean_token_accuracy": 0.8209108576178551,
	"num_tokens": 270967910.0,
	"step": 295
	},
	{
	"epoch": 0.4265529192215409,
	"grad_norm": 0.2893211807696515,
	"learning_rate": 9.241253592608183e-05,
	"loss": 0.5755,
	"mean_token_accuracy": 0.8242007777094841,
	"num_tokens": 275570273.0,
	"step": 300
	},
	{
	"epoch": 0.4265529192215409,
	"eval_loss": 0.5416839122772217,
	"eval_mean_token_accuracy": 0.8231211885025627,
	"eval_num_tokens": 275570273.0,
	"eval_runtime": 145.5254,
	"eval_samples_per_second": 24.999,
	"eval_steps_per_second": 0.783,
	"step": 300
	},
	{
	"epoch": 0.43366213454189995,
	"grad_norm": 0.30733885282429685,
	"learning_rate": 9.212230393289385e-05,
	"loss": 0.5781,
	"mean_token_accuracy": 0.8230207331478596,
	"num_tokens": 280172533.0,
	"step": 305
	},
	{
	"epoch": 0.44077134986225897,
	"grad_norm": 0.2682470819307261,
	"learning_rate": 9.182715602226341e-05,
	"loss": 0.5625,
	"mean_token_accuracy": 0.8270745746791363,
	"num_tokens": 284763929.0,
	"step": 310
	},
	{
	"epoch": 0.447880565182618,
	"grad_norm": 0.2962012849994535,
	"learning_rate": 9.152713127912355e-05,
	"loss": 0.5848,
	"mean_token_accuracy": 0.8201167277991772,
	"num_tokens": 289376903.0,
	"step": 315
	},
	{
	"epoch": 0.454989780502977,
	"grad_norm": 0.28564514411407316,
	"learning_rate": 9.12222694342213e-05,
	"loss": 0.5732,
	"mean_token_accuracy": 0.8246621482074261,
	"num_tokens": 293966796.0,
	"step": 320
	},
	{
	"epoch": 0.462098995823336,
	"grad_norm": 0.30020425973519915,
	"learning_rate": 9.091261085885646e-05,
	"loss": 0.5606,
	"mean_token_accuracy": 0.826822079718113,
	"num_tokens": 298540346.0,
	"step": 325
	},
	{
	"epoch": 0.46920821114369504,
	"grad_norm": 0.2887047887642146,
	"learning_rate": 9.059819655953536e-05,
	"loss": 0.5738,
	"mean_token_accuracy": 0.823461939394474,
	"num_tokens": 303112604.0,
	"step": 330
	},
	{
	"epoch": 0.476317426464054,
	"grad_norm": 0.3180269352697689,
	"learning_rate": 9.027906817254063e-05,
	"loss": 0.5654,
	"mean_token_accuracy": 0.8256018176674843,
	"num_tokens": 307694241.0,
	"step": 335
	},
	{
	"epoch": 0.483426641784413,
	"grad_norm": 0.29567931374872014,
	"learning_rate": 8.995526795841753e-05,
	"loss": 0.558,
	"mean_token_accuracy": 0.8256605207920075,
	"num_tokens": 312289299.0,
	"step": 340
	},
	{
	"epoch": 0.49053585710477204,
	"grad_norm": 0.3336504103662035,
	"learning_rate": 8.962683879637747e-05,
	"loss": 0.5617,
	"mean_token_accuracy": 0.8257805988192558,
	"num_tokens": 316884766.0,
	"step": 345
	},
	{
	"epoch": 0.49764507242513106,
	"grad_norm": 0.3705167375534613,
	"learning_rate": 8.929382417861991e-05,
	"loss": 0.561,
	"mean_token_accuracy": 0.8267210200428963,
	"num_tokens": 321461198.0,
	"step": 350
	},
	{
	"epoch": 0.5047542877454901,
	"grad_norm": 0.2946584460529412,
	"learning_rate": 8.895626820457283e-05,
	"loss": 0.557,
	"mean_token_accuracy": 0.828194110840559,
	"num_tokens": 326064722.0,
	"step": 355
	},
	{
	"epoch": 0.5118635030658492,
	"grad_norm": 0.31227448766803945,
	"learning_rate": 8.861421557505282e-05,
	"loss": 0.5522,
	"mean_token_accuracy": 0.8295037761330605,
	"num_tokens": 330652094.0,
	"step": 360
	},
	{
	"epoch": 0.5189727183862082,
	"grad_norm": 1.0759474066945163,
	"learning_rate": 8.826771158634567e-05,
	"loss": 0.5629,
	"mean_token_accuracy": 0.8260238766670227,
	"num_tokens": 335255835.0,
	"step": 365
	},
	{
	"epoch": 0.5260819337065671,
	"grad_norm": 0.2758992633553522,
	"learning_rate": 8.791680212420797e-05,
	"loss": 0.5502,
	"mean_token_accuracy": 0.828965923935175,
	"num_tokens": 339843476.0,
	"step": 370
	},
	{
	"epoch": 0.5331911490269261,
	"grad_norm": 0.29696149610793166,
	"learning_rate": 8.756153365779066e-05,
	"loss": 0.5542,
	"mean_token_accuracy": 0.8278730027377605,
	"num_tokens": 344420533.0,
	"step": 375
	},
	{
	"epoch": 0.5403003643472851,
	"grad_norm": 0.284706804181623,
	"learning_rate": 8.720195323348545e-05,
	"loss": 0.559,
	"mean_token_accuracy": 0.8278782211244107,
	"num_tokens": 349010370.0,
	"step": 380
	},
	{
	"epoch": 0.5474095796676441,
	"grad_norm": 0.3046957362601185,
	"learning_rate": 8.68381084686946e-05,
	"loss": 0.5576,
	"mean_token_accuracy": 0.8258513130247593,
	"num_tokens": 353598451.0,
	"step": 385
	},
	{
	"epoch": 0.5545187949880032,
	"grad_norm": 0.3134773718519533,
	"learning_rate": 8.647004754552526e-05,
	"loss": 0.5612,
	"mean_token_accuracy": 0.8255665130913258,
	"num_tokens": 358195615.0,
	"step": 390
	},
	{
	"epoch": 0.5616280103083622,
	"grad_norm": 0.33349640254961,
	"learning_rate": 8.609781920440891e-05,
	"loss": 0.552,
	"mean_token_accuracy": 0.8278413727879524,
	"num_tokens": 362764034.0,
	"step": 395
	},
	{
	"epoch": 0.5687372256287212,
	"grad_norm": 0.32034152048464726,
	"learning_rate": 8.5721472737647e-05,
	"loss": 0.5534,
	"mean_token_accuracy": 0.8273369200527668,
	"num_tokens": 367350265.0,
	"step": 400
	},
	{
	"epoch": 0.5687372256287212,
	"eval_loss": 0.5274047255516052,
	"eval_mean_token_accuracy": 0.8264030280866121,
	"eval_num_tokens": 367350265.0,
	"eval_runtime": 146.0134,
	"eval_samples_per_second": 24.916,
	"eval_steps_per_second": 0.781,
	"step": 400
	},
	{
	"epoch": 0.5758464409490802,
	"grad_norm": 0.29085093151843905,
	"learning_rate": 8.534105798288331e-05,
	"loss": 0.5506,
	"mean_token_accuracy": 0.830031219124794,
	"num_tokens": 371939618.0,
	"step": 405
	},
	{
	"epoch": 0.5829556562694392,
	"grad_norm": 0.27710417408529203,
	"learning_rate": 8.49566253165043e-05,
	"loss": 0.5439,
	"mean_token_accuracy": 0.8304261237382888,
	"num_tokens": 376519800.0,
	"step": 410
	},
	{
	"epoch": 0.5900648715897983,
	"grad_norm": 0.2611394917691902,
	"learning_rate": 8.456822564696789e-05,
	"loss": 0.5409,
	"mean_token_accuracy": 0.832954341173172,
	"num_tokens": 381102299.0,
	"step": 415
	},
	{
	"epoch": 0.5971740869101573,
	"grad_norm": 0.42771473321829473,
	"learning_rate": 8.417591040806213e-05,
	"loss": 0.5504,
	"mean_token_accuracy": 0.8300940133631229,
	"num_tokens": 385700779.0,
	"step": 420
	},
	{
	"epoch": 0.6042833022305163,
	"grad_norm": 0.28194050483515865,
	"learning_rate": 8.377973155209387e-05,
	"loss": 0.5553,
	"mean_token_accuracy": 0.8270630918443203,
	"num_tokens": 390294365.0,
	"step": 425
	},
	{
	"epoch": 0.6113925175508753,
	"grad_norm": 0.27563889901609234,
	"learning_rate": 8.337974154300913e-05,
	"loss": 0.5427,
	"mean_token_accuracy": 0.8309814311563969,
	"num_tokens": 394889149.0,
	"step": 430
	},
	{
	"epoch": 0.6185017328712343,
	"grad_norm": 0.27875362292884753,
	"learning_rate": 8.297599334944542e-05,
	"loss": 0.5561,
	"mean_token_accuracy": 0.8275676898658275,
	"num_tokens": 399459807.0,
	"step": 435
	},
	{
	"epoch": 0.6256109481915934,
	"grad_norm": 0.7336148967265075,
	"learning_rate": 8.256854043771754e-05,
	"loss": 0.5507,
	"mean_token_accuracy": 0.8285100273787975,
	"num_tokens": 404034333.0,
	"step": 440
	},
	{
	"epoch": 0.6327201635119524,
	"grad_norm": 0.3259646654441019,
	"learning_rate": 8.215743676473719e-05,
	"loss": 0.5503,
	"mean_token_accuracy": 0.8290993146598339,
	"num_tokens": 408627270.0,
	"step": 445
	},
	{
	"epoch": 0.6398293788323114,
	"grad_norm": 0.3012299941832976,
	"learning_rate": 8.174273677086779e-05,
	"loss": 0.552,
	"mean_token_accuracy": 0.8279682919383049,
	"num_tokens": 413222911.0,
	"step": 450
	},
	{
	"epoch": 0.6469385941526704,
	"grad_norm": 0.30771992691522176,
	"learning_rate": 8.132449537271519e-05,
	"loss": 0.552,
	"mean_token_accuracy": 0.8296807646751404,
	"num_tokens": 417806274.0,
	"step": 455
	},
	{
	"epoch": 0.6540478094730294,
	"grad_norm": 0.2810763807856677,
	"learning_rate": 8.090276795585531e-05,
	"loss": 0.5414,
	"mean_token_accuracy": 0.8314659893512726,
	"num_tokens": 422401434.0,
	"step": 460
	},
	{
	"epoch": 0.6611570247933884,
	"grad_norm": 0.2672336811508722,
	"learning_rate": 8.047761036749985e-05,
	"loss": 0.5564,
	"mean_token_accuracy": 0.8265900291502476,
	"num_tokens": 426986385.0,
	"step": 465
	},
	{
	"epoch": 0.6682662401137475,
	"grad_norm": 0.25924906311163326,
	"learning_rate": 8.004907890910055e-05,
	"loss": 0.5452,
	"mean_token_accuracy": 0.8297064855694771,
	"num_tokens": 431585703.0,
	"step": 470
	},
	{
	"epoch": 0.6753754554341065,
	"grad_norm": 0.2772688573388134,
	"learning_rate": 7.961723032889358e-05,
	"loss": 0.5292,
	"mean_token_accuracy": 0.8346129797399044,
	"num_tokens": 436150194.0,
	"step": 475
	},
	{
	"epoch": 0.6824846707544655,
	"grad_norm": 0.25573353155086187,
	"learning_rate": 7.918212181438467e-05,
	"loss": 0.5397,
	"mean_token_accuracy": 0.8314497999846935,
	"num_tokens": 440736901.0,
	"step": 480
	},
	{
	"epoch": 0.6895938860748245,
	"grad_norm": 0.2640386419783165,
	"learning_rate": 7.874381098477599e-05,
	"loss": 0.5359,
	"mean_token_accuracy": 0.8328767582774163,
	"num_tokens": 445334774.0,
	"step": 485
	},
	{
	"epoch": 0.6967031013951835,
	"grad_norm": 0.2662269663206075,
	"learning_rate": 7.830235588333597e-05,
	"loss": 0.5578,
	"mean_token_accuracy": 0.8268053226172924,
	"num_tokens": 449908855.0,
	"step": 490
	},
	{
	"epoch": 0.7038123167155426,
	"grad_norm": 0.2756351015892551,
	"learning_rate": 7.785781496971297e-05,
	"loss": 0.5503,
	"mean_token_accuracy": 0.8284729138016701,
	"num_tokens": 454513487.0,
	"step": 495
	},
	{
	"epoch": 0.7109215320359016,
	"grad_norm": 0.4547105928976161,
	"learning_rate": 7.741024711219366e-05,
	"loss": 0.5431,
	"mean_token_accuracy": 0.8298681430518627,
	"num_tokens": 459106365.0,
	"step": 500
	},
	{
	"epoch": 0.7109215320359016,
	"eval_loss": 0.5168540477752686,
	"eval_mean_token_accuracy": 0.8290872861418808,
	"eval_num_tokens": 459106365.0,
	"eval_runtime": 146.2066,
	"eval_samples_per_second": 24.883,
	"eval_steps_per_second": 0.78,
	"step": 500
	},
	{
	"epoch": 0.7180307473562606,
	"grad_norm": 1.6021704699780053,
	"learning_rate": 7.695971157990754e-05,
	"loss": 0.5646,
	"mean_token_accuracy": 0.8263038910925389,
	"num_tokens": 463703240.0,
	"step": 505
	},
	{
	"epoch": 0.7251399626766196,
	"grad_norm": 4.625968090811763,
	"learning_rate": 7.650626803497806e-05,
	"loss": 0.5581,
	"mean_token_accuracy": 0.8270722553133965,
	"num_tokens": 468295660.0,
	"step": 510
	},
	{
	"epoch": 0.7322491779969785,
	"grad_norm": 0.27503115183353516,
	"learning_rate": 7.604997652462205e-05,
	"loss": 0.5492,
	"mean_token_accuracy": 0.8294327199459076,
	"num_tokens": 472896751.0,
	"step": 515
	},
	{
	"epoch": 0.7393583933173375,
	"grad_norm": 0.267416722991217,
	"learning_rate": 7.55908974731978e-05,
	"loss": 0.5418,
	"mean_token_accuracy": 0.8326966613531113,
	"num_tokens": 477480918.0,
	"step": 520
	},
	{
	"epoch": 0.7464676086376966,
	"grad_norm": 0.25628361203172423,
	"learning_rate": 7.512909167420347e-05,
	"loss": 0.5404,
	"mean_token_accuracy": 0.8324044570326805,
	"num_tokens": 482064392.0,
	"step": 525
	},
	{
	"epoch": 0.7535768239580556,
	"grad_norm": 0.24597696845219366,
	"learning_rate": 7.466462028222654e-05,
	"loss": 0.5353,
	"mean_token_accuracy": 0.8331540204584599,
	"num_tokens": 486649806.0,
	"step": 530
	},
	{
	"epoch": 0.7606860392784146,
	"grad_norm": 0.2497969231256322,
	"learning_rate": 7.419754480484536e-05,
	"loss": 0.5378,
	"mean_token_accuracy": 0.8323175966739654,
	"num_tokens": 491217398.0,
	"step": 535
	},
	{
	"epoch": 0.7677952545987736,
	"grad_norm": 0.27136426093422567,
	"learning_rate": 7.3727927094484e-05,
	"loss": 0.5303,
	"mean_token_accuracy": 0.8346898458898068,
	"num_tokens": 495798334.0,
	"step": 540
	},
	{
	"epoch": 0.7749044699191326,
	"grad_norm": 0.263928683082665,
	"learning_rate": 7.32558293402215e-05,
	"loss": 0.5193,
	"mean_token_accuracy": 0.8367893837392331,
	"num_tokens": 500382331.0,
	"step": 545
	},
	{
	"epoch": 0.7820136852394917,
	"grad_norm": 0.2697485453052082,
	"learning_rate": 7.27813140595565e-05,
	"loss": 0.5249,
	"mean_token_accuracy": 0.836308328807354,
	"num_tokens": 504972961.0,
	"step": 550
	},
	{
	"epoch": 0.7891229005598507,
	"grad_norm": 0.47577994241811294,
	"learning_rate": 7.23044440901283e-05,
	"loss": 0.5386,
	"mean_token_accuracy": 0.832004614919424,
	"num_tokens": 509556175.0,
	"step": 555
	},
	{
	"epoch": 0.7962321158802097,
	"grad_norm": 0.26812210950339255,
	"learning_rate": 7.182528258139563e-05,
	"loss": 0.5327,
	"mean_token_accuracy": 0.8331871695816517,
	"num_tokens": 514159170.0,
	"step": 560
	},
	{
	"epoch": 0.8033413312005687,
	"grad_norm": 0.2590503131411491,
	"learning_rate": 7.13438929862741e-05,
	"loss": 0.5447,
	"mean_token_accuracy": 0.8303000062704087,
	"num_tokens": 518758083.0,
	"step": 565
	},
	{
	"epoch": 0.8104505465209277,
	"grad_norm": 0.2700164600845211,
	"learning_rate": 7.086033905273344e-05,
	"loss": 0.5367,
	"mean_token_accuracy": 0.8323484763503075,
	"num_tokens": 523345629.0,
	"step": 570
	},
	{
	"epoch": 0.8175597618412868,
	"grad_norm": 0.26967028018820877,
	"learning_rate": 7.037468481535567e-05,
	"loss": 0.5212,
	"mean_token_accuracy": 0.8371426187455654,
	"num_tokens": 527940592.0,
	"step": 575
	},
	{
	"epoch": 0.8246689771616458,
	"grad_norm": 0.3154368910279167,
	"learning_rate": 6.988699458685537e-05,
	"loss": 0.5275,
	"mean_token_accuracy": 0.8351783238351345,
	"num_tokens": 532516910.0,
	"step": 580
	},
	{
	"epoch": 0.8317781924820048,
	"grad_norm": 0.26226153440650185,
	"learning_rate": 6.9397332949563e-05,
	"loss": 0.5335,
	"mean_token_accuracy": 0.8329351760447026,
	"num_tokens": 537121758.0,
	"step": 585
	},
	{
	"epoch": 0.8388874078023638,
	"grad_norm": 0.31223173870328286,
	"learning_rate": 6.890576474687263e-05,
	"loss": 0.5458,
	"mean_token_accuracy": 0.829648780822754,
	"num_tokens": 541734519.0,
	"step": 590
	},
	{
	"epoch": 0.8459966231227228,
	"grad_norm": 0.2565970150956528,
	"learning_rate": 6.841235507465515e-05,
	"loss": 0.5415,
	"mean_token_accuracy": 0.8324811846017838,
	"num_tokens": 546326546.0,
	"step": 595
	},
	{
	"epoch": 0.8531058384430819,
	"grad_norm": 0.29462309278409743,
	"learning_rate": 6.791716927263778e-05,
	"loss": 0.5354,
	"mean_token_accuracy": 0.8325764186680317,
	"num_tokens": 550923667.0,
	"step": 600
	},
	{
	"epoch": 0.8531058384430819,
	"eval_loss": 0.5030205249786377,
	"eval_mean_token_accuracy": 0.8328834866222582,
	"eval_num_tokens": 550923667.0,
	"eval_runtime": 145.5099,
	"eval_samples_per_second": 25.002,
	"eval_steps_per_second": 0.783,
	"step": 600
	},
	{
	"epoch": 0.8602150537634409,
	"grad_norm": 0.2995740161508053,
	"learning_rate": 6.742027291575156e-05,
	"loss": 0.5351,
	"mean_token_accuracy": 0.8337548352777958,
	"num_tokens": 555521300.0,
	"step": 605
	},
	{
	"epoch": 0.8673242690837999,
	"grad_norm": 0.256895454866442,
	"learning_rate": 6.692173180544768e-05,
	"loss": 0.527,
	"mean_token_accuracy": 0.8346491247415543,
	"num_tokens": 560114622.0,
	"step": 610
	},
	{
	"epoch": 0.8744334844041589,
	"grad_norm": 0.26124663621839667,
	"learning_rate": 6.642161196098351e-05,
	"loss": 0.5299,
	"mean_token_accuracy": 0.835064522176981,
	"num_tokens": 564707120.0,
	"step": 615
	},
	{
	"epoch": 0.8815426997245179,
	"grad_norm": 0.30629789668279445,
	"learning_rate": 6.591997961068024e-05,
	"loss": 0.5391,
	"mean_token_accuracy": 0.8325687229633332,
	"num_tokens": 569285949.0,
	"step": 620
	},
	{
	"epoch": 0.888651915044877,
	"grad_norm": 0.2517010032545197,
	"learning_rate": 6.541690118315245e-05,
	"loss": 0.528,
	"mean_token_accuracy": 0.834906804561615,
	"num_tokens": 573871769.0,
	"step": 625
	},
	{
	"epoch": 0.895761130365236,
	"grad_norm": 0.3714356282666368,
	"learning_rate": 6.491244329851133e-05,
	"loss": 0.521,
	"mean_token_accuracy": 0.8374850310385227,
	"num_tokens": 578461250.0,
	"step": 630
	},
	{
	"epoch": 0.902870345685595,
	"grad_norm": 0.2513550517622928,
	"learning_rate": 6.440667275954262e-05,
	"loss": 0.5151,
	"mean_token_accuracy": 0.8384780243039132,
	"num_tokens": 583046607.0,
	"step": 635
	},
	{
	"epoch": 0.909979561005954,
	"grad_norm": 0.2790784344252937,
	"learning_rate": 6.389965654286011e-05,
	"loss": 0.5287,
	"mean_token_accuracy": 0.8349935576319695,
	"num_tokens": 587648232.0,
	"step": 640
	},
	{
	"epoch": 0.917088776326313,
	"grad_norm": 0.27767689120972117,
	"learning_rate": 6.339146179003636e-05,
	"loss": 0.5207,
	"mean_token_accuracy": 0.837136809527874,
	"num_tokens": 592239729.0,
	"step": 645
	},
	{
	"epoch": 0.924197991646672,
	"grad_norm": 0.2805149976836277,
	"learning_rate": 6.288215579871148e-05,
	"loss": 0.5229,
	"mean_token_accuracy": 0.8374404884874821,
	"num_tokens": 596831306.0,
	"step": 650
	},
	{
	"epoch": 0.9313072069670311,
	"grad_norm": 0.24703194529226574,
	"learning_rate": 6.23718060136812e-05,
	"loss": 0.5152,
	"mean_token_accuracy": 0.8385937295854091,
	"num_tokens": 601427733.0,
	"step": 655
	},
	{
	"epoch": 0.9384164222873901,
	"grad_norm": 0.33949011504626453,
	"learning_rate": 6.186048001796556e-05,
	"loss": 0.5204,
	"mean_token_accuracy": 0.8384438544511795,
	"num_tokens": 606006466.0,
	"step": 660
	},
	{
	"epoch": 0.945525637607749,
	"grad_norm": 0.24749318396547174,
	"learning_rate": 6.134824552385915e-05,
	"loss": 0.5256,
	"mean_token_accuracy": 0.8357278972864151,
	"num_tokens": 610597552.0,
	"step": 665
	},
	{
	"epoch": 0.952634852928108,
	"grad_norm": 0.26267746218214755,
	"learning_rate": 6.0835170363964434e-05,
	"loss": 0.528,
	"mean_token_accuracy": 0.8351906433701515,
	"num_tokens": 615193994.0,
	"step": 670
	},
	{
	"epoch": 0.959744068248467,
	"grad_norm": 0.25519090759528035,
	"learning_rate": 6.032132248220893e-05,
	"loss": 0.518,
	"mean_token_accuracy": 0.8378535941243171,
	"num_tokens": 619786315.0,
	"step": 675
	},
	{
	"epoch": 0.966853283568826,
	"grad_norm": 0.25149430173186577,
	"learning_rate": 5.9806769924847784e-05,
	"loss": 0.5175,
	"mean_token_accuracy": 0.8372136250138282,
	"num_tokens": 624383919.0,
	"step": 680
	},
	{
	"epoch": 0.9739624988891851,
	"grad_norm": 0.2669872598294479,
	"learning_rate": 5.929158083145271e-05,
	"loss": 0.5166,
	"mean_token_accuracy": 0.8380297608673573,
	"num_tokens": 628976906.0,
	"step": 685
	},
	{
	"epoch": 0.9810717142095441,
	"grad_norm": 0.3079990980800955,
	"learning_rate": 5.8775823425888664e-05,
	"loss": 0.5171,
	"mean_token_accuracy": 0.8365243822336197,
	"num_tokens": 633557562.0,
	"step": 690
	},
	{
	"epoch": 0.9881809295299031,
	"grad_norm": 0.26934237379344833,
	"learning_rate": 5.825956600727932e-05,
	"loss": 0.5176,
	"mean_token_accuracy": 0.8371751248836518,
	"num_tokens": 638143938.0,
	"step": 695
	},
	{
	"epoch": 0.9952901448502621,
	"grad_norm": 0.24892879578477203,
	"learning_rate": 5.774287694096246e-05,
	"loss": 0.5203,
	"mean_token_accuracy": 0.8368992209434509,
	"num_tokens": 642760408.0,
	"step": 700
	},
	{
	"epoch": 0.9952901448502621,
	"eval_loss": 0.49169814586639404,
	"eval_mean_token_accuracy": 0.8366760449451313,
	"eval_num_tokens": 642760408.0,
	"eval_runtime": 148.141,
	"eval_samples_per_second": 24.558,
	"eval_steps_per_second": 0.77,
	"step": 700
	},
	{
	"epoch": 1.0014218430640718,
	"grad_norm": 0.5358904769553885,
	"learning_rate": 5.72258246494368e-05,
	"loss": 0.4893,
	"mean_token_accuracy": 0.8436046752376832,
	"num_tokens": 646718128.0,
	"step": 705
	},
	{
	"epoch": 1.008531058384431,
	"grad_norm": 0.25743890956382126,
	"learning_rate": 5.6708477603301146e-05,
	"loss": 0.461,
	"mean_token_accuracy": 0.8506338618695736,
	"num_tokens": 651304404.0,
	"step": 710
	},
	{
	"epoch": 1.0156402737047898,
	"grad_norm": 0.2648866270558085,
	"learning_rate": 5.6190904312187154e-05,
	"loss": 0.4544,
	"mean_token_accuracy": 0.8519260853528976,
	"num_tokens": 655879909.0,
	"step": 715
	},
	{
	"epoch": 1.022749489025149,
	"grad_norm": 0.27694330822934976,
	"learning_rate": 5.567317331568687e-05,
	"loss": 0.4474,
	"mean_token_accuracy": 0.8545098066329956,
	"num_tokens": 660449626.0,
	"step": 720
	},
	{
	"epoch": 1.0298587043455079,
	"grad_norm": 0.24825528169946715,
	"learning_rate": 5.515535317427657e-05,
	"loss": 0.4517,
	"mean_token_accuracy": 0.8533940657973289,
	"num_tokens": 665058163.0,
	"step": 725
	},
	{
	"epoch": 1.0369679196658668,
	"grad_norm": 0.24464581183689546,
	"learning_rate": 5.463751246023746e-05,
	"loss": 0.4559,
	"mean_token_accuracy": 0.8523735709488391,
	"num_tokens": 669654595.0,
	"step": 730
	},
	{
	"epoch": 1.044077134986226,
	"grad_norm": 0.24930171479148333,
	"learning_rate": 5.4119719748575106e-05,
	"loss": 0.4487,
	"mean_token_accuracy": 0.8542089037597179,
	"num_tokens": 674232882.0,
	"step": 735
	},
	{
	"epoch": 1.0511863503065848,
	"grad_norm": 0.23303088594874635,
	"learning_rate": 5.360204360793836e-05,
	"loss": 0.4436,
	"mean_token_accuracy": 0.8547257304191589,
	"num_tokens": 678813498.0,
	"step": 740
	},
	{
	"epoch": 1.058295565626944,
	"grad_norm": 0.317097982341769,
	"learning_rate": 5.308455259153915e-05,
	"loss": 0.458,
	"mean_token_accuracy": 0.8515614397823811,
	"num_tokens": 683401148.0,
	"step": 745
	},
	{
	"epoch": 1.0654047809473028,
	"grad_norm": 0.24160258781744343,
	"learning_rate": 5.256731522807436e-05,
	"loss": 0.4506,
	"mean_token_accuracy": 0.8526393964886665,
	"num_tokens": 687982154.0,
	"step": 750
	},
	{
	"epoch": 1.072513996267662,
	"grad_norm": 0.23602108922437653,
	"learning_rate": 5.205040001265094e-05,
	"loss": 0.4515,
	"mean_token_accuracy": 0.8521531477570534,
	"num_tokens": 692583016.0,
	"step": 755
	},
	{
	"epoch": 1.0796232115880209,
	"grad_norm": 0.2431546567595459,
	"learning_rate": 5.1533875397715345e-05,
	"loss": 0.455,
	"mean_token_accuracy": 0.8529531605541706,
	"num_tokens": 697183950.0,
	"step": 760
	},
	{
	"epoch": 1.08673242690838,
	"grad_norm": 0.27597324346348756,
	"learning_rate": 5.101780978398888e-05,
	"loss": 0.4518,
	"mean_token_accuracy": 0.8528432317078114,
	"num_tokens": 701785548.0,
	"step": 765
	},
	{
	"epoch": 1.093841642228739,
	"grad_norm": 0.26932926236063864,
	"learning_rate": 5.050227151140958e-05,
	"loss": 0.4536,
	"mean_token_accuracy": 0.852679468691349,
	"num_tokens": 706364188.0,
	"step": 770
	},
	{
	"epoch": 1.100950857549098,
	"grad_norm": 0.2587220894683173,
	"learning_rate": 4.998732885008244e-05,
	"loss": 0.4503,
	"mean_token_accuracy": 0.8526183031499386,
	"num_tokens": 710949271.0,
	"step": 775
	},
	{
	"epoch": 1.108060072869457,
	"grad_norm": 0.24430696998738718,
	"learning_rate": 4.947304999123867e-05,
	"loss": 0.4357,
	"mean_token_accuracy": 0.8572968378663063,
	"num_tokens": 715539336.0,
	"step": 780
	},
	{
	"epoch": 1.115169288189816,
	"grad_norm": 0.24614402366250857,
	"learning_rate": 4.895950303820552e-05,
	"loss": 0.4525,
	"mean_token_accuracy": 0.8526603005826473,
	"num_tokens": 720147357.0,
	"step": 785
	},
	{
	"epoch": 1.122278503510175,
	"grad_norm": 0.23262198319374294,
	"learning_rate": 4.844675599738765e-05,
	"loss": 0.4523,
	"mean_token_accuracy": 0.852922348678112,
	"num_tokens": 724741149.0,
	"step": 790
	},
	{
	"epoch": 1.1293877188305341,
	"grad_norm": 0.2551816873924689,
	"learning_rate": 4.793487676926142e-05,
	"loss": 0.4562,
	"mean_token_accuracy": 0.8518377915024757,
	"num_tokens": 729327424.0,
	"step": 795
	},
	{
	"epoch": 1.136496934150893,
	"grad_norm": 0.23754167080648592,
	"learning_rate": 4.742393313938327e-05,
	"loss": 0.445,
	"mean_token_accuracy": 0.8547273397445678,
	"num_tokens": 733921218.0,
	"step": 800
	},
	{
	"epoch": 1.136496934150893,
	"eval_loss": 0.4879998564720154,
	"eval_mean_token_accuracy": 0.8380277005203983,
	"eval_num_tokens": 733921218.0,
	"eval_runtime": 146.7948,
	"eval_samples_per_second": 24.783,
	"eval_steps_per_second": 0.777,
	"step": 800
	},
	{
	"epoch": 1.1436061494712522,
	"grad_norm": 0.25050469601877845,
	"learning_rate": 4.6913992769413026e-05,
	"loss": 0.4552,
	"mean_token_accuracy": 0.8521495588123799,
	"num_tokens": 738503816.0,
	"step": 805
	},
	{
	"epoch": 1.150715364791611,
	"grad_norm": 0.24476661787598053,
	"learning_rate": 4.6405123188153966e-05,
	"loss": 0.4506,
	"mean_token_accuracy": 0.8532384999096394,
	"num_tokens": 743095770.0,
	"step": 810
	},
	{
	"epoch": 1.1578245801119702,
	"grad_norm": 0.24115136773182058,
	"learning_rate": 4.589739178261028e-05,
	"loss": 0.4471,
	"mean_token_accuracy": 0.8549422182142734,
	"num_tokens": 747676184.0,
	"step": 815
	},
	{
	"epoch": 1.1649337954323291,
	"grad_norm": 0.24283949811905522,
	"learning_rate": 4.5390865789063344e-05,
	"loss": 0.448,
	"mean_token_accuracy": 0.8543575026094914,
	"num_tokens": 752274534.0,
	"step": 820
	},
	{
	"epoch": 1.1720430107526882,
	"grad_norm": 0.2701107129425895,
	"learning_rate": 4.4885612284167955e-05,
	"loss": 0.4411,
	"mean_token_accuracy": 0.8565104402601719,
	"num_tokens": 756863683.0,
	"step": 825
	},
	{
	"epoch": 1.1791522260730471,
	"grad_norm": 0.2886054721404824,
	"learning_rate": 4.4381698176069754e-05,
	"loss": 0.4379,
	"mean_token_accuracy": 0.8567862503230572,
	"num_tokens": 761453110.0,
	"step": 830
	},
	{
	"epoch": 1.1862614413934063,
	"grad_norm": 0.2561982737144238,
	"learning_rate": 4.387919019554487e-05,
	"loss": 0.4532,
	"mean_token_accuracy": 0.8531202852725983,
	"num_tokens": 766041248.0,
	"step": 835
	},
	{
	"epoch": 1.1933706567137652,
	"grad_norm": 0.26412588441218454,
	"learning_rate": 4.3378154887163144e-05,
	"loss": 0.4453,
	"mean_token_accuracy": 0.853339533507824,
	"num_tokens": 770624920.0,
	"step": 840
	},
	{
	"epoch": 1.2004798720341243,
	"grad_norm": 0.25032821222177587,
	"learning_rate": 4.287865860047596e-05,
	"loss": 0.4558,
	"mean_token_accuracy": 0.8522251404821872,
	"num_tokens": 775225729.0,
	"step": 845
	},
	{
	"epoch": 1.2075890873544832,
	"grad_norm": 0.23998083533004458,
	"learning_rate": 4.2380767481229886e-05,
	"loss": 0.4418,
	"mean_token_accuracy": 0.8569207176566124,
	"num_tokens": 779811918.0,
	"step": 850
	},
	{
	"epoch": 1.2146983026748424,
	"grad_norm": 0.2456015755421057,
	"learning_rate": 4.1884547462607326e-05,
	"loss": 0.4454,
	"mean_token_accuracy": 0.8553664483129978,
	"num_tokens": 784391305.0,
	"step": 855
	},
	{
	"epoch": 1.2218075179952013,
	"grad_norm": 0.25612737416807746,
	"learning_rate": 4.139006425649541e-05,
	"loss": 0.4504,
	"mean_token_accuracy": 0.8527485050261021,
	"num_tokens": 788981682.0,
	"step": 860
	},
	{
	"epoch": 1.2289167333155602,
	"grad_norm": 0.24215144672428524,
	"learning_rate": 4.089738334478399e-05,
	"loss": 0.4466,
	"mean_token_accuracy": 0.8540120802819728,
	"num_tokens": 793548878.0,
	"step": 865
	},
	{
	"epoch": 1.2360259486359193,
	"grad_norm": 0.251956160570565,
	"learning_rate": 4.0406569970694285e-05,
	"loss": 0.4514,
	"mean_token_accuracy": 0.8536942526698112,
	"num_tokens": 798145090.0,
	"step": 870
	},
	{
	"epoch": 1.2431351639562784,
	"grad_norm": 0.24137828427946414,
	"learning_rate": 3.991768913013904e-05,
	"loss": 0.4408,
	"mean_token_accuracy": 0.8566184468567372,
	"num_tokens": 802721141.0,
	"step": 875
	},
	{
	"epoch": 1.2502443792766373,
	"grad_norm": 0.3769699788745637,
	"learning_rate": 3.943080556311536e-05,
	"loss": 0.438,
	"mean_token_accuracy": 0.8581221453845501,
	"num_tokens": 807303824.0,
	"step": 880
	},
	{
	"epoch": 1.2573535945969962,
	"grad_norm": 0.251278759950789,
	"learning_rate": 3.894598374513174e-05,
	"loss": 0.4485,
	"mean_token_accuracy": 0.8541063219308853,
	"num_tokens": 811911762.0,
	"step": 885
	},
	{
	"epoch": 1.2644628099173554,
	"grad_norm": 0.24068163801342848,
	"learning_rate": 3.846328787866964e-05,
	"loss": 0.4339,
	"mean_token_accuracy": 0.859130322188139,
	"num_tokens": 816508640.0,
	"step": 890
	},
	{
	"epoch": 1.2715720252377145,
	"grad_norm": 0.23232711368022352,
	"learning_rate": 3.798278188468164e-05,
	"loss": 0.4445,
	"mean_token_accuracy": 0.8543654963374138,
	"num_tokens": 821100737.0,
	"step": 895
	},
	{
	"epoch": 1.2786812405580734,
	"grad_norm": 0.2368572559014999,
	"learning_rate": 3.750452939412667e-05,
	"loss": 0.4434,
	"mean_token_accuracy": 0.8547687388956546,
	"num_tokens": 825694727.0,
	"step": 900
	},
	{
	"epoch": 1.2786812405580734,
	"eval_loss": 0.4800785183906555,
	"eval_mean_token_accuracy": 0.8407511988229919,
	"eval_num_tokens": 825694727.0,
	"eval_runtime": 146.4602,
	"eval_samples_per_second": 24.84,
	"eval_steps_per_second": 0.778,
	"step": 900
	},
	{
	"epoch": 1.2857904558784323,
	"grad_norm": 0.26166517034573067,
	"learning_rate": 3.7028593739543715e-05,
	"loss": 0.4475,
	"mean_token_accuracy": 0.854764747619629,
	"num_tokens": 830291180.0,
	"step": 905
	},
	{
	"epoch": 1.2928996711987915,
	"grad_norm": 0.24015937616460478,
	"learning_rate": 3.6555037946664926e-05,
	"loss": 0.4455,
	"mean_token_accuracy": 0.8552566647529602,
	"num_tokens": 834892125.0,
	"step": 910
	},
	{
	"epoch": 1.3000088865191506,
	"grad_norm": 0.252313420976958,
	"learning_rate": 3.608392472606956e-05,
	"loss": 0.4441,
	"mean_token_accuracy": 0.8559129044413567,
	"num_tokens": 839486375.0,
	"step": 915
	},
	{
	"epoch": 1.3071181018395095,
	"grad_norm": 0.256487918121681,
	"learning_rate": 3.5615316464879445e-05,
	"loss": 0.4401,
	"mean_token_accuracy": 0.8565216913819313,
	"num_tokens": 844107444.0,
	"step": 920
	},
	{
	"epoch": 1.3142273171598684,
	"grad_norm": 0.23448215102314007,
	"learning_rate": 3.5149275218497445e-05,
	"loss": 0.4383,
	"mean_token_accuracy": 0.8571599997580052,
	"num_tokens": 848704492.0,
	"step": 925
	},
	{
	"epoch": 1.3213365324802275,
	"grad_norm": 0.24419792529251788,
	"learning_rate": 3.4685862702389714e-05,
	"loss": 0.4429,
	"mean_token_accuracy": 0.855844734609127,
	"num_tokens": 853292585.0,
	"step": 930
	},
	{
	"epoch": 1.3284457478005864,
	"grad_norm": 0.23566825561303636,
	"learning_rate": 3.422514028391304e-05,
	"loss": 0.4354,
	"mean_token_accuracy": 0.8570930063724518,
	"num_tokens": 857867604.0,
	"step": 935
	},
	{
	"epoch": 1.3355549631209456,
	"grad_norm": 0.2454162982602229,
	"learning_rate": 3.376716897418831e-05,
	"loss": 0.4447,
	"mean_token_accuracy": 0.8552064374089241,
	"num_tokens": 862460961.0,
	"step": 940
	},
	{
	"epoch": 1.3426641784413045,
	"grad_norm": 0.2524163496767361,
	"learning_rate": 3.331200942002113e-05,
	"loss": 0.4525,
	"mean_token_accuracy": 0.8537895001471043,
	"num_tokens": 867058298.0,
	"step": 945
	},
	{
	"epoch": 1.3497733937616636,
	"grad_norm": 0.23190520165291026,
	"learning_rate": 3.2859721895870635e-05,
	"loss": 0.44,
	"mean_token_accuracy": 0.8565752863883972,
	"num_tokens": 871661806.0,
	"step": 950
	},
	{
	"epoch": 1.3568826090820225,
	"grad_norm": 0.24782970977401894,
	"learning_rate": 3.2410366295867664e-05,
	"loss": 0.4352,
	"mean_token_accuracy": 0.8579383887350559,
	"num_tokens": 876250262.0,
	"step": 955
	},
	{
	"epoch": 1.3639918244023816,
	"grad_norm": 0.22786025696468146,
	"learning_rate": 3.19640021258833e-05,
	"loss": 0.444,
	"mean_token_accuracy": 0.8550498209893703,
	"num_tokens": 880839029.0,
	"step": 960
	},
	{
	"epoch": 1.3711010397227406,
	"grad_norm": 0.2265711418699179,
	"learning_rate": 3.152068849564879e-05,
	"loss": 0.4435,
	"mean_token_accuracy": 0.8563594095408916,
	"num_tokens": 885417939.0,
	"step": 965
	},
	{
	"epoch": 1.3782102550430997,
	"grad_norm": 0.23977507514952898,
	"learning_rate": 3.1080484110927954e-05,
	"loss": 0.4325,
	"mean_token_accuracy": 0.8590381443500519,
	"num_tokens": 890005207.0,
	"step": 970
	},
	{
	"epoch": 1.3853194703634586,
	"grad_norm": 0.24689756755824815,
	"learning_rate": 3.0643447265743096e-05,
	"loss": 0.44,
	"mean_token_accuracy": 0.85642144754529,
	"num_tokens": 894591297.0,
	"step": 975
	},
	{
	"epoch": 1.3924286856838177,
	"grad_norm": 0.24051873631020942,
	"learning_rate": 3.0209635834655392e-05,
	"loss": 0.435,
	"mean_token_accuracy": 0.8576522074639797,
	"num_tokens": 899178832.0,
	"step": 980
	},
	{
	"epoch": 1.3995379010041766,
	"grad_norm": 0.2413492029135495,
	"learning_rate": 2.9779107265100892e-05,
	"loss": 0.4369,
	"mean_token_accuracy": 0.857710150629282,
	"num_tokens": 903773147.0,
	"step": 985
	},
	{
	"epoch": 1.4066471163245358,
	"grad_norm": 0.23506138046697497,
	"learning_rate": 2.9351918569783006e-05,
	"loss": 0.4364,
	"mean_token_accuracy": 0.8576699584722519,
	"num_tokens": 908371284.0,
	"step": 990
	},
	{
	"epoch": 1.4137563316448947,
	"grad_norm": 0.25438867805085685,
	"learning_rate": 2.892812631912265e-05,
	"loss": 0.4349,
	"mean_token_accuracy": 0.8586409255862236,
	"num_tokens": 912978481.0,
	"step": 995
	},
	{
	"epoch": 1.4208655469652536,
	"grad_norm": 0.24429497699288996,
	"learning_rate": 2.8507786633766877e-05,
	"loss": 0.4354,
	"mean_token_accuracy": 0.8573046490550041,
	"num_tokens": 917574029.0,
	"step": 1000
	},
	{
	"epoch": 1.4208655469652536,
	"eval_loss": 0.47304314374923706,
	"eval_mean_token_accuracy": 0.842672534156264,
	"eval_num_tokens": 917574029.0,
	"eval_runtime": 145.3562,
	"eval_samples_per_second": 25.028,
	"eval_steps_per_second": 0.784,
	"step": 1000
	},
	{
	"epoch": 1.4279747622856127,
	"grad_norm": 0.24463063083449332,
	"learning_rate": 2.809095517715713e-05,
	"loss": 0.4303,
	"mean_token_accuracy": 0.858917984366417,
	"num_tokens": 922160147.0,
	"step": 1005
	},
	{
	"epoch": 1.4350839776059718,
	"grad_norm": 0.24348846567727375,
	"learning_rate": 2.7677687148157998e-05,
	"loss": 0.4367,
	"mean_token_accuracy": 0.8577364660799504,
	"num_tokens": 926746028.0,
	"step": 1010
	},
	{
	"epoch": 1.4421931929263307,
	"grad_norm": 0.24745049020205356,
	"learning_rate": 2.7268037273747525e-05,
	"loss": 0.4368,
	"mean_token_accuracy": 0.857840034365654,
	"num_tokens": 931337261.0,
	"step": 1015
	},
	{
	"epoch": 1.4493024082466897,
	"grad_norm": 0.2439587698234042,
	"learning_rate": 2.686205980176998e-05,
	"loss": 0.4447,
	"mean_token_accuracy": 0.8548872321844101,
	"num_tokens": 935941769.0,
	"step": 1020
	},
	{
	"epoch": 1.4564116235670488,
	"grad_norm": 0.25142114078442956,
	"learning_rate": 2.6459808493752102e-05,
	"loss": 0.4284,
	"mean_token_accuracy": 0.8603815868496895,
	"num_tokens": 940535643.0,
	"step": 1025
	},
	{
	"epoch": 1.463520838887408,
	"grad_norm": 0.2444154895688051,
	"learning_rate": 2.606133661778377e-05,
	"loss": 0.4368,
	"mean_token_accuracy": 0.8575351513922215,
	"num_tokens": 945124519.0,
	"step": 1030
	},
	{
	"epoch": 1.4706300542077668,
	"grad_norm": 0.2397327728518288,
	"learning_rate": 2.5666696941463885e-05,
	"loss": 0.4307,
	"mean_token_accuracy": 0.8594269149005413,
	"num_tokens": 949709974.0,
	"step": 1035
	},
	{
	"epoch": 1.4777392695281257,
	"grad_norm": 0.3077470484547689,
	"learning_rate": 2.5275941724912743e-05,
	"loss": 0.4288,
	"mean_token_accuracy": 0.8588724002242089,
	"num_tokens": 954294899.0,
	"step": 1040
	},
	{
	"epoch": 1.4848484848484849,
	"grad_norm": 0.24584716924955974,
	"learning_rate": 2.4889122713851394e-05,
	"loss": 0.4304,
	"mean_token_accuracy": 0.8590269833803177,
	"num_tokens": 958889833.0,
	"step": 1045
	},
	{
	"epoch": 1.491957700168844,
	"grad_norm": 0.24260820183680837,
	"learning_rate": 2.4506291132749272e-05,
	"loss": 0.4322,
	"mean_token_accuracy": 0.8588926158845425,
	"num_tokens": 963479630.0,
	"step": 1050
	},
	{
	"epoch": 1.499066915489203,
	"grad_norm": 0.2512439219193439,
	"learning_rate": 2.4127497678040846e-05,
	"loss": 0.4338,
	"mean_token_accuracy": 0.8590321697294712,
	"num_tokens": 968086693.0,
	"step": 1055
	},
	{
	"epoch": 1.5061761308095618,
	"grad_norm": 0.25788120133019554,
	"learning_rate": 2.375279251141201e-05,
	"loss": 0.4302,
	"mean_token_accuracy": 0.8599278099834919,
	"num_tokens": 972668807.0,
	"step": 1060
	},
	{
	"epoch": 1.513285346129921,
	"grad_norm": 0.24857387974370135,
	"learning_rate": 2.338222525315758e-05,
	"loss": 0.4371,
	"mean_token_accuracy": 0.8579599760472775,
	"num_tokens": 977267842.0,
	"step": 1065
	},
	{
	"epoch": 1.52039456145028,
	"grad_norm": 0.24022880991860499,
	"learning_rate": 2.301584497561024e-05,
	"loss": 0.4234,
	"mean_token_accuracy": 0.862085721641779,
	"num_tokens": 981857003.0,
	"step": 1070
	},
	{
	"epoch": 1.527503776770639,
	"grad_norm": 0.27120541109477303,
	"learning_rate": 2.2653700196642134e-05,
	"loss": 0.4396,
	"mean_token_accuracy": 0.857264555990696,
	"num_tokens": 986456929.0,
	"step": 1075
	},
	{
	"epoch": 1.5346129920909979,
	"grad_norm": 0.24114703590240177,
	"learning_rate": 2.2295838873239965e-05,
	"loss": 0.4296,
	"mean_token_accuracy": 0.8604548752307892,
	"num_tokens": 991061372.0,
	"step": 1080
	},
	{
	"epoch": 1.541722207411357,
	"grad_norm": 0.23963844839444817,
	"learning_rate": 2.194230839515425e-05,
	"loss": 0.4336,
	"mean_token_accuracy": 0.8584208697080612,
	"num_tokens": 995660319.0,
	"step": 1085
	},
	{
	"epoch": 1.5488314227317161,
	"grad_norm": 0.24314988814533856,
	"learning_rate": 2.1593155578623702e-05,
	"loss": 0.4306,
	"mean_token_accuracy": 0.8601135425269604,
	"num_tokens": 1000236933.0,
	"step": 1090
	},
	{
	"epoch": 1.555940638052075,
	"grad_norm": 0.2566886574453899,
	"learning_rate": 2.1248426660175713e-05,
	"loss": 0.4384,
	"mean_token_accuracy": 0.8573588460683823,
	"num_tokens": 1004820862.0,
	"step": 1095
	},
	{
	"epoch": 1.563049853372434,
	"grad_norm": 0.2621075128506793,
	"learning_rate": 2.0908167290503326e-05,
	"loss": 0.4298,
	"mean_token_accuracy": 0.8607131637632847,
	"num_tokens": 1009411521.0,
	"step": 1100
	},
	{
	"epoch": 1.563049853372434,
	"eval_loss": 0.4672245681285858,
	"eval_mean_token_accuracy": 0.844007690747579,
	"eval_num_tokens": 1009411521.0,
	"eval_runtime": 146.3617,
	"eval_samples_per_second": 24.856,
	"eval_steps_per_second": 0.779,
	"step": 1100
	},
	{
	"epoch": 1.570159068692793,
	"grad_norm": 0.23570827346042514,
	"learning_rate": 2.0572422528420095e-05,
	"loss": 0.4206,
	"mean_token_accuracy": 0.8622309692203999,
	"num_tokens": 1013995376.0,
	"step": 1105
	},
	{
	"epoch": 1.577268284013152,
	"grad_norm": 0.28786088105829327,
	"learning_rate": 2.024123683489303e-05,
	"loss": 0.4195,
	"mean_token_accuracy": 0.8634026922285557,
	"num_tokens": 1018562407.0,
	"step": 1110
	},
	{
	"epoch": 1.584377499333511,
	"grad_norm": 0.22477409346403396,
	"learning_rate": 1.9914654067154996e-05,
	"loss": 0.4345,
	"mean_token_accuracy": 0.8584335811436177,
	"num_tokens": 1023168118.0,
	"step": 1115
	},
	{
	"epoch": 1.59148671465387,
	"grad_norm": 0.24599345473106599,
	"learning_rate": 1.959271747289686e-05,
	"loss": 0.4278,
	"mean_token_accuracy": 0.8616135574877262,
	"num_tokens": 1027754848.0,
	"step": 1120
	},
	{
	"epoch": 1.5985959299742292,
	"grad_norm": 0.24491593894054278,
	"learning_rate": 1.9275469684540404e-05,
	"loss": 0.4294,
	"mean_token_accuracy": 0.8590353332459927,
	"num_tokens": 1032347251.0,
	"step": 1125
	},
	{
	"epoch": 1.605705145294588,
	"grad_norm": 0.2540751338276317,
	"learning_rate": 1.8962952713592752e-05,
	"loss": 0.4242,
	"mean_token_accuracy": 0.8608104437589645,
	"num_tokens": 1036931829.0,
	"step": 1130
	},
	{
	"epoch": 1.612814360614947,
	"grad_norm": 0.2510287685288083,
	"learning_rate": 1.8655207945083e-05,
	"loss": 0.4239,
	"mean_token_accuracy": 0.8617179103195667,
	"num_tokens": 1041532224.0,
	"step": 1135
	},
	{
	"epoch": 1.6199235759353061,
	"grad_norm": 0.2693350827409704,
	"learning_rate": 1.8352276132081847e-05,
	"loss": 0.4357,
	"mean_token_accuracy": 0.8589904353022575,
	"num_tokens": 1046120676.0,
	"step": 1140
	},
	{
	"epoch": 1.6270327912556652,
	"grad_norm": 0.24443054034299724,
	"learning_rate": 1.8054197390304755e-05,
	"loss": 0.4275,
	"mean_token_accuracy": 0.8615889854729175,
	"num_tokens": 1050708153.0,
	"step": 1145
	},
	{
	"epoch": 1.6341420065760242,
	"grad_norm": 0.24588007040764026,
	"learning_rate": 1.7761011192799764e-05,
	"loss": 0.4238,
	"mean_token_accuracy": 0.8622479006648064,
	"num_tokens": 1055294826.0,
	"step": 1150
	},
	{
	"epoch": 1.641251221896383,
	"grad_norm": 0.24561473837992528,
	"learning_rate": 1.7472756364720206e-05,
	"loss": 0.4243,
	"mean_token_accuracy": 0.8616314500570297,
	"num_tokens": 1059896792.0,
	"step": 1155
	},
	{
	"epoch": 1.6483604372167422,
	"grad_norm": 0.23202476301237993,
	"learning_rate": 1.7189471078183302e-05,
	"loss": 0.4313,
	"mean_token_accuracy": 0.860023857653141,
	"num_tokens": 1064504870.0,
	"step": 1160
	},
	{
	"epoch": 1.6554696525371013,
	"grad_norm": 0.2403111932989795,
	"learning_rate": 1.6911192847215225e-05,
	"loss": 0.4315,
	"mean_token_accuracy": 0.85991101115942,
	"num_tokens": 1069092813.0,
	"step": 1165
	},
	{
	"epoch": 1.6625788678574602,
	"grad_norm": 0.23285052418281263,
	"learning_rate": 1.6637958522783298e-05,
	"loss": 0.4286,
	"mean_token_accuracy": 0.8603983536362648,
	"num_tokens": 1073673087.0,
	"step": 1170
	},
	{
	"epoch": 1.6696880831778191,
	"grad_norm": 0.23644436345090544,
	"learning_rate": 1.6369804287916028e-05,
	"loss": 0.4237,
	"mean_token_accuracy": 0.8625174552202225,
	"num_tokens": 1078263989.0,
	"step": 1175
	},
	{
	"epoch": 1.6767972984981783,
	"grad_norm": 0.2283809036559784,
	"learning_rate": 1.6106765652911563e-05,
	"loss": 0.4196,
	"mean_token_accuracy": 0.8629219397902489,
	"num_tokens": 1082858600.0,
	"step": 1180
	},
	{
	"epoch": 1.6839065138185374,
	"grad_norm": 0.2437421457507895,
	"learning_rate": 1.5848877450635237e-05,
	"loss": 0.431,
	"mean_token_accuracy": 0.8596989519894123,
	"num_tokens": 1087463215.0,
	"step": 1185
	},
	{
	"epoch": 1.6910157291388963,
	"grad_norm": 0.24997191755310427,
	"learning_rate": 1.559617383190684e-05,
	"loss": 0.4258,
	"mean_token_accuracy": 0.8600839108228684,
	"num_tokens": 1092046691.0,
	"step": 1190
	},
	{
	"epoch": 1.6981249444592552,
	"grad_norm": 0.24275510902589129,
	"learning_rate": 1.5348688260978188e-05,
	"loss": 0.4198,
	"mean_token_accuracy": 0.8634254619479179,
	"num_tokens": 1096635412.0,
	"step": 1195
	},
	{
	"epoch": 1.7052341597796143,
	"grad_norm": 0.25771028141912433,
	"learning_rate": 1.5106453511101657e-05,
	"loss": 0.4198,
	"mean_token_accuracy": 0.8630197443068027,
	"num_tokens": 1101239957.0,
	"step": 1200
	},
	{
	"epoch": 1.7052341597796143,
	"eval_loss": 0.4617161452770233,
	"eval_mean_token_accuracy": 0.8460459296117749,
	"eval_num_tokens": 1101239957.0,
	"eval_runtime": 143.0225,
	"eval_samples_per_second": 25.437,
	"eval_steps_per_second": 0.797,
	"step": 1200
	},
	{
	"epoch": 1.7123433750999735,
	"grad_norm": 0.2465846462175401,
	"learning_rate": 1.4869501660190118e-05,
	"loss": 0.4269,
	"mean_token_accuracy": 0.8613091327250004,
	"num_tokens": 1105835727.0,
	"step": 1205
	},
	{
	"epoch": 1.7194525904203324,
	"grad_norm": 0.24343231445496366,
	"learning_rate": 1.4637864086569114e-05,
	"loss": 0.4189,
	"mean_token_accuracy": 0.8625466778874398,
	"num_tokens": 1110431832.0,
	"step": 1210
	},
	{
	"epoch": 1.7265618057406913,
	"grad_norm": 0.24500024608031826,
	"learning_rate": 1.4411571464821522e-05,
	"loss": 0.4178,
	"mean_token_accuracy": 0.8632443450391293,
	"num_tokens": 1115003545.0,
	"step": 1215
	},
	{
	"epoch": 1.7336710210610504,
	"grad_norm": 0.24384954499049283,
	"learning_rate": 1.4190653761725458e-05,
	"loss": 0.4331,
	"mean_token_accuracy": 0.8595723591744899,
	"num_tokens": 1119594038.0,
	"step": 1220
	},
	{
	"epoch": 1.7407802363814096,
	"grad_norm": 0.24988962843301607,
	"learning_rate": 1.3975140232286033e-05,
	"loss": 0.4292,
	"mean_token_accuracy": 0.8610283821821213,
	"num_tokens": 1124191272.0,
	"step": 1225
	},
	{
	"epoch": 1.7478894517017685,
	"grad_norm": 0.23666630913921613,
	"learning_rate": 1.3765059415861142e-05,
	"loss": 0.4256,
	"mean_token_accuracy": 0.8612963631749153,
	"num_tokens": 1128787024.0,
	"step": 1230
	},
	{
	"epoch": 1.7549986670221274,
	"grad_norm": 0.24377997978707636,
	"learning_rate": 1.3560439132382218e-05,
	"loss": 0.4249,
	"mean_token_accuracy": 0.8616208277642727,
	"num_tokens": 1133369468.0,
	"step": 1235
	},
	{
	"epoch": 1.7621078823424865,
	"grad_norm": 0.24473326280197544,
	"learning_rate": 1.336130647867015e-05,
	"loss": 0.4233,
	"mean_token_accuracy": 0.8611096739768982,
	"num_tokens": 1137960753.0,
	"step": 1240
	},
	{
	"epoch": 1.7692170976628456,
	"grad_norm": 0.2814923829698822,
	"learning_rate": 1.3167687824846988e-05,
	"loss": 0.4345,
	"mean_token_accuracy": 0.8590093135833741,
	"num_tokens": 1142557989.0,
	"step": 1245
	},
	{
	"epoch": 1.7763263129832043,
	"grad_norm": 0.24671237642090413,
	"learning_rate": 1.297960881084391e-05,
	"loss": 0.4136,
	"mean_token_accuracy": 0.8641826197504997,
	"num_tokens": 1147139033.0,
	"step": 1250
	},
	{
	"epoch": 1.7834355283035634,
	"grad_norm": 0.23802525665842986,
	"learning_rate": 1.2797094343005807e-05,
	"loss": 0.4212,
	"mean_token_accuracy": 0.8627298250794411,
	"num_tokens": 1151728912.0,
	"step": 1255
	},
	{
	"epoch": 1.7905447436239226,
	"grad_norm": 0.24514167574215462,
	"learning_rate": 1.2620168590793105e-05,
	"loss": 0.4243,
	"mean_token_accuracy": 0.8623115479946136,
	"num_tokens": 1156315343.0,
	"step": 1260
	},
	{
	"epoch": 1.7976539589442815,
	"grad_norm": 0.24177052216503225,
	"learning_rate": 1.2448854983581134e-05,
	"loss": 0.4205,
	"mean_token_accuracy": 0.8636125177145004,
	"num_tokens": 1160905222.0,
	"step": 1265
	},
	{
	"epoch": 1.8047631742646404,
	"grad_norm": 0.25623340057701793,
	"learning_rate": 1.2283176207557455e-05,
	"loss": 0.4204,
	"mean_token_accuracy": 0.863289151340723,
	"num_tokens": 1165469584.0,
	"step": 1270
	},
	{
	"epoch": 1.8118723895849995,
	"grad_norm": 0.2366529819101992,
	"learning_rate": 1.2123154202717656e-05,
	"loss": 0.4205,
	"mean_token_accuracy": 0.8623673833906651,
	"num_tokens": 1170087058.0,
	"step": 1275
	},
	{
	"epoch": 1.8189816049053587,
	"grad_norm": 0.23815408906221286,
	"learning_rate": 1.1968810159959982e-05,
	"loss": 0.4167,
	"mean_token_accuracy": 0.8636409521102906,
	"num_tokens": 1174675450.0,
	"step": 1280
	},
	{
	"epoch": 1.8260908202257176,
	"grad_norm": 0.25161717096488057,
	"learning_rate": 1.1820164518279083e-05,
	"loss": 0.4308,
	"mean_token_accuracy": 0.8603747352957726,
	"num_tokens": 1179252086.0,
	"step": 1285
	},
	{
	"epoch": 1.8332000355460765,
	"grad_norm": 0.23828924023109987,
	"learning_rate": 1.1677236962059421e-05,
	"loss": 0.4161,
	"mean_token_accuracy": 0.8636845953762531,
	"num_tokens": 1183846581.0,
	"step": 1290
	},
	{
	"epoch": 1.8403092508664356,
	"grad_norm": 0.2389439298878492,
	"learning_rate": 1.1540046418468561e-05,
	"loss": 0.4093,
	"mean_token_accuracy": 0.8666847251355648,
	"num_tokens": 1188439447.0,
	"step": 1295
	},
	{
	"epoch": 1.8474184661867947,
	"grad_norm": 0.26036762406039,
	"learning_rate": 1.1408611054950722e-05,
	"loss": 0.4187,
	"mean_token_accuracy": 0.8630855195224285,
	"num_tokens": 1193031482.0,
	"step": 1300
	},
	{
	"epoch": 1.8474184661867947,
	"eval_loss": 0.45738622546195984,
	"eval_mean_token_accuracy": 0.847679163803134,
	"eval_num_tokens": 1193031482.0,
	"eval_runtime": 143.6355,
	"eval_samples_per_second": 25.328,
	"eval_steps_per_second": 0.794,
	"step": 1300
	},
	{
	"epoch": 1.8545276815071536,
	"grad_norm": 0.2419491832206913,
	"learning_rate": 1.1282948276820963e-05,
	"loss": 0.4223,
	"mean_token_accuracy": 0.8626484178006649,
	"num_tokens": 1197621510.0,
	"step": 1305
	},
	{
	"epoch": 1.8616368968275125,
	"grad_norm": 0.2366717377397619,
	"learning_rate": 1.1163074724960326e-05,
	"loss": 0.4202,
	"mean_token_accuracy": 0.8629304811358451,
	"num_tokens": 1202214988.0,
	"step": 1310
	},
	{
	"epoch": 1.8687461121478717,
	"grad_norm": 0.24750576690261594,
	"learning_rate": 1.10490062736121e-05,
	"loss": 0.4159,
	"mean_token_accuracy": 0.8640658937394619,
	"num_tokens": 1206801749.0,
	"step": 1315
	},
	{
	"epoch": 1.8758553274682308,
	"grad_norm": 0.2754980560042937,
	"learning_rate": 1.094075802827971e-05,
	"loss": 0.4224,
	"mean_token_accuracy": 0.8619605071842671,
	"num_tokens": 1211394066.0,
	"step": 1320
	},
	{
	"epoch": 1.8829645427885897,
	"grad_norm": 0.2441756409539309,
	"learning_rate": 1.0838344323726395e-05,
	"loss": 0.4159,
	"mean_token_accuracy": 0.8641899891197682,
	"num_tokens": 1215982389.0,
	"step": 1325
	},
	{
	"epoch": 1.8900737581089486,
	"grad_norm": 0.25017331261640485,
	"learning_rate": 1.0741778722076896e-05,
	"loss": 0.4141,
	"mean_token_accuracy": 0.864534319192171,
	"num_tokens": 1220561480.0,
	"step": 1330
	},
	{
	"epoch": 1.8971829734293078,
	"grad_norm": 0.24928323459761015,
	"learning_rate": 1.0651074011021495e-05,
	"loss": 0.4148,
	"mean_token_accuracy": 0.8647311642765999,
	"num_tokens": 1225151015.0,
	"step": 1335
	},
	{
	"epoch": 1.9042921887496669,
	"grad_norm": 0.26117744577378244,
	"learning_rate": 1.056624220212263e-05,
	"loss": 0.4227,
	"mean_token_accuracy": 0.8627439729869366,
	"num_tokens": 1229753553.0,
	"step": 1340
	},
	{
	"epoch": 1.9114014040700258,
	"grad_norm": 0.250926981430339,
	"learning_rate": 1.048729452922423e-05,
	"loss": 0.4118,
	"mean_token_accuracy": 0.8654024370014668,
	"num_tokens": 1234324722.0,
	"step": 1345
	},
	{
	"epoch": 1.9185106193903847,
	"grad_norm": 0.26445464932369295,
	"learning_rate": 1.0414241446964102e-05,
	"loss": 0.4176,
	"mean_token_accuracy": 0.8638374984264374,
	"num_tokens": 1238945254.0,
	"step": 1350
	},
	{
	"epoch": 1.9256198347107438,
	"grad_norm": 0.24942959940503223,
	"learning_rate": 1.0347092629389484e-05,
	"loss": 0.4098,
	"mean_token_accuracy": 0.8681537143886089,
	"num_tokens": 1243530120.0,
	"step": 1355
	},
	{
	"epoch": 1.932729050031103,
	"grad_norm": 0.25517475920539473,
	"learning_rate": 1.0285856968675917e-05,
	"loss": 0.4104,
	"mean_token_accuracy": 0.8657238759100437,
	"num_tokens": 1248126495.0,
	"step": 1360
	},
	{
	"epoch": 1.9398382653514619,
	"grad_norm": 0.24624704699692396,
	"learning_rate": 1.0230542573949747e-05,
	"loss": 0.4053,
	"mean_token_accuracy": 0.8677756235003471,
	"num_tokens": 1252728208.0,
	"step": 1365
	},
	{
	"epoch": 1.9469474806718208,
	"grad_norm": 0.24811417447193737,
	"learning_rate": 1.0181156770214243e-05,
	"loss": 0.4193,
	"mean_token_accuracy": 0.8637429274618625,
	"num_tokens": 1257314007.0,
	"step": 1370
	},
	{
	"epoch": 1.95405669599218,
	"grad_norm": 0.2553291480205661,
	"learning_rate": 1.013770609737961e-05,
	"loss": 0.4153,
	"mean_token_accuracy": 0.8649327427148819,
	"num_tokens": 1261908378.0,
	"step": 1375
	},
	{
	"epoch": 1.961165911312539,
	"grad_norm": 0.24846642652489853,
	"learning_rate": 1.010019630939691e-05,
	"loss": 0.4204,
	"mean_token_accuracy": 0.8626691080629826,
	"num_tokens": 1266492690.0,
	"step": 1380
	},
	{
	"epoch": 1.968275126632898,
	"grad_norm": 0.24853442428779762,
	"learning_rate": 1.0068632373496125e-05,
	"loss": 0.4213,
	"mean_token_accuracy": 0.862095658481121,
	"num_tokens": 1271089050.0,
	"step": 1385
	},
	{
	"epoch": 1.9753843419532569,
	"grad_norm": 0.25447008393745496,
	"learning_rate": 1.0043018469528365e-05,
	"loss": 0.4186,
	"mean_token_accuracy": 0.8638553529977798,
	"num_tokens": 1275693685.0,
	"step": 1390
	},
	{
	"epoch": 1.982493557273616,
	"grad_norm": 0.25146974784680387,
	"learning_rate": 1.0023357989412332e-05,
	"loss": 0.4132,
	"mean_token_accuracy": 0.8654829584062099,
	"num_tokens": 1280282291.0,
	"step": 1395
	},
	{
	"epoch": 1.9896027725939749,
	"grad_norm": 0.25186861166219776,
	"learning_rate": 1.000965353668517e-05,
	"loss": 0.4097,
	"mean_token_accuracy": 0.8660168826580048,
	"num_tokens": 1284878893.0,
	"step": 1400
	},
	{
	"epoch": 1.9896027725939749,
	"eval_loss": 0.45450538396835327,
	"eval_mean_token_accuracy": 0.8486974662856052,
	"eval_num_tokens": 1284878893.0,
	"eval_runtime": 143.4865,
	"eval_samples_per_second": 25.354,
	"eval_steps_per_second": 0.794,
	"step": 1400
	},
	{
	"epoch": 1.9967119879143338,
	"grad_norm": 0.2548741967506241,
	"learning_rate": 1.0001906926157681e-05,
	"loss": 0.4088,
	"mean_token_accuracy": 0.8670746453106404,
	"num_tokens": 1289465244.0,
	"step": 1405
	},
	{
	"epoch": 2.0,
	"mean_token_accuracy": 0.8681698522052249,
	"num_tokens": 1291584473.0,
	"step": 1408,
	"total_flos": 9795365997903872.0,
	"train_loss": 0.5166227378120477,
	"train_runtime": 48333.5779,
	"train_samples_per_second": 14.899,
	"train_steps_per_second": 0.029
	}
	],
	"logging_steps": 5,
	"max_steps": 1408,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 300,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9795365997903872.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}