{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.3612281757977122,
  "eval_steps": 500,
  "global_step": 3000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0012040939193257074,
      "grad_norm": 4.493077278137207,
      "learning_rate": 6.020469596628537e-08,
      "loss": 0.8542,
      "step": 10
    },
    {
      "epoch": 0.002408187838651415,
      "grad_norm": 3.8596057891845703,
      "learning_rate": 1.2040939193257075e-07,
      "loss": 0.8555,
      "step": 20
    },
    {
      "epoch": 0.003612281757977122,
      "grad_norm": 4.305038928985596,
      "learning_rate": 1.8061408789885615e-07,
      "loss": 0.8106,
      "step": 30
    },
    {
      "epoch": 0.00481637567730283,
      "grad_norm": 3.1335549354553223,
      "learning_rate": 2.408187838651415e-07,
      "loss": 0.8081,
      "step": 40
    },
    {
      "epoch": 0.006020469596628537,
      "grad_norm": 1.6693689823150635,
      "learning_rate": 3.010234798314269e-07,
      "loss": 0.6284,
      "step": 50
    },
    {
      "epoch": 0.007224563515954244,
      "grad_norm": 1.5313595533370972,
      "learning_rate": 3.612281757977123e-07,
      "loss": 0.6326,
      "step": 60
    },
    {
      "epoch": 0.008428657435279952,
      "grad_norm": 1.2745211124420166,
      "learning_rate": 4.214328717639976e-07,
      "loss": 0.5949,
      "step": 70
    },
    {
      "epoch": 0.00963275135460566,
      "grad_norm": 1.5159902572631836,
      "learning_rate": 4.81637567730283e-07,
      "loss": 0.5983,
      "step": 80
    },
    {
      "epoch": 0.010836845273931367,
      "grad_norm": 1.0369549989700317,
      "learning_rate": 5.418422636965684e-07,
      "loss": 0.5287,
      "step": 90
    },
    {
      "epoch": 0.012040939193257074,
      "grad_norm": 0.9122974872589111,
      "learning_rate": 6.020469596628538e-07,
      "loss": 0.5409,
      "step": 100
    },
    {
      "epoch": 0.013245033112582781,
      "grad_norm": 1.1365671157836914,
      "learning_rate": 6.622516556291392e-07,
      "loss": 0.5231,
      "step": 110
    },
    {
      "epoch": 0.014449127031908489,
      "grad_norm": 1.3433114290237427,
      "learning_rate": 7.224563515954246e-07,
      "loss": 0.5285,
      "step": 120
    },
    {
      "epoch": 0.015653220951234198,
      "grad_norm": 1.071059226989746,
      "learning_rate": 7.826610475617098e-07,
      "loss": 0.5081,
      "step": 130
    },
    {
      "epoch": 0.016857314870559904,
      "grad_norm": 0.9992673993110657,
      "learning_rate": 8.428657435279952e-07,
      "loss": 0.5014,
      "step": 140
    },
    {
      "epoch": 0.018061408789885613,
      "grad_norm": 0.9417910575866699,
      "learning_rate": 9.030704394942806e-07,
      "loss": 0.485,
      "step": 150
    },
    {
      "epoch": 0.01926550270921132,
      "grad_norm": 1.9711155891418457,
      "learning_rate": 9.63275135460566e-07,
      "loss": 0.4998,
      "step": 160
    },
    {
      "epoch": 0.020469596628537028,
      "grad_norm": 1.1526416540145874,
      "learning_rate": 1.0234798314268515e-06,
      "loss": 0.4884,
      "step": 170
    },
    {
      "epoch": 0.021673690547862733,
      "grad_norm": 0.998377799987793,
      "learning_rate": 1.0836845273931368e-06,
      "loss": 0.4664,
      "step": 180
    },
    {
      "epoch": 0.022877784467188442,
      "grad_norm": 1.1452618837356567,
      "learning_rate": 1.1438892233594223e-06,
      "loss": 0.4525,
      "step": 190
    },
    {
      "epoch": 0.024081878386514148,
      "grad_norm": 1.0191096067428589,
      "learning_rate": 1.2040939193257076e-06,
      "loss": 0.4876,
      "step": 200
    },
    {
      "epoch": 0.025285972305839857,
      "grad_norm": 1.1968324184417725,
      "learning_rate": 1.2642986152919929e-06,
      "loss": 0.4857,
      "step": 210
    },
    {
      "epoch": 0.026490066225165563,
      "grad_norm": 0.9497478604316711,
      "learning_rate": 1.3245033112582784e-06,
      "loss": 0.4792,
      "step": 220
    },
    {
      "epoch": 0.027694160144491272,
      "grad_norm": 1.116698145866394,
      "learning_rate": 1.3847080072245637e-06,
      "loss": 0.4638,
      "step": 230
    },
    {
      "epoch": 0.028898254063816978,
      "grad_norm": 1.0555943250656128,
      "learning_rate": 1.4449127031908492e-06,
      "loss": 0.4354,
      "step": 240
    },
    {
      "epoch": 0.030102347983142687,
      "grad_norm": 1.0101929903030396,
      "learning_rate": 1.5051173991571345e-06,
      "loss": 0.4713,
      "step": 250
    },
    {
      "epoch": 0.031306441902468396,
      "grad_norm": 0.9667739868164062,
      "learning_rate": 1.5653220951234195e-06,
      "loss": 0.4571,
      "step": 260
    },
    {
      "epoch": 0.0325105358217941,
      "grad_norm": 0.8683928847312927,
      "learning_rate": 1.6255267910897053e-06,
      "loss": 0.4482,
      "step": 270
    },
    {
      "epoch": 0.03371462974111981,
      "grad_norm": 0.8824328184127808,
      "learning_rate": 1.6857314870559903e-06,
      "loss": 0.4382,
      "step": 280
    },
    {
      "epoch": 0.034918723660445516,
      "grad_norm": 0.994888186454773,
      "learning_rate": 1.745936183022276e-06,
      "loss": 0.4322,
      "step": 290
    },
    {
      "epoch": 0.036122817579771226,
      "grad_norm": 0.9860646724700928,
      "learning_rate": 1.8061408789885611e-06,
      "loss": 0.4732,
      "step": 300
    },
    {
      "epoch": 0.03732691149909693,
      "grad_norm": 0.7932515740394592,
      "learning_rate": 1.8663455749548467e-06,
      "loss": 0.4456,
      "step": 310
    },
    {
      "epoch": 0.03853100541842264,
      "grad_norm": 1.0582640171051025,
      "learning_rate": 1.926550270921132e-06,
      "loss": 0.4279,
      "step": 320
    },
    {
      "epoch": 0.039735099337748346,
      "grad_norm": 0.9140390157699585,
      "learning_rate": 1.9867549668874175e-06,
      "loss": 0.434,
      "step": 330
    },
    {
      "epoch": 0.040939193257074055,
      "grad_norm": 1.1419363021850586,
      "learning_rate": 2.046959662853703e-06,
      "loss": 0.4439,
      "step": 340
    },
    {
      "epoch": 0.04214328717639976,
      "grad_norm": 0.9408713579177856,
      "learning_rate": 2.107164358819988e-06,
      "loss": 0.4391,
      "step": 350
    },
    {
      "epoch": 0.04334738109572547,
      "grad_norm": 1.1359527111053467,
      "learning_rate": 2.1673690547862735e-06,
      "loss": 0.4557,
      "step": 360
    },
    {
      "epoch": 0.044551475015051176,
      "grad_norm": 0.9307160973548889,
      "learning_rate": 2.2275737507525586e-06,
      "loss": 0.4143,
      "step": 370
    },
    {
      "epoch": 0.045755568934376885,
      "grad_norm": 0.8836046457290649,
      "learning_rate": 2.2877784467188446e-06,
      "loss": 0.4291,
      "step": 380
    },
    {
      "epoch": 0.04695966285370259,
      "grad_norm": 1.003625512123108,
      "learning_rate": 2.3479831426851296e-06,
      "loss": 0.4206,
      "step": 390
    },
    {
      "epoch": 0.048163756773028296,
      "grad_norm": 0.9054766893386841,
      "learning_rate": 2.408187838651415e-06,
      "loss": 0.4249,
      "step": 400
    },
    {
      "epoch": 0.049367850692354005,
      "grad_norm": 0.9139155149459839,
      "learning_rate": 2.4683925346177002e-06,
      "loss": 0.3935,
      "step": 410
    },
    {
      "epoch": 0.050571944611679714,
      "grad_norm": 0.9974410533905029,
      "learning_rate": 2.5285972305839857e-06,
      "loss": 0.4045,
      "step": 420
    },
    {
      "epoch": 0.05177603853100542,
      "grad_norm": 0.8461595773696899,
      "learning_rate": 2.5888019265502712e-06,
      "loss": 0.4156,
      "step": 430
    },
    {
      "epoch": 0.052980132450331126,
      "grad_norm": 0.8492552042007446,
      "learning_rate": 2.6490066225165567e-06,
      "loss": 0.4087,
      "step": 440
    },
    {
      "epoch": 0.054184226369656835,
      "grad_norm": 0.9904332160949707,
      "learning_rate": 2.709211318482842e-06,
      "loss": 0.4291,
      "step": 450
    },
    {
      "epoch": 0.055388320288982544,
      "grad_norm": 0.833013117313385,
      "learning_rate": 2.7694160144491273e-06,
      "loss": 0.395,
      "step": 460
    },
    {
      "epoch": 0.056592414208308246,
      "grad_norm": 0.8359534740447998,
      "learning_rate": 2.829620710415413e-06,
      "loss": 0.4351,
      "step": 470
    },
    {
      "epoch": 0.057796508127633955,
      "grad_norm": 0.8902082443237305,
      "learning_rate": 2.8898254063816983e-06,
      "loss": 0.4206,
      "step": 480
    },
    {
      "epoch": 0.059000602046959665,
      "grad_norm": 0.962718665599823,
      "learning_rate": 2.9500301023479834e-06,
      "loss": 0.392,
      "step": 490
    },
    {
      "epoch": 0.060204695966285374,
      "grad_norm": 0.9946653842926025,
      "learning_rate": 3.010234798314269e-06,
      "loss": 0.4153,
      "step": 500
    },
    {
      "epoch": 0.061408789885611076,
      "grad_norm": 1.109198808670044,
      "learning_rate": 3.0704394942805544e-06,
      "loss": 0.4088,
      "step": 510
    },
    {
      "epoch": 0.06261288380493679,
      "grad_norm": 0.8040575385093689,
      "learning_rate": 3.130644190246839e-06,
      "loss": 0.4435,
      "step": 520
    },
    {
      "epoch": 0.0638169777242625,
      "grad_norm": 0.8136855959892273,
      "learning_rate": 3.190848886213125e-06,
      "loss": 0.4245,
      "step": 530
    },
    {
      "epoch": 0.0650210716435882,
      "grad_norm": 0.9422655701637268,
      "learning_rate": 3.2510535821794105e-06,
      "loss": 0.4288,
      "step": 540
    },
    {
      "epoch": 0.06622516556291391,
      "grad_norm": 1.0111280679702759,
      "learning_rate": 3.311258278145696e-06,
      "loss": 0.3963,
      "step": 550
    },
    {
      "epoch": 0.06742925948223961,
      "grad_norm": 0.9421567320823669,
      "learning_rate": 3.3714629741119807e-06,
      "loss": 0.4,
      "step": 560
    },
    {
      "epoch": 0.06863335340156532,
      "grad_norm": 1.1559011936187744,
      "learning_rate": 3.431667670078266e-06,
      "loss": 0.4121,
      "step": 570
    },
    {
      "epoch": 0.06983744732089103,
      "grad_norm": 0.9975080490112305,
      "learning_rate": 3.491872366044552e-06,
      "loss": 0.4258,
      "step": 580
    },
    {
      "epoch": 0.07104154124021674,
      "grad_norm": 0.8114684224128723,
      "learning_rate": 3.552077062010837e-06,
      "loss": 0.4076,
      "step": 590
    },
    {
      "epoch": 0.07224563515954245,
      "grad_norm": 0.9221380949020386,
      "learning_rate": 3.6122817579771223e-06,
      "loss": 0.4168,
      "step": 600
    },
    {
      "epoch": 0.07344972907886815,
      "grad_norm": 0.814426839351654,
      "learning_rate": 3.672486453943408e-06,
      "loss": 0.4407,
      "step": 610
    },
    {
      "epoch": 0.07465382299819386,
      "grad_norm": 0.973948061466217,
      "learning_rate": 3.7326911499096933e-06,
      "loss": 0.4366,
      "step": 620
    },
    {
      "epoch": 0.07585791691751957,
      "grad_norm": 0.8728868365287781,
      "learning_rate": 3.7928958458759784e-06,
      "loss": 0.4089,
      "step": 630
    },
    {
      "epoch": 0.07706201083684527,
      "grad_norm": 0.8259644508361816,
      "learning_rate": 3.853100541842264e-06,
      "loss": 0.3995,
      "step": 640
    },
    {
      "epoch": 0.07826610475617098,
      "grad_norm": 0.831025242805481,
      "learning_rate": 3.913305237808549e-06,
      "loss": 0.4214,
      "step": 650
    },
    {
      "epoch": 0.07947019867549669,
      "grad_norm": 1.1024181842803955,
      "learning_rate": 3.973509933774835e-06,
      "loss": 0.4096,
      "step": 660
    },
    {
      "epoch": 0.0806742925948224,
      "grad_norm": 1.0233677625656128,
      "learning_rate": 4.03371462974112e-06,
      "loss": 0.4106,
      "step": 670
    },
    {
      "epoch": 0.08187838651414811,
      "grad_norm": 1.1318445205688477,
      "learning_rate": 4.093919325707406e-06,
      "loss": 0.4334,
      "step": 680
    },
    {
      "epoch": 0.08308248043347381,
      "grad_norm": 0.6938216090202332,
      "learning_rate": 4.1541240216736914e-06,
      "loss": 0.3989,
      "step": 690
    },
    {
      "epoch": 0.08428657435279951,
      "grad_norm": 1.0629688501358032,
      "learning_rate": 4.214328717639976e-06,
      "loss": 0.3965,
      "step": 700
    },
    {
      "epoch": 0.08549066827212523,
      "grad_norm": 0.8016679883003235,
      "learning_rate": 4.274533413606262e-06,
      "loss": 0.4036,
      "step": 710
    },
    {
      "epoch": 0.08669476219145093,
      "grad_norm": 0.836853563785553,
      "learning_rate": 4.334738109572547e-06,
      "loss": 0.4178,
      "step": 720
    },
    {
      "epoch": 0.08789885611077664,
      "grad_norm": 0.9053426384925842,
      "learning_rate": 4.394942805538832e-06,
      "loss": 0.41,
      "step": 730
    },
    {
      "epoch": 0.08910295003010235,
      "grad_norm": 0.8448899388313293,
      "learning_rate": 4.455147501505117e-06,
      "loss": 0.4172,
      "step": 740
    },
    {
      "epoch": 0.09030704394942805,
      "grad_norm": 1.103007197380066,
      "learning_rate": 4.515352197471403e-06,
      "loss": 0.4058,
      "step": 750
    },
    {
      "epoch": 0.09151113786875377,
      "grad_norm": 0.8424834609031677,
      "learning_rate": 4.575556893437689e-06,
      "loss": 0.3966,
      "step": 760
    },
    {
      "epoch": 0.09271523178807947,
      "grad_norm": 0.9698967337608337,
      "learning_rate": 4.635761589403974e-06,
      "loss": 0.4124,
      "step": 770
    },
    {
      "epoch": 0.09391932570740517,
      "grad_norm": 0.8681527972221375,
      "learning_rate": 4.695966285370259e-06,
      "loss": 0.4075,
      "step": 780
    },
    {
      "epoch": 0.09512341962673089,
      "grad_norm": 0.8637135624885559,
      "learning_rate": 4.756170981336545e-06,
      "loss": 0.4099,
      "step": 790
    },
    {
      "epoch": 0.09632751354605659,
      "grad_norm": 0.9337596297264099,
      "learning_rate": 4.81637567730283e-06,
      "loss": 0.402,
      "step": 800
    },
    {
      "epoch": 0.0975316074653823,
      "grad_norm": 0.8647050857543945,
      "learning_rate": 4.876580373269115e-06,
      "loss": 0.3938,
      "step": 810
    },
    {
      "epoch": 0.09873570138470801,
      "grad_norm": 0.901082456111908,
      "learning_rate": 4.9367850692354005e-06,
      "loss": 0.4072,
      "step": 820
    },
    {
      "epoch": 0.09993979530403371,
      "grad_norm": 0.9131784439086914,
      "learning_rate": 4.996989765201686e-06,
      "loss": 0.418,
      "step": 830
    },
    {
      "epoch": 0.10114388922335943,
      "grad_norm": 0.8499720096588135,
      "learning_rate": 5.0571944611679715e-06,
      "loss": 0.389,
      "step": 840
    },
    {
      "epoch": 0.10234798314268513,
      "grad_norm": 0.8417907953262329,
      "learning_rate": 5.117399157134257e-06,
      "loss": 0.4266,
      "step": 850
    },
    {
      "epoch": 0.10355207706201083,
      "grad_norm": 0.934445321559906,
      "learning_rate": 5.1776038531005425e-06,
      "loss": 0.4211,
      "step": 860
    },
    {
      "epoch": 0.10475617098133655,
      "grad_norm": 1.0600025653839111,
      "learning_rate": 5.237808549066827e-06,
      "loss": 0.4207,
      "step": 870
    },
    {
      "epoch": 0.10596026490066225,
      "grad_norm": 0.8151345252990723,
      "learning_rate": 5.2980132450331135e-06,
      "loss": 0.404,
      "step": 880
    },
    {
      "epoch": 0.10716435881998795,
      "grad_norm": 0.870756983757019,
      "learning_rate": 5.358217940999398e-06,
      "loss": 0.3902,
      "step": 890
    },
    {
      "epoch": 0.10836845273931367,
      "grad_norm": 0.7950719594955444,
      "learning_rate": 5.418422636965684e-06,
      "loss": 0.4008,
      "step": 900
    },
    {
      "epoch": 0.10957254665863937,
      "grad_norm": 0.9038835167884827,
      "learning_rate": 5.478627332931969e-06,
      "loss": 0.4108,
      "step": 910
    },
    {
      "epoch": 0.11077664057796509,
      "grad_norm": 0.6713101863861084,
      "learning_rate": 5.538832028898255e-06,
      "loss": 0.3973,
      "step": 920
    },
    {
      "epoch": 0.11198073449729079,
      "grad_norm": 0.8747267127037048,
      "learning_rate": 5.599036724864539e-06,
      "loss": 0.4118,
      "step": 930
    },
    {
      "epoch": 0.11318482841661649,
      "grad_norm": 0.7427367568016052,
      "learning_rate": 5.659241420830826e-06,
      "loss": 0.3953,
      "step": 940
    },
    {
      "epoch": 0.11438892233594221,
      "grad_norm": 0.9134345054626465,
      "learning_rate": 5.71944611679711e-06,
      "loss": 0.4139,
      "step": 950
    },
    {
      "epoch": 0.11559301625526791,
      "grad_norm": 0.9449650645256042,
      "learning_rate": 5.779650812763397e-06,
      "loss": 0.4138,
      "step": 960
    },
    {
      "epoch": 0.11679711017459361,
      "grad_norm": 0.8692741394042969,
      "learning_rate": 5.839855508729681e-06,
      "loss": 0.4209,
      "step": 970
    },
    {
      "epoch": 0.11800120409391933,
      "grad_norm": 0.8774002194404602,
      "learning_rate": 5.900060204695967e-06,
      "loss": 0.4101,
      "step": 980
    },
    {
      "epoch": 0.11920529801324503,
      "grad_norm": 1.0402076244354248,
      "learning_rate": 5.960264900662252e-06,
      "loss": 0.4158,
      "step": 990
    },
    {
      "epoch": 0.12040939193257075,
      "grad_norm": 0.8114269375801086,
      "learning_rate": 6.020469596628538e-06,
      "loss": 0.3895,
      "step": 1000
    },
    {
      "epoch": 0.12161348585189645,
      "grad_norm": 0.8539683222770691,
      "learning_rate": 6.0806742925948225e-06,
      "loss": 0.4103,
      "step": 1010
    },
    {
      "epoch": 0.12281757977122215,
      "grad_norm": 0.7575641870498657,
      "learning_rate": 6.140878988561109e-06,
      "loss": 0.4144,
      "step": 1020
    },
    {
      "epoch": 0.12402167369054787,
      "grad_norm": 0.8992655873298645,
      "learning_rate": 6.2010836845273935e-06,
      "loss": 0.4047,
      "step": 1030
    },
    {
      "epoch": 0.12522576760987358,
      "grad_norm": 0.8001008033752441,
      "learning_rate": 6.261288380493678e-06,
      "loss": 0.4287,
      "step": 1040
    },
    {
      "epoch": 0.12642986152919927,
      "grad_norm": 0.925136387348175,
      "learning_rate": 6.3214930764599645e-06,
      "loss": 0.4074,
      "step": 1050
    },
    {
      "epoch": 0.127633955448525,
      "grad_norm": 1.0227221250534058,
      "learning_rate": 6.38169777242625e-06,
      "loss": 0.4328,
      "step": 1060
    },
    {
      "epoch": 0.1288380493678507,
      "grad_norm": 0.9899520874023438,
      "learning_rate": 6.441902468392535e-06,
      "loss": 0.4295,
      "step": 1070
    },
    {
      "epoch": 0.1300421432871764,
      "grad_norm": 0.8418249487876892,
      "learning_rate": 6.502107164358821e-06,
      "loss": 0.4253,
      "step": 1080
    },
    {
      "epoch": 0.1312462372065021,
      "grad_norm": 0.908448338508606,
      "learning_rate": 6.562311860325106e-06,
      "loss": 0.426,
      "step": 1090
    },
    {
      "epoch": 0.13245033112582782,
      "grad_norm": 0.6490532755851746,
      "learning_rate": 6.622516556291392e-06,
      "loss": 0.4052,
      "step": 1100
    },
    {
      "epoch": 0.1336544250451535,
      "grad_norm": 0.7787577509880066,
      "learning_rate": 6.682721252257677e-06,
      "loss": 0.4126,
      "step": 1110
    },
    {
      "epoch": 0.13485851896447923,
      "grad_norm": 0.852828323841095,
      "learning_rate": 6.742925948223961e-06,
      "loss": 0.4027,
      "step": 1120
    },
    {
      "epoch": 0.13606261288380495,
      "grad_norm": 0.815913200378418,
      "learning_rate": 6.803130644190248e-06,
      "loss": 0.4009,
      "step": 1130
    },
    {
      "epoch": 0.13726670680313063,
      "grad_norm": 0.8611458539962769,
      "learning_rate": 6.863335340156532e-06,
      "loss": 0.3969,
      "step": 1140
    },
    {
      "epoch": 0.13847080072245635,
      "grad_norm": 0.8810627460479736,
      "learning_rate": 6.923540036122818e-06,
      "loss": 0.4271,
      "step": 1150
    },
    {
      "epoch": 0.13967489464178207,
      "grad_norm": 0.7515714764595032,
      "learning_rate": 6.983744732089104e-06,
      "loss": 0.4242,
      "step": 1160
    },
    {
      "epoch": 0.14087898856110775,
      "grad_norm": 0.7631770968437195,
      "learning_rate": 7.043949428055389e-06,
      "loss": 0.4216,
      "step": 1170
    },
    {
      "epoch": 0.14208308248043347,
      "grad_norm": 0.7160392999649048,
      "learning_rate": 7.104154124021674e-06,
      "loss": 0.3925,
      "step": 1180
    },
    {
      "epoch": 0.1432871763997592,
      "grad_norm": 0.8564875721931458,
      "learning_rate": 7.16435881998796e-06,
      "loss": 0.3869,
      "step": 1190
    },
    {
      "epoch": 0.1444912703190849,
      "grad_norm": 0.7953211069107056,
      "learning_rate": 7.224563515954245e-06,
      "loss": 0.4137,
      "step": 1200
    },
    {
      "epoch": 0.1456953642384106,
      "grad_norm": 1.0595327615737915,
      "learning_rate": 7.28476821192053e-06,
      "loss": 0.4335,
      "step": 1210
    },
    {
      "epoch": 0.1468994581577363,
      "grad_norm": 0.8404736518859863,
      "learning_rate": 7.344972907886816e-06,
      "loss": 0.4089,
      "step": 1220
    },
    {
      "epoch": 0.14810355207706202,
      "grad_norm": 0.7567724585533142,
      "learning_rate": 7.405177603853101e-06,
      "loss": 0.403,
      "step": 1230
    },
    {
      "epoch": 0.1493076459963877,
      "grad_norm": 0.8093376159667969,
      "learning_rate": 7.465382299819387e-06,
      "loss": 0.4073,
      "step": 1240
    },
    {
      "epoch": 0.15051173991571343,
      "grad_norm": 0.7871286273002625,
      "learning_rate": 7.525586995785672e-06,
      "loss": 0.4025,
      "step": 1250
    },
    {
      "epoch": 0.15171583383503914,
      "grad_norm": 0.6928724646568298,
      "learning_rate": 7.585791691751957e-06,
      "loss": 0.3986,
      "step": 1260
    },
    {
      "epoch": 0.15291992775436483,
      "grad_norm": 0.7218755483627319,
      "learning_rate": 7.645996387718242e-06,
      "loss": 0.3999,
      "step": 1270
    },
    {
      "epoch": 0.15412402167369055,
      "grad_norm": 0.7006899118423462,
      "learning_rate": 7.706201083684528e-06,
      "loss": 0.4216,
      "step": 1280
    },
    {
      "epoch": 0.15532811559301626,
      "grad_norm": 0.7425961494445801,
      "learning_rate": 7.766405779650813e-06,
      "loss": 0.4236,
      "step": 1290
    },
    {
      "epoch": 0.15653220951234195,
      "grad_norm": 0.751541256904602,
      "learning_rate": 7.826610475617099e-06,
      "loss": 0.4004,
      "step": 1300
    },
    {
      "epoch": 0.15773630343166767,
      "grad_norm": 0.8689406514167786,
      "learning_rate": 7.886815171583384e-06,
      "loss": 0.423,
      "step": 1310
    },
    {
      "epoch": 0.15894039735099338,
      "grad_norm": 0.8490719199180603,
      "learning_rate": 7.94701986754967e-06,
      "loss": 0.4021,
      "step": 1320
    },
    {
      "epoch": 0.16014449127031907,
      "grad_norm": 0.789993941783905,
      "learning_rate": 8.007224563515955e-06,
      "loss": 0.417,
      "step": 1330
    },
    {
      "epoch": 0.1613485851896448,
      "grad_norm": 0.6940705180168152,
      "learning_rate": 8.06742925948224e-06,
      "loss": 0.4145,
      "step": 1340
    },
    {
      "epoch": 0.1625526791089705,
      "grad_norm": 0.6934823989868164,
      "learning_rate": 8.127633955448526e-06,
      "loss": 0.426,
      "step": 1350
    },
    {
      "epoch": 0.16375677302829622,
      "grad_norm": 0.8862583637237549,
      "learning_rate": 8.187838651414812e-06,
      "loss": 0.413,
      "step": 1360
    },
    {
      "epoch": 0.1649608669476219,
      "grad_norm": 0.8213974237442017,
      "learning_rate": 8.248043347381096e-06,
      "loss": 0.4213,
      "step": 1370
    },
    {
      "epoch": 0.16616496086694763,
      "grad_norm": 0.7640252709388733,
      "learning_rate": 8.308248043347383e-06,
      "loss": 0.4187,
      "step": 1380
    },
    {
      "epoch": 0.16736905478627334,
      "grad_norm": 0.5988288521766663,
      "learning_rate": 8.368452739313667e-06,
      "loss": 0.4064,
      "step": 1390
    },
    {
      "epoch": 0.16857314870559903,
      "grad_norm": 0.7275210022926331,
      "learning_rate": 8.428657435279952e-06,
      "loss": 0.4196,
      "step": 1400
    },
    {
      "epoch": 0.16977724262492475,
      "grad_norm": 0.8650638461112976,
      "learning_rate": 8.488862131246238e-06,
      "loss": 0.4256,
      "step": 1410
    },
    {
      "epoch": 0.17098133654425046,
      "grad_norm": 0.7395037412643433,
      "learning_rate": 8.549066827212523e-06,
      "loss": 0.4183,
      "step": 1420
    },
    {
      "epoch": 0.17218543046357615,
      "grad_norm": 0.7639788389205933,
      "learning_rate": 8.609271523178809e-06,
      "loss": 0.4198,
      "step": 1430
    },
    {
      "epoch": 0.17338952438290187,
      "grad_norm": 0.8117052912712097,
      "learning_rate": 8.669476219145094e-06,
      "loss": 0.4198,
      "step": 1440
    },
    {
      "epoch": 0.17459361830222758,
      "grad_norm": 0.666847288608551,
      "learning_rate": 8.72968091511138e-06,
      "loss": 0.4264,
      "step": 1450
    },
    {
      "epoch": 0.17579771222155327,
      "grad_norm": 0.772653341293335,
      "learning_rate": 8.789885611077664e-06,
      "loss": 0.4215,
      "step": 1460
    },
    {
      "epoch": 0.177001806140879,
      "grad_norm": 0.7273865938186646,
      "learning_rate": 8.85009030704395e-06,
      "loss": 0.4248,
      "step": 1470
    },
    {
      "epoch": 0.1782059000602047,
      "grad_norm": 0.7259694337844849,
      "learning_rate": 8.910295003010235e-06,
      "loss": 0.4052,
      "step": 1480
    },
    {
      "epoch": 0.1794099939795304,
      "grad_norm": 0.6725711822509766,
      "learning_rate": 8.970499698976522e-06,
      "loss": 0.402,
      "step": 1490
    },
    {
      "epoch": 0.1806140878988561,
      "grad_norm": 0.65286785364151,
      "learning_rate": 9.030704394942806e-06,
      "loss": 0.4276,
      "step": 1500
    },
    {
      "epoch": 0.18181818181818182,
      "grad_norm": 0.6906160712242126,
      "learning_rate": 9.090909090909091e-06,
      "loss": 0.4286,
      "step": 1510
    },
    {
      "epoch": 0.18302227573750754,
      "grad_norm": 0.724080502986908,
      "learning_rate": 9.151113786875378e-06,
      "loss": 0.4276,
      "step": 1520
    },
    {
      "epoch": 0.18422636965683323,
      "grad_norm": 0.6606823801994324,
      "learning_rate": 9.211318482841662e-06,
      "loss": 0.4101,
      "step": 1530
    },
    {
      "epoch": 0.18543046357615894,
      "grad_norm": 0.7359831929206848,
      "learning_rate": 9.271523178807948e-06,
      "loss": 0.4135,
      "step": 1540
    },
    {
      "epoch": 0.18663455749548466,
      "grad_norm": 0.7515934109687805,
      "learning_rate": 9.331727874774233e-06,
      "loss": 0.4326,
      "step": 1550
    },
    {
      "epoch": 0.18783865141481035,
      "grad_norm": 0.7025226950645447,
      "learning_rate": 9.391932570740519e-06,
      "loss": 0.4284,
      "step": 1560
    },
    {
      "epoch": 0.18904274533413606,
      "grad_norm": 0.7655004858970642,
      "learning_rate": 9.452137266706804e-06,
      "loss": 0.4437,
      "step": 1570
    },
    {
      "epoch": 0.19024683925346178,
      "grad_norm": 0.6908859014511108,
      "learning_rate": 9.51234196267309e-06,
      "loss": 0.4118,
      "step": 1580
    },
    {
      "epoch": 0.19145093317278747,
      "grad_norm": 0.6758030652999878,
      "learning_rate": 9.572546658639375e-06,
      "loss": 0.4116,
      "step": 1590
    },
    {
      "epoch": 0.19265502709211318,
      "grad_norm": 0.6467289328575134,
      "learning_rate": 9.63275135460566e-06,
      "loss": 0.3798,
      "step": 1600
    },
    {
      "epoch": 0.1938591210114389,
      "grad_norm": 0.6361190676689148,
      "learning_rate": 9.692956050571946e-06,
      "loss": 0.407,
      "step": 1610
    },
    {
      "epoch": 0.1950632149307646,
      "grad_norm": 0.7024742364883423,
      "learning_rate": 9.75316074653823e-06,
      "loss": 0.4404,
      "step": 1620
    },
    {
      "epoch": 0.1962673088500903,
      "grad_norm": 0.9013002514839172,
      "learning_rate": 9.813365442504517e-06,
      "loss": 0.4103,
      "step": 1630
    },
    {
      "epoch": 0.19747140276941602,
      "grad_norm": 0.7999349236488342,
      "learning_rate": 9.873570138470801e-06,
      "loss": 0.4226,
      "step": 1640
    },
    {
      "epoch": 0.1986754966887417,
      "grad_norm": 0.7732336521148682,
      "learning_rate": 9.933774834437086e-06,
      "loss": 0.428,
      "step": 1650
    },
    {
      "epoch": 0.19987959060806743,
      "grad_norm": 0.7034444212913513,
      "learning_rate": 9.993979530403372e-06,
      "loss": 0.4092,
      "step": 1660
    },
    {
      "epoch": 0.20108368452739314,
      "grad_norm": 0.7027778029441833,
      "learning_rate": 9.999991056647274e-06,
      "loss": 0.4377,
      "step": 1670
    },
    {
      "epoch": 0.20228777844671886,
      "grad_norm": 0.7145072221755981,
      "learning_rate": 9.999960141394974e-06,
      "loss": 0.4123,
      "step": 1680
    },
    {
      "epoch": 0.20349187236604455,
      "grad_norm": 0.7327492237091064,
      "learning_rate": 9.999907143967842e-06,
      "loss": 0.425,
      "step": 1690
    },
    {
      "epoch": 0.20469596628537026,
      "grad_norm": 0.6946583986282349,
      "learning_rate": 9.99983206459994e-06,
      "loss": 0.4402,
      "step": 1700
    },
    {
      "epoch": 0.20590006020469598,
      "grad_norm": 0.7672596573829651,
      "learning_rate": 9.99973490362285e-06,
      "loss": 0.4294,
      "step": 1710
    },
    {
      "epoch": 0.20710415412402167,
      "grad_norm": 0.6748612523078918,
      "learning_rate": 9.999615661465687e-06,
      "loss": 0.4276,
      "step": 1720
    },
    {
      "epoch": 0.20830824804334738,
      "grad_norm": 0.6233317852020264,
      "learning_rate": 9.999474338655075e-06,
      "loss": 0.4332,
      "step": 1730
    },
    {
      "epoch": 0.2095123419626731,
      "grad_norm": 0.6073035597801208,
      "learning_rate": 9.999310935815165e-06,
      "loss": 0.4126,
      "step": 1740
    },
    {
      "epoch": 0.2107164358819988,
      "grad_norm": 0.8427298665046692,
      "learning_rate": 9.99912545366762e-06,
      "loss": 0.4103,
      "step": 1750
    },
    {
      "epoch": 0.2119205298013245,
      "grad_norm": 0.6080508828163147,
      "learning_rate": 9.998917893031615e-06,
      "loss": 0.4169,
      "step": 1760
    },
    {
      "epoch": 0.21312462372065022,
      "grad_norm": 0.6491650342941284,
      "learning_rate": 9.998688254823838e-06,
      "loss": 0.43,
      "step": 1770
    },
    {
      "epoch": 0.2143287176399759,
      "grad_norm": 0.6630529761314392,
      "learning_rate": 9.998436540058479e-06,
      "loss": 0.4288,
      "step": 1780
    },
    {
      "epoch": 0.21553281155930162,
      "grad_norm": 0.6852911710739136,
      "learning_rate": 9.998162749847224e-06,
      "loss": 0.4366,
      "step": 1790
    },
    {
      "epoch": 0.21673690547862734,
      "grad_norm": 0.656762957572937,
      "learning_rate": 9.997866885399266e-06,
      "loss": 0.4222,
      "step": 1800
    },
    {
      "epoch": 0.21794099939795303,
      "grad_norm": 0.6759340167045593,
      "learning_rate": 9.997548948021277e-06,
      "loss": 0.4285,
      "step": 1810
    },
    {
      "epoch": 0.21914509331727874,
      "grad_norm": 0.7979835867881775,
      "learning_rate": 9.99720893911742e-06,
      "loss": 0.4449,
      "step": 1820
    },
    {
      "epoch": 0.22034918723660446,
      "grad_norm": 0.8958430290222168,
      "learning_rate": 9.996846860189334e-06,
      "loss": 0.4186,
      "step": 1830
    },
    {
      "epoch": 0.22155328115593018,
      "grad_norm": 0.7292673587799072,
      "learning_rate": 9.996462712836128e-06,
      "loss": 0.4343,
      "step": 1840
    },
    {
      "epoch": 0.22275737507525586,
      "grad_norm": 0.7444326281547546,
      "learning_rate": 9.99605649875438e-06,
      "loss": 0.4118,
      "step": 1850
    },
    {
      "epoch": 0.22396146899458158,
      "grad_norm": 0.6437088847160339,
      "learning_rate": 9.99562821973812e-06,
      "loss": 0.4271,
      "step": 1860
    },
    {
      "epoch": 0.2251655629139073,
      "grad_norm": 0.6916770339012146,
      "learning_rate": 9.995177877678832e-06,
      "loss": 0.4251,
      "step": 1870
    },
    {
      "epoch": 0.22636965683323299,
      "grad_norm": 0.7626556754112244,
      "learning_rate": 9.994705474565436e-06,
      "loss": 0.396,
      "step": 1880
    },
    {
      "epoch": 0.2275737507525587,
      "grad_norm": 0.647384524345398,
      "learning_rate": 9.994211012484287e-06,
      "loss": 0.4291,
      "step": 1890
    },
    {
      "epoch": 0.22877784467188442,
      "grad_norm": 0.6921635866165161,
      "learning_rate": 9.993694493619162e-06,
      "loss": 0.42,
      "step": 1900
    },
    {
      "epoch": 0.2299819385912101,
      "grad_norm": 0.9950026273727417,
      "learning_rate": 9.993155920251252e-06,
      "loss": 0.4106,
      "step": 1910
    },
    {
      "epoch": 0.23118603251053582,
      "grad_norm": 0.8333727121353149,
      "learning_rate": 9.992595294759149e-06,
      "loss": 0.4222,
      "step": 1920
    },
    {
      "epoch": 0.23239012642986154,
      "grad_norm": 0.675442636013031,
      "learning_rate": 9.99201261961884e-06,
      "loss": 0.4101,
      "step": 1930
    },
    {
      "epoch": 0.23359422034918723,
      "grad_norm": 0.6925363540649414,
      "learning_rate": 9.99140789740369e-06,
      "loss": 0.4116,
      "step": 1940
    },
    {
      "epoch": 0.23479831426851294,
      "grad_norm": 0.625470757484436,
      "learning_rate": 9.990781130784439e-06,
      "loss": 0.417,
      "step": 1950
    },
    {
      "epoch": 0.23600240818783866,
      "grad_norm": 0.7827292084693909,
      "learning_rate": 9.990132322529184e-06,
      "loss": 0.4243,
      "step": 1960
    },
    {
      "epoch": 0.23720650210716435,
      "grad_norm": 0.6003771424293518,
      "learning_rate": 9.989461475503363e-06,
      "loss": 0.3996,
      "step": 1970
    },
    {
      "epoch": 0.23841059602649006,
      "grad_norm": 0.6997721791267395,
      "learning_rate": 9.988768592669757e-06,
      "loss": 0.4042,
      "step": 1980
    },
    {
      "epoch": 0.23961468994581578,
      "grad_norm": 0.6173328757286072,
      "learning_rate": 9.988053677088458e-06,
      "loss": 0.4251,
      "step": 1990
    },
    {
      "epoch": 0.2408187838651415,
      "grad_norm": 0.7555398344993591,
      "learning_rate": 9.987316731916872e-06,
      "loss": 0.4348,
      "step": 2000
    },
    {
      "epoch": 0.24202287778446718,
      "grad_norm": 0.6037384271621704,
      "learning_rate": 9.986557760409696e-06,
      "loss": 0.4199,
      "step": 2010
    },
    {
      "epoch": 0.2432269717037929,
      "grad_norm": 0.5857072472572327,
      "learning_rate": 9.985776765918902e-06,
      "loss": 0.4105,
      "step": 2020
    },
    {
      "epoch": 0.24443106562311862,
      "grad_norm": 0.5785397887229919,
      "learning_rate": 9.984973751893732e-06,
      "loss": 0.4076,
      "step": 2030
    },
    {
      "epoch": 0.2456351595424443,
      "grad_norm": 0.7300509810447693,
      "learning_rate": 9.984148721880671e-06,
      "loss": 0.4246,
      "step": 2040
    },
    {
      "epoch": 0.24683925346177002,
      "grad_norm": 0.6609570384025574,
      "learning_rate": 9.98330167952344e-06,
      "loss": 0.4197,
      "step": 2050
    },
    {
      "epoch": 0.24804334738109574,
      "grad_norm": 0.7330984473228455,
      "learning_rate": 9.982432628562978e-06,
      "loss": 0.4357,
      "step": 2060
    },
    {
      "epoch": 0.24924744130042142,
      "grad_norm": 0.6742992401123047,
      "learning_rate": 9.98154157283742e-06,
      "loss": 0.4251,
      "step": 2070
    },
    {
      "epoch": 0.25045153521974717,
      "grad_norm": 0.7010999917984009,
      "learning_rate": 9.98062851628209e-06,
      "loss": 0.406,
      "step": 2080
    },
    {
      "epoch": 0.25165562913907286,
      "grad_norm": 0.6535939574241638,
      "learning_rate": 9.979693462929472e-06,
      "loss": 0.4039,
      "step": 2090
    },
    {
      "epoch": 0.25285972305839854,
      "grad_norm": 0.7878649234771729,
      "learning_rate": 9.978736416909203e-06,
      "loss": 0.4187,
      "step": 2100
    },
    {
      "epoch": 0.2540638169777243,
      "grad_norm": 0.6900846362113953,
      "learning_rate": 9.977757382448048e-06,
      "loss": 0.4009,
      "step": 2110
    },
    {
      "epoch": 0.25526791089705,
      "grad_norm": 0.7403346300125122,
      "learning_rate": 9.976756363869884e-06,
      "loss": 0.4037,
      "step": 2120
    },
    {
      "epoch": 0.25647200481637566,
      "grad_norm": 0.5141294598579407,
      "learning_rate": 9.975733365595678e-06,
      "loss": 0.3992,
      "step": 2130
    },
    {
      "epoch": 0.2576760987357014,
      "grad_norm": 0.5552240014076233,
      "learning_rate": 9.974688392143474e-06,
      "loss": 0.4164,
      "step": 2140
    },
    {
      "epoch": 0.2588801926550271,
      "grad_norm": 0.6941738128662109,
      "learning_rate": 9.973621448128364e-06,
      "loss": 0.4427,
      "step": 2150
    },
    {
      "epoch": 0.2600842865743528,
      "grad_norm": 0.7765330672264099,
      "learning_rate": 9.972532538262474e-06,
      "loss": 0.4182,
      "step": 2160
    },
    {
      "epoch": 0.26128838049367853,
      "grad_norm": 0.6916946768760681,
      "learning_rate": 9.971421667354945e-06,
      "loss": 0.4253,
      "step": 2170
    },
    {
      "epoch": 0.2624924744130042,
      "grad_norm": 0.6621512174606323,
      "learning_rate": 9.9702888403119e-06,
      "loss": 0.4366,
      "step": 2180
    },
    {
      "epoch": 0.2636965683323299,
      "grad_norm": 0.7381554841995239,
      "learning_rate": 9.969134062136444e-06,
      "loss": 0.4404,
      "step": 2190
    },
    {
      "epoch": 0.26490066225165565,
      "grad_norm": 0.5463728308677673,
      "learning_rate": 9.967957337928611e-06,
      "loss": 0.39,
      "step": 2200
    },
    {
      "epoch": 0.26610475617098134,
      "grad_norm": 0.6164487600326538,
      "learning_rate": 9.966758672885375e-06,
      "loss": 0.4044,
      "step": 2210
    },
    {
      "epoch": 0.267308850090307,
      "grad_norm": 0.641072154045105,
      "learning_rate": 9.9655380723006e-06,
      "loss": 0.4252,
      "step": 2220
    },
    {
      "epoch": 0.26851294400963277,
      "grad_norm": 0.6177085638046265,
      "learning_rate": 9.964295541565036e-06,
      "loss": 0.4156,
      "step": 2230
    },
    {
      "epoch": 0.26971703792895846,
      "grad_norm": 0.7510300278663635,
      "learning_rate": 9.963031086166282e-06,
      "loss": 0.4311,
      "step": 2240
    },
    {
      "epoch": 0.27092113184828415,
      "grad_norm": 0.7194767594337463,
      "learning_rate": 9.961744711688765e-06,
      "loss": 0.4132,
      "step": 2250
    },
    {
      "epoch": 0.2721252257676099,
      "grad_norm": 0.6834779977798462,
      "learning_rate": 9.960436423813722e-06,
      "loss": 0.3983,
      "step": 2260
    },
    {
      "epoch": 0.2733293196869356,
      "grad_norm": 0.6589867472648621,
      "learning_rate": 9.959106228319166e-06,
      "loss": 0.4212,
      "step": 2270
    },
    {
      "epoch": 0.27453341360626127,
      "grad_norm": 0.7483543157577515,
      "learning_rate": 9.957754131079867e-06,
      "loss": 0.4271,
      "step": 2280
    },
    {
      "epoch": 0.275737507525587,
      "grad_norm": 0.7127540111541748,
      "learning_rate": 9.956380138067321e-06,
      "loss": 0.4111,
      "step": 2290
    },
    {
      "epoch": 0.2769416014449127,
      "grad_norm": 0.572772204875946,
      "learning_rate": 9.954984255349729e-06,
      "loss": 0.4257,
      "step": 2300
    },
    {
      "epoch": 0.2781456953642384,
      "grad_norm": 0.5992602705955505,
      "learning_rate": 9.953566489091961e-06,
      "loss": 0.4103,
      "step": 2310
    },
    {
      "epoch": 0.27934978928356413,
      "grad_norm": 0.5377028584480286,
      "learning_rate": 9.952126845555546e-06,
      "loss": 0.4159,
      "step": 2320
    },
    {
      "epoch": 0.2805538832028898,
      "grad_norm": 0.5963308215141296,
      "learning_rate": 9.950665331098622e-06,
      "loss": 0.4176,
      "step": 2330
    },
    {
      "epoch": 0.2817579771222155,
      "grad_norm": 0.6307719349861145,
      "learning_rate": 9.949181952175924e-06,
      "loss": 0.4093,
      "step": 2340
    },
    {
      "epoch": 0.28296207104154125,
      "grad_norm": 0.6423715949058533,
      "learning_rate": 9.947676715338752e-06,
      "loss": 0.4132,
      "step": 2350
    },
    {
      "epoch": 0.28416616496086694,
      "grad_norm": 0.6683996915817261,
      "learning_rate": 9.94614962723494e-06,
      "loss": 0.3989,
      "step": 2360
    },
    {
      "epoch": 0.28537025888019263,
      "grad_norm": 0.6631016731262207,
      "learning_rate": 9.944600694608826e-06,
      "loss": 0.4112,
      "step": 2370
    },
    {
      "epoch": 0.2865743527995184,
      "grad_norm": 0.5501009225845337,
      "learning_rate": 9.943029924301226e-06,
      "loss": 0.4011,
      "step": 2380
    },
    {
      "epoch": 0.28777844671884406,
      "grad_norm": 0.698462724685669,
      "learning_rate": 9.9414373232494e-06,
      "loss": 0.4157,
      "step": 2390
    },
    {
      "epoch": 0.2889825406381698,
      "grad_norm": 0.6291915774345398,
      "learning_rate": 9.939822898487022e-06,
      "loss": 0.4052,
      "step": 2400
    },
    {
      "epoch": 0.2901866345574955,
      "grad_norm": 0.7052215337753296,
      "learning_rate": 9.938186657144152e-06,
      "loss": 0.4328,
      "step": 2410
    },
    {
      "epoch": 0.2913907284768212,
      "grad_norm": 0.614234447479248,
      "learning_rate": 9.9365286064472e-06,
      "loss": 0.4338,
      "step": 2420
    },
    {
      "epoch": 0.2925948223961469,
      "grad_norm": 0.7433189153671265,
      "learning_rate": 9.934848753718898e-06,
      "loss": 0.4123,
      "step": 2430
    },
    {
      "epoch": 0.2937989163154726,
      "grad_norm": 0.7689957022666931,
      "learning_rate": 9.933147106378265e-06,
      "loss": 0.3977,
      "step": 2440
    },
    {
      "epoch": 0.2950030102347983,
      "grad_norm": 0.7885751724243164,
      "learning_rate": 9.931423671940577e-06,
      "loss": 0.4059,
      "step": 2450
    },
    {
      "epoch": 0.29620710415412405,
      "grad_norm": 0.6402080059051514,
      "learning_rate": 9.929678458017329e-06,
      "loss": 0.4122,
      "step": 2460
    },
    {
      "epoch": 0.29741119807344973,
      "grad_norm": 0.5220641493797302,
      "learning_rate": 9.927911472316207e-06,
      "loss": 0.4055,
      "step": 2470
    },
    {
      "epoch": 0.2986152919927754,
      "grad_norm": 0.7214632034301758,
      "learning_rate": 9.926122722641051e-06,
      "loss": 0.3975,
      "step": 2480
    },
    {
      "epoch": 0.29981938591210117,
      "grad_norm": 0.613142192363739,
      "learning_rate": 9.924312216891821e-06,
      "loss": 0.4023,
      "step": 2490
    },
    {
      "epoch": 0.30102347983142685,
      "grad_norm": 0.5488284826278687,
      "learning_rate": 9.922479963064561e-06,
      "loss": 0.4099,
      "step": 2500
    },
    {
      "epoch": 0.30222757375075254,
      "grad_norm": 0.611324667930603,
      "learning_rate": 9.920625969251365e-06,
      "loss": 0.4254,
      "step": 2510
    },
    {
      "epoch": 0.3034316676700783,
      "grad_norm": 0.6431906819343567,
      "learning_rate": 9.918750243640342e-06,
      "loss": 0.4214,
      "step": 2520
    },
    {
      "epoch": 0.304635761589404,
      "grad_norm": 0.5706843733787537,
      "learning_rate": 9.916852794515577e-06,
      "loss": 0.4047,
      "step": 2530
    },
    {
      "epoch": 0.30583985550872966,
      "grad_norm": 0.6331128478050232,
      "learning_rate": 9.9149336302571e-06,
      "loss": 0.4162,
      "step": 2540
    },
    {
      "epoch": 0.3070439494280554,
      "grad_norm": 0.5779263377189636,
      "learning_rate": 9.91299275934084e-06,
      "loss": 0.4162,
      "step": 2550
    },
    {
      "epoch": 0.3082480433473811,
      "grad_norm": 0.5985395908355713,
      "learning_rate": 9.911030190338597e-06,
      "loss": 0.407,
      "step": 2560
    },
    {
      "epoch": 0.3094521372667068,
      "grad_norm": 0.6307035088539124,
      "learning_rate": 9.909045931918e-06,
      "loss": 0.4057,
      "step": 2570
    },
    {
      "epoch": 0.3106562311860325,
      "grad_norm": 0.5812168121337891,
      "learning_rate": 9.907039992842463e-06,
      "loss": 0.4062,
      "step": 2580
    },
    {
      "epoch": 0.3118603251053582,
      "grad_norm": 0.5832013487815857,
      "learning_rate": 9.905012381971158e-06,
      "loss": 0.3938,
      "step": 2590
    },
    {
      "epoch": 0.3130644190246839,
      "grad_norm": 0.5482537150382996,
      "learning_rate": 9.90296310825897e-06,
      "loss": 0.4011,
      "step": 2600
    },
    {
      "epoch": 0.31426851294400965,
      "grad_norm": 0.6891474723815918,
      "learning_rate": 9.900892180756452e-06,
      "loss": 0.3966,
      "step": 2610
    },
    {
      "epoch": 0.31547260686333534,
      "grad_norm": 0.6250351071357727,
      "learning_rate": 9.898799608609796e-06,
      "loss": 0.4051,
      "step": 2620
    },
    {
      "epoch": 0.316676700782661,
      "grad_norm": 0.5703800916671753,
      "learning_rate": 9.896685401060783e-06,
      "loss": 0.3897,
      "step": 2630
    },
    {
      "epoch": 0.31788079470198677,
      "grad_norm": 0.6377761363983154,
      "learning_rate": 9.89454956744675e-06,
      "loss": 0.392,
      "step": 2640
    },
    {
      "epoch": 0.31908488862131246,
      "grad_norm": 0.764297604560852,
      "learning_rate": 9.892392117200537e-06,
      "loss": 0.4088,
      "step": 2650
    },
    {
      "epoch": 0.32028898254063815,
      "grad_norm": 0.6339750289916992,
      "learning_rate": 9.890213059850467e-06,
      "loss": 0.4072,
      "step": 2660
    },
    {
      "epoch": 0.3214930764599639,
      "grad_norm": 0.7279502749443054,
      "learning_rate": 9.888012405020273e-06,
      "loss": 0.4165,
      "step": 2670
    },
    {
      "epoch": 0.3226971703792896,
      "grad_norm": 0.5564601421356201,
      "learning_rate": 9.885790162429088e-06,
      "loss": 0.4085,
      "step": 2680
    },
    {
      "epoch": 0.32390126429861527,
      "grad_norm": 0.7307550311088562,
      "learning_rate": 9.883546341891375e-06,
      "loss": 0.4127,
      "step": 2690
    },
    {
      "epoch": 0.325105358217941,
      "grad_norm": 0.6039677858352661,
      "learning_rate": 9.881280953316905e-06,
      "loss": 0.4035,
      "step": 2700
    },
    {
      "epoch": 0.3263094521372667,
      "grad_norm": 0.6507939696311951,
      "learning_rate": 9.878994006710696e-06,
      "loss": 0.4061,
      "step": 2710
    },
    {
      "epoch": 0.32751354605659244,
      "grad_norm": 0.5216728448867798,
      "learning_rate": 9.876685512172982e-06,
      "loss": 0.3795,
      "step": 2720
    },
    {
      "epoch": 0.32871763997591813,
      "grad_norm": 0.6496076583862305,
      "learning_rate": 9.874355479899157e-06,
      "loss": 0.4053,
      "step": 2730
    },
    {
      "epoch": 0.3299217338952438,
      "grad_norm": 0.5770013928413391,
      "learning_rate": 9.872003920179742e-06,
      "loss": 0.4117,
      "step": 2740
    },
    {
      "epoch": 0.33112582781456956,
      "grad_norm": 0.6992169618606567,
      "learning_rate": 9.869630843400331e-06,
      "loss": 0.4085,
      "step": 2750
    },
    {
      "epoch": 0.33232992173389525,
      "grad_norm": 0.597195029258728,
      "learning_rate": 9.867236260041542e-06,
      "loss": 0.399,
      "step": 2760
    },
    {
      "epoch": 0.33353401565322094,
      "grad_norm": 0.6113731861114502,
      "learning_rate": 9.864820180678986e-06,
      "loss": 0.4082,
      "step": 2770
    },
    {
      "epoch": 0.3347381095725467,
      "grad_norm": 0.6595070362091064,
      "learning_rate": 9.862382615983203e-06,
      "loss": 0.4487,
      "step": 2780
    },
    {
      "epoch": 0.33594220349187237,
      "grad_norm": 0.6609788537025452,
      "learning_rate": 9.859923576719626e-06,
      "loss": 0.4165,
      "step": 2790
    },
    {
      "epoch": 0.33714629741119806,
      "grad_norm": 0.5960284471511841,
      "learning_rate": 9.857443073748525e-06,
      "loss": 0.4034,
      "step": 2800
    },
    {
      "epoch": 0.3383503913305238,
      "grad_norm": 0.6841645240783691,
      "learning_rate": 9.854941118024973e-06,
      "loss": 0.4063,
      "step": 2810
    },
    {
      "epoch": 0.3395544852498495,
      "grad_norm": 0.6011462211608887,
      "learning_rate": 9.85241772059878e-06,
      "loss": 0.4068,
      "step": 2820
    },
    {
      "epoch": 0.3407585791691752,
      "grad_norm": 0.6739152669906616,
      "learning_rate": 9.849872892614454e-06,
      "loss": 0.4083,
      "step": 2830
    },
    {
      "epoch": 0.3419626730885009,
      "grad_norm": 0.6050275564193726,
      "learning_rate": 9.847306645311154e-06,
      "loss": 0.4103,
      "step": 2840
    },
    {
      "epoch": 0.3431667670078266,
      "grad_norm": 0.6555474400520325,
      "learning_rate": 9.844718990022634e-06,
      "loss": 0.4189,
      "step": 2850
    },
    {
      "epoch": 0.3443708609271523,
      "grad_norm": 0.6739481687545776,
      "learning_rate": 9.842109938177197e-06,
      "loss": 0.3933,
      "step": 2860
    },
    {
      "epoch": 0.34557495484647804,
      "grad_norm": 0.6478269696235657,
      "learning_rate": 9.839479501297643e-06,
      "loss": 0.3966,
      "step": 2870
    },
    {
      "epoch": 0.34677904876580373,
      "grad_norm": 0.6076885461807251,
      "learning_rate": 9.836827691001216e-06,
      "loss": 0.4117,
      "step": 2880
    },
    {
      "epoch": 0.3479831426851294,
      "grad_norm": 0.5881434679031372,
      "learning_rate": 9.83415451899956e-06,
      "loss": 0.396,
      "step": 2890
    },
    {
      "epoch": 0.34918723660445516,
      "grad_norm": 0.5336823463439941,
      "learning_rate": 9.831459997098654e-06,
      "loss": 0.415,
      "step": 2900
    },
    {
      "epoch": 0.35039133052378085,
      "grad_norm": 0.5969860553741455,
      "learning_rate": 9.82874413719878e-06,
      "loss": 0.4065,
      "step": 2910
    },
    {
      "epoch": 0.35159542444310654,
      "grad_norm": 0.6741296648979187,
      "learning_rate": 9.82600695129445e-06,
      "loss": 0.3923,
      "step": 2920
    },
    {
      "epoch": 0.3527995183624323,
      "grad_norm": 0.6892803907394409,
      "learning_rate": 9.82324845147436e-06,
      "loss": 0.4044,
      "step": 2930
    },
    {
      "epoch": 0.354003612281758,
      "grad_norm": 0.7474640011787415,
      "learning_rate": 9.82046864992135e-06,
      "loss": 0.398,
      "step": 2940
    },
    {
      "epoch": 0.35520770620108366,
      "grad_norm": 0.763518214225769,
      "learning_rate": 9.817667558912323e-06,
      "loss": 0.4102,
      "step": 2950
    },
    {
      "epoch": 0.3564118001204094,
      "grad_norm": 0.7783694863319397,
      "learning_rate": 9.814845190818218e-06,
      "loss": 0.4253,
      "step": 2960
    },
    {
      "epoch": 0.3576158940397351,
      "grad_norm": 0.6782777905464172,
      "learning_rate": 9.81200155810394e-06,
      "loss": 0.423,
      "step": 2970
    },
    {
      "epoch": 0.3588199879590608,
      "grad_norm": 0.7009173631668091,
      "learning_rate": 9.809136673328305e-06,
      "loss": 0.413,
      "step": 2980
    },
    {
      "epoch": 0.3600240818783865,
      "grad_norm": 0.630977213382721,
      "learning_rate": 9.806250549143994e-06,
      "loss": 0.3899,
      "step": 2990
    },
    {
      "epoch": 0.3612281757977122,
      "grad_norm": 0.6084991693496704,
      "learning_rate": 9.803343198297486e-06,
      "loss": 0.4122,
      "step": 3000
    }
  ],
  "logging_steps": 10,
  "max_steps": 16610,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 983918210449408.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}