W0805 17:40:32.513000 58575 /mnt/hwfile/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/distributed/run.py:792] 
W0805 17:40:32.513000 58575 /mnt/hwfile/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/distributed/run.py:792] *****************************************
W0805 17:40:32.513000 58575 /mnt/hwfile/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/distributed/run.py:792] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
W0805 17:40:32.513000 58575 /mnt/hwfile/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/distributed/run.py:792] *****************************************
[2025-08-05 17:41:05,690] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,690] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,705] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,706] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,706] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,726] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,711] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,726] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,726] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,726] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,726] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,726] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,715] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:05,715] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-08-05 17:41:13,989] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:13,989] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:13,989] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:13,989] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:13,989] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:13,990] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:13,990] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:14,005] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:14,005] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:14,005] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:14,005] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:14,005] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:14,005] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:14,005] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:14,008] [INFO] [comm.py:652:init_distributed] cdb=None
[2025-08-05 17:41:14,008] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2025-08-05 17:41:14,485] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-08-05 17:41:14,518] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-08-05 17:41:14,599] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-08-05 17:41:14,605] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
[2025-08-05 17:41:14,607] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-08-05 17:41:14,614] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
[2025-08-05 17:41:14,615] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
[2025-08-05 17:41:14,616] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-08-05 17:41:14,621] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-08-05 17:41:14,657] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
[2025-08-05 17:41:14,659] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
[2025-08-05 17:41:14,661] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
[2025-08-05 17:41:14,663] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
[2025-08-05 17:41:14,663] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
[2025-08-05 17:41:14,664] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-08-05 17:41:14,664] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 16
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s][2025-08-05 17:41:17,305] [INFO] [partition_parameters.py:348:__exit__] finished initializing model - num_params = 825, num_elems = 4.07B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.54s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.57s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.55s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.45s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.35s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.41s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.43s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.40s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.59s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.60s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.58s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.24s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.24s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.47s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.37s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:09<00:09,  9.92s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  7.76s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  7.75s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  7.75s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.71s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  8.03s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  8.02s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  8.02s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.67s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.97s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.70s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.70s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.96s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.93s/it]

Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.95s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.69s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.95s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  7.76s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  7.76s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.71s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.62s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  8.03s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  8.04s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  7.75s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.97s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.62s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.67s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.86s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  8.03s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.86s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.93s/it]
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  7.82s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:16<00:00,  8.13s/it]
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
Vision Module - Attention Blocks:
Trainable Block Indices: None
Non-Trainable Block Indices: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31]
Merger Module Trainable: True
LLM Module - Embed Tokens Trainable: True
LLM Module - Trainable Layer Indices: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
LLM Module - Non-Trainable Layer Indices: None
Rank 0:  [TCSLoader] config_path: ~/petreloss.conf
Rank 0:  --> before Client(conf_path)
Rank 0:  --> after Client(conf_path)
Rank 0:  Loading datasets: /mnt/petrelfs/liuzhaoyang/workspace/GUIAgent/internvl_chat/data/internvl_meta/science/feiben_materials_250805_1.json
Rank 0:  Loading internal_android_planning_cot_20250612
Rank 0:  Skipping internal_android_planning_cot_20250612 due to repeat_time=0
Rank 0:  Loading internal_mac_planning_cot_20250612
Rank 0:  Skipping internal_mac_planning_cot_20250612 due to repeat_time=0
Rank 0:  Loading internal_ubuntu_planning_cot_20250612
Rank 0:  Skipping internal_ubuntu_planning_cot_20250612 due to repeat_time=0
Rank 0:  Loading internal_windows_planning_cot_20250612
Rank 0:  Skipping internal_windows_planning_cot_20250612 due to repeat_time=0
Rank 0:  Loading internal_web_planning_cot_20250612
Rank 0:  Skipping internal_web_planning_cot_20250612 due to repeat_time=0
Rank 0:  Loading internal_ubuntu_planning_cot_boost_action_20250612
Rank 0:  Skipping internal_ubuntu_planning_cot_boost_action_20250612 due to repeat_time=0
Rank 0:  Loading internal_ubuntu_planning_cot_boost_instruction_action_20250612
Rank 0:  Skipping internal_ubuntu_planning_cot_boost_instruction_action_20250612 due to repeat_time=0
Rank 0:  Loading internal_ubuntu_planning_cot_boost_action_20250624
Rank 0:  Skipping internal_ubuntu_planning_cot_boost_action_20250624 due to repeat_time=0
Rank 0:  Loading internal_ubuntu_planning_cot_boost_instruction_action_20250624
Rank 0:  Skipping internal_ubuntu_planning_cot_boost_instruction_action_20250624 due to repeat_time=0
Rank 0:  Loading internal_ubuntu_planning_cot_20250624
Rank 0:  Skipping internal_ubuntu_planning_cot_20250624 due to repeat_time=0
Rank 0:  Loading internal_ubuntu_planning_cot_boost_instruction_20250612
Rank 0:  Loading VC:s3://gui-agent/data_20250612/ubuntu/planning_20250720_boost_instruction.jsonl with random:50% sampling strategy
Rank 0:  Loaded 4182 samples from VC:s3://gui-agent/data_20250612/ubuntu/planning_20250720_boost_instruction.jsonl
Rank 0:  Loading internal_windows_planning_cot_boost_instruction_20250612
Rank 0:  Loading VC:s3://gui-agent/data_20250612/windows/planning_20250720_boost_instruction.jsonl with all sampling strategy
Rank 0:  Loaded 26412 samples from VC:s3://gui-agent/data_20250612/windows/planning_20250720_boost_instruction.jsonl
Rank 0:  Loading internal_ubuntu_planning_cot_boost_instruction_20250624
Rank 0:  Loading VC:s3://gui-agent/data_20250624/ubuntu/planning_20250720_boost_instruction.jsonl with random:50% sampling strategy
Rank 0:  Loaded 7883 samples from VC:s3://gui-agent/data_20250624/ubuntu/planning_20250720_boost_instruction.jsonl
Rank 0:  Loading internal_windows_planning_cot_boost_instruction_20250707
Rank 0:  Loading VC:s3://gui-agent/data_20250707/windows/planning_20250720_boost_instruction.jsonl with all sampling strategy
Rank 0:  Loaded 17796 samples from VC:s3://gui-agent/data_20250707/windows/planning_20250720_boost_instruction.jsonl
Rank 0:  Loading internal_ubuntu_planning_cot_boost_instruction_20250707
Rank 0:  Loading VC:s3://gui-agent/data_20250707/ubuntu/planning_20250720_boost_instruction.jsonl with random:50% sampling strategy
Rank 0:  Loaded 21026 samples from VC:s3://gui-agent/data_20250707/ubuntu/planning_20250720_boost_instruction.jsonl
Rank 0:  Loading internal_windows_planning_cot_boost_instruction_20250714
Rank 0:  Loading VC:s3://gui-agent/data_20250714/windows/planning_20250720_boost_instruction.jsonl with all sampling strategy
Rank 0:  Loaded 44307 samples from VC:s3://gui-agent/data_20250714/windows/planning_20250720_boost_instruction.jsonl
Rank 0:  Loading internal_ubuntu_planning_cot_boost_instruction_20250714
Rank 0:  Loading VC:s3://gui-agent/data_20250714/ubuntu/planning_20250720_boost_instruction.jsonl with random:50% sampling strategy
Rank 0:  Loaded 16767 samples from VC:s3://gui-agent/data_20250714/ubuntu/planning_20250720_boost_instruction.jsonl
Rank 0:  Loading windows_feiben_material_navigation_20250803
Rank 0:  Loading VC:s3://gui-agent/data_20250803/windows/navigation_20250803.jsonl with repeat:2 sampling strategy
Rank 0:  Loaded 5538 samples from VC:s3://gui-agent/data_20250803/windows/navigation_20250803.jsonl
Rank 0:  Loading windows_feiben_material_planning_cot_20250803
Rank 0:  Loading VC:s3://gui-agent/data_20250803/windows/planning_20250803.jsonl with repeat:2 sampling strategy
Rank 0:  Loaded 5538 samples from VC:s3://gui-agent/data_20250803/windows/planning_20250803.jsonl
Rank 0:  Total training samples: 149449
Rank 0:  Formatting inputs...Skip in lazy mode
Detected kernel version 3.10.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
Rank 0:  Length of multimodal samples: 149440, pure textual samples: 0
Parameter Offload: Total persistent parameters: 755712 in 408 params
  0%|          | 0/2335 [00:00<?, ?it/s]/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
  0%|          | 1/2335 [00:39<25:37:01, 39.51s/it]                                                   {'loss': 0.2728, 'grad_norm': 3.495242708432237, 'learning_rate': 0.0, 'epoch': 0.0}
  0%|          | 1/2335 [00:39<25:37:01, 39.51s/it]  0%|          | 2/2335 [00:45<12:48:15, 19.76s/it]                                                   {'loss': 0.3781, 'grad_norm': 4.638281573997755, 'learning_rate': 1.4084507042253522e-07, 'epoch': 0.0}
  0%|          | 2/2335 [00:45<12:48:15, 19.76s/it]  0%|          | 3/2335 [00:50<8:30:20, 13.13s/it]                                                   {'loss': 0.3131, 'grad_norm': 3.118142705183361, 'learning_rate': 2.8169014084507043e-07, 'epoch': 0.0}
  0%|          | 3/2335 [00:50<8:30:20, 13.13s/it]  0%|          | 4/2335 [00:55<6:26:25,  9.95s/it]                                                  {'loss': 0.3603, 'grad_norm': 3.6820776103295643, 'learning_rate': 4.225352112676057e-07, 'epoch': 0.0}
  0%|          | 4/2335 [00:55<6:26:25,  9.95s/it]  0%|          | 5/2335 [01:00<5:19:26,  8.23s/it]                                                  {'loss': 0.3063, 'grad_norm': 2.894448924221148, 'learning_rate': 5.633802816901409e-07, 'epoch': 0.0}
  0%|          | 5/2335 [01:00<5:19:26,  8.23s/it]  0%|          | 6/2335 [01:05<4:37:02,  7.14s/it]                                                  {'loss': 0.3353, 'grad_norm': 3.3561317032799893, 'learning_rate': 7.042253521126762e-07, 'epoch': 0.0}
  0%|          | 6/2335 [01:05<4:37:02,  7.14s/it]  0%|          | 7/2335 [01:11<4:12:47,  6.52s/it]                                                  {'loss': 0.2583, 'grad_norm': 2.4266932045452134, 'learning_rate': 8.450704225352114e-07, 'epoch': 0.0}
  0%|          | 7/2335 [01:11<4:12:47,  6.52s/it]  0%|          | 8/2335 [01:14<3:36:42,  5.59s/it]                                                  {'loss': 0.3509, 'grad_norm': 3.9653214695611068, 'learning_rate': 9.859154929577465e-07, 'epoch': 0.0}
  0%|          | 8/2335 [01:14<3:36:42,  5.59s/it]  0%|          | 9/2335 [01:19<3:31:29,  5.46s/it]                                                  {'loss': 0.3989, 'grad_norm': 4.123396270202061, 'learning_rate': 1.1267605633802817e-06, 'epoch': 0.0}
  0%|          | 9/2335 [01:19<3:31:29,  5.46s/it]  0%|          | 10/2335 [01:25<3:28:07,  5.37s/it]                                                   {'loss': 0.3265, 'grad_norm': 3.140025644289672, 'learning_rate': 1.267605633802817e-06, 'epoch': 0.0}
  0%|          | 10/2335 [01:25<3:28:07,  5.37s/it]  0%|          | 11/2335 [01:29<3:16:34,  5.08s/it]                                                   {'loss': 0.314, 'grad_norm': 3.534612665039247, 'learning_rate': 1.4084507042253523e-06, 'epoch': 0.0}
  0%|          | 11/2335 [01:29<3:16:34,  5.08s/it]  1%|          | 12/2335 [01:33<3:00:15,  4.66s/it]                                                   {'loss': 0.3084, 'grad_norm': 3.444887295621346, 'learning_rate': 1.5492957746478873e-06, 'epoch': 0.01}
  1%|          | 12/2335 [01:33<3:00:15,  4.66s/it]  1%|          | 13/2335 [01:38<3:05:11,  4.79s/it]                                                   {'loss': 0.3059, 'grad_norm': 3.1833799988364793, 'learning_rate': 1.6901408450704227e-06, 'epoch': 0.01}
  1%|          | 13/2335 [01:38<3:05:11,  4.79s/it]  1%|          | 14/2335 [01:41<2:50:54,  4.42s/it]                                                   {'loss': 0.453, 'grad_norm': 4.466831262926489, 'learning_rate': 1.8309859154929579e-06, 'epoch': 0.01}
  1%|          | 14/2335 [01:41<2:50:54,  4.42s/it]  1%|          | 15/2335 [01:46<2:53:05,  4.48s/it]                                                   {'loss': 0.3775, 'grad_norm': 3.96430535422971, 'learning_rate': 1.971830985915493e-06, 'epoch': 0.01}
  1%|          | 15/2335 [01:46<2:53:05,  4.48s/it]  1%|          | 16/2335 [01:50<2:42:54,  4.21s/it]                                                   {'loss': 0.2555, 'grad_norm': 2.4895674459781776, 'learning_rate': 2.1126760563380285e-06, 'epoch': 0.01}
  1%|          | 16/2335 [01:50<2:42:54,  4.21s/it]  1%|          | 17/2335 [01:53<2:35:39,  4.03s/it]                                                   {'loss': 0.3001, 'grad_norm': 2.423590220886769, 'learning_rate': 2.2535211267605635e-06, 'epoch': 0.01}
  1%|          | 17/2335 [01:53<2:35:39,  4.03s/it]  1%|          | 18/2335 [01:58<2:44:00,  4.25s/it]                                                   {'loss': 0.2822, 'grad_norm': 3.110070936920792, 'learning_rate': 2.3943661971830984e-06, 'epoch': 0.01}
  1%|          | 18/2335 [01:58<2:44:00,  4.25s/it]  1%|          | 19/2335 [02:02<2:37:53,  4.09s/it]                                                   {'loss': 0.3627, 'grad_norm': 3.4960215982348926, 'learning_rate': 2.535211267605634e-06, 'epoch': 0.01}
  1%|          | 19/2335 [02:02<2:37:53,  4.09s/it]  1%|          | 20/2335 [02:06<2:46:04,  4.30s/it]                                                   {'loss': 0.3494, 'grad_norm': 2.950148810053227, 'learning_rate': 2.676056338028169e-06, 'epoch': 0.01}
  1%|          | 20/2335 [02:07<2:46:04,  4.30s/it]  1%|          | 21/2335 [02:12<2:59:44,  4.66s/it]                                                   {'loss': 0.2995, 'grad_norm': 2.3744748194512404, 'learning_rate': 2.8169014084507046e-06, 'epoch': 0.01}
  1%|          | 21/2335 [02:12<2:59:44,  4.66s/it]  1%|          | 22/2335 [02:16<2:53:03,  4.49s/it]                                                   {'loss': 0.322, 'grad_norm': 3.0650567768965806, 'learning_rate': 2.9577464788732396e-06, 'epoch': 0.01}
  1%|          | 22/2335 [02:16<2:53:03,  4.49s/it]  1%|          | 23/2335 [02:21<2:59:54,  4.67s/it]                                                   {'loss': 0.3269, 'grad_norm': 3.399592276583163, 'learning_rate': 3.0985915492957746e-06, 'epoch': 0.01}
  1%|          | 23/2335 [02:21<2:59:54,  4.67s/it]  1%|          | 24/2335 [02:25<2:55:06,  4.55s/it]                                                   {'loss': 0.3242, 'grad_norm': 2.9738051574549567, 'learning_rate': 3.2394366197183104e-06, 'epoch': 0.01}
  1%|          | 24/2335 [02:25<2:55:06,  4.55s/it]  1%|          | 25/2335 [02:29<2:48:58,  4.39s/it]                                                   {'loss': 0.3056, 'grad_norm': 2.5469719434746176, 'learning_rate': 3.3802816901408454e-06, 'epoch': 0.01}
  1%|          | 25/2335 [02:29<2:48:58,  4.39s/it]  1%|          | 26/2335 [02:33<2:40:28,  4.17s/it]                                                   {'loss': 0.3138, 'grad_norm': 2.4851474725256124, 'learning_rate': 3.5211267605633804e-06, 'epoch': 0.01}
  1%|          | 26/2335 [02:33<2:40:28,  4.17s/it]  1%|          | 27/2335 [02:37<2:36:56,  4.08s/it]                                                   {'loss': 0.2818, 'grad_norm': 2.5057828562687376, 'learning_rate': 3.6619718309859158e-06, 'epoch': 0.01}
  1%|          | 27/2335 [02:37<2:36:56,  4.08s/it]  1%|          | 28/2335 [02:43<2:54:29,  4.54s/it]                                                   {'loss': 0.3611, 'grad_norm': 2.7844074581050617, 'learning_rate': 3.8028169014084508e-06, 'epoch': 0.01}
  1%|          | 28/2335 [02:43<2:54:29,  4.54s/it]  1%|          | 29/2335 [02:46<2:44:31,  4.28s/it]                                                   {'loss': 0.3489, 'grad_norm': 2.5273775703520727, 'learning_rate': 3.943661971830986e-06, 'epoch': 0.01}
  1%|          | 29/2335 [02:46<2:44:31,  4.28s/it]  1%|▏         | 30/2335 [02:50<2:37:25,  4.10s/it]                                                   {'loss': 0.3159, 'grad_norm': 2.463642532563213, 'learning_rate': 4.0845070422535216e-06, 'epoch': 0.01}
  1%|▏         | 30/2335 [02:50<2:37:25,  4.10s/it]  1%|▏         | 31/2335 [02:54<2:41:54,  4.22s/it]                                                   {'loss': 0.272, 'grad_norm': 2.3284108077952297, 'learning_rate': 4.225352112676057e-06, 'epoch': 0.01}
  1%|▏         | 31/2335 [02:54<2:41:54,  4.22s/it]  1%|▏         | 32/2335 [02:58<2:35:55,  4.06s/it]                                                   {'loss': 0.3084, 'grad_norm': 2.5172747100024204, 'learning_rate': 4.3661971830985915e-06, 'epoch': 0.01}
  1%|▏         | 32/2335 [02:58<2:35:55,  4.06s/it]  1%|▏         | 33/2335 [03:02<2:31:47,  3.96s/it]                                                   {'loss': 0.3594, 'grad_norm': 2.9672207621794024, 'learning_rate': 4.507042253521127e-06, 'epoch': 0.01}
  1%|▏         | 33/2335 [03:02<2:31:47,  3.96s/it]  1%|▏         | 34/2335 [03:06<2:28:37,  3.88s/it]                                                   {'loss': 0.2903, 'grad_norm': 2.5731428168412904, 'learning_rate': 4.647887323943662e-06, 'epoch': 0.01}
  1%|▏         | 34/2335 [03:06<2:28:37,  3.88s/it]  1%|▏         | 35/2335 [03:09<2:26:29,  3.82s/it]                                                   {'loss': 0.2922, 'grad_norm': 2.554497052559098, 'learning_rate': 4.788732394366197e-06, 'epoch': 0.01}
  1%|▏         | 35/2335 [03:09<2:26:29,  3.82s/it]  2%|▏         | 36/2335 [03:14<2:37:48,  4.12s/it]                                                   {'loss': 0.234, 'grad_norm': 2.5984524291910387, 'learning_rate': 4.929577464788733e-06, 'epoch': 0.02}
  2%|▏         | 36/2335 [03:14<2:37:48,  4.12s/it][2025-08-05 17:45:25,869] [WARNING] [stage3.py:2118:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
  2%|▏         | 37/2335 [03:19<2:49:05,  4.41s/it]                                                   {'loss': 0.3357, 'grad_norm': 2.824630111977682, 'learning_rate': 5.070422535211268e-06, 'epoch': 0.02}
  2%|▏         | 37/2335 [03:19<2:49:05,  4.41s/it][2025-08-05 17:45:30,416] [WARNING] [stage3.py:2118:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
  2%|▏         | 38/2335 [03:24<2:50:31,  4.45s/it]                                                   {'loss': 0.3085, 'grad_norm': 2.531379899009298, 'learning_rate': 5.211267605633803e-06, 'epoch': 0.02}
  2%|▏         | 38/2335 [03:24<2:50:31,  4.45s/it]  2%|▏         | 39/2335 [03:27<2:41:52,  4.23s/it]                                                   {'loss': 0.2972, 'grad_norm': 2.563353209339304, 'learning_rate': 5.352112676056338e-06, 'epoch': 0.02}
  2%|▏         | 39/2335 [03:27<2:41:52,  4.23s/it]  2%|▏         | 40/2335 [03:31<2:35:29,  4.07s/it]                                                   {'loss': 0.2698, 'grad_norm': 2.6013610171571253, 'learning_rate': 5.492957746478874e-06, 'epoch': 0.02}
  2%|▏         | 40/2335 [03:31<2:35:29,  4.07s/it]  2%|▏         | 41/2335 [03:35<2:33:11,  4.01s/it]                                                   {'loss': 0.2675, 'grad_norm': 2.52337234419715, 'learning_rate': 5.633802816901409e-06, 'epoch': 0.02}
  2%|▏         | 41/2335 [03:35<2:33:11,  4.01s/it]  2%|▏         | 42/2335 [03:39<2:29:43,  3.92s/it]                                                   {'loss': 0.3093, 'grad_norm': 2.785875388624029, 'learning_rate': 5.774647887323944e-06, 'epoch': 0.02}
  2%|▏         | 42/2335 [03:39<2:29:43,  3.92s/it]  2%|▏         | 43/2335 [03:44<2:42:53,  4.26s/it]                                                   {'loss': 0.3419, 'grad_norm': 2.651604737986769, 'learning_rate': 5.915492957746479e-06, 'epoch': 0.02}
  2%|▏         | 43/2335 [03:44<2:42:53,  4.26s/it]  2%|▏         | 44/2335 [03:47<2:34:58,  4.06s/it]                                                   {'loss': 0.2723, 'grad_norm': 2.787476483700921, 'learning_rate': 6.056338028169015e-06, 'epoch': 0.02}
  2%|▏         | 44/2335 [03:47<2:34:58,  4.06s/it]  2%|▏         | 45/2335 [03:51<2:31:31,  3.97s/it]                                                   {'loss': 0.3583, 'grad_norm': 2.6274139618248444, 'learning_rate': 6.197183098591549e-06, 'epoch': 0.02}
  2%|▏         | 45/2335 [03:51<2:31:31,  3.97s/it]  2%|▏         | 46/2335 [03:56<2:39:11,  4.17s/it]                                                   {'loss': 0.283, 'grad_norm': 2.536029752538332, 'learning_rate': 6.3380281690140855e-06, 'epoch': 0.02}
  2%|▏         | 46/2335 [03:56<2:39:11,  4.17s/it]  2%|▏         | 47/2335 [03:59<2:33:59,  4.04s/it]                                                   {'loss': 0.3009, 'grad_norm': 2.898960378828785, 'learning_rate': 6.478873239436621e-06, 'epoch': 0.02}
  2%|▏         | 47/2335 [03:59<2:33:59,  4.04s/it]  2%|▏         | 48/2335 [04:03<2:28:58,  3.91s/it]                                                   {'loss': 0.3068, 'grad_norm': 2.660476222394167, 'learning_rate': 6.619718309859155e-06, 'epoch': 0.02}
  2%|▏         | 48/2335 [04:03<2:28:58,  3.91s/it]  2%|▏         | 49/2335 [04:07<2:26:44,  3.85s/it]                                                   {'loss': 0.2901, 'grad_norm': 2.5209759175683657, 'learning_rate': 6.760563380281691e-06, 'epoch': 0.02}
  2%|▏         | 49/2335 [04:07<2:26:44,  3.85s/it]  2%|▏         | 50/2335 [04:10<2:24:12,  3.79s/it]                                                   {'loss': 0.3282, 'grad_norm': 2.3025669802270046, 'learning_rate': 6.901408450704225e-06, 'epoch': 0.02}
  2%|▏         | 50/2335 [04:10<2:24:12,  3.79s/it]  2%|▏         | 51/2335 [04:15<2:35:06,  4.07s/it]                                                   {'loss': 0.3336, 'grad_norm': 2.5147025289722387, 'learning_rate': 7.042253521126761e-06, 'epoch': 0.02}
  2%|▏         | 51/2335 [04:15<2:35:06,  4.07s/it]  2%|▏         | 52/2335 [04:19<2:33:00,  4.02s/it]                                                   {'loss': 0.2732, 'grad_norm': 2.3954558765799017, 'learning_rate': 7.183098591549297e-06, 'epoch': 0.02}
  2%|▏         | 52/2335 [04:19<2:33:00,  4.02s/it]  2%|▏         | 53/2335 [04:23<2:29:29,  3.93s/it]                                                   {'loss': 0.2673, 'grad_norm': 2.3632126013139008, 'learning_rate': 7.3239436619718316e-06, 'epoch': 0.02}
  2%|▏         | 53/2335 [04:23<2:29:29,  3.93s/it]  2%|▏         | 54/2335 [04:26<2:27:16,  3.87s/it]                                                   {'loss': 0.3073, 'grad_norm': 2.4807175566792132, 'learning_rate': 7.464788732394367e-06, 'epoch': 0.02}
  2%|▏         | 54/2335 [04:26<2:27:16,  3.87s/it]  2%|▏         | 55/2335 [04:31<2:37:11,  4.14s/it]                                                   {'loss': 0.2642, 'grad_norm': 2.6519539002682597, 'learning_rate': 7.6056338028169015e-06, 'epoch': 0.02}
  2%|▏         | 55/2335 [04:31<2:37:11,  4.14s/it]  2%|▏         | 56/2335 [04:35<2:34:43,  4.07s/it]                                                   {'loss': 0.2853, 'grad_norm': 2.390249402350393, 'learning_rate': 7.746478873239436e-06, 'epoch': 0.02}
  2%|▏         | 56/2335 [04:35<2:34:43,  4.07s/it]  2%|▏         | 57/2335 [04:39<2:32:05,  4.01s/it]                                                   {'loss': 0.2686, 'grad_norm': 2.572703503867353, 'learning_rate': 7.887323943661972e-06, 'epoch': 0.02}
  2%|▏         | 57/2335 [04:39<2:32:05,  4.01s/it]  2%|▏         | 58/2335 [04:43<2:28:17,  3.91s/it]                                                   {'loss': 0.2721, 'grad_norm': 3.063578288025629, 'learning_rate': 8.028169014084509e-06, 'epoch': 0.02}
  2%|▏         | 58/2335 [04:43<2:28:17,  3.91s/it]  3%|▎         | 59/2335 [04:47<2:27:16,  3.88s/it]                                                   {'loss': 0.3007, 'grad_norm': 3.1544047968395765, 'learning_rate': 8.169014084507043e-06, 'epoch': 0.03}
  3%|▎         | 59/2335 [04:47<2:27:16,  3.88s/it]  3%|▎         | 60/2335 [04:52<2:41:12,  4.25s/it]                                                   {'loss': 0.2849, 'grad_norm': 2.9281420429531155, 'learning_rate': 8.309859154929578e-06, 'epoch': 0.03}
  3%|▎         | 60/2335 [04:52<2:41:12,  4.25s/it]  3%|▎         | 61/2335 [04:55<2:33:38,  4.05s/it]                                                   {'loss': 0.2462, 'grad_norm': 2.6132864390090083, 'learning_rate': 8.450704225352114e-06, 'epoch': 0.03}
  3%|▎         | 61/2335 [04:55<2:33:38,  4.05s/it]  3%|▎         | 62/2335 [04:59<2:29:47,  3.95s/it]                                                   {'loss': 0.2858, 'grad_norm': 2.6974996610853172, 'learning_rate': 8.591549295774648e-06, 'epoch': 0.03}
  3%|▎         | 62/2335 [04:59<2:29:47,  3.95s/it]  3%|▎         | 63/2335 [05:04<2:42:48,  4.30s/it]                                                   {'loss': 0.3225, 'grad_norm': 2.804746791259205, 'learning_rate': 8.732394366197183e-06, 'epoch': 0.03}
  3%|▎         | 63/2335 [05:04<2:42:48,  4.30s/it]  3%|▎         | 64/2335 [05:08<2:35:25,  4.11s/it]                                                   {'loss': 0.2615, 'grad_norm': 2.4038882502242966, 'learning_rate': 8.87323943661972e-06, 'epoch': 0.03}
  3%|▎         | 64/2335 [05:08<2:35:25,  4.11s/it]  3%|▎         | 65/2335 [05:11<2:30:05,  3.97s/it]                                                   {'loss': 0.2581, 'grad_norm': 2.52960086041787, 'learning_rate': 9.014084507042254e-06, 'epoch': 0.03}
  3%|▎         | 65/2335 [05:11<2:30:05,  3.97s/it]  3%|▎         | 66/2335 [05:15<2:27:45,  3.91s/it]                                                   {'loss': 0.2805, 'grad_norm': 2.5114902160148387, 'learning_rate': 9.15492957746479e-06, 'epoch': 0.03}
  3%|▎         | 66/2335 [05:15<2:27:45,  3.91s/it]  3%|▎         | 67/2335 [05:19<2:31:33,  4.01s/it]                                                   {'loss': 0.2521, 'grad_norm': 2.507320477920401, 'learning_rate': 9.295774647887325e-06, 'epoch': 0.03}
  3%|▎         | 67/2335 [05:19<2:31:33,  4.01s/it]  3%|▎         | 68/2335 [05:25<2:45:31,  4.38s/it]                                                   {'loss': 0.3132, 'grad_norm': 2.77673977600708, 'learning_rate': 9.43661971830986e-06, 'epoch': 0.03}
  3%|▎         | 68/2335 [05:25<2:45:31,  4.38s/it]  3%|▎         | 69/2335 [05:28<2:38:34,  4.20s/it]                                                   {'loss': 0.3084, 'grad_norm': 2.9256652374769425, 'learning_rate': 9.577464788732394e-06, 'epoch': 0.03}
  3%|▎         | 69/2335 [05:28<2:38:34,  4.20s/it]  3%|▎         | 70/2335 [05:32<2:32:48,  4.05s/it]                                                   {'loss': 0.2778, 'grad_norm': 2.7870377223756924, 'learning_rate': 9.71830985915493e-06, 'epoch': 0.03}
  3%|▎         | 70/2335 [05:32<2:32:48,  4.05s/it]  3%|▎         | 71/2335 [05:36<2:29:12,  3.95s/it]                                                   {'loss': 0.3245, 'grad_norm': 2.685304120783897, 'learning_rate': 9.859154929577466e-06, 'epoch': 0.03}
  3%|▎         | 71/2335 [05:36<2:29:12,  3.95s/it]  3%|▎         | 72/2335 [05:40<2:27:12,  3.90s/it]                                                   {'loss': 0.2907, 'grad_norm': 2.65142039610452, 'learning_rate': 1e-05, 'epoch': 0.03}
  3%|▎         | 72/2335 [05:40<2:27:12,  3.90s/it]  3%|▎         | 73/2335 [05:45<2:42:05,  4.30s/it]                                                   {'loss': 0.2325, 'grad_norm': 2.56815609074316, 'learning_rate': 9.999995186213338e-06, 'epoch': 0.03}
  3%|▎         | 73/2335 [05:45<2:42:05,  4.30s/it]  3%|▎         | 74/2335 [05:49<2:36:43,  4.16s/it]                                                   {'loss': 0.3202, 'grad_norm': 2.582387908897847, 'learning_rate': 9.999980744862618e-06, 'epoch': 0.03}
  3%|▎         | 74/2335 [05:49<2:36:43,  4.16s/it]  3%|▎         | 75/2335 [05:52<2:31:45,  4.03s/it]                                                   {'loss': 0.302, 'grad_norm': 2.7392147586895494, 'learning_rate': 9.999956675975649e-06, 'epoch': 0.03}
  3%|▎         | 75/2335 [05:52<2:31:45,  4.03s/it]  3%|▎         | 76/2335 [05:56<2:26:52,  3.90s/it]                                                   {'loss': 0.297, 'grad_norm': 2.463388689648983, 'learning_rate': 9.999922979598773e-06, 'epoch': 0.03}
  3%|▎         | 76/2335 [05:56<2:26:52,  3.90s/it]  3%|▎         | 77/2335 [06:00<2:23:31,  3.81s/it]                                                   {'loss': 0.2531, 'grad_norm': 2.547650039009328, 'learning_rate': 9.999879655796875e-06, 'epoch': 0.03}
  3%|▎         | 77/2335 [06:00<2:23:31,  3.81s/it]  3%|▎         | 78/2335 [06:04<2:33:31,  4.08s/it]                                                   {'loss': 0.3427, 'grad_norm': 2.5858498276101365, 'learning_rate': 9.999826704653376e-06, 'epoch': 0.03}
  3%|▎         | 78/2335 [06:04<2:33:31,  4.08s/it]  3%|▎         | 79/2335 [06:08<2:28:20,  3.95s/it]                                                   {'loss': 0.2469, 'grad_norm': 2.6176961257699887, 'learning_rate': 9.999764126270236e-06, 'epoch': 0.03}
  3%|▎         | 79/2335 [06:08<2:28:20,  3.95s/it]  3%|▎         | 80/2335 [06:12<2:26:53,  3.91s/it]                                                   {'loss': 0.3085, 'grad_norm': 2.8235409226471657, 'learning_rate': 9.999691920767945e-06, 'epoch': 0.03}
  3%|▎         | 80/2335 [06:12<2:26:53,  3.91s/it]  3%|▎         | 81/2335 [06:15<2:23:41,  3.83s/it]                                                   {'loss': 0.303, 'grad_norm': 3.0153344013831376, 'learning_rate': 9.99961008828554e-06, 'epoch': 0.03}
  3%|▎         | 81/2335 [06:15<2:23:41,  3.83s/it]  4%|▎         | 82/2335 [06:19<2:23:10,  3.81s/it]                                                   {'loss': 0.3267, 'grad_norm': 2.6356963497037684, 'learning_rate': 9.999518628980589e-06, 'epoch': 0.04}
  4%|▎         | 82/2335 [06:19<2:23:10,  3.81s/it]  4%|▎         | 83/2335 [06:23<2:21:53,  3.78s/it]                                                   {'loss': 0.2762, 'grad_norm': 2.397496738916966, 'learning_rate': 9.9994175430292e-06, 'epoch': 0.04}
  4%|▎         | 83/2335 [06:23<2:21:53,  3.78s/it]  4%|▎         | 84/2335 [06:27<2:21:22,  3.77s/it]                                                   {'loss': 0.2984, 'grad_norm': 2.4575959074374305, 'learning_rate': 9.999306830626015e-06, 'epoch': 0.04}
  4%|▎         | 84/2335 [06:27<2:21:22,  3.77s/it]  4%|▎         | 85/2335 [06:30<2:21:51,  3.78s/it]                                                   {'loss': 0.3057, 'grad_norm': 2.5400525559089155, 'learning_rate': 9.99918649198421e-06, 'epoch': 0.04}
  4%|▎         | 85/2335 [06:30<2:21:51,  3.78s/it]  4%|▎         | 86/2335 [06:34<2:20:33,  3.75s/it]                                                   {'loss': 0.3118, 'grad_norm': 3.0998548248226627, 'learning_rate': 9.999056527335503e-06, 'epoch': 0.04}
  4%|▎         | 86/2335 [06:34<2:20:33,  3.75s/it]  4%|▎         | 87/2335 [06:38<2:20:45,  3.76s/it]                                                   {'loss': 0.3079, 'grad_norm': 2.671795826900986, 'learning_rate': 9.998916936930137e-06, 'epoch': 0.04}
  4%|▎         | 87/2335 [06:38<2:20:45,  3.76s/it]  4%|▍         | 88/2335 [06:42<2:19:49,  3.73s/it]                                                   {'loss': 0.2553, 'grad_norm': 2.599469504248622, 'learning_rate': 9.998767721036901e-06, 'epoch': 0.04}
  4%|▍         | 88/2335 [06:42<2:19:49,  3.73s/it]  4%|▍         | 89/2335 [06:45<2:20:15,  3.75s/it]                                                   {'loss': 0.292, 'grad_norm': 2.831204743711164, 'learning_rate': 9.998608879943111e-06, 'epoch': 0.04}
  4%|▍         | 89/2335 [06:45<2:20:15,  3.75s/it]  4%|▍         | 90/2335 [06:49<2:20:09,  3.75s/it]                                                   {'loss': 0.3234, 'grad_norm': 2.936752646142617, 'learning_rate': 9.998440413954615e-06, 'epoch': 0.04}
  4%|▍         | 90/2335 [06:49<2:20:09,  3.75s/it]  4%|▍         | 91/2335 [06:53<2:18:58,  3.72s/it]                                                   {'loss': 0.3007, 'grad_norm': 2.903048427939846, 'learning_rate': 9.9982623233958e-06, 'epoch': 0.04}
  4%|▍         | 91/2335 [06:53<2:18:58,  3.72s/it]  4%|▍         | 92/2335 [06:56<2:17:47,  3.69s/it]                                                   {'loss': 0.2576, 'grad_norm': 2.88116483711928, 'learning_rate': 9.998074608609579e-06, 'epoch': 0.04}
  4%|▍         | 92/2335 [06:56<2:17:47,  3.69s/it]  4%|▍         | 93/2335 [07:00<2:18:21,  3.70s/it]                                                   {'loss': 0.331, 'grad_norm': 2.8630144336084915, 'learning_rate': 9.997877269957403e-06, 'epoch': 0.04}
  4%|▍         | 93/2335 [07:00<2:18:21,  3.70s/it]  4%|▍         | 94/2335 [07:04<2:18:15,  3.70s/it]                                                   {'loss': 0.3377, 'grad_norm': 3.131681690486848, 'learning_rate': 9.997670307819248e-06, 'epoch': 0.04}
  4%|▍         | 94/2335 [07:04<2:18:15,  3.70s/it]  4%|▍         | 95/2335 [07:08<2:18:44,  3.72s/it]                                                   {'loss': 0.288, 'grad_norm': 2.835449539444292, 'learning_rate': 9.997453722593624e-06, 'epoch': 0.04}
  4%|▍         | 95/2335 [07:08<2:18:44,  3.72s/it]  4%|▍         | 96/2335 [07:11<2:17:21,  3.68s/it]                                                   {'loss': 0.2706, 'grad_norm': 2.5837546123376534, 'learning_rate': 9.997227514697568e-06, 'epoch': 0.04}
  4%|▍         | 96/2335 [07:11<2:17:21,  3.68s/it]  4%|▍         | 97/2335 [07:15<2:16:52,  3.67s/it]                                                   {'loss': 0.299, 'grad_norm': 2.5788156481483377, 'learning_rate': 9.996991684566647e-06, 'epoch': 0.04}
  4%|▍         | 97/2335 [07:15<2:16:52,  3.67s/it]  4%|▍         | 98/2335 [07:19<2:18:31,  3.72s/it]                                                   {'loss': 0.2947, 'grad_norm': 2.6630165854589087, 'learning_rate': 9.996746232654956e-06, 'epoch': 0.04}
  4%|▍         | 98/2335 [07:19<2:18:31,  3.72s/it]  4%|▍         | 99/2335 [07:22<2:17:18,  3.68s/it]                                                   {'loss': 0.2987, 'grad_norm': 2.6486003547853456, 'learning_rate': 9.996491159435116e-06, 'epoch': 0.04}
  4%|▍         | 99/2335 [07:22<2:17:18,  3.68s/it]  4%|▍         | 100/2335 [07:26<2:16:43,  3.67s/it]                                                    {'loss': 0.283, 'grad_norm': 2.6416320151587276, 'learning_rate': 9.996226465398272e-06, 'epoch': 0.04}
  4%|▍         | 100/2335 [07:26<2:16:43,  3.67s/it]  4%|▍         | 101/2335 [07:30<2:16:32,  3.67s/it]                                                    {'loss': 0.3246, 'grad_norm': 2.778054306345007, 'learning_rate': 9.9959521510541e-06, 'epoch': 0.04}
  4%|▍         | 101/2335 [07:30<2:16:32,  3.67s/it]  4%|▍         | 102/2335 [07:33<2:16:02,  3.66s/it]                                                    {'loss': 0.2645, 'grad_norm': 2.7821403878643847, 'learning_rate': 9.995668216930793e-06, 'epoch': 0.04}
  4%|▍         | 102/2335 [07:33<2:16:02,  3.66s/it]  4%|▍         | 103/2335 [07:37<2:16:20,  3.67s/it]                                                    {'loss': 0.3328, 'grad_norm': 2.8213158217028127, 'learning_rate': 9.995374663575072e-06, 'epoch': 0.04}
  4%|▍         | 103/2335 [07:37<2:16:20,  3.67s/it]  4%|▍         | 104/2335 [07:41<2:17:31,  3.70s/it]                                                    {'loss': 0.3522, 'grad_norm': 3.0483388203823667, 'learning_rate': 9.99507149155218e-06, 'epoch': 0.04}
  4%|▍         | 104/2335 [07:41<2:17:31,  3.70s/it]  4%|▍         | 105/2335 [07:44<2:18:35,  3.73s/it]                                                    {'loss': 0.3332, 'grad_norm': 2.527122131156574, 'learning_rate': 9.994758701445876e-06, 'epoch': 0.04}
  4%|▍         | 105/2335 [07:44<2:18:35,  3.73s/it]  5%|▍         | 106/2335 [07:48<2:17:50,  3.71s/it]                                                    {'loss': 0.2746, 'grad_norm': 2.466828860948755, 'learning_rate': 9.994436293858442e-06, 'epoch': 0.05}
  5%|▍         | 106/2335 [07:48<2:17:50,  3.71s/it]  5%|▍         | 107/2335 [07:52<2:18:59,  3.74s/it]                                                    {'loss': 0.3209, 'grad_norm': 2.727781956348546, 'learning_rate': 9.994104269410681e-06, 'epoch': 0.05}
  5%|▍         | 107/2335 [07:52<2:18:59,  3.74s/it]  5%|▍         | 108/2335 [07:56<2:18:14,  3.72s/it]                                                    {'loss': 0.2843, 'grad_norm': 2.595558515850621, 'learning_rate': 9.99376262874191e-06, 'epoch': 0.05}
  5%|▍         | 108/2335 [07:56<2:18:14,  3.72s/it]  5%|▍         | 109/2335 [07:59<2:18:06,  3.72s/it]                                                    {'loss': 0.2723, 'grad_norm': 2.757588379550716, 'learning_rate': 9.993411372509962e-06, 'epoch': 0.05}
  5%|▍         | 109/2335 [07:59<2:18:06,  3.72s/it]  5%|▍         | 110/2335 [08:03<2:17:49,  3.72s/it]                                                    {'loss': 0.2675, 'grad_norm': 2.7998523382468092, 'learning_rate': 9.993050501391188e-06, 'epoch': 0.05}
  5%|▍         | 110/2335 [08:03<2:17:49,  3.72s/it]  5%|▍         | 111/2335 [08:07<2:17:50,  3.72s/it]                                                    {'loss': 0.3125, 'grad_norm': 2.8334539157618552, 'learning_rate': 9.992680016080447e-06, 'epoch': 0.05}
  5%|▍         | 111/2335 [08:07<2:17:50,  3.72s/it]  5%|▍         | 112/2335 [08:11<2:18:51,  3.75s/it]                                                    {'loss': 0.3242, 'grad_norm': 2.9416461161665035, 'learning_rate': 9.992299917291118e-06, 'epoch': 0.05}
  5%|▍         | 112/2335 [08:11<2:18:51,  3.75s/it]  5%|▍         | 113/2335 [08:14<2:18:03,  3.73s/it]                                                    {'loss': 0.3324, 'grad_norm': 2.9292714992763975, 'learning_rate': 9.991910205755085e-06, 'epoch': 0.05}
  5%|▍         | 113/2335 [08:14<2:18:03,  3.73s/it]  5%|▍         | 114/2335 [08:18<2:17:46,  3.72s/it]                                                    {'loss': 0.2987, 'grad_norm': 2.5131683522611747, 'learning_rate': 9.991510882222743e-06, 'epoch': 0.05}
  5%|▍         | 114/2335 [08:18<2:17:46,  3.72s/it]  5%|▍         | 115/2335 [08:22<2:23:20,  3.87s/it]                                                    {'loss': 0.3082, 'grad_norm': 2.4823253578665243, 'learning_rate': 9.991101947462995e-06, 'epoch': 0.05}
  5%|▍         | 115/2335 [08:22<2:23:20,  3.87s/it]  5%|▍         | 116/2335 [08:26<2:20:39,  3.80s/it]                                                    {'loss': 0.2935, 'grad_norm': 2.4943234816260595, 'learning_rate': 9.990683402263254e-06, 'epoch': 0.05}
  5%|▍         | 116/2335 [08:26<2:20:39,  3.80s/it]  5%|▌         | 117/2335 [08:30<2:20:00,  3.79s/it]                                                    {'loss': 0.2793, 'grad_norm': 2.8921221227900444, 'learning_rate': 9.99025524742943e-06, 'epoch': 0.05}
  5%|▌         | 117/2335 [08:30<2:20:00,  3.79s/it]  5%|▌         | 118/2335 [08:33<2:19:44,  3.78s/it]                                                    {'loss': 0.2807, 'grad_norm': 2.6514077783611154, 'learning_rate': 9.989817483785946e-06, 'epoch': 0.05}
  5%|▌         | 118/2335 [08:33<2:19:44,  3.78s/it]  5%|▌         | 119/2335 [08:37<2:19:13,  3.77s/it]                                                    {'loss': 0.3557, 'grad_norm': 2.6384669972627792, 'learning_rate': 9.989370112175718e-06, 'epoch': 0.05}
  5%|▌         | 119/2335 [08:37<2:19:13,  3.77s/it]  5%|▌         | 120/2335 [08:41<2:18:06,  3.74s/it]                                                    {'loss': 0.2862, 'grad_norm': 2.864209650805259, 'learning_rate': 9.98891313346017e-06, 'epoch': 0.05}
  5%|▌         | 120/2335 [08:41<2:18:06,  3.74s/it]  5%|▌         | 121/2335 [08:45<2:20:07,  3.80s/it]                                                    {'loss': 0.2275, 'grad_norm': 3.00295414993546, 'learning_rate': 9.988446548519221e-06, 'epoch': 0.05}
  5%|▌         | 121/2335 [08:45<2:20:07,  3.80s/it]  5%|▌         | 122/2335 [08:48<2:18:49,  3.76s/it]                                                    {'loss': 0.3188, 'grad_norm': 2.9117366905319515, 'learning_rate': 9.987970358251285e-06, 'epoch': 0.05}
  5%|▌         | 122/2335 [08:48<2:18:49,  3.76s/it]  5%|▌         | 123/2335 [08:52<2:18:46,  3.76s/it]                                                    {'loss': 0.2733, 'grad_norm': 2.7958944449380128, 'learning_rate': 9.987484563573275e-06, 'epoch': 0.05}
  5%|▌         | 123/2335 [08:52<2:18:46,  3.76s/it]  5%|▌         | 124/2335 [08:56<2:17:55,  3.74s/it]                                                    {'loss': 0.3177, 'grad_norm': 2.7542944222854335, 'learning_rate': 9.986989165420596e-06, 'epoch': 0.05}
  5%|▌         | 124/2335 [08:56<2:17:55,  3.74s/it]  5%|▌         | 125/2335 [09:00<2:17:36,  3.74s/it]                                                    {'loss': 0.3159, 'grad_norm': 2.7841279839250133, 'learning_rate': 9.986484164747142e-06, 'epoch': 0.05}
  5%|▌         | 125/2335 [09:00<2:17:36,  3.74s/it]  5%|▌         | 126/2335 [09:03<2:17:44,  3.74s/it]                                                    {'loss': 0.2983, 'grad_norm': 2.5874697095588792, 'learning_rate': 9.985969562525301e-06, 'epoch': 0.05}
  5%|▌         | 126/2335 [09:03<2:17:44,  3.74s/it]  5%|▌         | 127/2335 [09:07<2:17:07,  3.73s/it]                                                    {'loss': 0.2797, 'grad_norm': 2.7567891031171845, 'learning_rate': 9.985445359745949e-06, 'epoch': 0.05}
  5%|▌         | 127/2335 [09:07<2:17:07,  3.73s/it]  5%|▌         | 128/2335 [09:11<2:17:17,  3.73s/it]                                                    {'loss': 0.2981, 'grad_norm': 2.586310626210313, 'learning_rate': 9.984911557418444e-06, 'epoch': 0.05}
  5%|▌         | 128/2335 [09:11<2:17:17,  3.73s/it]  6%|▌         | 129/2335 [09:14<2:16:40,  3.72s/it]                                                    {'loss': 0.314, 'grad_norm': 2.760318818159857, 'learning_rate': 9.984368156570628e-06, 'epoch': 0.06}
  6%|▌         | 129/2335 [09:14<2:16:40,  3.72s/it]  6%|▌         | 130/2335 [09:18<2:15:57,  3.70s/it]                                                    {'loss': 0.3392, 'grad_norm': 3.0933762751026115, 'learning_rate': 9.983815158248831e-06, 'epoch': 0.06}
  6%|▌         | 130/2335 [09:18<2:15:57,  3.70s/it]  6%|▌         | 131/2335 [09:22<2:16:09,  3.71s/it]                                                    {'loss': 0.3173, 'grad_norm': 2.6974605045732347, 'learning_rate': 9.98325256351786e-06, 'epoch': 0.06}
  6%|▌         | 131/2335 [09:22<2:16:09,  3.71s/it]  6%|▌         | 132/2335 [09:25<2:16:03,  3.71s/it]                                                    {'loss': 0.291, 'grad_norm': 2.805516469943714, 'learning_rate': 9.982680373460996e-06, 'epoch': 0.06}
  6%|▌         | 132/2335 [09:25<2:16:03,  3.71s/it]  6%|▌         | 133/2335 [09:29<2:16:05,  3.71s/it]                                                    {'loss': 0.2931, 'grad_norm': 2.6362195118615754, 'learning_rate': 9.98209858918e-06, 'epoch': 0.06}
  6%|▌         | 133/2335 [09:29<2:16:05,  3.71s/it]  6%|▌         | 134/2335 [09:33<2:16:41,  3.73s/it]                                                    {'loss': 0.3161, 'grad_norm': 2.565658407724938, 'learning_rate': 9.981507211795107e-06, 'epoch': 0.06}
  6%|▌         | 134/2335 [09:33<2:16:41,  3.73s/it]  6%|▌         | 135/2335 [09:37<2:16:15,  3.72s/it]                                                    {'loss': 0.278, 'grad_norm': 2.6715205250201137, 'learning_rate': 9.980906242445023e-06, 'epoch': 0.06}
  6%|▌         | 135/2335 [09:37<2:16:15,  3.72s/it]  6%|▌         | 136/2335 [09:40<2:17:29,  3.75s/it]                                                    {'loss': 0.3209, 'grad_norm': 2.857539534894141, 'learning_rate': 9.980295682286924e-06, 'epoch': 0.06}
  6%|▌         | 136/2335 [09:40<2:17:29,  3.75s/it]  6%|▌         | 137/2335 [09:44<2:16:46,  3.73s/it]                                                    {'loss': 0.2968, 'grad_norm': 2.571594821233033, 'learning_rate': 9.979675532496451e-06, 'epoch': 0.06}
  6%|▌         | 137/2335 [09:44<2:16:46,  3.73s/it]  6%|▌         | 138/2335 [09:48<2:17:01,  3.74s/it]                                                    {'loss': 0.2711, 'grad_norm': 2.6230413271803945, 'learning_rate': 9.979045794267713e-06, 'epoch': 0.06}
  6%|▌         | 138/2335 [09:48<2:17:01,  3.74s/it]  6%|▌         | 139/2335 [09:52<2:16:57,  3.74s/it]                                                    {'loss': 0.3357, 'grad_norm': 2.8614540712851846, 'learning_rate': 9.97840646881328e-06, 'epoch': 0.06}
  6%|▌         | 139/2335 [09:52<2:16:57,  3.74s/it]  6%|▌         | 140/2335 [09:55<2:16:36,  3.73s/it]                                                    {'loss': 0.3708, 'grad_norm': 2.8766883948853392, 'learning_rate': 9.97775755736418e-06, 'epoch': 0.06}
  6%|▌         | 140/2335 [09:55<2:16:36,  3.73s/it]  6%|▌         | 141/2335 [09:59<2:16:34,  3.74s/it]                                                    {'loss': 0.2857, 'grad_norm': 2.672057589648402, 'learning_rate': 9.977099061169904e-06, 'epoch': 0.06}
  6%|▌         | 141/2335 [09:59<2:16:34,  3.74s/it]  6%|▌         | 142/2335 [10:03<2:17:07,  3.75s/it]                                                    {'loss': 0.3034, 'grad_norm': 2.8690728186866874, 'learning_rate': 9.976430981498395e-06, 'epoch': 0.06}
  6%|▌         | 142/2335 [10:03<2:17:07,  3.75s/it]  6%|▌         | 143/2335 [10:08<2:33:20,  4.20s/it]                                                    {'loss': 0.3154, 'grad_norm': 2.617117388595669, 'learning_rate': 9.975753319636053e-06, 'epoch': 0.06}
  6%|▌         | 143/2335 [10:08<2:33:20,  4.20s/it]  6%|▌         | 144/2335 [10:12<2:27:47,  4.05s/it]                                                    {'loss': 0.2935, 'grad_norm': 2.6492627325613154, 'learning_rate': 9.97506607688772e-06, 'epoch': 0.06}
  6%|▌         | 144/2335 [10:12<2:27:47,  4.05s/it]  6%|▌         | 145/2335 [10:15<2:23:11,  3.92s/it]                                                    {'loss': 0.3034, 'grad_norm': 2.771205938907388, 'learning_rate': 9.974369254576698e-06, 'epoch': 0.06}
  6%|▌         | 145/2335 [10:15<2:23:11,  3.92s/it]  6%|▋         | 146/2335 [10:21<2:37:15,  4.31s/it]                                                    {'loss': 0.2899, 'grad_norm': 2.759921713678794, 'learning_rate': 9.973662854044725e-06, 'epoch': 0.06}
  6%|▋         | 146/2335 [10:21<2:37:15,  4.31s/it]  6%|▋         | 147/2335 [10:24<2:31:39,  4.16s/it]                                                    {'loss': 0.3077, 'grad_norm': 2.7717107874726516, 'learning_rate': 9.972946876651988e-06, 'epoch': 0.06}
  6%|▋         | 147/2335 [10:25<2:31:39,  4.16s/it]  6%|▋         | 148/2335 [10:28<2:25:26,  3.99s/it]                                                    {'loss': 0.3336, 'grad_norm': 2.771872133004264, 'learning_rate': 9.97222132377711e-06, 'epoch': 0.06}
  6%|▋         | 148/2335 [10:28<2:25:26,  3.99s/it]  6%|▋         | 149/2335 [10:32<2:21:45,  3.89s/it]                                                    {'loss': 0.3253, 'grad_norm': 2.82474695509753, 'learning_rate': 9.971486196817154e-06, 'epoch': 0.06}
  6%|▋         | 149/2335 [10:32<2:21:45,  3.89s/it]  6%|▋         | 150/2335 [10:35<2:18:40,  3.81s/it]                                                    {'loss': 0.3034, 'grad_norm': 2.690629440560037, 'learning_rate': 9.97074149718762e-06, 'epoch': 0.06}
  6%|▋         | 150/2335 [10:35<2:18:40,  3.81s/it]  6%|▋         | 151/2335 [10:39<2:18:26,  3.80s/it]                                                    {'loss': 0.29, 'grad_norm': 2.642910577267685, 'learning_rate': 9.969987226322435e-06, 'epoch': 0.06}
  6%|▋         | 151/2335 [10:39<2:18:26,  3.80s/it]  7%|▋         | 152/2335 [10:43<2:17:15,  3.77s/it]                                                    {'loss': 0.3398, 'grad_norm': 2.61995478899865, 'learning_rate': 9.969223385673958e-06, 'epoch': 0.07}
  7%|▋         | 152/2335 [10:43<2:17:15,  3.77s/it]  7%|▋         | 153/2335 [10:47<2:18:10,  3.80s/it]                                                    {'loss': 0.3405, 'grad_norm': 2.9137313981088173, 'learning_rate': 9.96844997671298e-06, 'epoch': 0.07}
  7%|▋         | 153/2335 [10:47<2:18:10,  3.80s/it]  7%|▋         | 154/2335 [10:50<2:16:26,  3.75s/it]                                                    {'loss': 0.3112, 'grad_norm': 2.801308571978124, 'learning_rate': 9.967667000928706e-06, 'epoch': 0.07}
  7%|▋         | 154/2335 [10:50<2:16:26,  3.75s/it]  7%|▋         | 155/2335 [10:54<2:15:56,  3.74s/it]                                                    {'loss': 0.3056, 'grad_norm': 3.1288431419069744, 'learning_rate': 9.966874459828773e-06, 'epoch': 0.07}
  7%|▋         | 155/2335 [10:54<2:15:56,  3.74s/it]  7%|▋         | 156/2335 [10:58<2:16:59,  3.77s/it]                                                    {'loss': 0.3055, 'grad_norm': 2.669342453677056, 'learning_rate': 9.966072354939225e-06, 'epoch': 0.07}
  7%|▋         | 156/2335 [10:58<2:16:59,  3.77s/it]  7%|▋         | 157/2335 [11:02<2:16:40,  3.77s/it]                                                    {'loss': 0.2942, 'grad_norm': 2.6343102718061013, 'learning_rate': 9.96526068780453e-06, 'epoch': 0.07}
  7%|▋         | 157/2335 [11:02<2:16:40,  3.77s/it]  7%|▋         | 158/2335 [11:05<2:15:59,  3.75s/it]                                                    {'loss': 0.3057, 'grad_norm': 2.5729404184167266, 'learning_rate': 9.964439459987563e-06, 'epoch': 0.07}
  7%|▋         | 158/2335 [11:05<2:15:59,  3.75s/it]  7%|▋         | 159/2335 [11:09<2:15:12,  3.73s/it]                                                    {'loss': 0.3679, 'grad_norm': 2.669747730306156, 'learning_rate': 9.963608673069611e-06, 'epoch': 0.07}
  7%|▋         | 159/2335 [11:09<2:15:12,  3.73s/it]  7%|▋         | 160/2335 [11:13<2:14:33,  3.71s/it]                                                    {'loss': 0.2991, 'grad_norm': 2.7023141423947408, 'learning_rate': 9.962768328650367e-06, 'epoch': 0.07}
  7%|▋         | 160/2335 [11:13<2:14:33,  3.71s/it]  7%|▋         | 161/2335 [11:16<2:13:24,  3.68s/it]                                                    {'loss': 0.2687, 'grad_norm': 2.6820360180602534, 'learning_rate': 9.961918428347927e-06, 'epoch': 0.07}
  7%|▋         | 161/2335 [11:16<2:13:24,  3.68s/it]  7%|▋         | 162/2335 [11:20<2:13:58,  3.70s/it]                                                    {'loss': 0.288, 'grad_norm': 2.624811770753171, 'learning_rate': 9.961058973798785e-06, 'epoch': 0.07}
  7%|▋         | 162/2335 [11:20<2:13:58,  3.70s/it]  7%|▋         | 163/2335 [11:24<2:13:45,  3.69s/it]                                                    {'loss': 0.3177, 'grad_norm': 3.016328861012562, 'learning_rate': 9.960189966657833e-06, 'epoch': 0.07}
  7%|▋         | 163/2335 [11:24<2:13:45,  3.69s/it]  7%|▋         | 164/2335 [11:27<2:13:06,  3.68s/it]                                                    {'loss': 0.3075, 'grad_norm': 2.9053647957406623, 'learning_rate': 9.95931140859836e-06, 'epoch': 0.07}
  7%|▋         | 164/2335 [11:27<2:13:06,  3.68s/it]  7%|▋         | 165/2335 [11:32<2:25:28,  4.02s/it]                                                    {'loss': 0.3422, 'grad_norm': 3.1261317157932953, 'learning_rate': 9.95842330131204e-06, 'epoch': 0.07}
  7%|▋         | 165/2335 [11:32<2:25:28,  4.02s/it]  7%|▋         | 166/2335 [11:36<2:22:32,  3.94s/it]                                                    {'loss': 0.3327, 'grad_norm': 2.7560447849547676, 'learning_rate': 9.957525646508936e-06, 'epoch': 0.07}
  7%|▋         | 166/2335 [11:36<2:22:32,  3.94s/it]  7%|▋         | 167/2335 [11:40<2:20:55,  3.90s/it]                                                    {'loss': 0.3411, 'grad_norm': 2.8677939427715087, 'learning_rate': 9.956618445917496e-06, 'epoch': 0.07}
  7%|▋         | 167/2335 [11:40<2:20:55,  3.90s/it]  7%|▋         | 168/2335 [11:43<2:18:04,  3.82s/it]                                                    {'loss': 0.3119, 'grad_norm': 2.95920530791143, 'learning_rate': 9.95570170128455e-06, 'epoch': 0.07}
  7%|▋         | 168/2335 [11:43<2:18:04,  3.82s/it]  7%|▋         | 169/2335 [11:47<2:17:29,  3.81s/it]                                                    {'loss': 0.3415, 'grad_norm': 2.7486355000526705, 'learning_rate': 9.954775414375302e-06, 'epoch': 0.07}
  7%|▋         | 169/2335 [11:47<2:17:29,  3.81s/it]  7%|▋         | 170/2335 [11:51<2:15:51,  3.77s/it]                                                    {'loss': 0.3309, 'grad_norm': 2.846490857304893, 'learning_rate': 9.95383958697333e-06, 'epoch': 0.07}
  7%|▋         | 170/2335 [11:51<2:15:51,  3.77s/it]  7%|▋         | 171/2335 [11:55<2:14:34,  3.73s/it]                                                    {'loss': 0.2939, 'grad_norm': 2.655854977079735, 'learning_rate': 9.952894220880583e-06, 'epoch': 0.07}
  7%|▋         | 171/2335 [11:55<2:14:34,  3.73s/it]  7%|▋         | 172/2335 [11:58<2:15:03,  3.75s/it]                                                    {'loss': 0.2983, 'grad_norm': 2.561129996280741, 'learning_rate': 9.951939317917381e-06, 'epoch': 0.07}
  7%|▋         | 172/2335 [11:58<2:15:03,  3.75s/it]  7%|▋         | 173/2335 [12:02<2:14:53,  3.74s/it]                                                    {'loss': 0.3321, 'grad_norm': 2.823340571591925, 'learning_rate': 9.950974879922399e-06, 'epoch': 0.07}
  7%|▋         | 173/2335 [12:02<2:14:53,  3.74s/it]  7%|▋         | 174/2335 [12:06<2:15:22,  3.76s/it]                                                    {'loss': 0.3556, 'grad_norm': 2.7056642741627703, 'learning_rate': 9.95000090875268e-06, 'epoch': 0.07}
  7%|▋         | 174/2335 [12:06<2:15:22,  3.76s/it]  7%|▋         | 175/2335 [12:10<2:14:29,  3.74s/it]                                                    {'loss': 0.3336, 'grad_norm': 2.9465018093436073, 'learning_rate': 9.949017406283616e-06, 'epoch': 0.07}
  7%|▋         | 175/2335 [12:10<2:14:29,  3.74s/it]  8%|▊         | 176/2335 [12:13<2:14:33,  3.74s/it]                                                    {'loss': 0.2731, 'grad_norm': 2.762811161549083, 'learning_rate': 9.94802437440896e-06, 'epoch': 0.08}
  8%|▊         | 176/2335 [12:13<2:14:33,  3.74s/it]  8%|▊         | 177/2335 [12:17<2:13:31,  3.71s/it]                                                    {'loss': 0.2802, 'grad_norm': 2.811747599487674, 'learning_rate': 9.947021815040807e-06, 'epoch': 0.08}
  8%|▊         | 177/2335 [12:17<2:13:31,  3.71s/it]  8%|▊         | 178/2335 [12:21<2:13:37,  3.72s/it]                                                    {'loss': 0.2731, 'grad_norm': 2.7163312156585135, 'learning_rate': 9.9460097301096e-06, 'epoch': 0.08}
  8%|▊         | 178/2335 [12:21<2:13:37,  3.72s/it]  8%|▊         | 179/2335 [12:24<2:14:00,  3.73s/it]                                                    {'loss': 0.3458, 'grad_norm': 2.801185268878393, 'learning_rate': 9.944988121564123e-06, 'epoch': 0.08}
  8%|▊         | 179/2335 [12:24<2:14:00,  3.73s/it]  8%|▊         | 180/2335 [12:28<2:12:27,  3.69s/it]                                                    {'loss': 0.2896, 'grad_norm': 2.6899289945613947, 'learning_rate': 9.9439569913715e-06, 'epoch': 0.08}
  8%|▊         | 180/2335 [12:28<2:12:27,  3.69s/it]  8%|▊         | 181/2335 [12:32<2:14:29,  3.75s/it]                                                    {'loss': 0.3479, 'grad_norm': 2.9136994975520354, 'learning_rate': 9.942916341517184e-06, 'epoch': 0.08}
  8%|▊         | 181/2335 [12:32<2:14:29,  3.75s/it]  8%|▊         | 182/2335 [12:36<2:13:17,  3.71s/it]                                                    {'loss': 0.2813, 'grad_norm': 2.681082828452022, 'learning_rate': 9.941866174004964e-06, 'epoch': 0.08}
  8%|▊         | 182/2335 [12:36<2:13:17,  3.71s/it]  8%|▊         | 183/2335 [12:39<2:13:43,  3.73s/it]                                                    {'loss': 0.3282, 'grad_norm': 2.854487370222728, 'learning_rate': 9.940806490856953e-06, 'epoch': 0.08}
  8%|▊         | 183/2335 [12:39<2:13:43,  3.73s/it]  8%|▊         | 184/2335 [12:43<2:13:29,  3.72s/it]                                                    {'loss': 0.3413, 'grad_norm': 2.791957005888773, 'learning_rate': 9.939737294113585e-06, 'epoch': 0.08}
  8%|▊         | 184/2335 [12:43<2:13:29,  3.72s/it]  8%|▊         | 185/2335 [12:47<2:13:35,  3.73s/it]                                                    {'loss': 0.2998, 'grad_norm': 2.6518427491219323, 'learning_rate': 9.938658585833616e-06, 'epoch': 0.08}
  8%|▊         | 185/2335 [12:47<2:13:35,  3.73s/it]  8%|▊         | 186/2335 [12:51<2:14:05,  3.74s/it]                                                    {'loss': 0.3285, 'grad_norm': 2.6988002411471497, 'learning_rate': 9.937570368094113e-06, 'epoch': 0.08}
  8%|▊         | 186/2335 [12:51<2:14:05,  3.74s/it]  8%|▊         | 187/2335 [12:54<2:13:53,  3.74s/it]                                                    {'loss': 0.2778, 'grad_norm': 2.5894362095479244, 'learning_rate': 9.936472642990456e-06, 'epoch': 0.08}
  8%|▊         | 187/2335 [12:54<2:13:53,  3.74s/it]  8%|▊         | 188/2335 [12:58<2:14:23,  3.76s/it]                                                    {'loss': 0.2788, 'grad_norm': 2.7043545948283305, 'learning_rate': 9.93536541263633e-06, 'epoch': 0.08}
  8%|▊         | 188/2335 [12:58<2:14:23,  3.76s/it]  8%|▊         | 189/2335 [13:02<2:13:55,  3.74s/it]                                                    {'loss': 0.3242, 'grad_norm': 3.0185008707686767, 'learning_rate': 9.934248679163724e-06, 'epoch': 0.08}
  8%|▊         | 189/2335 [13:02<2:13:55,  3.74s/it]  8%|▊         | 190/2335 [13:06<2:14:10,  3.75s/it]                                                    {'loss': 0.279, 'grad_norm': 2.678430491448051, 'learning_rate': 9.933122444722924e-06, 'epoch': 0.08}
  8%|▊         | 190/2335 [13:06<2:14:10,  3.75s/it]  8%|▊         | 191/2335 [13:09<2:12:56,  3.72s/it]                                                    {'loss': 0.3094, 'grad_norm': 2.695054085304221, 'learning_rate': 9.931986711482511e-06, 'epoch': 0.08}
  8%|▊         | 191/2335 [13:09<2:12:56,  3.72s/it]  8%|▊         | 192/2335 [13:13<2:12:51,  3.72s/it]                                                    {'loss': 0.3023, 'grad_norm': 3.007027133704269, 'learning_rate': 9.930841481629358e-06, 'epoch': 0.08}
  8%|▊         | 192/2335 [13:13<2:12:51,  3.72s/it]  8%|▊         | 193/2335 [13:17<2:12:51,  3.72s/it]                                                    {'loss': 0.2889, 'grad_norm': 2.6842970122702465, 'learning_rate': 9.929686757368619e-06, 'epoch': 0.08}
  8%|▊         | 193/2335 [13:17<2:12:51,  3.72s/it]  8%|▊         | 194/2335 [13:20<2:12:14,  3.71s/it]                                                    {'loss': 0.3003, 'grad_norm': 2.7246884125494324, 'learning_rate': 9.928522540923736e-06, 'epoch': 0.08}
  8%|▊         | 194/2335 [13:20<2:12:14,  3.71s/it]  8%|▊         | 195/2335 [13:24<2:13:22,  3.74s/it]                                                    {'loss': 0.3437, 'grad_norm': 2.720594310920424, 'learning_rate': 9.927348834536421e-06, 'epoch': 0.08}
  8%|▊         | 195/2335 [13:24<2:13:22,  3.74s/it]  8%|▊         | 196/2335 [13:28<2:13:54,  3.76s/it]                                                    {'loss': 0.2821, 'grad_norm': 2.560950647523178, 'learning_rate': 9.926165640466664e-06, 'epoch': 0.08}
  8%|▊         | 196/2335 [13:28<2:13:54,  3.76s/it]  8%|▊         | 197/2335 [13:32<2:13:37,  3.75s/it]                                                    {'loss': 0.3122, 'grad_norm': 2.401579664814493, 'learning_rate': 9.924972960992722e-06, 'epoch': 0.08}
  8%|▊         | 197/2335 [13:32<2:13:37,  3.75s/it]  8%|▊         | 198/2335 [13:35<2:12:25,  3.72s/it]                                                    {'loss': 0.2675, 'grad_norm': 2.8643542052991506, 'learning_rate': 9.923770798411121e-06, 'epoch': 0.08}
  8%|▊         | 198/2335 [13:35<2:12:25,  3.72s/it]  9%|▊         | 199/2335 [13:39<2:13:42,  3.76s/it]                                                    {'loss': 0.2819, 'grad_norm': 3.334578073887408, 'learning_rate': 9.922559155036637e-06, 'epoch': 0.09}
  9%|▊         | 199/2335 [13:39<2:13:42,  3.76s/it]  9%|▊         | 200/2335 [13:43<2:12:44,  3.73s/it]                                                    {'loss': 0.2559, 'grad_norm': 2.5693110884042927, 'learning_rate': 9.92133803320231e-06, 'epoch': 0.09}
  9%|▊         | 200/2335 [13:43<2:12:44,  3.73s/it]  9%|▊         | 201/2335 [13:47<2:12:23,  3.72s/it]                                                    {'loss': 0.3052, 'grad_norm': 2.7125597015724243, 'learning_rate': 9.92010743525943e-06, 'epoch': 0.09}
  9%|▊         | 201/2335 [13:47<2:12:23,  3.72s/it]  9%|▊         | 202/2335 [13:50<2:11:25,  3.70s/it]                                                    {'loss': 0.3314, 'grad_norm': 3.034952718107863, 'learning_rate': 9.918867363577526e-06, 'epoch': 0.09}
  9%|▊         | 202/2335 [13:50<2:11:25,  3.70s/it]  9%|▊         | 203/2335 [13:54<2:11:42,  3.71s/it]                                                    {'loss': 0.315, 'grad_norm': 3.029160536671787, 'learning_rate': 9.917617820544378e-06, 'epoch': 0.09}
  9%|▊         | 203/2335 [13:54<2:11:42,  3.71s/it]  9%|▊         | 204/2335 [13:58<2:10:57,  3.69s/it]                                                    {'loss': 0.3303, 'grad_norm': 2.787644862581071, 'learning_rate': 9.916358808565999e-06, 'epoch': 0.09}
  9%|▊         | 204/2335 [13:58<2:10:57,  3.69s/it]  9%|▉         | 205/2335 [14:01<2:10:09,  3.67s/it]                                                    {'loss': 0.3111, 'grad_norm': 3.1109289510736287, 'learning_rate': 9.915090330066634e-06, 'epoch': 0.09}
  9%|▉         | 205/2335 [14:01<2:10:09,  3.67s/it]  9%|▉         | 206/2335 [14:05<2:12:21,  3.73s/it]                                                    {'loss': 0.3479, 'grad_norm': 2.6255256528911906, 'learning_rate': 9.91381238748876e-06, 'epoch': 0.09}
  9%|▉         | 206/2335 [14:05<2:12:21,  3.73s/it]  9%|▉         | 207/2335 [14:09<2:12:21,  3.73s/it]                                                    {'loss': 0.3142, 'grad_norm': 2.5054851521365467, 'learning_rate': 9.912524983293068e-06, 'epoch': 0.09}
  9%|▉         | 207/2335 [14:09<2:12:21,  3.73s/it]  9%|▉         | 208/2335 [14:12<2:12:04,  3.73s/it]                                                    {'loss': 0.2814, 'grad_norm': 2.715557260510155, 'learning_rate': 9.91122811995848e-06, 'epoch': 0.09}
  9%|▉         | 208/2335 [14:12<2:12:04,  3.73s/it]  9%|▉         | 209/2335 [14:16<2:12:27,  3.74s/it]                                                    {'loss': 0.3088, 'grad_norm': 2.8738939747726358, 'learning_rate': 9.909921799982123e-06, 'epoch': 0.09}
  9%|▉         | 209/2335 [14:16<2:12:27,  3.74s/it]  9%|▉         | 210/2335 [14:20<2:12:10,  3.73s/it]                                                    {'loss': 0.2704, 'grad_norm': 2.3838901305900744, 'learning_rate': 9.908606025879333e-06, 'epoch': 0.09}
  9%|▉         | 210/2335 [14:20<2:12:10,  3.73s/it]  9%|▉         | 211/2335 [14:24<2:11:22,  3.71s/it]                                                    {'loss': 0.2972, 'grad_norm': 2.686001973335655, 'learning_rate': 9.907280800183656e-06, 'epoch': 0.09}
  9%|▉         | 211/2335 [14:24<2:11:22,  3.71s/it]  9%|▉         | 212/2335 [14:27<2:12:46,  3.75s/it]                                                    {'loss': 0.2949, 'grad_norm': 2.5481986130642356, 'learning_rate': 9.905946125446832e-06, 'epoch': 0.09}
  9%|▉         | 212/2335 [14:27<2:12:46,  3.75s/it]  9%|▉         | 213/2335 [14:31<2:10:55,  3.70s/it]                                                    {'loss': 0.2635, 'grad_norm': 2.9516226514429165, 'learning_rate': 9.904602004238797e-06, 'epoch': 0.09}
  9%|▉         | 213/2335 [14:31<2:10:55,  3.70s/it]  9%|▉         | 214/2335 [14:35<2:09:52,  3.67s/it]                                                    {'loss': 0.2973, 'grad_norm': 2.9448578946133304, 'learning_rate': 9.903248439147674e-06, 'epoch': 0.09}
  9%|▉         | 214/2335 [14:35<2:09:52,  3.67s/it]  9%|▉         | 215/2335 [14:38<2:10:45,  3.70s/it]                                                    {'loss': 0.3178, 'grad_norm': 3.3340644272873345, 'learning_rate': 9.901885432779777e-06, 'epoch': 0.09}
  9%|▉         | 215/2335 [14:38<2:10:45,  3.70s/it]  9%|▉         | 216/2335 [14:42<2:10:41,  3.70s/it]                                                    {'loss': 0.2783, 'grad_norm': 3.0808505904427945, 'learning_rate': 9.90051298775959e-06, 'epoch': 0.09}
  9%|▉         | 216/2335 [14:42<2:10:41,  3.70s/it]  9%|▉         | 217/2335 [14:46<2:10:21,  3.69s/it]                                                    {'loss': 0.3253, 'grad_norm': 2.7474121058436896, 'learning_rate': 9.899131106729778e-06, 'epoch': 0.09}
  9%|▉         | 217/2335 [14:46<2:10:21,  3.69s/it]  9%|▉         | 218/2335 [14:49<2:10:33,  3.70s/it]                                                    {'loss': 0.3301, 'grad_norm': 2.656402648097636, 'learning_rate': 9.897739792351174e-06, 'epoch': 0.09}
  9%|▉         | 218/2335 [14:50<2:10:33,  3.70s/it]  9%|▉         | 219/2335 [14:53<2:09:30,  3.67s/it]                                                    {'loss': 0.34, 'grad_norm': 2.621054458533641, 'learning_rate': 9.896339047302772e-06, 'epoch': 0.09}
  9%|▉         | 219/2335 [14:53<2:09:30,  3.67s/it]  9%|▉         | 220/2335 [14:57<2:09:44,  3.68s/it]                                                    {'loss': 0.3055, 'grad_norm': 2.6546842516489355, 'learning_rate': 9.89492887428173e-06, 'epoch': 0.09}
  9%|▉         | 220/2335 [14:57<2:09:44,  3.68s/it]  9%|▉         | 221/2335 [15:00<2:09:41,  3.68s/it]                                                    {'loss': 0.3138, 'grad_norm': 2.94449663462326, 'learning_rate': 9.893509276003354e-06, 'epoch': 0.09}
  9%|▉         | 221/2335 [15:00<2:09:41,  3.68s/it] 10%|▉         | 222/2335 [15:04<2:09:18,  3.67s/it]                                                    {'loss': 0.3286, 'grad_norm': 2.9269850070533763, 'learning_rate': 9.892080255201105e-06, 'epoch': 0.1}
 10%|▉         | 222/2335 [15:04<2:09:18,  3.67s/it] 10%|▉         | 223/2335 [15:08<2:10:07,  3.70s/it]                                                    {'loss': 0.3237, 'grad_norm': 2.6164774453999162, 'learning_rate': 9.89064181462658e-06, 'epoch': 0.1}
 10%|▉         | 223/2335 [15:08<2:10:07,  3.70s/it] 10%|▉         | 224/2335 [15:12<2:11:05,  3.73s/it]                                                    {'loss': 0.358, 'grad_norm': 2.96080196110219, 'learning_rate': 9.88919395704952e-06, 'epoch': 0.1}
 10%|▉         | 224/2335 [15:12<2:11:05,  3.73s/it] 10%|▉         | 225/2335 [15:15<2:10:27,  3.71s/it]                                                    {'loss': 0.2984, 'grad_norm': 2.649785628867192, 'learning_rate': 9.887736685257791e-06, 'epoch': 0.1}
 10%|▉         | 225/2335 [15:15<2:10:27,  3.71s/it] 10%|▉         | 226/2335 [15:19<2:09:06,  3.67s/it]                                                    {'loss': 0.3109, 'grad_norm': 2.6624649894072165, 'learning_rate': 9.886270002057399e-06, 'epoch': 0.1}
 10%|▉         | 226/2335 [15:19<2:09:06,  3.67s/it] 10%|▉         | 227/2335 [15:23<2:09:10,  3.68s/it]                                                    {'loss': 0.2804, 'grad_norm': 2.7125957815484214, 'learning_rate': 9.884793910272457e-06, 'epoch': 0.1}
 10%|▉         | 227/2335 [15:23<2:09:10,  3.68s/it] 10%|▉         | 228/2335 [15:26<2:10:57,  3.73s/it]                                                    {'loss': 0.3478, 'grad_norm': 2.831634773567625, 'learning_rate': 9.883308412745206e-06, 'epoch': 0.1}
 10%|▉         | 228/2335 [15:26<2:10:57,  3.73s/it] 10%|▉         | 229/2335 [15:30<2:11:51,  3.76s/it]                                                    {'loss': 0.2955, 'grad_norm': 3.0630982697502196, 'learning_rate': 9.881813512335989e-06, 'epoch': 0.1}
 10%|▉         | 229/2335 [15:30<2:11:51,  3.76s/it] 10%|▉         | 230/2335 [15:34<2:11:28,  3.75s/it]                                                    {'loss': 0.2932, 'grad_norm': 2.9021472519989784, 'learning_rate': 9.880309211923263e-06, 'epoch': 0.1}
 10%|▉         | 230/2335 [15:34<2:11:28,  3.75s/it] 10%|▉         | 231/2335 [15:38<2:10:34,  3.72s/it]                                                    {'loss': 0.2828, 'grad_norm': 2.770624350418408, 'learning_rate': 9.878795514403579e-06, 'epoch': 0.1}
 10%|▉         | 231/2335 [15:38<2:10:34,  3.72s/it] 10%|▉         | 232/2335 [15:41<2:10:08,  3.71s/it]                                                    {'loss': 0.281, 'grad_norm': 3.1974983603627214, 'learning_rate': 9.877272422691583e-06, 'epoch': 0.1}
 10%|▉         | 232/2335 [15:41<2:10:08,  3.71s/it] 10%|▉         | 233/2335 [15:45<2:09:33,  3.70s/it]                                                    {'loss': 0.2795, 'grad_norm': 2.8748007764094754, 'learning_rate': 9.87573993972001e-06, 'epoch': 0.1}
 10%|▉         | 233/2335 [15:45<2:09:33,  3.70s/it] 10%|█         | 234/2335 [15:49<2:09:11,  3.69s/it]                                                    {'loss': 0.3093, 'grad_norm': 2.909639398619177, 'learning_rate': 9.874198068439682e-06, 'epoch': 0.1}
 10%|█         | 234/2335 [15:49<2:09:11,  3.69s/it] 10%|█         | 235/2335 [15:52<2:09:48,  3.71s/it]                                                    {'loss': 0.2899, 'grad_norm': 2.723783228658883, 'learning_rate': 9.872646811819489e-06, 'epoch': 0.1}
 10%|█         | 235/2335 [15:52<2:09:48,  3.71s/it] 10%|█         | 236/2335 [15:56<2:09:41,  3.71s/it]                                                    {'loss': 0.2594, 'grad_norm': 2.5234557322839017, 'learning_rate': 9.871086172846403e-06, 'epoch': 0.1}
 10%|█         | 236/2335 [15:56<2:09:41,  3.71s/it] 10%|█         | 237/2335 [16:00<2:09:29,  3.70s/it]                                                    {'loss': 0.2819, 'grad_norm': 2.802296396376116, 'learning_rate': 9.869516154525455e-06, 'epoch': 0.1}
 10%|█         | 237/2335 [16:00<2:09:29,  3.70s/it] 10%|█         | 238/2335 [16:03<2:08:10,  3.67s/it]                                                    {'loss': 0.2864, 'grad_norm': 2.66226927196503, 'learning_rate': 9.86793675987974e-06, 'epoch': 0.1}
 10%|█         | 238/2335 [16:03<2:08:10,  3.67s/it] 10%|█         | 239/2335 [16:07<2:09:29,  3.71s/it]                                                    {'loss': 0.3166, 'grad_norm': 2.8000967162009665, 'learning_rate': 9.866347991950404e-06, 'epoch': 0.1}
 10%|█         | 239/2335 [16:07<2:09:29,  3.71s/it] 10%|█         | 240/2335 [16:11<2:09:27,  3.71s/it]                                                    {'loss': 0.31, 'grad_norm': 2.945534638620589, 'learning_rate': 9.864749853796642e-06, 'epoch': 0.1}
 10%|█         | 240/2335 [16:11<2:09:27,  3.71s/it] 10%|█         | 241/2335 [16:15<2:09:49,  3.72s/it]                                                    {'loss': 0.2559, 'grad_norm': 2.6294947090777336, 'learning_rate': 9.863142348495696e-06, 'epoch': 0.1}
 10%|█         | 241/2335 [16:15<2:09:49,  3.72s/it] 10%|█         | 242/2335 [16:18<2:09:29,  3.71s/it]                                                    {'loss': 0.3039, 'grad_norm': 3.020344481814639, 'learning_rate': 9.861525479142839e-06, 'epoch': 0.1}
 10%|█         | 242/2335 [16:18<2:09:29,  3.71s/it] 10%|█         | 243/2335 [16:22<2:08:35,  3.69s/it]                                                    {'loss': 0.2271, 'grad_norm': 2.7925900037377973, 'learning_rate': 9.859899248851374e-06, 'epoch': 0.1}
 10%|█         | 243/2335 [16:22<2:08:35,  3.69s/it] 10%|█         | 244/2335 [16:26<2:09:52,  3.73s/it]                                                    {'loss': 0.3511, 'grad_norm': 2.6771271735470497, 'learning_rate': 9.858263660752637e-06, 'epoch': 0.1}
 10%|█         | 244/2335 [16:26<2:09:52,  3.73s/it] 10%|█         | 245/2335 [16:30<2:11:02,  3.76s/it]                                                    {'loss': 0.3279, 'grad_norm': 2.7339576559924637, 'learning_rate': 9.856618717995972e-06, 'epoch': 0.1}
 10%|█         | 245/2335 [16:30<2:11:02,  3.76s/it] 11%|█         | 246/2335 [16:33<2:10:21,  3.74s/it]                                                    {'loss': 0.3013, 'grad_norm': 2.751387240394507, 'learning_rate': 9.854964423748743e-06, 'epoch': 0.11}
 11%|█         | 246/2335 [16:33<2:10:21,  3.74s/it] 11%|█         | 247/2335 [16:37<2:09:35,  3.72s/it]                                                    {'loss': 0.3225, 'grad_norm': 2.7222182983701413, 'learning_rate': 9.853300781196316e-06, 'epoch': 0.11}
 11%|█         | 247/2335 [16:37<2:09:35,  3.72s/it] 11%|█         | 248/2335 [16:41<2:09:04,  3.71s/it]                                                    {'loss': 0.3379, 'grad_norm': 2.6673677573080354, 'learning_rate': 9.85162779354206e-06, 'epoch': 0.11}
 11%|█         | 248/2335 [16:41<2:09:04,  3.71s/it] 11%|█         | 249/2335 [16:44<2:09:18,  3.72s/it]                                                    {'loss': 0.2789, 'grad_norm': 2.634312588040267, 'learning_rate': 9.84994546400734e-06, 'epoch': 0.11}
 11%|█         | 249/2335 [16:45<2:09:18,  3.72s/it] 11%|█         | 250/2335 [16:48<2:08:29,  3.70s/it]                                                    {'loss': 0.3129, 'grad_norm': 2.9548383252603063, 'learning_rate': 9.848253795831501e-06, 'epoch': 0.11}
 11%|█         | 250/2335 [16:48<2:08:29,  3.70s/it] 11%|█         | 251/2335 [16:52<2:08:01,  3.69s/it]                                                    {'loss': 0.2997, 'grad_norm': 2.735648574756119, 'learning_rate': 9.846552792271878e-06, 'epoch': 0.11}
 11%|█         | 251/2335 [16:52<2:08:01,  3.69s/it] 11%|█         | 252/2335 [16:55<2:07:52,  3.68s/it]                                                    {'loss': 0.3242, 'grad_norm': 2.934767439552992, 'learning_rate': 9.844842456603779e-06, 'epoch': 0.11}
 11%|█         | 252/2335 [16:55<2:07:52,  3.68s/it] 11%|█         | 253/2335 [16:59<2:07:16,  3.67s/it]                                                    {'loss': 0.3226, 'grad_norm': 3.4004494941766628, 'learning_rate': 9.843122792120478e-06, 'epoch': 0.11}
 11%|█         | 253/2335 [16:59<2:07:16,  3.67s/it] 11%|█         | 254/2335 [17:03<2:08:11,  3.70s/it]                                                    {'loss': 0.2702, 'grad_norm': 2.737399774677961, 'learning_rate': 9.841393802133214e-06, 'epoch': 0.11}
 11%|█         | 254/2335 [17:03<2:08:11,  3.70s/it] 11%|█         | 255/2335 [17:07<2:08:20,  3.70s/it]                                                    {'loss': 0.2724, 'grad_norm': 2.5849839371425176, 'learning_rate': 9.839655489971186e-06, 'epoch': 0.11}
 11%|█         | 255/2335 [17:07<2:08:20,  3.70s/it] 11%|█         | 256/2335 [17:10<2:08:27,  3.71s/it]                                                    {'loss': 0.2738, 'grad_norm': 2.6869678487015407, 'learning_rate': 9.837907858981536e-06, 'epoch': 0.11}
 11%|█         | 256/2335 [17:10<2:08:27,  3.71s/it] 11%|█         | 257/2335 [17:16<2:25:28,  4.20s/it]                                                    {'loss': 0.3389, 'grad_norm': 2.999876564800314, 'learning_rate': 9.836150912529357e-06, 'epoch': 0.11}
 11%|█         | 257/2335 [17:16<2:25:28,  4.20s/it] 11%|█         | 258/2335 [17:19<2:20:27,  4.06s/it]                                                    {'loss': 0.2871, 'grad_norm': 2.812020484265115, 'learning_rate': 9.83438465399767e-06, 'epoch': 0.11}
 11%|█         | 258/2335 [17:19<2:20:27,  4.06s/it] 11%|█         | 259/2335 [17:23<2:17:36,  3.98s/it]                                                    {'loss': 0.3262, 'grad_norm': 2.658456632268773, 'learning_rate': 9.832609086787437e-06, 'epoch': 0.11}
 11%|█         | 259/2335 [17:23<2:17:36,  3.98s/it] 11%|█         | 260/2335 [17:28<2:30:54,  4.36s/it]                                                    {'loss': 0.2866, 'grad_norm': 2.437719014201623, 'learning_rate': 9.830824214317533e-06, 'epoch': 0.11}
 11%|█         | 260/2335 [17:28<2:30:54,  4.36s/it] 11%|█         | 261/2335 [17:32<2:24:06,  4.17s/it]                                                    {'loss': 0.2928, 'grad_norm': 2.73865020132295, 'learning_rate': 9.829030040024762e-06, 'epoch': 0.11}
 11%|█         | 261/2335 [17:32<2:24:06,  4.17s/it] 11%|█         | 262/2335 [17:36<2:19:38,  4.04s/it]                                                    {'loss': 0.3146, 'grad_norm': 3.01166736631592, 'learning_rate': 9.82722656736383e-06, 'epoch': 0.11}
 11%|█         | 262/2335 [17:36<2:19:38,  4.04s/it] 11%|█▏        | 263/2335 [17:40<2:16:34,  3.95s/it]                                                    {'loss': 0.3273, 'grad_norm': 2.7678710085116136, 'learning_rate': 9.825413799807348e-06, 'epoch': 0.11}
 11%|█▏        | 263/2335 [17:40<2:16:34,  3.95s/it] 11%|█▏        | 264/2335 [17:43<2:13:32,  3.87s/it]                                                    {'loss': 0.2686, 'grad_norm': 2.721298107680012, 'learning_rate': 9.823591740845831e-06, 'epoch': 0.11}
 11%|█▏        | 264/2335 [17:43<2:13:32,  3.87s/it] 11%|█▏        | 265/2335 [17:47<2:11:59,  3.83s/it]                                                    {'loss': 0.2699, 'grad_norm': 2.6653320599632813, 'learning_rate': 9.821760393987679e-06, 'epoch': 0.11}
 11%|█▏        | 265/2335 [17:47<2:11:59,  3.83s/it] 11%|█▏        | 266/2335 [17:51<2:10:25,  3.78s/it]                                                    {'loss': 0.3031, 'grad_norm': 2.806614929132685, 'learning_rate': 9.819919762759174e-06, 'epoch': 0.11}
 11%|█▏        | 266/2335 [17:51<2:10:25,  3.78s/it] 11%|█▏        | 267/2335 [17:56<2:26:17,  4.24s/it]                                                    {'loss': 0.2916, 'grad_norm': 2.9452593541761924, 'learning_rate': 9.81806985070448e-06, 'epoch': 0.11}
 11%|█▏        | 267/2335 [17:56<2:26:17,  4.24s/it] 11%|█▏        | 268/2335 [18:00<2:22:14,  4.13s/it]                                                    {'loss': 0.2832, 'grad_norm': 2.9609984373431875, 'learning_rate': 9.816210661385633e-06, 'epoch': 0.11}
 11%|█▏        | 268/2335 [18:00<2:22:14,  4.13s/it] 12%|█▏        | 269/2335 [18:04<2:17:32,  3.99s/it]                                                    {'loss': 0.3456, 'grad_norm': 3.067736079191241, 'learning_rate': 9.814342198382524e-06, 'epoch': 0.12}
 12%|█▏        | 269/2335 [18:04<2:17:32,  3.99s/it] 12%|█▏        | 270/2335 [18:07<2:14:33,  3.91s/it]                                                    {'loss': 0.3489, 'grad_norm': 2.6731133040136195, 'learning_rate': 9.81246446529291e-06, 'epoch': 0.12}
 12%|█▏        | 270/2335 [18:07<2:14:33,  3.91s/it] 12%|█▏        | 271/2335 [18:11<2:12:03,  3.84s/it]                                                    {'loss': 0.3139, 'grad_norm': 2.765460225885666, 'learning_rate': 9.810577465732393e-06, 'epoch': 0.12}
 12%|█▏        | 271/2335 [18:11<2:12:03,  3.84s/it] 12%|█▏        | 272/2335 [18:15<2:09:50,  3.78s/it]                                                    {'loss': 0.2603, 'grad_norm': 2.6525210851096865, 'learning_rate': 9.808681203334416e-06, 'epoch': 0.12}
 12%|█▏        | 272/2335 [18:15<2:09:50,  3.78s/it] 12%|█▏        | 273/2335 [18:18<2:08:53,  3.75s/it]                                                    {'loss': 0.304, 'grad_norm': 2.5465747438651425, 'learning_rate': 9.806775681750262e-06, 'epoch': 0.12}
 12%|█▏        | 273/2335 [18:18<2:08:53,  3.75s/it] 12%|█▏        | 274/2335 [18:23<2:16:45,  3.98s/it]                                                    {'loss': 0.2854, 'grad_norm': 2.5815373748697894, 'learning_rate': 9.804860904649044e-06, 'epoch': 0.12}
 12%|█▏        | 274/2335 [18:23<2:16:45,  3.98s/it] 12%|█▏        | 275/2335 [18:27<2:13:56,  3.90s/it]                                                    {'loss': 0.3079, 'grad_norm': 2.7712026380273795, 'learning_rate': 9.802936875717685e-06, 'epoch': 0.12}
 12%|█▏        | 275/2335 [18:27<2:13:56,  3.90s/it] 12%|█▏        | 276/2335 [18:30<2:12:38,  3.87s/it]                                                    {'loss': 0.313, 'grad_norm': 2.580379751231512, 'learning_rate': 9.801003598660937e-06, 'epoch': 0.12}
 12%|█▏        | 276/2335 [18:30<2:12:38,  3.87s/it] 12%|█▏        | 277/2335 [18:34<2:11:41,  3.84s/it]                                                    {'loss': 0.3364, 'grad_norm': 2.8426196149874436, 'learning_rate': 9.799061077201353e-06, 'epoch': 0.12}
 12%|█▏        | 277/2335 [18:34<2:11:41,  3.84s/it] 12%|█▏        | 278/2335 [18:38<2:09:30,  3.78s/it]                                                    {'loss': 0.2865, 'grad_norm': 2.5998496078385176, 'learning_rate': 9.797109315079285e-06, 'epoch': 0.12}
 12%|█▏        | 278/2335 [18:38<2:09:30,  3.78s/it] 12%|█▏        | 279/2335 [18:41<2:08:51,  3.76s/it]                                                    {'loss': 0.3094, 'grad_norm': 2.841981114685137, 'learning_rate': 9.79514831605288e-06, 'epoch': 0.12}
 12%|█▏        | 279/2335 [18:41<2:08:51,  3.76s/it] 12%|█▏        | 280/2335 [18:45<2:07:03,  3.71s/it]                                                    {'loss': 0.2904, 'grad_norm': 2.754151136459746, 'learning_rate': 9.793178083898073e-06, 'epoch': 0.12}
 12%|█▏        | 280/2335 [18:45<2:07:03,  3.71s/it] 12%|█▏        | 281/2335 [18:49<2:08:06,  3.74s/it]                                                    {'loss': 0.2884, 'grad_norm': 2.7828445713976757, 'learning_rate': 9.791198622408568e-06, 'epoch': 0.12}
 12%|█▏        | 281/2335 [18:49<2:08:06,  3.74s/it] 12%|█▏        | 282/2335 [18:53<2:07:57,  3.74s/it]                                                    {'loss': 0.2674, 'grad_norm': 2.543277730627548, 'learning_rate': 9.789209935395855e-06, 'epoch': 0.12}
 12%|█▏        | 282/2335 [18:53<2:07:57,  3.74s/it] 12%|█▏        | 283/2335 [18:56<2:06:20,  3.69s/it]                                                    {'loss': 0.2767, 'grad_norm': 2.5968118143410375, 'learning_rate': 9.787212026689174e-06, 'epoch': 0.12}
 12%|█▏        | 283/2335 [18:56<2:06:20,  3.69s/it] 12%|█▏        | 284/2335 [19:00<2:06:30,  3.70s/it]                                                    {'loss': 0.3223, 'grad_norm': 2.6766947019712943, 'learning_rate': 9.785204900135533e-06, 'epoch': 0.12}
 12%|█▏        | 284/2335 [19:00<2:06:30,  3.70s/it] 12%|█▏        | 285/2335 [19:04<2:06:27,  3.70s/it]                                                    {'loss': 0.3081, 'grad_norm': 2.6525834638779537, 'learning_rate': 9.78318855959968e-06, 'epoch': 0.12}
 12%|█▏        | 285/2335 [19:04<2:06:27,  3.70s/it] 12%|█▏        | 286/2335 [19:07<2:06:11,  3.70s/it]                                                    {'loss': 0.2964, 'grad_norm': 2.8576587731959506, 'learning_rate': 9.781163008964108e-06, 'epoch': 0.12}
 12%|█▏        | 286/2335 [19:07<2:06:11,  3.70s/it] 12%|█▏        | 287/2335 [19:11<2:05:42,  3.68s/it]                                                    {'loss': 0.2901, 'grad_norm': 2.8139798539335277, 'learning_rate': 9.779128252129046e-06, 'epoch': 0.12}
 12%|█▏        | 287/2335 [19:11<2:05:42,  3.68s/it] 12%|█▏        | 288/2335 [19:15<2:05:44,  3.69s/it]                                                    {'loss': 0.3257, 'grad_norm': 2.890013250585725, 'learning_rate': 9.777084293012448e-06, 'epoch': 0.12}
 12%|█▏        | 288/2335 [19:15<2:05:44,  3.69s/it] 12%|█▏        | 289/2335 [19:18<2:06:50,  3.72s/it]                                                    {'loss': 0.259, 'grad_norm': 2.6169459883564072, 'learning_rate': 9.775031135549987e-06, 'epoch': 0.12}
 12%|█▏        | 289/2335 [19:18<2:06:50,  3.72s/it] 12%|█▏        | 290/2335 [19:22<2:06:53,  3.72s/it]                                                    {'loss': 0.2693, 'grad_norm': 2.8358980850093163, 'learning_rate': 9.772968783695046e-06, 'epoch': 0.12}
 12%|█▏        | 290/2335 [19:22<2:06:53,  3.72s/it] 12%|█▏        | 291/2335 [19:26<2:06:34,  3.72s/it]                                                    {'loss': 0.2997, 'grad_norm': 3.0267519225632746, 'learning_rate': 9.770897241418717e-06, 'epoch': 0.12}
 12%|█▏        | 291/2335 [19:26<2:06:34,  3.72s/it] 13%|█▎        | 292/2335 [19:30<2:06:42,  3.72s/it]                                                    {'loss': 0.2747, 'grad_norm': 2.9006473465753064, 'learning_rate': 9.768816512709782e-06, 'epoch': 0.13}
 13%|█▎        | 292/2335 [19:30<2:06:42,  3.72s/it] 13%|█▎        | 293/2335 [19:33<2:06:18,  3.71s/it]                                                    {'loss': 0.2835, 'grad_norm': 2.724823390582959, 'learning_rate': 9.766726601574717e-06, 'epoch': 0.13}
 13%|█▎        | 293/2335 [19:33<2:06:18,  3.71s/it] 13%|█▎        | 294/2335 [19:37<2:06:59,  3.73s/it]                                                    {'loss': 0.3396, 'grad_norm': 2.786952612657992, 'learning_rate': 9.764627512037676e-06, 'epoch': 0.13}
 13%|█▎        | 294/2335 [19:37<2:06:59,  3.73s/it] 13%|█▎        | 295/2335 [19:41<2:06:18,  3.71s/it]                                                    {'loss': 0.2681, 'grad_norm': 2.7903310825495518, 'learning_rate': 9.762519248140484e-06, 'epoch': 0.13}
 13%|█▎        | 295/2335 [19:41<2:06:18,  3.71s/it] 13%|█▎        | 296/2335 [19:45<2:07:39,  3.76s/it]                                                    {'loss': 0.3185, 'grad_norm': 2.7155788390638915, 'learning_rate': 9.760401813942641e-06, 'epoch': 0.13}
 13%|█▎        | 296/2335 [19:45<2:07:39,  3.76s/it] 13%|█▎        | 297/2335 [19:48<2:06:23,  3.72s/it]                                                    {'loss': 0.2917, 'grad_norm': 2.677761585724147, 'learning_rate': 9.75827521352129e-06, 'epoch': 0.13}
 13%|█▎        | 297/2335 [19:48<2:06:23,  3.72s/it] 13%|█▎        | 298/2335 [19:52<2:07:42,  3.76s/it]                                                    {'loss': 0.3697, 'grad_norm': 2.7615810376869363, 'learning_rate': 9.756139450971234e-06, 'epoch': 0.13}
 13%|█▎        | 298/2335 [19:52<2:07:42,  3.76s/it] 13%|█▎        | 299/2335 [19:56<2:07:02,  3.74s/it]                                                    {'loss': 0.2924, 'grad_norm': 2.69629020069806, 'learning_rate': 9.753994530404915e-06, 'epoch': 0.13}
 13%|█▎        | 299/2335 [19:56<2:07:02,  3.74s/it] 13%|█▎        | 300/2335 [19:59<2:06:37,  3.73s/it]                                                    {'loss': 0.3163, 'grad_norm': 2.8978165537763214, 'learning_rate': 9.751840455952411e-06, 'epoch': 0.13}
 13%|█▎        | 300/2335 [19:59<2:06:37,  3.73s/it] 13%|█▎        | 301/2335 [20:03<2:06:41,  3.74s/it]                                                    {'loss': 0.273, 'grad_norm': 3.0266167825272032, 'learning_rate': 9.749677231761421e-06, 'epoch': 0.13}
 13%|█▎        | 301/2335 [20:03<2:06:41,  3.74s/it] 13%|█▎        | 302/2335 [20:07<2:05:54,  3.72s/it]                                                    {'loss': 0.3357, 'grad_norm': 2.959497866209961, 'learning_rate': 9.747504861997269e-06, 'epoch': 0.13}
 13%|█▎        | 302/2335 [20:07<2:05:54,  3.72s/it] 13%|█▎        | 303/2335 [20:11<2:06:18,  3.73s/it]                                                    {'loss': 0.3602, 'grad_norm': 2.8794089039958584, 'learning_rate': 9.745323350842877e-06, 'epoch': 0.13}
 13%|█▎        | 303/2335 [20:11<2:06:18,  3.73s/it] 13%|█▎        | 304/2335 [20:14<2:06:09,  3.73s/it]                                                    {'loss': 0.3298, 'grad_norm': 2.7642159408835414, 'learning_rate': 9.743132702498785e-06, 'epoch': 0.13}
 13%|█▎        | 304/2335 [20:14<2:06:09,  3.73s/it] 13%|█▎        | 305/2335 [20:18<2:05:33,  3.71s/it]                                                    {'loss': 0.3215, 'grad_norm': 2.751604847164902, 'learning_rate': 9.740932921183115e-06, 'epoch': 0.13}
 13%|█▎        | 305/2335 [20:18<2:05:33,  3.71s/it] 13%|█▎        | 306/2335 [20:23<2:19:55,  4.14s/it]                                                    {'loss': 0.3185, 'grad_norm': 2.706873214963062, 'learning_rate': 9.738724011131578e-06, 'epoch': 0.13}
 13%|█▎        | 306/2335 [20:23<2:19:55,  4.14s/it] 13%|█▎        | 307/2335 [20:27<2:16:43,  4.05s/it]                                                    {'loss': 0.261, 'grad_norm': 2.7169312151027727, 'learning_rate': 9.736505976597463e-06, 'epoch': 0.13}
 13%|█▎        | 307/2335 [20:27<2:16:43,  4.05s/it] 13%|█▎        | 308/2335 [20:32<2:28:42,  4.40s/it]                                                    {'loss': 0.3495, 'grad_norm': 2.7239036143337523, 'learning_rate': 9.734278821851631e-06, 'epoch': 0.13}
 13%|█▎        | 308/2335 [20:32<2:28:42,  4.40s/it] 13%|█▎        | 309/2335 [20:36<2:21:21,  4.19s/it]                                                    {'loss': 0.3032, 'grad_norm': 2.8121802867224197, 'learning_rate': 9.732042551182495e-06, 'epoch': 0.13}
 13%|█▎        | 309/2335 [20:36<2:21:21,  4.19s/it] 13%|█▎        | 310/2335 [20:40<2:16:02,  4.03s/it]                                                    {'loss': 0.3008, 'grad_norm': 2.846129881442966, 'learning_rate': 9.729797168896032e-06, 'epoch': 0.13}
 13%|█▎        | 310/2335 [20:40<2:16:02,  4.03s/it] 13%|█▎        | 311/2335 [20:43<2:12:49,  3.94s/it]                                                    {'loss': 0.3584, 'grad_norm': 3.106864486065552, 'learning_rate': 9.727542679315756e-06, 'epoch': 0.13}
 13%|█▎        | 311/2335 [20:43<2:12:49,  3.94s/it] 13%|█▎        | 312/2335 [20:47<2:11:06,  3.89s/it]                                                    {'loss': 0.3077, 'grad_norm': 2.9942521573665384, 'learning_rate': 9.725279086782719e-06, 'epoch': 0.13}
 13%|█▎        | 312/2335 [20:47<2:11:06,  3.89s/it] 13%|█▎        | 313/2335 [20:51<2:08:54,  3.83s/it]                                                    {'loss': 0.3317, 'grad_norm': 3.2441977046066404, 'learning_rate': 9.723006395655505e-06, 'epoch': 0.13}
 13%|█▎        | 313/2335 [20:51<2:08:54,  3.83s/it] 13%|█▎        | 314/2335 [20:56<2:18:08,  4.10s/it]                                                    {'loss': 0.3192, 'grad_norm': 2.943806648708445, 'learning_rate': 9.720724610310212e-06, 'epoch': 0.13}
 13%|█▎        | 314/2335 [20:56<2:18:08,  4.10s/it] 13%|█▎        | 315/2335 [20:59<2:15:25,  4.02s/it]                                                    {'loss': 0.3123, 'grad_norm': 2.6929595037143814, 'learning_rate': 9.718433735140454e-06, 'epoch': 0.13}
 13%|█▎        | 315/2335 [20:59<2:15:25,  4.02s/it] 14%|█▎        | 316/2335 [21:03<2:11:53,  3.92s/it]                                                    {'loss': 0.3189, 'grad_norm': 2.504578020337929, 'learning_rate': 9.716133774557337e-06, 'epoch': 0.14}
 14%|█▎        | 316/2335 [21:03<2:11:53,  3.92s/it] 14%|█▎        | 317/2335 [21:07<2:09:08,  3.84s/it]                                                    {'loss': 0.27, 'grad_norm': 2.758670304524646, 'learning_rate': 9.713824732989479e-06, 'epoch': 0.14}
 14%|█▎        | 317/2335 [21:07<2:09:08,  3.84s/it] 14%|█▎        | 318/2335 [21:10<2:06:49,  3.77s/it]                                                    {'loss': 0.2594, 'grad_norm': 2.5694635115602633, 'learning_rate': 9.711506614882965e-06, 'epoch': 0.14}
 14%|█▎        | 318/2335 [21:10<2:06:49,  3.77s/it] 14%|█▎        | 319/2335 [21:14<2:07:05,  3.78s/it]                                                    {'loss': 0.3248, 'grad_norm': 2.5835947472656935, 'learning_rate': 9.70917942470137e-06, 'epoch': 0.14}
 14%|█▎        | 319/2335 [21:14<2:07:05,  3.78s/it] 14%|█▎        | 320/2335 [21:18<2:05:17,  3.73s/it]                                                    {'loss': 0.2716, 'grad_norm': 2.7065841302676343, 'learning_rate': 9.706843166925733e-06, 'epoch': 0.14}
 14%|█▎        | 320/2335 [21:18<2:05:17,  3.73s/it] 14%|█▎        | 321/2335 [21:21<2:04:32,  3.71s/it]                                                    {'loss': 0.3194, 'grad_norm': 2.897700311484326, 'learning_rate': 9.704497846054548e-06, 'epoch': 0.14}
 14%|█▎        | 321/2335 [21:21<2:04:32,  3.71s/it] 14%|█▍        | 322/2335 [21:25<2:03:39,  3.69s/it]                                                    {'loss': 0.316, 'grad_norm': 3.000499224123425, 'learning_rate': 9.70214346660377e-06, 'epoch': 0.14}
 14%|█▍        | 322/2335 [21:25<2:03:39,  3.69s/it] 14%|█▍        | 323/2335 [21:29<2:04:02,  3.70s/it]                                                    {'loss': 0.3002, 'grad_norm': 2.5483862613520945, 'learning_rate': 9.69978003310679e-06, 'epoch': 0.14}
 14%|█▍        | 323/2335 [21:29<2:04:02,  3.70s/it] 14%|█▍        | 324/2335 [21:32<2:03:08,  3.67s/it]                                                    {'loss': 0.2681, 'grad_norm': 2.7839566014950985, 'learning_rate': 9.69740755011443e-06, 'epoch': 0.14}
 14%|█▍        | 324/2335 [21:32<2:03:08,  3.67s/it] 14%|█▍        | 325/2335 [21:36<2:04:13,  3.71s/it]                                                    {'loss': 0.2773, 'grad_norm': 2.517006313802462, 'learning_rate': 9.695026022194947e-06, 'epoch': 0.14}
 14%|█▍        | 325/2335 [21:36<2:04:13,  3.71s/it] 14%|█▍        | 326/2335 [21:40<2:04:53,  3.73s/it]                                                    {'loss': 0.2855, 'grad_norm': 2.745961983153208, 'learning_rate': 9.692635453934003e-06, 'epoch': 0.14}
 14%|█▍        | 326/2335 [21:40<2:04:53,  3.73s/it] 14%|█▍        | 327/2335 [21:44<2:04:27,  3.72s/it]                                                    {'loss': 0.2683, 'grad_norm': 2.754716156209928, 'learning_rate': 9.690235849934675e-06, 'epoch': 0.14}
 14%|█▍        | 327/2335 [21:44<2:04:27,  3.72s/it] 14%|█▍        | 328/2335 [21:47<2:03:07,  3.68s/it]                                                    {'loss': 0.3003, 'grad_norm': 3.066139543777544, 'learning_rate': 9.687827214817433e-06, 'epoch': 0.14}
 14%|█▍        | 328/2335 [21:47<2:03:07,  3.68s/it] 14%|█▍        | 329/2335 [21:51<2:03:58,  3.71s/it]                                                    {'loss': 0.2923, 'grad_norm': 2.4814805111071645, 'learning_rate': 9.685409553220142e-06, 'epoch': 0.14}
 14%|█▍        | 329/2335 [21:51<2:03:58,  3.71s/it] 14%|█▍        | 330/2335 [21:55<2:03:30,  3.70s/it]                                                    {'loss': 0.2802, 'grad_norm': 2.8438591865593352, 'learning_rate': 9.682982869798043e-06, 'epoch': 0.14}
 14%|█▍        | 330/2335 [21:55<2:03:30,  3.70s/it] 14%|█▍        | 331/2335 [21:58<2:03:52,  3.71s/it]                                                    {'loss': 0.2805, 'grad_norm': 2.8930168706747486, 'learning_rate': 9.680547169223752e-06, 'epoch': 0.14}
 14%|█▍        | 331/2335 [21:58<2:03:52,  3.71s/it] 14%|█▍        | 332/2335 [22:02<2:05:06,  3.75s/it]                                                    {'loss': 0.2962, 'grad_norm': 2.5214393917315374, 'learning_rate': 9.678102456187246e-06, 'epoch': 0.14}
 14%|█▍        | 332/2335 [22:02<2:05:06,  3.75s/it] 14%|█▍        | 333/2335 [22:06<2:05:51,  3.77s/it]                                                    {'loss': 0.3173, 'grad_norm': 2.718051490957702, 'learning_rate': 9.675648735395855e-06, 'epoch': 0.14}
 14%|█▍        | 333/2335 [22:06<2:05:51,  3.77s/it] 14%|█▍        | 334/2335 [22:10<2:05:19,  3.76s/it]                                                    {'loss': 0.3098, 'grad_norm': 2.633837926324993, 'learning_rate': 9.673186011574254e-06, 'epoch': 0.14}
 14%|█▍        | 334/2335 [22:10<2:05:19,  3.76s/it] 14%|█▍        | 335/2335 [22:13<2:04:12,  3.73s/it]                                                    {'loss': 0.2704, 'grad_norm': 2.8756312002346944, 'learning_rate': 9.670714289464454e-06, 'epoch': 0.14}
 14%|█▍        | 335/2335 [22:13<2:04:12,  3.73s/it] 14%|█▍        | 336/2335 [22:17<2:03:57,  3.72s/it]                                                    {'loss': 0.2802, 'grad_norm': 2.8333231817008886, 'learning_rate': 9.668233573825794e-06, 'epoch': 0.14}
 14%|█▍        | 336/2335 [22:17<2:03:57,  3.72s/it] 14%|█▍        | 337/2335 [22:21<2:02:57,  3.69s/it]                                                    {'loss': 0.2715, 'grad_norm': 3.0091705925428482, 'learning_rate': 9.665743869434925e-06, 'epoch': 0.14}
 14%|█▍        | 337/2335 [22:21<2:02:57,  3.69s/it] 14%|█▍        | 338/2335 [22:24<2:01:55,  3.66s/it]                                                    {'loss': 0.2455, 'grad_norm': 2.8970462741430443, 'learning_rate': 9.663245181085812e-06, 'epoch': 0.14}
 14%|█▍        | 338/2335 [22:24<2:01:55,  3.66s/it] 15%|█▍        | 339/2335 [22:28<2:03:19,  3.71s/it]                                                    {'loss': 0.2927, 'grad_norm': 3.086386934133251, 'learning_rate': 9.660737513589717e-06, 'epoch': 0.15}
 15%|█▍        | 339/2335 [22:28<2:03:19,  3.71s/it] 15%|█▍        | 340/2335 [22:32<2:02:27,  3.68s/it]                                                    {'loss': 0.2824, 'grad_norm': 3.069082257492287, 'learning_rate': 9.658220871775188e-06, 'epoch': 0.15}
 15%|█▍        | 340/2335 [22:32<2:02:27,  3.68s/it] 15%|█▍        | 341/2335 [22:36<2:02:56,  3.70s/it]                                                    {'loss': 0.2598, 'grad_norm': 2.6917123662194973, 'learning_rate': 9.655695260488057e-06, 'epoch': 0.15}
 15%|█▍        | 341/2335 [22:36<2:02:56,  3.70s/it] 15%|█▍        | 342/2335 [22:39<2:03:31,  3.72s/it]                                                    {'loss': 0.2907, 'grad_norm': 2.8487596445161154, 'learning_rate': 9.653160684591423e-06, 'epoch': 0.15}
 15%|█▍        | 342/2335 [22:39<2:03:31,  3.72s/it] 15%|█▍        | 343/2335 [22:43<2:03:41,  3.73s/it]                                                    {'loss': 0.3246, 'grad_norm': 2.69477854677915, 'learning_rate': 9.650617148965653e-06, 'epoch': 0.15}
 15%|█▍        | 343/2335 [22:43<2:03:41,  3.73s/it] 15%|█▍        | 344/2335 [22:47<2:02:11,  3.68s/it]                                                    {'loss': 0.2862, 'grad_norm': 2.6471586692859335, 'learning_rate': 9.64806465850836e-06, 'epoch': 0.15}
 15%|█▍        | 344/2335 [22:47<2:02:11,  3.68s/it] 15%|█▍        | 345/2335 [22:50<2:02:34,  3.70s/it]                                                    {'loss': 0.2552, 'grad_norm': 2.6761382180066704, 'learning_rate': 9.645503218134402e-06, 'epoch': 0.15}
 15%|█▍        | 345/2335 [22:50<2:02:34,  3.70s/it] 15%|█▍        | 346/2335 [22:54<2:02:16,  3.69s/it]                                                    {'loss': 0.3155, 'grad_norm': 2.5999493129943905, 'learning_rate': 9.642932832775871e-06, 'epoch': 0.15}
 15%|█▍        | 346/2335 [22:54<2:02:16,  3.69s/it] 15%|█▍        | 347/2335 [22:58<2:02:08,  3.69s/it]                                                    {'loss': 0.2984, 'grad_norm': 2.667772391056551, 'learning_rate': 9.640353507382081e-06, 'epoch': 0.15}
 15%|█▍        | 347/2335 [22:58<2:02:08,  3.69s/it] 15%|█▍        | 348/2335 [23:01<2:03:03,  3.72s/it]                                                    {'loss': 0.2916, 'grad_norm': 2.6827137294255254, 'learning_rate': 9.637765246919559e-06, 'epoch': 0.15}
 15%|█▍        | 348/2335 [23:01<2:03:03,  3.72s/it] 15%|█▍        | 349/2335 [23:05<2:03:49,  3.74s/it]                                                    {'loss': 0.3062, 'grad_norm': 2.8945163701201495, 'learning_rate': 9.635168056372041e-06, 'epoch': 0.15}
 15%|█▍        | 349/2335 [23:05<2:03:49,  3.74s/it] 15%|█▍        | 350/2335 [23:09<2:03:08,  3.72s/it]                                                    {'loss': 0.3245, 'grad_norm': 2.9505889215310623, 'learning_rate': 9.632561940740456e-06, 'epoch': 0.15}
 15%|█▍        | 350/2335 [23:09<2:03:08,  3.72s/it] 15%|█▌        | 351/2335 [23:13<2:02:14,  3.70s/it]                                                    {'loss': 0.3114, 'grad_norm': 2.765240723148734, 'learning_rate': 9.629946905042917e-06, 'epoch': 0.15}
 15%|█▌        | 351/2335 [23:13<2:02:14,  3.70s/it] 15%|█▌        | 352/2335 [23:17<2:09:44,  3.93s/it]                                                    {'loss': 0.2817, 'grad_norm': 2.777321690212769, 'learning_rate': 9.62732295431471e-06, 'epoch': 0.15}
 15%|█▌        | 352/2335 [23:17<2:09:44,  3.93s/it] 15%|█▌        | 353/2335 [23:21<2:06:43,  3.84s/it]                                                    {'loss': 0.2813, 'grad_norm': 2.581893041596423, 'learning_rate': 9.624690093608297e-06, 'epoch': 0.15}
 15%|█▌        | 353/2335 [23:21<2:06:43,  3.84s/it] 15%|█▌        | 354/2335 [23:24<2:05:03,  3.79s/it]                                                    {'loss': 0.2672, 'grad_norm': 2.808516542661495, 'learning_rate': 9.622048327993285e-06, 'epoch': 0.15}
 15%|█▌        | 354/2335 [23:24<2:05:03,  3.79s/it] 15%|█▌        | 355/2335 [23:28<2:04:23,  3.77s/it]                                                    {'loss': 0.2808, 'grad_norm': 2.9156296752032587, 'learning_rate': 9.619397662556434e-06, 'epoch': 0.15}
 15%|█▌        | 355/2335 [23:28<2:04:23,  3.77s/it] 15%|█▌        | 356/2335 [23:32<2:04:08,  3.76s/it]                                                    {'loss': 0.2941, 'grad_norm': 2.66616816068596, 'learning_rate': 9.616738102401641e-06, 'epoch': 0.15}
 15%|█▌        | 356/2335 [23:32<2:04:08,  3.76s/it] 15%|█▌        | 357/2335 [23:36<2:03:30,  3.75s/it]                                                    {'loss': 0.3594, 'grad_norm': 2.5642454890184596, 'learning_rate': 9.614069652649925e-06, 'epoch': 0.15}
 15%|█▌        | 357/2335 [23:36<2:03:30,  3.75s/it] 15%|█▌        | 358/2335 [23:39<2:02:05,  3.71s/it]                                                    {'loss': 0.3698, 'grad_norm': 2.7900784774806833, 'learning_rate': 9.611392318439427e-06, 'epoch': 0.15}
 15%|█▌        | 358/2335 [23:39<2:02:05,  3.71s/it] 15%|█▌        | 359/2335 [23:43<2:02:33,  3.72s/it]                                                    {'loss': 0.3108, 'grad_norm': 2.749639394306116, 'learning_rate': 9.608706104925391e-06, 'epoch': 0.15}
 15%|█▌        | 359/2335 [23:43<2:02:33,  3.72s/it] 15%|█▌        | 360/2335 [23:47<2:04:01,  3.77s/it]                                                    {'loss': 0.2672, 'grad_norm': 2.595297416582149, 'learning_rate': 9.606011017280166e-06, 'epoch': 0.15}
 15%|█▌        | 360/2335 [23:47<2:04:01,  3.77s/it] 15%|█▌        | 361/2335 [23:50<2:03:05,  3.74s/it]                                                    {'loss': 0.3004, 'grad_norm': 2.7749152091777547, 'learning_rate': 9.603307060693176e-06, 'epoch': 0.15}
 15%|█▌        | 361/2335 [23:50<2:03:05,  3.74s/it] 16%|█▌        | 362/2335 [23:54<2:03:12,  3.75s/it]                                                    {'loss': 0.2898, 'grad_norm': 2.628844557708143, 'learning_rate': 9.600594240370933e-06, 'epoch': 0.16}
 16%|█▌        | 362/2335 [23:54<2:03:12,  3.75s/it] 16%|█▌        | 363/2335 [23:58<2:02:40,  3.73s/it]                                                    {'loss': 0.3183, 'grad_norm': 2.7967956306349957, 'learning_rate': 9.597872561537011e-06, 'epoch': 0.16}
 16%|█▌        | 363/2335 [23:58<2:02:40,  3.73s/it] 16%|█▌        | 364/2335 [24:02<2:02:14,  3.72s/it]                                                    {'loss': 0.2927, 'grad_norm': 2.8780150649135483, 'learning_rate': 9.595142029432044e-06, 'epoch': 0.16}
 16%|█▌        | 364/2335 [24:02<2:02:14,  3.72s/it] 16%|█▌        | 365/2335 [24:05<2:01:36,  3.70s/it]                                                    {'loss': 0.2892, 'grad_norm': 3.3900621795015993, 'learning_rate': 9.592402649313711e-06, 'epoch': 0.16}
 16%|█▌        | 365/2335 [24:05<2:01:36,  3.70s/it] 16%|█▌        | 366/2335 [24:09<2:01:09,  3.69s/it]                                                    {'loss': 0.3022, 'grad_norm': 3.441900130002736, 'learning_rate': 9.589654426456726e-06, 'epoch': 0.16}
 16%|█▌        | 366/2335 [24:09<2:01:09,  3.69s/it] 16%|█▌        | 367/2335 [24:13<2:02:17,  3.73s/it]                                                    {'loss': 0.3113, 'grad_norm': 3.0060204585425807, 'learning_rate': 9.586897366152836e-06, 'epoch': 0.16}
 16%|█▌        | 367/2335 [24:13<2:02:17,  3.73s/it] 16%|█▌        | 368/2335 [24:17<2:04:04,  3.78s/it]                                                    {'loss': 0.3256, 'grad_norm': 2.782992805444639, 'learning_rate': 9.5841314737108e-06, 'epoch': 0.16}
 16%|█▌        | 368/2335 [24:17<2:04:04,  3.78s/it] 16%|█▌        | 369/2335 [24:20<2:03:17,  3.76s/it]                                                    {'loss': 0.31, 'grad_norm': 2.9038655985318087, 'learning_rate': 9.581356754456384e-06, 'epoch': 0.16}
 16%|█▌        | 369/2335 [24:20<2:03:17,  3.76s/it] 16%|█▌        | 370/2335 [24:24<2:02:42,  3.75s/it]                                                    {'loss': 0.3455, 'grad_norm': 2.59806689807304, 'learning_rate': 9.57857321373235e-06, 'epoch': 0.16}
 16%|█▌        | 370/2335 [24:24<2:02:42,  3.75s/it] 16%|█▌        | 371/2335 [24:28<2:01:22,  3.71s/it]                                                    {'loss': 0.3167, 'grad_norm': 2.709553745045623, 'learning_rate': 9.57578085689845e-06, 'epoch': 0.16}
 16%|█▌        | 371/2335 [24:28<2:01:22,  3.71s/it] 16%|█▌        | 372/2335 [24:31<2:01:55,  3.73s/it]                                                    {'loss': 0.318, 'grad_norm': 2.582029866473802, 'learning_rate': 9.572979689331402e-06, 'epoch': 0.16}
 16%|█▌        | 372/2335 [24:31<2:01:55,  3.73s/it] 16%|█▌        | 373/2335 [24:35<2:02:08,  3.74s/it]                                                    {'loss': 0.3283, 'grad_norm': 2.67013882624578, 'learning_rate': 9.570169716424899e-06, 'epoch': 0.16}
 16%|█▌        | 373/2335 [24:35<2:02:08,  3.74s/it] 16%|█▌        | 374/2335 [24:39<2:01:19,  3.71s/it]                                                    {'loss': 0.2551, 'grad_norm': 2.602878279394627, 'learning_rate': 9.567350943589585e-06, 'epoch': 0.16}
 16%|█▌        | 374/2335 [24:39<2:01:19,  3.71s/it] 16%|█▌        | 375/2335 [24:43<2:02:01,  3.74s/it]                                                    {'loss': 0.2928, 'grad_norm': 2.7482517974172436, 'learning_rate': 9.564523376253047e-06, 'epoch': 0.16}
 16%|█▌        | 375/2335 [24:43<2:02:01,  3.74s/it] 16%|█▌        | 376/2335 [24:46<2:01:47,  3.73s/it]                                                    {'loss': 0.2689, 'grad_norm': 2.8501392462065196, 'learning_rate': 9.56168701985981e-06, 'epoch': 0.16}
 16%|█▌        | 376/2335 [24:46<2:01:47,  3.73s/it] 16%|█▌        | 377/2335 [24:50<2:00:44,  3.70s/it]                                                    {'loss': 0.2871, 'grad_norm': 3.0193479203885585, 'learning_rate': 9.558841879871316e-06, 'epoch': 0.16}
 16%|█▌        | 377/2335 [24:50<2:00:44,  3.70s/it] 16%|█▌        | 378/2335 [24:54<1:59:47,  3.67s/it]                                                    {'loss': 0.2587, 'grad_norm': 2.891660304392641, 'learning_rate': 9.555987961765929e-06, 'epoch': 0.16}
 16%|█▌        | 378/2335 [24:54<1:59:47,  3.67s/it] 16%|█▌        | 379/2335 [24:57<1:59:25,  3.66s/it]                                                    {'loss': 0.2919, 'grad_norm': 3.0477518929806475, 'learning_rate': 9.553125271038905e-06, 'epoch': 0.16}
 16%|█▌        | 379/2335 [24:57<1:59:25,  3.66s/it] 16%|█▋        | 380/2335 [25:01<1:59:25,  3.67s/it]                                                    {'loss': 0.3056, 'grad_norm': 3.282166749133352, 'learning_rate': 9.5502538132024e-06, 'epoch': 0.16}
 16%|█▋        | 380/2335 [25:01<1:59:25,  3.67s/it] 16%|█▋        | 381/2335 [25:05<2:00:30,  3.70s/it]                                                    {'loss': 0.3557, 'grad_norm': 3.2957211971706717, 'learning_rate': 9.547373593785447e-06, 'epoch': 0.16}
 16%|█▋        | 381/2335 [25:05<2:00:30,  3.70s/it] 16%|█▋        | 382/2335 [25:10<2:11:47,  4.05s/it]                                                    {'loss': 0.2582, 'grad_norm': 2.6592266411926238, 'learning_rate': 9.54448461833395e-06, 'epoch': 0.16}
 16%|█▋        | 382/2335 [25:10<2:11:47,  4.05s/it] 16%|█▋        | 383/2335 [25:14<2:10:16,  4.00s/it]                                                    {'loss': 0.2773, 'grad_norm': 2.7433710705818646, 'learning_rate': 9.541586892410674e-06, 'epoch': 0.16}
 16%|█▋        | 383/2335 [25:14<2:10:16,  4.00s/it] 16%|█▋        | 384/2335 [25:17<2:07:33,  3.92s/it]                                                    {'loss': 0.274, 'grad_norm': 2.700179813984929, 'learning_rate': 9.538680421595236e-06, 'epoch': 0.16}
 16%|█▋        | 384/2335 [25:17<2:07:33,  3.92s/it] 16%|█▋        | 385/2335 [25:21<2:05:26,  3.86s/it]                                                    {'loss': 0.2358, 'grad_norm': 2.53026612487461, 'learning_rate': 9.535765211484083e-06, 'epoch': 0.16}
 16%|█▋        | 385/2335 [25:21<2:05:26,  3.86s/it] 17%|█▋        | 386/2335 [25:25<2:04:24,  3.83s/it]                                                    {'loss': 0.3676, 'grad_norm': 3.138091388945966, 'learning_rate': 9.532841267690499e-06, 'epoch': 0.17}
 17%|█▋        | 386/2335 [25:25<2:04:24,  3.83s/it] 17%|█▋        | 387/2335 [25:28<2:03:49,  3.81s/it]                                                    {'loss': 0.3044, 'grad_norm': 2.585803647887988, 'learning_rate': 9.52990859584458e-06, 'epoch': 0.17}
 17%|█▋        | 387/2335 [25:28<2:03:49,  3.81s/it] 17%|█▋        | 388/2335 [25:32<2:03:39,  3.81s/it]                                                    {'loss': 0.2733, 'grad_norm': 2.5322733040064445, 'learning_rate': 9.526967201593225e-06, 'epoch': 0.17}
 17%|█▋        | 388/2335 [25:32<2:03:39,  3.81s/it] 17%|█▋        | 389/2335 [25:36<2:03:55,  3.82s/it]                                                    {'loss': 0.2889, 'grad_norm': 2.8551833071379615, 'learning_rate': 9.524017090600135e-06, 'epoch': 0.17}
 17%|█▋        | 389/2335 [25:36<2:03:55,  3.82s/it] 17%|█▋        | 390/2335 [25:40<2:03:49,  3.82s/it]                                                    {'loss': 0.2963, 'grad_norm': 2.6891507553347465, 'learning_rate': 9.521058268545792e-06, 'epoch': 0.17}
 17%|█▋        | 390/2335 [25:40<2:03:49,  3.82s/it] 17%|█▋        | 391/2335 [25:44<2:02:50,  3.79s/it]                                                    {'loss': 0.3164, 'grad_norm': 3.1802706896710466, 'learning_rate': 9.518090741127451e-06, 'epoch': 0.17}
 17%|█▋        | 391/2335 [25:44<2:02:50,  3.79s/it] 17%|█▋        | 392/2335 [25:49<2:14:45,  4.16s/it]                                                    {'loss': 0.2631, 'grad_norm': 2.839364438841274, 'learning_rate': 9.515114514059127e-06, 'epoch': 0.17}
 17%|█▋        | 392/2335 [25:49<2:14:45,  4.16s/it] 17%|█▋        | 393/2335 [25:52<2:09:43,  4.01s/it]                                                    {'loss': 0.2856, 'grad_norm': 2.7370040666976037, 'learning_rate': 9.512129593071593e-06, 'epoch': 0.17}
 17%|█▋        | 393/2335 [25:52<2:09:43,  4.01s/it] 17%|█▋        | 394/2335 [25:56<2:06:26,  3.91s/it]                                                    {'loss': 0.2676, 'grad_norm': 2.638797872092445, 'learning_rate': 9.509135983912356e-06, 'epoch': 0.17}
 17%|█▋        | 394/2335 [25:56<2:06:26,  3.91s/it] 17%|█▋        | 395/2335 [26:00<2:04:43,  3.86s/it]                                                    {'loss': 0.2906, 'grad_norm': 2.996836288605135, 'learning_rate': 9.506133692345655e-06, 'epoch': 0.17}
 17%|█▋        | 395/2335 [26:00<2:04:43,  3.86s/it] 17%|█▋        | 396/2335 [26:03<2:03:06,  3.81s/it]                                                    {'loss': 0.3078, 'grad_norm': 3.0016211801643995, 'learning_rate': 9.503122724152445e-06, 'epoch': 0.17}
 17%|█▋        | 396/2335 [26:03<2:03:06,  3.81s/it] 17%|█▋        | 397/2335 [26:07<2:02:34,  3.79s/it]                                                    {'loss': 0.2929, 'grad_norm': 2.839457258188891, 'learning_rate': 9.500103085130391e-06, 'epoch': 0.17}
 17%|█▋        | 397/2335 [26:07<2:02:34,  3.79s/it] 17%|█▋        | 398/2335 [26:11<2:02:23,  3.79s/it]                                                    {'loss': 0.3245, 'grad_norm': 2.556126097010031, 'learning_rate': 9.497074781093851e-06, 'epoch': 0.17}
 17%|█▋        | 398/2335 [26:11<2:02:23,  3.79s/it] 17%|█▋        | 399/2335 [26:15<2:01:56,  3.78s/it]                                                    {'loss': 0.2919, 'grad_norm': 2.730086174938734, 'learning_rate': 9.49403781787387e-06, 'epoch': 0.17}
 17%|█▋        | 399/2335 [26:15<2:01:56,  3.78s/it] 17%|█▋        | 400/2335 [26:19<2:01:55,  3.78s/it]                                                    {'loss': 0.2898, 'grad_norm': 2.7661879079272884, 'learning_rate': 9.490992201318165e-06, 'epoch': 0.17}
 17%|█▋        | 400/2335 [26:19<2:01:55,  3.78s/it] 17%|█▋        | 401/2335 [26:22<2:00:33,  3.74s/it]                                                    {'loss': 0.2839, 'grad_norm': 2.713817879712303, 'learning_rate': 9.487937937291113e-06, 'epoch': 0.17}
 17%|█▋        | 401/2335 [26:22<2:00:33,  3.74s/it] 17%|█▋        | 402/2335 [26:26<2:00:28,  3.74s/it]                                                    {'loss': 0.268, 'grad_norm': 2.629056862090074, 'learning_rate': 9.48487503167375e-06, 'epoch': 0.17}
 17%|█▋        | 402/2335 [26:26<2:00:28,  3.74s/it] 17%|█▋        | 403/2335 [26:30<2:01:22,  3.77s/it]                                                    {'loss': 0.3011, 'grad_norm': 2.7325159020937515, 'learning_rate': 9.481803490363739e-06, 'epoch': 0.17}
 17%|█▋        | 403/2335 [26:30<2:01:22,  3.77s/it] 17%|█▋        | 404/2335 [26:35<2:15:44,  4.22s/it]                                                    {'loss': 0.3057, 'grad_norm': 3.0889786120683684, 'learning_rate': 9.47872331927538e-06, 'epoch': 0.17}
 17%|█▋        | 404/2335 [26:35<2:15:44,  4.22s/it] 17%|█▋        | 405/2335 [26:39<2:11:42,  4.09s/it]                                                    {'loss': 0.269, 'grad_norm': 2.8927795008135746, 'learning_rate': 9.47563452433959e-06, 'epoch': 0.17}
 17%|█▋        | 405/2335 [26:39<2:11:42,  4.09s/it] 17%|█▋        | 406/2335 [26:43<2:09:05,  4.02s/it]                                                    {'loss': 0.3005, 'grad_norm': 3.045137322567884, 'learning_rate': 9.472537111503887e-06, 'epoch': 0.17}
 17%|█▋        | 406/2335 [26:43<2:09:05,  4.02s/it] 17%|█▋        | 407/2335 [26:46<2:05:39,  3.91s/it]                                                    {'loss': 0.2887, 'grad_norm': 2.8353936590649873, 'learning_rate': 9.469431086732385e-06, 'epoch': 0.17}
 17%|█▋        | 407/2335 [26:46<2:05:39,  3.91s/it] 17%|█▋        | 408/2335 [26:50<2:03:50,  3.86s/it]                                                    {'loss': 0.2971, 'grad_norm': 2.754140180590903, 'learning_rate': 9.466316456005783e-06, 'epoch': 0.17}
 17%|█▋        | 408/2335 [26:50<2:03:50,  3.86s/it] 18%|█▊        | 409/2335 [26:54<2:03:08,  3.84s/it]                                                    {'loss': 0.3472, 'grad_norm': 2.962677150288555, 'learning_rate': 9.46319322532134e-06, 'epoch': 0.18}
 18%|█▊        | 409/2335 [26:54<2:03:08,  3.84s/it] 18%|█▊        | 410/2335 [26:58<2:01:54,  3.80s/it]                                                    {'loss': 0.2878, 'grad_norm': 2.5475723641278063, 'learning_rate': 9.460061400692892e-06, 'epoch': 0.18}
 18%|█▊        | 410/2335 [26:58<2:01:54,  3.80s/it] 18%|█▊        | 411/2335 [27:01<2:00:08,  3.75s/it]                                                    {'loss': 0.3281, 'grad_norm': 2.7419333566902027, 'learning_rate': 9.456920988150809e-06, 'epoch': 0.18}
 18%|█▊        | 411/2335 [27:01<2:00:08,  3.75s/it] 18%|█▊        | 412/2335 [27:05<1:59:59,  3.74s/it]                                                    {'loss': 0.2221, 'grad_norm': 2.5240073923683393, 'learning_rate': 9.453771993742e-06, 'epoch': 0.18}
 18%|█▊        | 412/2335 [27:05<1:59:59,  3.74s/it] 18%|█▊        | 413/2335 [27:09<1:58:54,  3.71s/it]                                                    {'loss': 0.2514, 'grad_norm': 2.546823466775969, 'learning_rate': 9.450614423529903e-06, 'epoch': 0.18}
 18%|█▊        | 413/2335 [27:09<1:58:54,  3.71s/it] 18%|█▊        | 414/2335 [27:12<1:59:34,  3.73s/it]                                                    {'loss': 0.2792, 'grad_norm': 2.5636903460818763, 'learning_rate': 9.447448283594462e-06, 'epoch': 0.18}
 18%|█▊        | 414/2335 [27:12<1:59:34,  3.73s/it] 18%|█▊        | 415/2335 [27:16<2:00:01,  3.75s/it]                                                    {'loss': 0.3303, 'grad_norm': 2.928601970221406, 'learning_rate': 9.444273580032131e-06, 'epoch': 0.18}
 18%|█▊        | 415/2335 [27:16<2:00:01,  3.75s/it] 18%|█▊        | 416/2335 [27:20<1:58:25,  3.70s/it]                                                    {'loss': 0.2554, 'grad_norm': 2.732904407005547, 'learning_rate': 9.441090318955843e-06, 'epoch': 0.18}
 18%|█▊        | 416/2335 [27:20<1:58:25,  3.70s/it] 18%|█▊        | 417/2335 [27:23<1:58:44,  3.71s/it]                                                    {'loss': 0.2886, 'grad_norm': 2.857294808752289, 'learning_rate': 9.437898506495017e-06, 'epoch': 0.18}
 18%|█▊        | 417/2335 [27:23<1:58:44,  3.71s/it] 18%|█▊        | 418/2335 [27:27<1:58:33,  3.71s/it]                                                    {'loss': 0.362, 'grad_norm': 3.2654998593234947, 'learning_rate': 9.434698148795534e-06, 'epoch': 0.18}
 18%|█▊        | 418/2335 [27:27<1:58:33,  3.71s/it] 18%|█▊        | 419/2335 [27:31<1:58:32,  3.71s/it]                                                    {'loss': 0.2763, 'grad_norm': 2.731272621997461, 'learning_rate': 9.431489252019731e-06, 'epoch': 0.18}
 18%|█▊        | 419/2335 [27:31<1:58:32,  3.71s/it] 18%|█▊        | 420/2335 [27:35<1:58:32,  3.71s/it]                                                    {'loss': 0.2955, 'grad_norm': 2.6276937787402486, 'learning_rate': 9.428271822346384e-06, 'epoch': 0.18}
 18%|█▊        | 420/2335 [27:35<1:58:32,  3.71s/it] 18%|█▊        | 421/2335 [27:38<1:57:30,  3.68s/it]                                                    {'loss': 0.2662, 'grad_norm': 2.6030068966618716, 'learning_rate': 9.425045865970702e-06, 'epoch': 0.18}
 18%|█▊        | 421/2335 [27:38<1:57:30,  3.68s/it] 18%|█▊        | 422/2335 [27:42<1:59:46,  3.76s/it]                                                    {'loss': 0.3144, 'grad_norm': 2.6409437938311715, 'learning_rate': 9.42181138910431e-06, 'epoch': 0.18}
 18%|█▊        | 422/2335 [27:42<1:59:46,  3.76s/it] 18%|█▊        | 423/2335 [27:46<1:59:24,  3.75s/it]                                                    {'loss': 0.3332, 'grad_norm': 2.9340026596200914, 'learning_rate': 9.418568397975241e-06, 'epoch': 0.18}
 18%|█▊        | 423/2335 [27:46<1:59:24,  3.75s/it] 18%|█▊        | 424/2335 [27:50<1:59:09,  3.74s/it]                                                    {'loss': 0.3017, 'grad_norm': 2.8125969363697636, 'learning_rate': 9.415316898827923e-06, 'epoch': 0.18}
 18%|█▊        | 424/2335 [27:50<1:59:09,  3.74s/it] 18%|█▊        | 425/2335 [27:53<1:59:06,  3.74s/it]                                                    {'loss': 0.2695, 'grad_norm': 2.871668226012186, 'learning_rate': 9.412056897923163e-06, 'epoch': 0.18}
 18%|█▊        | 425/2335 [27:53<1:59:06,  3.74s/it] 18%|█▊        | 426/2335 [27:57<1:59:31,  3.76s/it]                                                    {'loss': 0.3003, 'grad_norm': 2.712741584619187, 'learning_rate': 9.408788401538145e-06, 'epoch': 0.18}
 18%|█▊        | 426/2335 [27:57<1:59:31,  3.76s/it] 18%|█▊        | 427/2335 [28:01<2:00:16,  3.78s/it]                                                    {'loss': 0.2672, 'grad_norm': 2.608522991577543, 'learning_rate': 9.405511415966403e-06, 'epoch': 0.18}
 18%|█▊        | 427/2335 [28:01<2:00:16,  3.78s/it] 18%|█▊        | 428/2335 [28:05<1:59:02,  3.75s/it]                                                    {'loss': 0.2956, 'grad_norm': 2.7666912423822265, 'learning_rate': 9.402225947517822e-06, 'epoch': 0.18}
 18%|█▊        | 428/2335 [28:05<1:59:02,  3.75s/it] 18%|█▊        | 429/2335 [28:08<1:58:36,  3.73s/it]                                                    {'loss': 0.2678, 'grad_norm': 3.1078195807771913, 'learning_rate': 9.398932002518619e-06, 'epoch': 0.18}
 18%|█▊        | 429/2335 [28:08<1:58:36,  3.73s/it] 18%|█▊        | 430/2335 [28:12<1:58:37,  3.74s/it]                                                    {'loss': 0.2338, 'grad_norm': 2.491069662996318, 'learning_rate': 9.395629587311334e-06, 'epoch': 0.18}
 18%|█▊        | 430/2335 [28:12<1:58:37,  3.74s/it] 18%|█▊        | 431/2335 [28:16<1:58:46,  3.74s/it]                                                    {'loss': 0.2694, 'grad_norm': 2.6419449138886444, 'learning_rate': 9.392318708254818e-06, 'epoch': 0.18}
 18%|█▊        | 431/2335 [28:16<1:58:46,  3.74s/it] 19%|█▊        | 432/2335 [28:20<1:59:30,  3.77s/it]                                                    {'loss': 0.2698, 'grad_norm': 2.870646620414496, 'learning_rate': 9.388999371724212e-06, 'epoch': 0.19}
 19%|█▊        | 432/2335 [28:20<1:59:30,  3.77s/it] 19%|█▊        | 433/2335 [28:23<1:58:28,  3.74s/it]                                                    {'loss': 0.273, 'grad_norm': 2.874540177176191, 'learning_rate': 9.385671584110952e-06, 'epoch': 0.19}
 19%|█▊        | 433/2335 [28:23<1:58:28,  3.74s/it] 19%|█▊        | 434/2335 [28:27<1:57:15,  3.70s/it]                                                    {'loss': 0.2578, 'grad_norm': 2.93441715492951, 'learning_rate': 9.382335351822738e-06, 'epoch': 0.19}
 19%|█▊        | 434/2335 [28:27<1:57:15,  3.70s/it] 19%|█▊        | 435/2335 [28:31<1:56:44,  3.69s/it]                                                    {'loss': 0.2906, 'grad_norm': 2.6926411654427502, 'learning_rate': 9.378990681283538e-06, 'epoch': 0.19}
 19%|█▊        | 435/2335 [28:31<1:56:44,  3.69s/it] 19%|█▊        | 436/2335 [28:34<1:55:50,  3.66s/it]                                                    {'loss': 0.2851, 'grad_norm': 2.907626158579969, 'learning_rate': 9.37563757893356e-06, 'epoch': 0.19}
 19%|█▊        | 436/2335 [28:34<1:55:50,  3.66s/it] 19%|█▊        | 437/2335 [28:38<1:56:07,  3.67s/it]                                                    {'loss': 0.2696, 'grad_norm': 2.7080622182675635, 'learning_rate': 9.372276051229257e-06, 'epoch': 0.19}
 19%|█▊        | 437/2335 [28:38<1:56:07,  3.67s/it] 19%|█▉        | 438/2335 [28:42<1:56:59,  3.70s/it]                                                    {'loss': 0.2756, 'grad_norm': 2.715006133169729, 'learning_rate': 9.368906104643295e-06, 'epoch': 0.19}
 19%|█▉        | 438/2335 [28:42<1:56:59,  3.70s/it] 19%|█▉        | 439/2335 [28:45<1:57:32,  3.72s/it]                                                    {'loss': 0.2994, 'grad_norm': 2.6769516042409216, 'learning_rate': 9.365527745664558e-06, 'epoch': 0.19}
 19%|█▉        | 439/2335 [28:45<1:57:32,  3.72s/it] 19%|█▉        | 440/2335 [28:49<1:58:22,  3.75s/it]                                                    {'loss': 0.3008, 'grad_norm': 2.7718719302187482, 'learning_rate': 9.362140980798127e-06, 'epoch': 0.19}
 19%|█▉        | 440/2335 [28:49<1:58:22,  3.75s/it] 19%|█▉        | 441/2335 [28:53<1:57:16,  3.72s/it]                                                    {'loss': 0.2738, 'grad_norm': 2.7522962198137146, 'learning_rate': 9.358745816565264e-06, 'epoch': 0.19}
 19%|█▉        | 441/2335 [28:53<1:57:16,  3.72s/it] 19%|█▉        | 442/2335 [28:57<1:58:25,  3.75s/it]                                                    {'loss': 0.2596, 'grad_norm': 2.5730941874861086, 'learning_rate': 9.355342259503409e-06, 'epoch': 0.19}
 19%|█▉        | 442/2335 [28:57<1:58:25,  3.75s/it] 19%|█▉        | 443/2335 [29:00<1:57:20,  3.72s/it]                                                    {'loss': 0.2661, 'grad_norm': 2.76012632240573, 'learning_rate': 9.351930316166162e-06, 'epoch': 0.19}
 19%|█▉        | 443/2335 [29:00<1:57:20,  3.72s/it] 19%|█▉        | 444/2335 [29:04<1:57:19,  3.72s/it]                                                    {'loss': 0.3119, 'grad_norm': 2.702863973589719, 'learning_rate': 9.34850999312327e-06, 'epoch': 0.19}
 19%|█▉        | 444/2335 [29:04<1:57:19,  3.72s/it] 19%|█▉        | 445/2335 [29:08<1:56:21,  3.69s/it]                                                    {'loss': 0.3261, 'grad_norm': 2.8359298412516956, 'learning_rate': 9.345081296960613e-06, 'epoch': 0.19}
 19%|█▉        | 445/2335 [29:08<1:56:21,  3.69s/it] 19%|█▉        | 446/2335 [29:12<1:57:05,  3.72s/it]                                                    {'loss': 0.2875, 'grad_norm': 2.722001348512975, 'learning_rate': 9.341644234280198e-06, 'epoch': 0.19}
 19%|█▉        | 446/2335 [29:12<1:57:05,  3.72s/it] 19%|█▉        | 447/2335 [29:15<1:56:56,  3.72s/it]                                                    {'loss': 0.2794, 'grad_norm': 2.55240186204932, 'learning_rate': 9.33819881170014e-06, 'epoch': 0.19}
 19%|█▉        | 447/2335 [29:15<1:56:56,  3.72s/it] 19%|█▉        | 448/2335 [29:19<1:56:02,  3.69s/it]                                                    {'loss': 0.3265, 'grad_norm': 2.706781809311813, 'learning_rate': 9.334745035854646e-06, 'epoch': 0.19}
 19%|█▉        | 448/2335 [29:19<1:56:02,  3.69s/it] 19%|█▉        | 449/2335 [29:22<1:55:31,  3.68s/it]                                                    {'loss': 0.3022, 'grad_norm': 2.842290589649882, 'learning_rate': 9.331282913394017e-06, 'epoch': 0.19}
 19%|█▉        | 449/2335 [29:22<1:55:31,  3.68s/it] 19%|█▉        | 450/2335 [29:26<1:56:16,  3.70s/it]                                                    {'loss': 0.291, 'grad_norm': 2.7160832488410445, 'learning_rate': 9.32781245098462e-06, 'epoch': 0.19}
 19%|█▉        | 450/2335 [29:26<1:56:16,  3.70s/it] 19%|█▉        | 451/2335 [29:30<1:56:02,  3.70s/it]                                                    {'loss': 0.2749, 'grad_norm': 2.7800977198341488, 'learning_rate': 9.324333655308881e-06, 'epoch': 0.19}
 19%|█▉        | 451/2335 [29:30<1:56:02,  3.70s/it] 19%|█▉        | 452/2335 [29:34<1:56:51,  3.72s/it]                                                    {'loss': 0.3093, 'grad_norm': 3.0639358366547644, 'learning_rate': 9.32084653306527e-06, 'epoch': 0.19}
 19%|█▉        | 452/2335 [29:34<1:56:51,  3.72s/it] 19%|█▉        | 453/2335 [29:37<1:57:02,  3.73s/it]                                                    {'loss': 0.2872, 'grad_norm': 2.758106120000733, 'learning_rate': 9.317351090968294e-06, 'epoch': 0.19}
 19%|█▉        | 453/2335 [29:37<1:57:02,  3.73s/it] 19%|█▉        | 454/2335 [29:41<1:57:31,  3.75s/it]                                                    {'loss': 0.256, 'grad_norm': 2.4881662407164296, 'learning_rate': 9.313847335748479e-06, 'epoch': 0.19}
 19%|█▉        | 454/2335 [29:41<1:57:31,  3.75s/it] 19%|█▉        | 455/2335 [29:45<1:57:12,  3.74s/it]                                                    {'loss': 0.2894, 'grad_norm': 2.65375148985648, 'learning_rate': 9.310335274152353e-06, 'epoch': 0.19}
 19%|█▉        | 455/2335 [29:45<1:57:12,  3.74s/it] 20%|█▉        | 456/2335 [29:49<1:58:13,  3.77s/it]                                                    {'loss': 0.3106, 'grad_norm': 2.891011423305799, 'learning_rate': 9.306814912942445e-06, 'epoch': 0.2}
 20%|█▉        | 456/2335 [29:49<1:58:13,  3.77s/it] 20%|█▉        | 457/2335 [29:53<1:58:37,  3.79s/it]                                                    {'loss': 0.3039, 'grad_norm': 2.667916565905268, 'learning_rate': 9.303286258897261e-06, 'epoch': 0.2}
 20%|█▉        | 457/2335 [29:53<1:58:37,  3.79s/it] 20%|█▉        | 458/2335 [29:56<1:58:33,  3.79s/it]                                                    {'loss': 0.2787, 'grad_norm': 2.9698080084204226, 'learning_rate': 9.29974931881128e-06, 'epoch': 0.2}
 20%|█▉        | 458/2335 [29:56<1:58:33,  3.79s/it] 20%|█▉        | 459/2335 [30:00<1:57:04,  3.74s/it]                                                    {'loss': 0.2794, 'grad_norm': 2.6231457879079785, 'learning_rate': 9.296204099494926e-06, 'epoch': 0.2}
 20%|█▉        | 459/2335 [30:00<1:57:04,  3.74s/it] 20%|█▉        | 460/2335 [30:04<1:55:58,  3.71s/it]                                                    {'loss': 0.2832, 'grad_norm': 2.8378624661954124, 'learning_rate': 9.292650607774576e-06, 'epoch': 0.2}
 20%|█▉        | 460/2335 [30:04<1:55:58,  3.71s/it] 20%|█▉        | 461/2335 [30:07<1:56:22,  3.73s/it]                                                    {'loss': 0.2757, 'grad_norm': 2.9837251823934574, 'learning_rate': 9.289088850492526e-06, 'epoch': 0.2}
 20%|█▉        | 461/2335 [30:07<1:56:22,  3.73s/it] 20%|█▉        | 462/2335 [30:11<1:56:19,  3.73s/it]                                                    {'loss': 0.2974, 'grad_norm': 2.8985624617324928, 'learning_rate': 9.285518834506994e-06, 'epoch': 0.2}
 20%|█▉        | 462/2335 [30:11<1:56:19,  3.73s/it] 20%|█▉        | 463/2335 [30:15<1:55:34,  3.70s/it]                                                    {'loss': 0.3178, 'grad_norm': 2.8368612681165066, 'learning_rate': 9.2819405666921e-06, 'epoch': 0.2}
 20%|█▉        | 463/2335 [30:15<1:55:34,  3.70s/it] 20%|█▉        | 464/2335 [30:19<1:56:09,  3.72s/it]                                                    {'loss': 0.3246, 'grad_norm': 2.732334501356763, 'learning_rate': 9.278354053937848e-06, 'epoch': 0.2}
 20%|█▉        | 464/2335 [30:19<1:56:09,  3.72s/it] 20%|█▉        | 465/2335 [30:22<1:56:30,  3.74s/it]                                                    {'loss': 0.2689, 'grad_norm': 2.4932142258920207, 'learning_rate': 9.274759303150123e-06, 'epoch': 0.2}
 20%|█▉        | 465/2335 [30:22<1:56:30,  3.74s/it] 20%|█▉        | 466/2335 [30:26<1:56:05,  3.73s/it]                                                    {'loss': 0.2596, 'grad_norm': 2.7261407686428862, 'learning_rate': 9.271156321250669e-06, 'epoch': 0.2}
 20%|█▉        | 466/2335 [30:26<1:56:05,  3.73s/it] 20%|██        | 467/2335 [30:31<2:06:26,  4.06s/it]                                                    {'loss': 0.2827, 'grad_norm': 2.7133101480245987, 'learning_rate': 9.26754511517708e-06, 'epoch': 0.2}
 20%|██        | 467/2335 [30:31<2:06:26,  4.06s/it] 20%|██        | 468/2335 [30:35<2:02:29,  3.94s/it]                                                    {'loss': 0.2973, 'grad_norm': 2.813205957360494, 'learning_rate': 9.26392569188279e-06, 'epoch': 0.2}
 20%|██        | 468/2335 [30:35<2:02:29,  3.94s/it] 20%|██        | 469/2335 [30:38<1:59:45,  3.85s/it]                                                    {'loss': 0.3169, 'grad_norm': 2.7237082688070893, 'learning_rate': 9.260298058337046e-06, 'epoch': 0.2}
 20%|██        | 469/2335 [30:38<1:59:45,  3.85s/it] 20%|██        | 470/2335 [30:42<1:58:05,  3.80s/it]                                                    {'loss': 0.2658, 'grad_norm': 2.6679298718976234, 'learning_rate': 9.256662221524913e-06, 'epoch': 0.2}
 20%|██        | 470/2335 [30:42<1:58:05,  3.80s/it] 20%|██        | 471/2335 [30:46<1:57:42,  3.79s/it]                                                    {'loss': 0.3285, 'grad_norm': 3.404621768018313, 'learning_rate': 9.25301818844725e-06, 'epoch': 0.2}
 20%|██        | 471/2335 [30:46<1:57:42,  3.79s/it] 20%|██        | 472/2335 [30:49<1:56:21,  3.75s/it]                                                    {'loss': 0.2499, 'grad_norm': 2.6199490573721045, 'learning_rate': 9.249365966120692e-06, 'epoch': 0.2}
 20%|██        | 472/2335 [30:49<1:56:21,  3.75s/it] 20%|██        | 473/2335 [30:53<1:55:25,  3.72s/it]                                                    {'loss': 0.2814, 'grad_norm': 2.9966402258073797, 'learning_rate': 9.245705561577647e-06, 'epoch': 0.2}
 20%|██        | 473/2335 [30:53<1:55:25,  3.72s/it] 20%|██        | 474/2335 [30:57<1:55:03,  3.71s/it]                                                    {'loss': 0.2864, 'grad_norm': 2.807056592715456, 'learning_rate': 9.24203698186628e-06, 'epoch': 0.2}
 20%|██        | 474/2335 [30:57<1:55:03,  3.71s/it] 20%|██        | 475/2335 [31:00<1:55:52,  3.74s/it]                                                    {'loss': 0.3248, 'grad_norm': 2.7082932370826045, 'learning_rate': 9.238360234050496e-06, 'epoch': 0.2}
 20%|██        | 475/2335 [31:00<1:55:52,  3.74s/it] 20%|██        | 476/2335 [31:04<1:56:29,  3.76s/it]                                                    {'loss': 0.2749, 'grad_norm': 2.726914694256749, 'learning_rate': 9.234675325209923e-06, 'epoch': 0.2}
 20%|██        | 476/2335 [31:04<1:56:29,  3.76s/it] 20%|██        | 477/2335 [31:08<1:55:25,  3.73s/it]                                                    {'loss': 0.292, 'grad_norm': 2.9105177927160035, 'learning_rate': 9.230982262439909e-06, 'epoch': 0.2}
 20%|██        | 477/2335 [31:08<1:55:25,  3.73s/it] 20%|██        | 478/2335 [31:12<1:54:49,  3.71s/it]                                                    {'loss': 0.256, 'grad_norm': 2.6660428672251775, 'learning_rate': 9.2272810528515e-06, 'epoch': 0.2}
 20%|██        | 478/2335 [31:12<1:54:49,  3.71s/it] 21%|██        | 479/2335 [31:15<1:55:42,  3.74s/it]                                                    {'loss': 0.264, 'grad_norm': 2.4234955324416436, 'learning_rate': 9.22357170357143e-06, 'epoch': 0.21}
 21%|██        | 479/2335 [31:15<1:55:42,  3.74s/it] 21%|██        | 480/2335 [31:19<1:57:43,  3.81s/it]                                                    {'loss': 0.3332, 'grad_norm': 2.615169467158398, 'learning_rate': 9.219854221742106e-06, 'epoch': 0.21}
 21%|██        | 480/2335 [31:19<1:57:43,  3.81s/it] 21%|██        | 481/2335 [31:23<1:57:17,  3.80s/it]                                                    {'loss': 0.2928, 'grad_norm': 2.77798421215127, 'learning_rate': 9.216128614521593e-06, 'epoch': 0.21}
 21%|██        | 481/2335 [31:23<1:57:17,  3.80s/it] 21%|██        | 482/2335 [31:27<1:57:43,  3.81s/it]                                                    {'loss': 0.293, 'grad_norm': 2.87300808185799, 'learning_rate': 9.212394889083602e-06, 'epoch': 0.21}
 21%|██        | 482/2335 [31:27<1:57:43,  3.81s/it] 21%|██        | 483/2335 [31:31<1:55:46,  3.75s/it]                                                    {'loss': 0.2407, 'grad_norm': 2.655305382164315, 'learning_rate': 9.208653052617475e-06, 'epoch': 0.21}
 21%|██        | 483/2335 [31:31<1:55:46,  3.75s/it] 21%|██        | 484/2335 [31:34<1:55:17,  3.74s/it]                                                    {'loss': 0.3509, 'grad_norm': 2.8663212374181115, 'learning_rate': 9.204903112328177e-06, 'epoch': 0.21}
 21%|██        | 484/2335 [31:34<1:55:17,  3.74s/it] 21%|██        | 485/2335 [31:38<1:54:30,  3.71s/it]                                                    {'loss': 0.2525, 'grad_norm': 2.617725879271642, 'learning_rate': 9.201145075436269e-06, 'epoch': 0.21}
 21%|██        | 485/2335 [31:38<1:54:30,  3.71s/it] 21%|██        | 486/2335 [31:42<1:54:04,  3.70s/it]                                                    {'loss': 0.2673, 'grad_norm': 2.785239825315732, 'learning_rate': 9.197378949177908e-06, 'epoch': 0.21}
 21%|██        | 486/2335 [31:42<1:54:04,  3.70s/it] 21%|██        | 487/2335 [31:46<1:55:40,  3.76s/it]                                                    {'loss': 0.2636, 'grad_norm': 2.8687553597089535, 'learning_rate': 9.193604740804825e-06, 'epoch': 0.21}
 21%|██        | 487/2335 [31:46<1:55:40,  3.76s/it] 21%|██        | 488/2335 [31:49<1:54:52,  3.73s/it]                                                    {'loss': 0.2556, 'grad_norm': 2.8344396376911067, 'learning_rate': 9.189822457584311e-06, 'epoch': 0.21}
 21%|██        | 488/2335 [31:49<1:54:52,  3.73s/it] 21%|██        | 489/2335 [31:53<1:54:10,  3.71s/it]                                                    {'loss': 0.292, 'grad_norm': 2.586551019365263, 'learning_rate': 9.186032106799214e-06, 'epoch': 0.21}
 21%|██        | 489/2335 [31:53<1:54:10,  3.71s/it] 21%|██        | 490/2335 [31:57<1:53:49,  3.70s/it]                                                    {'loss': 0.282, 'grad_norm': 3.0259303641461637, 'learning_rate': 9.182233695747905e-06, 'epoch': 0.21}
 21%|██        | 490/2335 [31:57<1:53:49,  3.70s/it] 21%|██        | 491/2335 [32:00<1:53:35,  3.70s/it]                                                    {'loss': 0.2817, 'grad_norm': 2.8391174465456617, 'learning_rate': 9.17842723174428e-06, 'epoch': 0.21}
 21%|██        | 491/2335 [32:00<1:53:35,  3.70s/it] 21%|██        | 492/2335 [32:04<1:53:01,  3.68s/it]                                                    {'loss': 0.2606, 'grad_norm': 2.7308244721849553, 'learning_rate': 9.174612722117744e-06, 'epoch': 0.21}
 21%|██        | 492/2335 [32:04<1:53:01,  3.68s/it] 21%|██        | 493/2335 [32:08<1:54:54,  3.74s/it]                                                    {'loss': 0.2829, 'grad_norm': 2.6838280594419754, 'learning_rate': 9.17079017421319e-06, 'epoch': 0.21}
 21%|██        | 493/2335 [32:08<1:54:54,  3.74s/it] 21%|██        | 494/2335 [32:12<1:54:48,  3.74s/it]                                                    {'loss': 0.3245, 'grad_norm': 3.0057860512993373, 'learning_rate': 9.16695959539099e-06, 'epoch': 0.21}
 21%|██        | 494/2335 [32:12<1:54:48,  3.74s/it] 21%|██        | 495/2335 [32:15<1:56:12,  3.79s/it]                                                    {'loss': 0.2857, 'grad_norm': 2.830474213273471, 'learning_rate': 9.163120993026979e-06, 'epoch': 0.21}
 21%|██        | 495/2335 [32:15<1:56:12,  3.79s/it] 21%|██        | 496/2335 [32:19<1:55:38,  3.77s/it]                                                    {'loss': 0.2848, 'grad_norm': 2.7520297941840375, 'learning_rate': 9.159274374512444e-06, 'epoch': 0.21}
 21%|██        | 496/2335 [32:19<1:55:38,  3.77s/it] 21%|██▏       | 497/2335 [32:23<1:55:54,  3.78s/it]                                                    {'loss': 0.2527, 'grad_norm': 2.7072726398893963, 'learning_rate': 9.155419747254103e-06, 'epoch': 0.21}
 21%|██▏       | 497/2335 [32:23<1:55:54,  3.78s/it] 21%|██▏       | 498/2335 [32:27<1:54:54,  3.75s/it]                                                    {'loss': 0.2713, 'grad_norm': 2.7443696345389186, 'learning_rate': 9.1515571186741e-06, 'epoch': 0.21}
 21%|██▏       | 498/2335 [32:27<1:54:54,  3.75s/it] 21%|██▏       | 499/2335 [32:30<1:54:19,  3.74s/it]                                                    {'loss': 0.2755, 'grad_norm': 2.6537934854510876, 'learning_rate': 9.14768649620998e-06, 'epoch': 0.21}
 21%|██▏       | 499/2335 [32:30<1:54:19,  3.74s/it] 21%|██▏       | 500/2335 [32:34<1:53:30,  3.71s/it]                                                    {'loss': 0.2756, 'grad_norm': 2.5833945302834853, 'learning_rate': 9.143807887314686e-06, 'epoch': 0.21}
 21%|██▏       | 500/2335 [32:34<1:53:30,  3.71s/it] 21%|██▏       | 501/2335 [32:38<1:53:07,  3.70s/it]                                                    {'loss': 0.2217, 'grad_norm': 2.508810572824063, 'learning_rate': 9.139921299456536e-06, 'epoch': 0.21}
 21%|██▏       | 501/2335 [32:38<1:53:07,  3.70s/it] 21%|██▏       | 502/2335 [32:41<1:53:35,  3.72s/it]                                                    {'loss': 0.2941, 'grad_norm': 2.9089742527913285, 'learning_rate': 9.13602674011921e-06, 'epoch': 0.21}
 21%|██▏       | 502/2335 [32:41<1:53:35,  3.72s/it] 22%|██▏       | 503/2335 [32:45<1:54:33,  3.75s/it]                                                    {'loss': 0.2471, 'grad_norm': 2.7871474201045743, 'learning_rate': 9.13212421680174e-06, 'epoch': 0.22}
 22%|██▏       | 503/2335 [32:45<1:54:33,  3.75s/it] 22%|██▏       | 504/2335 [32:49<1:53:37,  3.72s/it]                                                    {'loss': 0.2624, 'grad_norm': 2.7836896917286027, 'learning_rate': 9.128213737018493e-06, 'epoch': 0.22}
 22%|██▏       | 504/2335 [32:49<1:53:37,  3.72s/it] 22%|██▏       | 505/2335 [32:53<1:52:48,  3.70s/it]                                                    {'loss': 0.291, 'grad_norm': 2.9392457547766004, 'learning_rate': 9.124295308299152e-06, 'epoch': 0.22}
 22%|██▏       | 505/2335 [32:53<1:52:48,  3.70s/it] 22%|██▏       | 506/2335 [32:56<1:52:37,  3.69s/it]                                                    {'loss': 0.2977, 'grad_norm': 3.1083243736645354, 'learning_rate': 9.120368938188713e-06, 'epoch': 0.22}
 22%|██▏       | 506/2335 [32:56<1:52:37,  3.69s/it] 22%|██▏       | 507/2335 [33:00<1:53:06,  3.71s/it]                                                    {'loss': 0.2724, 'grad_norm': 2.9813868858293957, 'learning_rate': 9.116434634247457e-06, 'epoch': 0.22}
 22%|██▏       | 507/2335 [33:00<1:53:06,  3.71s/it] 22%|██▏       | 508/2335 [33:05<2:07:48,  4.20s/it]                                                    {'loss': 0.3101, 'grad_norm': 3.097945924789147, 'learning_rate': 9.112492404050944e-06, 'epoch': 0.22}
 22%|██▏       | 508/2335 [33:05<2:07:48,  4.20s/it] 22%|██▏       | 509/2335 [33:09<2:02:15,  4.02s/it]                                                    {'loss': 0.263, 'grad_norm': 2.6912774132555555, 'learning_rate': 9.108542255189998e-06, 'epoch': 0.22}
 22%|██▏       | 509/2335 [33:09<2:02:15,  4.02s/it] 22%|██▏       | 510/2335 [33:13<1:58:40,  3.90s/it]                                                    {'loss': 0.2434, 'grad_norm': 2.657780624839184, 'learning_rate': 9.104584195270685e-06, 'epoch': 0.22}
 22%|██▏       | 510/2335 [33:13<1:58:40,  3.90s/it] 22%|██▏       | 511/2335 [33:16<1:57:19,  3.86s/it]                                                    {'loss': 0.2743, 'grad_norm': 2.6989421901773047, 'learning_rate': 9.10061823191431e-06, 'epoch': 0.22}
 22%|██▏       | 511/2335 [33:16<1:57:19,  3.86s/it] 22%|██▏       | 512/2335 [33:20<1:55:03,  3.79s/it]                                                    {'loss': 0.2789, 'grad_norm': 2.369942512592271, 'learning_rate': 9.096644372757393e-06, 'epoch': 0.22}
 22%|██▏       | 512/2335 [33:20<1:55:03,  3.79s/it] 22%|██▏       | 513/2335 [33:24<1:55:01,  3.79s/it]                                                    {'loss': 0.2138, 'grad_norm': 2.6161843406619765, 'learning_rate': 9.092662625451659e-06, 'epoch': 0.22}
 22%|██▏       | 513/2335 [33:24<1:55:01,  3.79s/it] 22%|██▏       | 514/2335 [33:27<1:53:29,  3.74s/it]                                                    {'loss': 0.227, 'grad_norm': 2.493041086942503, 'learning_rate': 9.08867299766402e-06, 'epoch': 0.22}
 22%|██▏       | 514/2335 [33:27<1:53:29,  3.74s/it] 22%|██▏       | 515/2335 [33:31<1:54:24,  3.77s/it]                                                    {'loss': 0.264, 'grad_norm': 2.398253943020624, 'learning_rate': 9.084675497076562e-06, 'epoch': 0.22}
 22%|██▏       | 515/2335 [33:31<1:54:24,  3.77s/it] 22%|██▏       | 516/2335 [33:35<1:54:54,  3.79s/it]                                                    {'loss': 0.2619, 'grad_norm': 2.8282682350602593, 'learning_rate': 9.08067013138653e-06, 'epoch': 0.22}
 22%|██▏       | 516/2335 [33:35<1:54:54,  3.79s/it] 22%|██▏       | 517/2335 [33:39<1:54:20,  3.77s/it]                                                    {'loss': 0.2123, 'grad_norm': 2.686938794926156, 'learning_rate': 9.07665690830632e-06, 'epoch': 0.22}
 22%|██▏       | 517/2335 [33:39<1:54:20,  3.77s/it] 22%|██▏       | 518/2335 [33:42<1:53:08,  3.74s/it]                                                    {'loss': 0.2221, 'grad_norm': 2.9810019686493283, 'learning_rate': 9.072635835563446e-06, 'epoch': 0.22}
 22%|██▏       | 518/2335 [33:42<1:53:08,  3.74s/it] 22%|██▏       | 519/2335 [33:46<1:53:27,  3.75s/it]                                                    {'loss': 0.3404, 'grad_norm': 3.660695931171815, 'learning_rate': 9.068606920900544e-06, 'epoch': 0.22}
 22%|██▏       | 519/2335 [33:46<1:53:27,  3.75s/it] 22%|██▏       | 520/2335 [33:50<1:52:17,  3.71s/it]                                                    {'loss': 0.2771, 'grad_norm': 3.042182759827938, 'learning_rate': 9.064570172075349e-06, 'epoch': 0.22}
 22%|██▏       | 520/2335 [33:50<1:52:17,  3.71s/it] 22%|██▏       | 521/2335 [33:53<1:51:57,  3.70s/it]                                                    {'loss': 0.2197, 'grad_norm': 2.621419678483974, 'learning_rate': 9.060525596860681e-06, 'epoch': 0.22}
 22%|██▏       | 521/2335 [33:54<1:51:57,  3.70s/it] 22%|██▏       | 522/2335 [33:57<1:51:38,  3.69s/it]                                                    {'loss': 0.2866, 'grad_norm': 2.942350416287861, 'learning_rate': 9.056473203044428e-06, 'epoch': 0.22}
 22%|██▏       | 522/2335 [33:57<1:51:38,  3.69s/it] 22%|██▏       | 523/2335 [34:01<1:51:59,  3.71s/it]                                                    {'loss': 0.2627, 'grad_norm': 2.773803532229209, 'learning_rate': 9.05241299842953e-06, 'epoch': 0.22}
 22%|██▏       | 523/2335 [34:01<1:51:59,  3.71s/it] 22%|██▏       | 524/2335 [34:05<1:51:27,  3.69s/it]                                                    {'loss': 0.2895, 'grad_norm': 2.7514379765673356, 'learning_rate': 9.048344990833978e-06, 'epoch': 0.22}
 22%|██▏       | 524/2335 [34:05<1:51:27,  3.69s/it] 22%|██▏       | 525/2335 [34:10<2:06:13,  4.18s/it]                                                    {'loss': 0.288, 'grad_norm': 2.8043725085329583, 'learning_rate': 9.044269188090774e-06, 'epoch': 0.22}
 22%|██▏       | 525/2335 [34:10<2:06:13,  4.18s/it] 23%|██▎       | 526/2335 [34:14<2:02:55,  4.08s/it]                                                    {'loss': 0.2614, 'grad_norm': 2.7276345504060875, 'learning_rate': 9.040185598047939e-06, 'epoch': 0.23}
 23%|██▎       | 526/2335 [34:14<2:02:55,  4.08s/it] 23%|██▎       | 527/2335 [34:17<1:59:40,  3.97s/it]                                                    {'loss': 0.273, 'grad_norm': 2.8349540267755478, 'learning_rate': 9.036094228568485e-06, 'epoch': 0.23}
 23%|██▎       | 527/2335 [34:17<1:59:40,  3.97s/it] 23%|██▎       | 528/2335 [34:21<1:57:56,  3.92s/it]                                                    {'loss': 0.2909, 'grad_norm': 2.921354775581877, 'learning_rate': 9.031995087530403e-06, 'epoch': 0.23}
 23%|██▎       | 528/2335 [34:21<1:57:56,  3.92s/it] 23%|██▎       | 529/2335 [34:25<1:55:52,  3.85s/it]                                                    {'loss': 0.2753, 'grad_norm': 2.746487448732942, 'learning_rate': 9.027888182826652e-06, 'epoch': 0.23}
 23%|██▎       | 529/2335 [34:25<1:55:52,  3.85s/it] 23%|██▎       | 530/2335 [34:29<1:54:45,  3.81s/it]                                                    {'loss': 0.261, 'grad_norm': 2.5841852196510113, 'learning_rate': 9.023773522365133e-06, 'epoch': 0.23}
 23%|██▎       | 530/2335 [34:29<1:54:45,  3.81s/it] 23%|██▎       | 531/2335 [34:33<1:55:11,  3.83s/it]                                                    {'loss': 0.2827, 'grad_norm': 2.9583828966731547, 'learning_rate': 9.019651114068689e-06, 'epoch': 0.23}
 23%|██▎       | 531/2335 [34:33<1:55:11,  3.83s/it] 23%|██▎       | 532/2335 [34:36<1:53:55,  3.79s/it]                                                    {'loss': 0.2425, 'grad_norm': 2.8200390113879688, 'learning_rate': 9.015520965875073e-06, 'epoch': 0.23}
 23%|██▎       | 532/2335 [34:36<1:53:55,  3.79s/it] 23%|██▎       | 533/2335 [34:40<1:53:59,  3.80s/it]                                                    {'loss': 0.2704, 'grad_norm': 2.9305060386116337, 'learning_rate': 9.011383085736951e-06, 'epoch': 0.23}
 23%|██▎       | 533/2335 [34:40<1:53:59,  3.80s/it] 23%|██▎       | 534/2335 [34:44<1:53:09,  3.77s/it]                                                    {'loss': 0.2998, 'grad_norm': 2.768148619691505, 'learning_rate': 9.007237481621869e-06, 'epoch': 0.23}
 23%|██▎       | 534/2335 [34:44<1:53:09,  3.77s/it] 23%|██▎       | 535/2335 [34:48<1:53:04,  3.77s/it]                                                    {'loss': 0.3059, 'grad_norm': 2.703874033408789, 'learning_rate': 9.003084161512249e-06, 'epoch': 0.23}
 23%|██▎       | 535/2335 [34:48<1:53:04,  3.77s/it] 23%|██▎       | 536/2335 [34:51<1:53:11,  3.77s/it]                                                    {'loss': 0.2621, 'grad_norm': 2.7254003838740912, 'learning_rate': 8.99892313340537e-06, 'epoch': 0.23}
 23%|██▎       | 536/2335 [34:51<1:53:11,  3.77s/it] 23%|██▎       | 537/2335 [34:55<1:52:05,  3.74s/it]                                                    {'loss': 0.2825, 'grad_norm': 2.7164757971250975, 'learning_rate': 8.994754405313353e-06, 'epoch': 0.23}
 23%|██▎       | 537/2335 [34:55<1:52:05,  3.74s/it] 23%|██▎       | 538/2335 [34:59<1:52:48,  3.77s/it]                                                    {'loss': 0.2815, 'grad_norm': 2.5708047327060073, 'learning_rate': 8.990577985263144e-06, 'epoch': 0.23}
 23%|██▎       | 538/2335 [34:59<1:52:48,  3.77s/it] 23%|██▎       | 539/2335 [35:02<1:51:25,  3.72s/it]                                                    {'loss': 0.2446, 'grad_norm': 2.775849385531009, 'learning_rate': 8.986393881296502e-06, 'epoch': 0.23}
 23%|██▎       | 539/2335 [35:02<1:51:25,  3.72s/it] 23%|██▎       | 540/2335 [35:06<1:51:07,  3.71s/it]                                                    {'loss': 0.2961, 'grad_norm': 2.556984883612775, 'learning_rate': 8.98220210146998e-06, 'epoch': 0.23}
 23%|██▎       | 540/2335 [35:06<1:51:07,  3.71s/it] 23%|██▎       | 541/2335 [35:10<1:50:27,  3.69s/it]                                                    {'loss': 0.2632, 'grad_norm': 2.7532968904105397, 'learning_rate': 8.978002653854913e-06, 'epoch': 0.23}
 23%|██▎       | 541/2335 [35:10<1:50:27,  3.69s/it] 23%|██▎       | 542/2335 [35:14<1:51:27,  3.73s/it]                                                    {'loss': 0.2218, 'grad_norm': 2.5220759904608903, 'learning_rate': 8.973795546537396e-06, 'epoch': 0.23}
 23%|██▎       | 542/2335 [35:14<1:51:27,  3.73s/it] 23%|██▎       | 543/2335 [35:17<1:51:05,  3.72s/it]                                                    {'loss': 0.2806, 'grad_norm': 3.063622977631629, 'learning_rate': 8.96958078761828e-06, 'epoch': 0.23}
 23%|██▎       | 543/2335 [35:17<1:51:05,  3.72s/it] 23%|██▎       | 544/2335 [35:21<1:50:21,  3.70s/it]                                                    {'loss': 0.299, 'grad_norm': 3.0743762447891876, 'learning_rate': 8.96535838521314e-06, 'epoch': 0.23}
 23%|██▎       | 544/2335 [35:21<1:50:21,  3.70s/it] 23%|██▎       | 545/2335 [35:25<1:51:12,  3.73s/it]                                                    {'loss': 0.2611, 'grad_norm': 2.7755576262001727, 'learning_rate': 8.961128347452278e-06, 'epoch': 0.23}
 23%|██▎       | 545/2335 [35:25<1:51:12,  3.73s/it] 23%|██▎       | 546/2335 [35:29<1:51:47,  3.75s/it]                                                    {'loss': 0.2563, 'grad_norm': 2.5137418776530547, 'learning_rate': 8.956890682480692e-06, 'epoch': 0.23}
 23%|██▎       | 546/2335 [35:29<1:51:47,  3.75s/it] 23%|██▎       | 547/2335 [35:32<1:51:20,  3.74s/it]                                                    {'loss': 0.2706, 'grad_norm': 2.4805398553498175, 'learning_rate': 8.952645398458067e-06, 'epoch': 0.23}
 23%|██▎       | 547/2335 [35:32<1:51:20,  3.74s/it] 23%|██▎       | 548/2335 [35:36<1:50:48,  3.72s/it]                                                    {'loss': 0.2769, 'grad_norm': 2.8302167346803118, 'learning_rate': 8.948392503558763e-06, 'epoch': 0.23}
 23%|██▎       | 548/2335 [35:36<1:50:48,  3.72s/it] 24%|██▎       | 549/2335 [35:40<1:50:55,  3.73s/it]                                                    {'loss': 0.278, 'grad_norm': 2.716525926661055, 'learning_rate': 8.944132005971788e-06, 'epoch': 0.24}
 24%|██▎       | 549/2335 [35:40<1:50:55,  3.73s/it] 24%|██▎       | 550/2335 [35:43<1:51:37,  3.75s/it]                                                    {'loss': 0.2597, 'grad_norm': 2.832578270948385, 'learning_rate': 8.939863913900794e-06, 'epoch': 0.24}
 24%|██▎       | 550/2335 [35:43<1:51:37,  3.75s/it] 24%|██▎       | 551/2335 [35:47<1:51:38,  3.75s/it]                                                    {'loss': 0.3014, 'grad_norm': 2.8437517932334746, 'learning_rate': 8.935588235564054e-06, 'epoch': 0.24}
 24%|██▎       | 551/2335 [35:47<1:51:38,  3.75s/it] 24%|██▎       | 552/2335 [35:51<1:50:57,  3.73s/it]                                                    {'loss': 0.2138, 'grad_norm': 2.572357752206744, 'learning_rate': 8.931304979194452e-06, 'epoch': 0.24}
 24%|██▎       | 552/2335 [35:51<1:50:57,  3.73s/it] 24%|██▎       | 553/2335 [35:55<1:52:10,  3.78s/it]                                                    {'loss': 0.2647, 'grad_norm': 2.876648230962267, 'learning_rate': 8.927014153039458e-06, 'epoch': 0.24}
 24%|██▎       | 553/2335 [35:55<1:52:10,  3.78s/it] 24%|██▎       | 554/2335 [35:58<1:51:32,  3.76s/it]                                                    {'loss': 0.2754, 'grad_norm': 2.7587933168790824, 'learning_rate': 8.922715765361124e-06, 'epoch': 0.24}
 24%|██▎       | 554/2335 [35:58<1:51:32,  3.76s/it] 24%|██▍       | 555/2335 [36:02<1:51:09,  3.75s/it]                                                    {'loss': 0.2691, 'grad_norm': 2.754845940079021, 'learning_rate': 8.918409824436053e-06, 'epoch': 0.24}
 24%|██▍       | 555/2335 [36:02<1:51:09,  3.75s/it] 24%|██▍       | 556/2335 [36:06<1:51:31,  3.76s/it]                                                    {'loss': 0.2979, 'grad_norm': 2.6992976473310195, 'learning_rate': 8.914096338555402e-06, 'epoch': 0.24}
 24%|██▍       | 556/2335 [36:06<1:51:31,  3.76s/it] 24%|██▍       | 557/2335 [36:10<1:52:15,  3.79s/it]                                                    {'loss': 0.2486, 'grad_norm': 2.5372209744830947, 'learning_rate': 8.90977531602485e-06, 'epoch': 0.24}
 24%|██▍       | 557/2335 [36:10<1:52:15,  3.79s/it] 24%|██▍       | 558/2335 [36:14<1:53:15,  3.82s/it]                                                    {'loss': 0.2512, 'grad_norm': 2.466514725378207, 'learning_rate': 8.90544676516459e-06, 'epoch': 0.24}
 24%|██▍       | 558/2335 [36:14<1:53:15,  3.82s/it] 24%|██▍       | 559/2335 [36:18<1:53:26,  3.83s/it]                                                    {'loss': 0.2425, 'grad_norm': 2.7010148539119507, 'learning_rate': 8.90111069430931e-06, 'epoch': 0.24}
 24%|██▍       | 559/2335 [36:18<1:53:26,  3.83s/it] 24%|██▍       | 560/2335 [36:21<1:53:21,  3.83s/it]                                                    {'loss': 0.255, 'grad_norm': 2.6887596119213346, 'learning_rate': 8.896767111808177e-06, 'epoch': 0.24}
 24%|██▍       | 560/2335 [36:21<1:53:21,  3.83s/it] 24%|██▍       | 561/2335 [36:25<1:52:21,  3.80s/it]                                                    {'loss': 0.2472, 'grad_norm': 2.9975852142222723, 'learning_rate': 8.892416026024823e-06, 'epoch': 0.24}
 24%|██▍       | 561/2335 [36:25<1:52:21,  3.80s/it] 24%|██▍       | 562/2335 [36:29<1:50:56,  3.75s/it]                                                    {'loss': 0.2519, 'grad_norm': 2.8742360437603987, 'learning_rate': 8.888057445337328e-06, 'epoch': 0.24}
 24%|██▍       | 562/2335 [36:29<1:50:56,  3.75s/it] 24%|██▍       | 563/2335 [36:32<1:50:10,  3.73s/it]                                                    {'loss': 0.2766, 'grad_norm': 3.056945966573546, 'learning_rate': 8.883691378138201e-06, 'epoch': 0.24}
 24%|██▍       | 563/2335 [36:32<1:50:10,  3.73s/it] 24%|██▍       | 564/2335 [36:36<1:48:57,  3.69s/it]                                                    {'loss': 0.2467, 'grad_norm': 2.9224187087350555, 'learning_rate': 8.879317832834372e-06, 'epoch': 0.24}
 24%|██▍       | 564/2335 [36:36<1:48:57,  3.69s/it] 24%|██▍       | 565/2335 [36:40<1:50:04,  3.73s/it]                                                    {'loss': 0.239, 'grad_norm': 2.4723684593081314, 'learning_rate': 8.874936817847165e-06, 'epoch': 0.24}
 24%|██▍       | 565/2335 [36:40<1:50:04,  3.73s/it] 24%|██▍       | 566/2335 [36:44<1:49:50,  3.73s/it]                                                    {'loss': 0.3201, 'grad_norm': 2.874835582049693, 'learning_rate': 8.870548341612288e-06, 'epoch': 0.24}
 24%|██▍       | 566/2335 [36:44<1:49:50,  3.73s/it] 24%|██▍       | 567/2335 [36:47<1:51:00,  3.77s/it]                                                    {'loss': 0.2596, 'grad_norm': 2.551611678570096, 'learning_rate': 8.866152412579818e-06, 'epoch': 0.24}
 24%|██▍       | 567/2335 [36:47<1:51:00,  3.77s/it] 24%|██▍       | 568/2335 [36:51<1:49:58,  3.73s/it]                                                    {'loss': 0.2549, 'grad_norm': 2.2974389919986247, 'learning_rate': 8.861749039214177e-06, 'epoch': 0.24}
 24%|██▍       | 568/2335 [36:51<1:49:58,  3.73s/it] 24%|██▍       | 569/2335 [36:55<1:50:40,  3.76s/it]                                                    {'loss': 0.2301, 'grad_norm': 2.457688044445882, 'learning_rate': 8.85733822999413e-06, 'epoch': 0.24}
 24%|██▍       | 569/2335 [36:55<1:50:40,  3.76s/it] 24%|██▍       | 570/2335 [36:59<1:51:16,  3.78s/it]                                                    {'loss': 0.3203, 'grad_norm': 2.6746153899168403, 'learning_rate': 8.852919993412751e-06, 'epoch': 0.24}
 24%|██▍       | 570/2335 [36:59<1:51:16,  3.78s/it] 24%|██▍       | 571/2335 [37:02<1:50:07,  3.75s/it]                                                    {'loss': 0.1947, 'grad_norm': 2.3917817747723613, 'learning_rate': 8.848494337977422e-06, 'epoch': 0.24}
 24%|██▍       | 571/2335 [37:02<1:50:07,  3.75s/it] 24%|██▍       | 572/2335 [37:06<1:49:02,  3.71s/it]                                                    {'loss': 0.2339, 'grad_norm': 2.5326094953081606, 'learning_rate': 8.844061272209807e-06, 'epoch': 0.24}
 24%|██▍       | 572/2335 [37:06<1:49:02,  3.71s/it] 25%|██▍       | 573/2335 [37:10<1:47:49,  3.67s/it]                                                    {'loss': 0.2152, 'grad_norm': 2.845925097700425, 'learning_rate': 8.839620804645837e-06, 'epoch': 0.25}
 25%|██▍       | 573/2335 [37:10<1:47:49,  3.67s/it] 25%|██▍       | 574/2335 [37:13<1:47:37,  3.67s/it]                                                    {'loss': 0.2575, 'grad_norm': 2.939647193398751, 'learning_rate': 8.835172943835699e-06, 'epoch': 0.25}
 25%|██▍       | 574/2335 [37:13<1:47:37,  3.67s/it] 25%|██▍       | 575/2335 [37:17<1:47:03,  3.65s/it]                                                    {'loss': 0.273, 'grad_norm': 3.650596380535361, 'learning_rate': 8.830717698343813e-06, 'epoch': 0.25}
 25%|██▍       | 575/2335 [37:17<1:47:03,  3.65s/it] 25%|██▍       | 576/2335 [37:21<1:47:06,  3.65s/it]                                                    {'loss': 0.2102, 'grad_norm': 2.717749688871503, 'learning_rate': 8.826255076748823e-06, 'epoch': 0.25}
 25%|██▍       | 576/2335 [37:21<1:47:06,  3.65s/it] 25%|██▍       | 577/2335 [37:24<1:48:10,  3.69s/it]                                                    {'loss': 0.2791, 'grad_norm': 2.714939559406906, 'learning_rate': 8.821785087643566e-06, 'epoch': 0.25}
 25%|██▍       | 577/2335 [37:24<1:48:10,  3.69s/it] 25%|██▍       | 578/2335 [37:28<1:48:25,  3.70s/it]                                                    {'loss': 0.2973, 'grad_norm': 2.8592978359878773, 'learning_rate': 8.817307739635079e-06, 'epoch': 0.25}
 25%|██▍       | 578/2335 [37:28<1:48:25,  3.70s/it] 25%|██▍       | 579/2335 [37:32<1:47:59,  3.69s/it]                                                    {'loss': 0.2845, 'grad_norm': 2.730960030534237, 'learning_rate': 8.812823041344557e-06, 'epoch': 0.25}
 25%|██▍       | 579/2335 [37:32<1:47:59,  3.69s/it] 25%|██▍       | 580/2335 [37:36<1:48:28,  3.71s/it]                                                    {'loss': 0.2947, 'grad_norm': 2.831720922754365, 'learning_rate': 8.808331001407352e-06, 'epoch': 0.25}
 25%|██▍       | 580/2335 [37:36<1:48:28,  3.71s/it] 25%|██▍       | 581/2335 [37:39<1:48:03,  3.70s/it]                                                    {'loss': 0.2813, 'grad_norm': 2.5300429301007443, 'learning_rate': 8.803831628472955e-06, 'epoch': 0.25}
 25%|██▍       | 581/2335 [37:39<1:48:03,  3.70s/it] 25%|██▍       | 582/2335 [37:43<1:48:24,  3.71s/it]                                                    {'loss': 0.2903, 'grad_norm': 2.6216424316055766, 'learning_rate': 8.799324931204972e-06, 'epoch': 0.25}
 25%|██▍       | 582/2335 [37:43<1:48:24,  3.71s/it] 25%|██▍       | 583/2335 [37:47<1:48:53,  3.73s/it]                                                    {'loss': 0.2323, 'grad_norm': 2.553355913477896, 'learning_rate': 8.794810918281117e-06, 'epoch': 0.25}
 25%|██▍       | 583/2335 [37:47<1:48:53,  3.73s/it] 25%|██▌       | 584/2335 [37:50<1:48:23,  3.71s/it]                                                    {'loss': 0.2715, 'grad_norm': 2.5411084274598035, 'learning_rate': 8.790289598393186e-06, 'epoch': 0.25}
 25%|██▌       | 584/2335 [37:50<1:48:23,  3.71s/it] 25%|██▌       | 585/2335 [37:54<1:48:01,  3.70s/it]                                                    {'loss': 0.2702, 'grad_norm': 2.7187278994009647, 'learning_rate': 8.785760980247051e-06, 'epoch': 0.25}
 25%|██▌       | 585/2335 [37:54<1:48:01,  3.70s/it] 25%|██▌       | 586/2335 [37:58<1:47:20,  3.68s/it]                                                    {'loss': 0.2135, 'grad_norm': 2.685660110859678, 'learning_rate': 8.781225072562627e-06, 'epoch': 0.25}
 25%|██▌       | 586/2335 [37:58<1:47:20,  3.68s/it] 25%|██▌       | 587/2335 [38:01<1:46:40,  3.66s/it]                                                    {'loss': 0.2916, 'grad_norm': 3.1042378895412637, 'learning_rate': 8.776681884073872e-06, 'epoch': 0.25}
 25%|██▌       | 587/2335 [38:01<1:46:40,  3.66s/it] 25%|██▌       | 588/2335 [38:05<1:46:42,  3.67s/it]                                                    {'loss': 0.2766, 'grad_norm': 2.9562441119873344, 'learning_rate': 8.772131423528766e-06, 'epoch': 0.25}
 25%|██▌       | 588/2335 [38:05<1:46:42,  3.67s/it] 25%|██▌       | 589/2335 [38:10<1:56:52,  4.02s/it]                                                    {'loss': 0.2423, 'grad_norm': 2.6964095339195944, 'learning_rate': 8.767573699689284e-06, 'epoch': 0.25}
 25%|██▌       | 589/2335 [38:10<1:56:52,  4.02s/it] 25%|██▌       | 590/2335 [38:14<1:56:32,  4.01s/it]                                                    {'loss': 0.2822, 'grad_norm': 2.8304771385600405, 'learning_rate': 8.76300872133139e-06, 'epoch': 0.25}
 25%|██▌       | 590/2335 [38:14<1:56:32,  4.01s/it] 25%|██▌       | 591/2335 [38:17<1:53:00,  3.89s/it]                                                    {'loss': 0.2467, 'grad_norm': 2.822787579549225, 'learning_rate': 8.758436497245019e-06, 'epoch': 0.25}
 25%|██▌       | 591/2335 [38:17<1:53:00,  3.89s/it] 25%|██▌       | 592/2335 [38:21<1:50:32,  3.81s/it]                                                    {'loss': 0.1982, 'grad_norm': 2.8118302650801055, 'learning_rate': 8.753857036234055e-06, 'epoch': 0.25}
 25%|██▌       | 592/2335 [38:21<1:50:32,  3.81s/it] 25%|██▌       | 593/2335 [38:25<1:49:07,  3.76s/it]                                                    {'loss': 0.2719, 'grad_norm': 3.024144367043807, 'learning_rate': 8.749270347116315e-06, 'epoch': 0.25}
 25%|██▌       | 593/2335 [38:25<1:49:07,  3.76s/it] 25%|██▌       | 594/2335 [38:28<1:48:36,  3.74s/it]                                                    {'loss': 0.2529, 'grad_norm': 2.836820486473772, 'learning_rate': 8.744676438723538e-06, 'epoch': 0.25}
 25%|██▌       | 594/2335 [38:28<1:48:36,  3.74s/it] 25%|██▌       | 595/2335 [38:32<1:50:47,  3.82s/it]                                                    {'loss': 0.3038, 'grad_norm': 2.604855197880593, 'learning_rate': 8.740075319901362e-06, 'epoch': 0.25}
 25%|██▌       | 595/2335 [38:32<1:50:47,  3.82s/it] 26%|██▌       | 596/2335 [38:36<1:49:40,  3.78s/it]                                                    {'loss': 0.2661, 'grad_norm': 2.528126449219841, 'learning_rate': 8.73546699950931e-06, 'epoch': 0.26}
 26%|██▌       | 596/2335 [38:36<1:49:40,  3.78s/it] 26%|██▌       | 597/2335 [38:40<1:49:44,  3.79s/it]                                                    {'loss': 0.2623, 'grad_norm': 2.5231806322741552, 'learning_rate': 8.730851486420768e-06, 'epoch': 0.26}
 26%|██▌       | 597/2335 [38:40<1:49:44,  3.79s/it] 26%|██▌       | 598/2335 [38:44<1:48:38,  3.75s/it]                                                    {'loss': 0.2454, 'grad_norm': 2.4985469916758554, 'learning_rate': 8.726228789522974e-06, 'epoch': 0.26}
 26%|██▌       | 598/2335 [38:44<1:48:38,  3.75s/it] 26%|██▌       | 599/2335 [38:47<1:48:01,  3.73s/it]                                                    {'loss': 0.2516, 'grad_norm': 2.557731837817599, 'learning_rate': 8.721598917717e-06, 'epoch': 0.26}
 26%|██▌       | 599/2335 [38:47<1:48:01,  3.73s/it] 26%|██▌       | 600/2335 [38:51<1:47:31,  3.72s/it]                                                    {'loss': 0.2686, 'grad_norm': 2.778021361752478, 'learning_rate': 8.716961879917734e-06, 'epoch': 0.26}
 26%|██▌       | 600/2335 [38:51<1:47:31,  3.72s/it] 26%|██▌       | 601/2335 [38:55<1:48:30,  3.75s/it]                                                    {'loss': 0.2012, 'grad_norm': 2.8278899679556195, 'learning_rate': 8.712317685053857e-06, 'epoch': 0.26}
 26%|██▌       | 601/2335 [38:55<1:48:30,  3.75s/it] 26%|██▌       | 602/2335 [38:58<1:48:00,  3.74s/it]                                                    {'loss': 0.2558, 'grad_norm': 2.8257899336252392, 'learning_rate': 8.707666342067835e-06, 'epoch': 0.26}
 26%|██▌       | 602/2335 [38:58<1:48:00,  3.74s/it] 26%|██▌       | 603/2335 [39:02<1:47:18,  3.72s/it]                                                    {'loss': 0.2622, 'grad_norm': 2.9227335096789724, 'learning_rate': 8.703007859915897e-06, 'epoch': 0.26}
 26%|██▌       | 603/2335 [39:02<1:47:18,  3.72s/it] 26%|██▌       | 604/2335 [39:06<1:46:42,  3.70s/it]                                                    {'loss': 0.2941, 'grad_norm': 3.004332302678826, 'learning_rate': 8.698342247568021e-06, 'epoch': 0.26}
 26%|██▌       | 604/2335 [39:06<1:46:42,  3.70s/it] 26%|██▌       | 605/2335 [39:10<1:47:36,  3.73s/it]                                                    {'loss': 0.2781, 'grad_norm': 3.1063148937053016, 'learning_rate': 8.69366951400791e-06, 'epoch': 0.26}
 26%|██▌       | 605/2335 [39:10<1:47:36,  3.73s/it] 26%|██▌       | 606/2335 [39:13<1:47:54,  3.74s/it]                                                    {'loss': 0.2441, 'grad_norm': 2.7099631132505633, 'learning_rate': 8.688989668232982e-06, 'epoch': 0.26}
 26%|██▌       | 606/2335 [39:13<1:47:54,  3.74s/it] 26%|██▌       | 607/2335 [39:17<1:47:24,  3.73s/it]                                                    {'loss': 0.1791, 'grad_norm': 2.38249676533993, 'learning_rate': 8.684302719254346e-06, 'epoch': 0.26}
 26%|██▌       | 607/2335 [39:17<1:47:24,  3.73s/it] 26%|██▌       | 608/2335 [39:21<1:46:43,  3.71s/it]                                                    {'loss': 0.2077, 'grad_norm': 2.543865613012074, 'learning_rate': 8.679608676096793e-06, 'epoch': 0.26}
 26%|██▌       | 608/2335 [39:21<1:46:43,  3.71s/it] 26%|██▌       | 609/2335 [39:25<1:47:24,  3.73s/it]                                                    {'loss': 0.2765, 'grad_norm': 2.870770327916057, 'learning_rate': 8.674907547798775e-06, 'epoch': 0.26}
 26%|██▌       | 609/2335 [39:25<1:47:24,  3.73s/it] 26%|██▌       | 610/2335 [39:28<1:48:53,  3.79s/it]                                                    {'loss': 0.2454, 'grad_norm': 2.732220233542284, 'learning_rate': 8.670199343412377e-06, 'epoch': 0.26}
 26%|██▌       | 610/2335 [39:28<1:48:53,  3.79s/it] 26%|██▌       | 611/2335 [39:32<1:48:40,  3.78s/it]                                                    {'loss': 0.2074, 'grad_norm': 2.445416874546525, 'learning_rate': 8.665484072003321e-06, 'epoch': 0.26}
 26%|██▌       | 611/2335 [39:32<1:48:40,  3.78s/it] 26%|██▌       | 612/2335 [39:36<1:49:42,  3.82s/it]                                                    {'loss': 0.2381, 'grad_norm': 2.721048190617264, 'learning_rate': 8.660761742650928e-06, 'epoch': 0.26}
 26%|██▌       | 612/2335 [39:36<1:49:42,  3.82s/it] 26%|██▋       | 613/2335 [39:40<1:48:36,  3.78s/it]                                                    {'loss': 0.2851, 'grad_norm': 2.8589556181159073, 'learning_rate': 8.656032364448113e-06, 'epoch': 0.26}
 26%|██▋       | 613/2335 [39:40<1:48:36,  3.78s/it] 26%|██▋       | 614/2335 [39:44<1:49:03,  3.80s/it]                                                    {'loss': 0.2694, 'grad_norm': 2.646664710494815, 'learning_rate': 8.651295946501366e-06, 'epoch': 0.26}
 26%|██▋       | 614/2335 [39:44<1:49:03,  3.80s/it] 26%|██▋       | 615/2335 [39:47<1:48:13,  3.78s/it]                                                    {'loss': 0.2835, 'grad_norm': 2.926561427528524, 'learning_rate': 8.646552497930725e-06, 'epoch': 0.26}
 26%|██▋       | 615/2335 [39:47<1:48:13,  3.78s/it] 26%|██▋       | 616/2335 [39:51<1:48:19,  3.78s/it]                                                    {'loss': 0.2631, 'grad_norm': 2.6117296474052436, 'learning_rate': 8.641802027869774e-06, 'epoch': 0.26}
 26%|██▋       | 616/2335 [39:51<1:48:19,  3.78s/it] 26%|██▋       | 617/2335 [39:55<1:48:13,  3.78s/it]                                                    {'loss': 0.2925, 'grad_norm': 2.5353432357422343, 'learning_rate': 8.637044545465609e-06, 'epoch': 0.26}
 26%|██▋       | 617/2335 [39:55<1:48:13,  3.78s/it] 26%|██▋       | 618/2335 [39:59<1:47:42,  3.76s/it]                                                    {'loss': 0.2616, 'grad_norm': 2.6022554407363763, 'learning_rate': 8.632280059878835e-06, 'epoch': 0.26}
 26%|██▋       | 618/2335 [39:59<1:47:42,  3.76s/it] 27%|██▋       | 619/2335 [40:02<1:47:31,  3.76s/it]                                                    {'loss': 0.2787, 'grad_norm': 2.3538138944898104, 'learning_rate': 8.627508580283536e-06, 'epoch': 0.27}
 27%|██▋       | 619/2335 [40:02<1:47:31,  3.76s/it] 27%|██▋       | 620/2335 [40:06<1:47:01,  3.74s/it]                                                    {'loss': 0.278, 'grad_norm': 2.69600784967288, 'learning_rate': 8.622730115867268e-06, 'epoch': 0.27}
 27%|██▋       | 620/2335 [40:06<1:47:01,  3.74s/it] 27%|██▋       | 621/2335 [40:10<1:47:34,  3.77s/it]                                                    {'loss': 0.2902, 'grad_norm': 2.8910291661940093, 'learning_rate': 8.617944675831034e-06, 'epoch': 0.27}
 27%|██▋       | 621/2335 [40:10<1:47:34,  3.77s/it] 27%|██▋       | 622/2335 [40:14<1:47:02,  3.75s/it]                                                    {'loss': 0.291, 'grad_norm': 2.8932934364271077, 'learning_rate': 8.613152269389269e-06, 'epoch': 0.27}
 27%|██▋       | 622/2335 [40:14<1:47:02,  3.75s/it] 27%|██▋       | 623/2335 [40:17<1:47:50,  3.78s/it]                                                    {'loss': 0.2406, 'grad_norm': 2.6409204077453645, 'learning_rate': 8.608352905769821e-06, 'epoch': 0.27}
 27%|██▋       | 623/2335 [40:18<1:47:50,  3.78s/it] 27%|██▋       | 624/2335 [40:21<1:47:30,  3.77s/it]                                                    {'loss': 0.2572, 'grad_norm': 2.7086959810803557, 'learning_rate': 8.603546594213935e-06, 'epoch': 0.27}
 27%|██▋       | 624/2335 [40:21<1:47:30,  3.77s/it] 27%|██▋       | 625/2335 [40:25<1:47:43,  3.78s/it]                                                    {'loss': 0.2605, 'grad_norm': 2.7305330992361445, 'learning_rate': 8.598733343976236e-06, 'epoch': 0.27}
 27%|██▋       | 625/2335 [40:25<1:47:43,  3.78s/it] 27%|██▋       | 626/2335 [40:29<1:47:24,  3.77s/it]                                                    {'loss': 0.2978, 'grad_norm': 2.9569887697999904, 'learning_rate': 8.593913164324708e-06, 'epoch': 0.27}
 27%|██▋       | 626/2335 [40:29<1:47:24,  3.77s/it] 27%|██▋       | 627/2335 [40:33<1:47:43,  3.78s/it]                                                    {'loss': 0.2339, 'grad_norm': 2.646670126624379, 'learning_rate': 8.589086064540675e-06, 'epoch': 0.27}
 27%|██▋       | 627/2335 [40:33<1:47:43,  3.78s/it] 27%|██▋       | 628/2335 [40:36<1:47:53,  3.79s/it]                                                    {'loss': 0.2703, 'grad_norm': 2.8792642161625603, 'learning_rate': 8.58425205391879e-06, 'epoch': 0.27}
 27%|██▋       | 628/2335 [40:36<1:47:53,  3.79s/it] 27%|██▋       | 629/2335 [40:40<1:46:44,  3.75s/it]                                                    {'loss': 0.2518, 'grad_norm': 2.8425607674029956, 'learning_rate': 8.579411141767013e-06, 'epoch': 0.27}
 27%|██▋       | 629/2335 [40:40<1:46:44,  3.75s/it] 27%|██▋       | 630/2335 [40:44<1:45:47,  3.72s/it]                                                    {'loss': 0.2677, 'grad_norm': 2.8681762499112033, 'learning_rate': 8.574563337406587e-06, 'epoch': 0.27}
 27%|██▋       | 630/2335 [40:44<1:45:47,  3.72s/it] 27%|██▋       | 631/2335 [40:47<1:45:01,  3.70s/it]                                                    {'loss': 0.2373, 'grad_norm': 2.4763214996668266, 'learning_rate': 8.569708650172037e-06, 'epoch': 0.27}
 27%|██▋       | 631/2335 [40:47<1:45:01,  3.70s/it] 27%|██▋       | 632/2335 [40:51<1:46:00,  3.73s/it]                                                    {'loss': 0.26, 'grad_norm': 2.6063276048909976, 'learning_rate': 8.564847089411128e-06, 'epoch': 0.27}
 27%|██▋       | 632/2335 [40:51<1:46:00,  3.73s/it] 27%|██▋       | 633/2335 [40:55<1:45:07,  3.71s/it]                                                    {'loss': 0.2231, 'grad_norm': 2.636022388967572, 'learning_rate': 8.55997866448487e-06, 'epoch': 0.27}
 27%|██▋       | 633/2335 [40:55<1:45:07,  3.71s/it] 27%|██▋       | 634/2335 [40:59<1:45:11,  3.71s/it]                                                    {'loss': 0.2425, 'grad_norm': 2.7517202504756995, 'learning_rate': 8.555103384767485e-06, 'epoch': 0.27}
 27%|██▋       | 634/2335 [40:59<1:45:11,  3.71s/it] 27%|██▋       | 635/2335 [41:02<1:44:13,  3.68s/it]                                                    {'loss': 0.2379, 'grad_norm': 2.846118330018806, 'learning_rate': 8.550221259646395e-06, 'epoch': 0.27}
 27%|██▋       | 635/2335 [41:02<1:44:13,  3.68s/it] 27%|██▋       | 636/2335 [41:06<1:43:27,  3.65s/it]                                                    {'loss': 0.2771, 'grad_norm': 2.7753423876247703, 'learning_rate': 8.545332298522207e-06, 'epoch': 0.27}
 27%|██▋       | 636/2335 [41:06<1:43:27,  3.65s/it] 27%|██▋       | 637/2335 [41:10<1:44:43,  3.70s/it]                                                    {'loss': 0.3414, 'grad_norm': 2.857373452787854, 'learning_rate': 8.540436510808684e-06, 'epoch': 0.27}
 27%|██▋       | 637/2335 [41:10<1:44:43,  3.70s/it] 27%|██▋       | 638/2335 [41:13<1:44:29,  3.69s/it]                                                    {'loss': 0.2935, 'grad_norm': 2.932314281465467, 'learning_rate': 8.535533905932739e-06, 'epoch': 0.27}
 27%|██▋       | 638/2335 [41:13<1:44:29,  3.69s/it] 27%|██▋       | 639/2335 [41:17<1:45:35,  3.74s/it]                                                    {'loss': 0.2675, 'grad_norm': 2.633888895218832, 'learning_rate': 8.530624493334408e-06, 'epoch': 0.27}
 27%|██▋       | 639/2335 [41:17<1:45:35,  3.74s/it] 27%|██▋       | 640/2335 [41:21<1:44:15,  3.69s/it]                                                    {'loss': 0.2784, 'grad_norm': 2.704996107958476, 'learning_rate': 8.525708282466839e-06, 'epoch': 0.27}
 27%|██▋       | 640/2335 [41:21<1:44:15,  3.69s/it] 27%|██▋       | 641/2335 [41:25<1:45:41,  3.74s/it]                                                    {'loss': 0.2692, 'grad_norm': 2.753428699530911, 'learning_rate': 8.520785282796265e-06, 'epoch': 0.27}
 27%|██▋       | 641/2335 [41:25<1:45:41,  3.74s/it] 27%|██▋       | 642/2335 [41:28<1:45:41,  3.75s/it]                                                    {'loss': 0.227, 'grad_norm': 2.8076912882391105, 'learning_rate': 8.515855503801996e-06, 'epoch': 0.27}
 27%|██▋       | 642/2335 [41:28<1:45:41,  3.75s/it] 28%|██▊       | 643/2335 [41:32<1:44:45,  3.71s/it]                                                    {'loss': 0.281, 'grad_norm': 2.9277788964177436, 'learning_rate': 8.510918954976394e-06, 'epoch': 0.28}
 28%|██▊       | 643/2335 [41:32<1:44:45,  3.71s/it] 28%|██▊       | 644/2335 [41:36<1:44:09,  3.70s/it]                                                    {'loss': 0.2133, 'grad_norm': 2.547218994049393, 'learning_rate': 8.505975645824858e-06, 'epoch': 0.28}
 28%|██▊       | 644/2335 [41:36<1:44:09,  3.70s/it] 28%|██▊       | 645/2335 [41:39<1:44:02,  3.69s/it]                                                    {'loss': 0.2318, 'grad_norm': 2.742158091727297, 'learning_rate': 8.501025585865797e-06, 'epoch': 0.28}
 28%|██▊       | 645/2335 [41:39<1:44:02,  3.69s/it] 28%|██▊       | 646/2335 [41:43<1:43:42,  3.68s/it]                                                    {'loss': 0.245, 'grad_norm': 2.7909735909331936, 'learning_rate': 8.49606878463063e-06, 'epoch': 0.28}
 28%|██▊       | 646/2335 [41:43<1:43:42,  3.68s/it] 28%|██▊       | 647/2335 [41:47<1:43:13,  3.67s/it]                                                    {'loss': 0.2522, 'grad_norm': 2.7561772366416193, 'learning_rate': 8.491105251663746e-06, 'epoch': 0.28}
 28%|██▊       | 647/2335 [41:47<1:43:13,  3.67s/it] 28%|██▊       | 648/2335 [41:50<1:44:57,  3.73s/it]                                                    {'loss': 0.2698, 'grad_norm': 2.5907461668081364, 'learning_rate': 8.486134996522502e-06, 'epoch': 0.28}
 28%|██▊       | 648/2335 [41:50<1:44:57,  3.73s/it] 28%|██▊       | 649/2335 [41:54<1:44:15,  3.71s/it]                                                    {'loss': 0.2364, 'grad_norm': 2.7280941050607965, 'learning_rate': 8.481158028777197e-06, 'epoch': 0.28}
 28%|██▊       | 649/2335 [41:54<1:44:15,  3.71s/it] 28%|██▊       | 650/2335 [41:58<1:43:22,  3.68s/it]                                                    {'loss': 0.2566, 'grad_norm': 2.75760305870101, 'learning_rate': 8.476174358011056e-06, 'epoch': 0.28}
 28%|██▊       | 650/2335 [41:58<1:43:22,  3.68s/it] 28%|██▊       | 651/2335 [42:01<1:43:59,  3.71s/it]                                                    {'loss': 0.2402, 'grad_norm': 2.6104009135437796, 'learning_rate': 8.471183993820211e-06, 'epoch': 0.28}
 28%|██▊       | 651/2335 [42:01<1:43:59,  3.71s/it] 28%|██▊       | 652/2335 [42:05<1:43:36,  3.69s/it]                                                    {'loss': 0.2136, 'grad_norm': 2.4986741218559025, 'learning_rate': 8.46618694581368e-06, 'epoch': 0.28}
 28%|██▊       | 652/2335 [42:05<1:43:36,  3.69s/it] 28%|██▊       | 653/2335 [42:09<1:43:27,  3.69s/it]                                                    {'loss': 0.2263, 'grad_norm': 2.856414083117755, 'learning_rate': 8.46118322361335e-06, 'epoch': 0.28}
 28%|██▊       | 653/2335 [42:09<1:43:27,  3.69s/it] 28%|██▊       | 654/2335 [42:12<1:42:33,  3.66s/it]                                                    {'loss': 0.216, 'grad_norm': 2.844166642571859, 'learning_rate': 8.456172836853967e-06, 'epoch': 0.28}
 28%|██▊       | 654/2335 [42:12<1:42:33,  3.66s/it] 28%|██▊       | 655/2335 [42:16<1:43:13,  3.69s/it]                                                    {'loss': 0.3161, 'grad_norm': 3.0066001057739613, 'learning_rate': 8.4511557951831e-06, 'epoch': 0.28}
 28%|██▊       | 655/2335 [42:16<1:43:13,  3.69s/it] 28%|██▊       | 656/2335 [42:20<1:43:41,  3.71s/it]                                                    {'loss': 0.2029, 'grad_norm': 2.5797272371890037, 'learning_rate': 8.446132108261136e-06, 'epoch': 0.28}
 28%|██▊       | 656/2335 [42:20<1:43:41,  3.71s/it] 28%|██▊       | 657/2335 [42:24<1:50:58,  3.97s/it]                                                    {'loss': 0.2765, 'grad_norm': 2.871824771303358, 'learning_rate': 8.441101785761261e-06, 'epoch': 0.28}
 28%|██▊       | 657/2335 [42:25<1:50:58,  3.97s/it] 28%|██▊       | 658/2335 [42:28<1:48:11,  3.87s/it]                                                    {'loss': 0.2367, 'grad_norm': 2.8116295161651017, 'learning_rate': 8.436064837369433e-06, 'epoch': 0.28}
 28%|██▊       | 658/2335 [42:28<1:48:11,  3.87s/it] 28%|██▊       | 659/2335 [42:32<1:46:47,  3.82s/it]                                                    {'loss': 0.2092, 'grad_norm': 2.4204129218396613, 'learning_rate': 8.43102127278437e-06, 'epoch': 0.28}
 28%|██▊       | 659/2335 [42:32<1:46:47,  3.82s/it] 28%|██▊       | 660/2335 [42:36<1:45:40,  3.79s/it]                                                    {'loss': 0.2836, 'grad_norm': 2.7085338564807073, 'learning_rate': 8.425971101717528e-06, 'epoch': 0.28}
 28%|██▊       | 660/2335 [42:36<1:45:40,  3.79s/it] 28%|██▊       | 661/2335 [42:39<1:45:59,  3.80s/it]                                                    {'loss': 0.2366, 'grad_norm': 2.576712631333003, 'learning_rate': 8.420914333893089e-06, 'epoch': 0.28}
 28%|██▊       | 661/2335 [42:39<1:45:59,  3.80s/it] 28%|██▊       | 662/2335 [42:43<1:44:28,  3.75s/it]                                                    {'loss': 0.2471, 'grad_norm': 2.63407798004816, 'learning_rate': 8.41585097904793e-06, 'epoch': 0.28}
 28%|██▊       | 662/2335 [42:43<1:44:28,  3.75s/it] 28%|██▊       | 663/2335 [42:47<1:44:47,  3.76s/it]                                                    {'loss': 0.2531, 'grad_norm': 2.490928721303279, 'learning_rate': 8.410781046931618e-06, 'epoch': 0.28}
 28%|██▊       | 663/2335 [42:47<1:44:47,  3.76s/it] 28%|██▊       | 664/2335 [42:50<1:43:19,  3.71s/it]                                                    {'loss': 0.2465, 'grad_norm': 2.9020208014633173, 'learning_rate': 8.405704547306379e-06, 'epoch': 0.28}
 28%|██▊       | 664/2335 [42:50<1:43:19,  3.71s/it] 28%|██▊       | 665/2335 [42:54<1:43:34,  3.72s/it]                                                    {'loss': 0.2357, 'grad_norm': 2.637459635791023, 'learning_rate': 8.40062148994709e-06, 'epoch': 0.28}
 28%|██▊       | 665/2335 [42:54<1:43:34,  3.72s/it] 29%|██▊       | 666/2335 [42:58<1:44:18,  3.75s/it]                                                    {'loss': 0.272, 'grad_norm': 3.1565866759963987, 'learning_rate': 8.395531884641252e-06, 'epoch': 0.29}
 29%|██▊       | 666/2335 [42:58<1:44:18,  3.75s/it] 29%|██▊       | 667/2335 [43:02<1:43:54,  3.74s/it]                                                    {'loss': 0.1915, 'grad_norm': 2.544406917487968, 'learning_rate': 8.390435741188973e-06, 'epoch': 0.29}
 29%|██▊       | 667/2335 [43:02<1:43:54,  3.74s/it] 29%|██▊       | 668/2335 [43:05<1:43:50,  3.74s/it]                                                    {'loss': 0.268, 'grad_norm': 2.857388564673147, 'learning_rate': 8.385333069402952e-06, 'epoch': 0.29}
 29%|██▊       | 668/2335 [43:05<1:43:50,  3.74s/it] 29%|██▊       | 669/2335 [43:09<1:45:14,  3.79s/it]                                                    {'loss': 0.2832, 'grad_norm': 3.035444296592344, 'learning_rate': 8.38022387910846e-06, 'epoch': 0.29}
 29%|██▊       | 669/2335 [43:09<1:45:14,  3.79s/it] 29%|██▊       | 670/2335 [43:13<1:44:31,  3.77s/it]                                                    {'loss': 0.2566, 'grad_norm': 3.0031507133638935, 'learning_rate': 8.375108180143317e-06, 'epoch': 0.29}
 29%|██▊       | 670/2335 [43:13<1:44:31,  3.77s/it] 29%|██▊       | 671/2335 [43:17<1:44:16,  3.76s/it]                                                    {'loss': 0.2777, 'grad_norm': 2.8725296031624854, 'learning_rate': 8.369985982357877e-06, 'epoch': 0.29}
 29%|██▊       | 671/2335 [43:17<1:44:16,  3.76s/it] 29%|██▉       | 672/2335 [43:20<1:43:55,  3.75s/it]                                                    {'loss': 0.234, 'grad_norm': 2.748092760918569, 'learning_rate': 8.364857295615006e-06, 'epoch': 0.29}
 29%|██▉       | 672/2335 [43:21<1:43:55,  3.75s/it] 29%|██▉       | 673/2335 [43:24<1:43:03,  3.72s/it]                                                    {'loss': 0.2508, 'grad_norm': 2.6980601399612683, 'learning_rate': 8.359722129790065e-06, 'epoch': 0.29}
 29%|██▉       | 673/2335 [43:24<1:43:03,  3.72s/it] 29%|██▉       | 674/2335 [43:28<1:42:39,  3.71s/it]                                                    {'loss': 0.2357, 'grad_norm': 2.4694488375293613, 'learning_rate': 8.354580494770894e-06, 'epoch': 0.29}
 29%|██▉       | 674/2335 [43:28<1:42:39,  3.71s/it] 29%|██▉       | 675/2335 [43:32<1:43:06,  3.73s/it]                                                    {'loss': 0.2445, 'grad_norm': 2.330118874428035, 'learning_rate': 8.349432400457783e-06, 'epoch': 0.29}
 29%|██▉       | 675/2335 [43:32<1:43:06,  3.73s/it] 29%|██▉       | 676/2335 [43:35<1:42:29,  3.71s/it]                                                    {'loss': 0.2228, 'grad_norm': 2.4333542284099487, 'learning_rate': 8.344277856763465e-06, 'epoch': 0.29}
 29%|██▉       | 676/2335 [43:35<1:42:29,  3.71s/it] 29%|██▉       | 677/2335 [43:39<1:41:52,  3.69s/it]                                                    {'loss': 0.2348, 'grad_norm': 2.542531887123611, 'learning_rate': 8.339116873613092e-06, 'epoch': 0.29}
 29%|██▉       | 677/2335 [43:39<1:41:52,  3.69s/it] 29%|██▉       | 678/2335 [43:43<1:42:46,  3.72s/it]                                                    {'loss': 0.2409, 'grad_norm': 2.5017105389150127, 'learning_rate': 8.333949460944206e-06, 'epoch': 0.29}
 29%|██▉       | 678/2335 [43:43<1:42:46,  3.72s/it] 29%|██▉       | 679/2335 [43:46<1:42:01,  3.70s/it]                                                    {'loss': 0.2765, 'grad_norm': 2.950151118861109, 'learning_rate': 8.328775628706741e-06, 'epoch': 0.29}
 29%|██▉       | 679/2335 [43:46<1:42:01,  3.70s/it] 29%|██▉       | 680/2335 [43:50<1:41:44,  3.69s/it]                                                    {'loss': 0.2167, 'grad_norm': 2.5633018043499782, 'learning_rate': 8.323595386862985e-06, 'epoch': 0.29}
 29%|██▉       | 680/2335 [43:50<1:41:44,  3.69s/it] 29%|██▉       | 681/2335 [43:54<1:42:32,  3.72s/it]                                                    {'loss': 0.2125, 'grad_norm': 2.837507455743504, 'learning_rate': 8.318408745387574e-06, 'epoch': 0.29}
 29%|██▉       | 681/2335 [43:54<1:42:32,  3.72s/it] 29%|██▉       | 682/2335 [43:57<1:42:08,  3.71s/it]                                                    {'loss': 0.189, 'grad_norm': 2.6632625282648337, 'learning_rate': 8.313215714267454e-06, 'epoch': 0.29}
 29%|██▉       | 682/2335 [43:57<1:42:08,  3.71s/it] 29%|██▉       | 683/2335 [44:01<1:41:46,  3.70s/it]                                                    {'loss': 0.3308, 'grad_norm': 3.18778161362762, 'learning_rate': 8.308016303501891e-06, 'epoch': 0.29}
 29%|██▉       | 683/2335 [44:01<1:41:46,  3.70s/it] 29%|██▉       | 684/2335 [44:05<1:41:02,  3.67s/it]                                                    {'loss': 0.2303, 'grad_norm': 3.0056912826526374, 'learning_rate': 8.302810523102422e-06, 'epoch': 0.29}
 29%|██▉       | 684/2335 [44:05<1:41:02,  3.67s/it] 29%|██▉       | 685/2335 [44:09<1:42:00,  3.71s/it]                                                    {'loss': 0.1918, 'grad_norm': 2.8448319112185265, 'learning_rate': 8.297598383092852e-06, 'epoch': 0.29}
 29%|██▉       | 685/2335 [44:09<1:42:00,  3.71s/it] 29%|██▉       | 686/2335 [44:12<1:41:54,  3.71s/it]                                                    {'loss': 0.2513, 'grad_norm': 3.02010894631402, 'learning_rate': 8.292379893509238e-06, 'epoch': 0.29}
 29%|██▉       | 686/2335 [44:12<1:41:54,  3.71s/it] 29%|██▉       | 687/2335 [44:16<1:42:08,  3.72s/it]                                                    {'loss': 0.255, 'grad_norm': 2.9985742015875774, 'learning_rate': 8.287155064399855e-06, 'epoch': 0.29}
 29%|██▉       | 687/2335 [44:16<1:42:08,  3.72s/it] 29%|██▉       | 688/2335 [44:20<1:42:30,  3.73s/it]                                                    {'loss': 0.2717, 'grad_norm': 2.6312479416780503, 'learning_rate': 8.281923905825188e-06, 'epoch': 0.29}
 29%|██▉       | 688/2335 [44:20<1:42:30,  3.73s/it] 30%|██▉       | 689/2335 [44:24<1:42:24,  3.73s/it]                                                    {'loss': 0.2184, 'grad_norm': 2.628760430795605, 'learning_rate': 8.276686427857909e-06, 'epoch': 0.3}
 30%|██▉       | 689/2335 [44:24<1:42:24,  3.73s/it] 30%|██▉       | 690/2335 [44:27<1:42:25,  3.74s/it]                                                    {'loss': 0.2684, 'grad_norm': 2.566113774288066, 'learning_rate': 8.271442640582863e-06, 'epoch': 0.3}
 30%|██▉       | 690/2335 [44:27<1:42:25,  3.74s/it] 30%|██▉       | 691/2335 [44:31<1:42:29,  3.74s/it]                                                    {'loss': 0.2665, 'grad_norm': 2.508802118322248, 'learning_rate': 8.266192554097035e-06, 'epoch': 0.3}
 30%|██▉       | 691/2335 [44:31<1:42:29,  3.74s/it] 30%|██▉       | 692/2335 [44:36<1:55:01,  4.20s/it]                                                    {'loss': 0.231, 'grad_norm': 2.457965919249878, 'learning_rate': 8.260936178509543e-06, 'epoch': 0.3}
 30%|██▉       | 692/2335 [44:36<1:55:01,  4.20s/it] 30%|██▉       | 693/2335 [44:40<1:50:18,  4.03s/it]                                                    {'loss': 0.2064, 'grad_norm': 2.469227826596439, 'learning_rate': 8.255673523941619e-06, 'epoch': 0.3}
 30%|██▉       | 693/2335 [44:40<1:50:18,  4.03s/it] 30%|██▉       | 694/2335 [44:44<1:49:21,  4.00s/it]                                                    {'loss': 0.2959, 'grad_norm': 3.2497648195472943, 'learning_rate': 8.250404600526579e-06, 'epoch': 0.3}
 30%|██▉       | 694/2335 [44:44<1:49:21,  4.00s/it] 30%|██▉       | 695/2335 [44:48<1:46:44,  3.91s/it]                                                    {'loss': 0.2281, 'grad_norm': 3.2585641829338017, 'learning_rate': 8.245129418409811e-06, 'epoch': 0.3}
 30%|██▉       | 695/2335 [44:48<1:46:44,  3.91s/it] 30%|██▉       | 696/2335 [44:51<1:44:48,  3.84s/it]                                                    {'loss': 0.23, 'grad_norm': 2.576215775504094, 'learning_rate': 8.23984798774876e-06, 'epoch': 0.3}
 30%|██▉       | 696/2335 [44:51<1:44:48,  3.84s/it] 30%|██▉       | 697/2335 [44:55<1:42:49,  3.77s/it]                                                    {'loss': 0.2041, 'grad_norm': 2.724421998477764, 'learning_rate': 8.234560318712894e-06, 'epoch': 0.3}
 30%|██▉       | 697/2335 [44:55<1:42:49,  3.77s/it] 30%|██▉       | 698/2335 [44:59<1:42:58,  3.77s/it]                                                    {'loss': 0.2149, 'grad_norm': 2.739898998139238, 'learning_rate': 8.2292664214837e-06, 'epoch': 0.3}
 30%|██▉       | 698/2335 [44:59<1:42:58,  3.77s/it] 30%|██▉       | 699/2335 [45:02<1:42:24,  3.76s/it]                                                    {'loss': 0.2786, 'grad_norm': 2.8059030976971826, 'learning_rate': 8.223966306254652e-06, 'epoch': 0.3}
 30%|██▉       | 699/2335 [45:02<1:42:24,  3.76s/it] 30%|██▉       | 700/2335 [45:06<1:42:04,  3.75s/it]                                                    {'loss': 0.2351, 'grad_norm': 2.7095496420953906, 'learning_rate': 8.218659983231203e-06, 'epoch': 0.3}
 30%|██▉       | 700/2335 [45:06<1:42:04,  3.75s/it] 30%|███       | 701/2335 [45:10<1:42:41,  3.77s/it]                                                    {'loss': 0.2384, 'grad_norm': 2.5537612315641485, 'learning_rate': 8.213347462630753e-06, 'epoch': 0.3}
 30%|███       | 701/2335 [45:10<1:42:41,  3.77s/it] 30%|███       | 702/2335 [45:14<1:42:46,  3.78s/it]                                                    {'loss': 0.2525, 'grad_norm': 2.793519391509802, 'learning_rate': 8.208028754682637e-06, 'epoch': 0.3}
 30%|███       | 702/2335 [45:14<1:42:46,  3.78s/it] 30%|███       | 703/2335 [45:17<1:42:19,  3.76s/it]                                                    {'loss': 0.2508, 'grad_norm': 2.8461648345294503, 'learning_rate': 8.20270386962811e-06, 'epoch': 0.3}
 30%|███       | 703/2335 [45:17<1:42:19,  3.76s/it] 30%|███       | 704/2335 [45:21<1:41:26,  3.73s/it]                                                    {'loss': 0.2414, 'grad_norm': 2.536967477099415, 'learning_rate': 8.197372817720314e-06, 'epoch': 0.3}
 30%|███       | 704/2335 [45:21<1:41:26,  3.73s/it] 30%|███       | 705/2335 [45:25<1:41:11,  3.72s/it]                                                    {'loss': 0.2265, 'grad_norm': 2.4970543683181736, 'learning_rate': 8.192035609224268e-06, 'epoch': 0.3}
 30%|███       | 705/2335 [45:25<1:41:11,  3.72s/it] 30%|███       | 706/2335 [45:29<1:41:33,  3.74s/it]                                                    {'loss': 0.2736, 'grad_norm': 2.5506404104513782, 'learning_rate': 8.186692254416841e-06, 'epoch': 0.3}
 30%|███       | 706/2335 [45:29<1:41:33,  3.74s/it] 30%|███       | 707/2335 [45:32<1:41:02,  3.72s/it]                                                    {'loss': 0.2795, 'grad_norm': 2.582082036682954, 'learning_rate': 8.181342763586747e-06, 'epoch': 0.3}
 30%|███       | 707/2335 [45:32<1:41:02,  3.72s/it] 30%|███       | 708/2335 [45:36<1:41:41,  3.75s/it]                                                    {'loss': 0.2301, 'grad_norm': 2.5320500573374805, 'learning_rate': 8.175987147034505e-06, 'epoch': 0.3}
 30%|███       | 708/2335 [45:36<1:41:41,  3.75s/it] 30%|███       | 709/2335 [45:40<1:42:02,  3.77s/it]                                                    {'loss': 0.2434, 'grad_norm': 2.683586637788079, 'learning_rate': 8.170625415072437e-06, 'epoch': 0.3}
 30%|███       | 709/2335 [45:40<1:42:02,  3.77s/it] 30%|███       | 710/2335 [45:43<1:41:13,  3.74s/it]                                                    {'loss': 0.2662, 'grad_norm': 2.455483252030546, 'learning_rate': 8.165257578024635e-06, 'epoch': 0.3}
 30%|███       | 710/2335 [45:43<1:41:13,  3.74s/it] 30%|███       | 711/2335 [45:47<1:40:41,  3.72s/it]                                                    {'loss': 0.1963, 'grad_norm': 2.5148160143497016, 'learning_rate': 8.159883646226944e-06, 'epoch': 0.3}
 30%|███       | 711/2335 [45:47<1:40:41,  3.72s/it] 30%|███       | 712/2335 [45:51<1:40:27,  3.71s/it]                                                    {'loss': 0.2467, 'grad_norm': 2.83992913789392, 'learning_rate': 8.154503630026955e-06, 'epoch': 0.3}
 30%|███       | 712/2335 [45:51<1:40:27,  3.71s/it] 31%|███       | 713/2335 [45:55<1:40:02,  3.70s/it]                                                    {'loss': 0.2143, 'grad_norm': 3.1840310771136084, 'learning_rate': 8.149117539783964e-06, 'epoch': 0.31}
 31%|███       | 713/2335 [45:55<1:40:02,  3.70s/it] 31%|███       | 714/2335 [45:58<1:38:58,  3.66s/it]                                                    {'loss': 0.2449, 'grad_norm': 3.098593364752467, 'learning_rate': 8.143725385868967e-06, 'epoch': 0.31}
 31%|███       | 714/2335 [45:58<1:38:58,  3.66s/it] 31%|███       | 715/2335 [46:02<1:39:17,  3.68s/it]                                                    {'loss': 0.232, 'grad_norm': 2.9004250148911126, 'learning_rate': 8.138327178664636e-06, 'epoch': 0.31}
 31%|███       | 715/2335 [46:02<1:39:17,  3.68s/it] 31%|███       | 716/2335 [46:06<1:39:29,  3.69s/it]                                                    {'loss': 0.2375, 'grad_norm': 2.9315899162563523, 'learning_rate': 8.1329229285653e-06, 'epoch': 0.31}
 31%|███       | 716/2335 [46:06<1:39:29,  3.69s/it] 31%|███       | 717/2335 [46:09<1:39:45,  3.70s/it]                                                    {'loss': 0.2679, 'grad_norm': 2.834788897928478, 'learning_rate': 8.127512645976918e-06, 'epoch': 0.31}
 31%|███       | 717/2335 [46:09<1:39:45,  3.70s/it] 31%|███       | 718/2335 [46:13<1:39:18,  3.69s/it]                                                    {'loss': 0.238, 'grad_norm': 2.770020837837968, 'learning_rate': 8.122096341317071e-06, 'epoch': 0.31}
 31%|███       | 718/2335 [46:13<1:39:18,  3.69s/it] 31%|███       | 719/2335 [46:17<1:39:57,  3.71s/it]                                                    {'loss': 0.2395, 'grad_norm': 2.8161848475675235, 'learning_rate': 8.116674025014933e-06, 'epoch': 0.31}
 31%|███       | 719/2335 [46:17<1:39:57,  3.71s/it] 31%|███       | 720/2335 [46:20<1:39:37,  3.70s/it]                                                    {'loss': 0.2339, 'grad_norm': 2.5195277890184977, 'learning_rate': 8.111245707511253e-06, 'epoch': 0.31}
 31%|███       | 720/2335 [46:20<1:39:37,  3.70s/it] 31%|███       | 721/2335 [46:24<1:39:28,  3.70s/it]                                                    {'loss': 0.2446, 'grad_norm': 2.4877494903790303, 'learning_rate': 8.105811399258336e-06, 'epoch': 0.31}
 31%|███       | 721/2335 [46:24<1:39:28,  3.70s/it] 31%|███       | 722/2335 [46:28<1:38:52,  3.68s/it]                                                    {'loss': 0.2083, 'grad_norm': 2.4180401662496758, 'learning_rate': 8.100371110720024e-06, 'epoch': 0.31}
 31%|███       | 722/2335 [46:28<1:38:52,  3.68s/it] 31%|███       | 723/2335 [46:31<1:39:29,  3.70s/it]                                                    {'loss': 0.2167, 'grad_norm': 2.5947996988616486, 'learning_rate': 8.094924852371669e-06, 'epoch': 0.31}
 31%|███       | 723/2335 [46:31<1:39:29,  3.70s/it] 31%|███       | 724/2335 [46:35<1:39:07,  3.69s/it]                                                    {'loss': 0.2101, 'grad_norm': 2.5894560034741185, 'learning_rate': 8.089472634700123e-06, 'epoch': 0.31}
 31%|███       | 724/2335 [46:35<1:39:07,  3.69s/it] 31%|███       | 725/2335 [46:39<1:39:51,  3.72s/it]                                                    {'loss': 0.217, 'grad_norm': 2.719332054149059, 'learning_rate': 8.084014468203712e-06, 'epoch': 0.31}
 31%|███       | 725/2335 [46:39<1:39:51,  3.72s/it] 31%|███       | 726/2335 [46:43<1:39:40,  3.72s/it]                                                    {'loss': 0.218, 'grad_norm': 3.141719866714662, 'learning_rate': 8.078550363392214e-06, 'epoch': 0.31}
 31%|███       | 726/2335 [46:43<1:39:40,  3.72s/it] 31%|███       | 727/2335 [46:46<1:39:18,  3.71s/it]                                                    {'loss': 0.2419, 'grad_norm': 2.8083607750753057, 'learning_rate': 8.073080330786843e-06, 'epoch': 0.31}
 31%|███       | 727/2335 [46:46<1:39:18,  3.71s/it] 31%|███       | 728/2335 [46:50<1:39:17,  3.71s/it]                                                    {'loss': 0.2798, 'grad_norm': 3.109808849630512, 'learning_rate': 8.067604380920228e-06, 'epoch': 0.31}
 31%|███       | 728/2335 [46:50<1:39:17,  3.71s/it] 31%|███       | 729/2335 [46:54<1:39:04,  3.70s/it]                                                    {'loss': 0.2544, 'grad_norm': 2.769000378494559, 'learning_rate': 8.062122524336392e-06, 'epoch': 0.31}
 31%|███       | 729/2335 [46:54<1:39:04,  3.70s/it] 31%|███▏      | 730/2335 [46:57<1:39:23,  3.72s/it]                                                    {'loss': 0.2153, 'grad_norm': 3.0704798706746286, 'learning_rate': 8.056634771590728e-06, 'epoch': 0.31}
 31%|███▏      | 730/2335 [46:57<1:39:23,  3.72s/it] 31%|███▏      | 731/2335 [47:01<1:39:21,  3.72s/it]                                                    {'loss': 0.2395, 'grad_norm': 2.732198626037193, 'learning_rate': 8.051141133249984e-06, 'epoch': 0.31}
 31%|███▏      | 731/2335 [47:01<1:39:21,  3.72s/it] 31%|███▏      | 732/2335 [47:06<1:44:25,  3.91s/it]                                                    {'loss': 0.2375, 'grad_norm': 2.7548409767380084, 'learning_rate': 8.045641619892243e-06, 'epoch': 0.31}
 31%|███▏      | 732/2335 [47:06<1:44:25,  3.91s/it] 31%|███▏      | 733/2335 [47:09<1:42:07,  3.82s/it]                                                    {'loss': 0.2054, 'grad_norm': 2.5128649719465743, 'learning_rate': 8.040136242106898e-06, 'epoch': 0.31}
 31%|███▏      | 733/2335 [47:09<1:42:07,  3.82s/it] 31%|███▏      | 734/2335 [47:13<1:41:28,  3.80s/it]                                                    {'loss': 0.1915, 'grad_norm': 2.458254095411625, 'learning_rate': 8.034625010494634e-06, 'epoch': 0.31}
 31%|███▏      | 734/2335 [47:13<1:41:28,  3.80s/it] 31%|███▏      | 735/2335 [47:17<1:41:08,  3.79s/it]                                                    {'loss': 0.228, 'grad_norm': 2.413763138603634, 'learning_rate': 8.02910793566741e-06, 'epoch': 0.31}
 31%|███▏      | 735/2335 [47:17<1:41:08,  3.79s/it] 32%|███▏      | 736/2335 [47:20<1:40:20,  3.77s/it]                                                    {'loss': 0.2085, 'grad_norm': 2.5363118757333156, 'learning_rate': 8.023585028248435e-06, 'epoch': 0.32}
 32%|███▏      | 736/2335 [47:20<1:40:20,  3.77s/it] 32%|███▏      | 737/2335 [47:24<1:39:39,  3.74s/it]                                                    {'loss': 0.2286, 'grad_norm': 2.6284870944362257, 'learning_rate': 8.018056298872143e-06, 'epoch': 0.32}
 32%|███▏      | 737/2335 [47:24<1:39:39,  3.74s/it] 32%|███▏      | 738/2335 [47:28<1:39:35,  3.74s/it]                                                    {'loss': 0.2236, 'grad_norm': 2.6352010294875896, 'learning_rate': 8.01252175818419e-06, 'epoch': 0.32}
 32%|███▏      | 738/2335 [47:28<1:39:35,  3.74s/it] 32%|███▏      | 739/2335 [47:31<1:38:49,  3.72s/it]                                                    {'loss': 0.2448, 'grad_norm': 2.767686296356742, 'learning_rate': 8.006981416841411e-06, 'epoch': 0.32}
 32%|███▏      | 739/2335 [47:31<1:38:49,  3.72s/it] 32%|███▏      | 740/2335 [47:36<1:46:09,  3.99s/it]                                                    {'loss': 0.2177, 'grad_norm': 2.92177265122786, 'learning_rate': 8.001435285511815e-06, 'epoch': 0.32}
 32%|███▏      | 740/2335 [47:36<1:46:09,  3.99s/it] 32%|███▏      | 741/2335 [47:40<1:43:29,  3.90s/it]                                                    {'loss': 0.2527, 'grad_norm': 2.682347926771566, 'learning_rate': 7.99588337487456e-06, 'epoch': 0.32}
 32%|███▏      | 741/2335 [47:40<1:43:29,  3.90s/it] 32%|███▏      | 742/2335 [47:43<1:41:45,  3.83s/it]                                                    {'loss': 0.2355, 'grad_norm': 3.0105204337611706, 'learning_rate': 7.990325695619933e-06, 'epoch': 0.32}
 32%|███▏      | 742/2335 [47:43<1:41:45,  3.83s/it] 32%|███▏      | 743/2335 [47:47<1:41:33,  3.83s/it]                                                    {'loss': 0.2366, 'grad_norm': 2.588097776150605, 'learning_rate': 7.984762258449325e-06, 'epoch': 0.32}
 32%|███▏      | 743/2335 [47:47<1:41:33,  3.83s/it] 32%|███▏      | 744/2335 [47:52<1:52:35,  4.25s/it]                                                    {'loss': 0.1896, 'grad_norm': 2.8442969935584657, 'learning_rate': 7.979193074075216e-06, 'epoch': 0.32}
 32%|███▏      | 744/2335 [47:52<1:52:35,  4.25s/it] 32%|███▏      | 745/2335 [47:56<1:49:32,  4.13s/it]                                                    {'loss': 0.2975, 'grad_norm': 2.976847624774794, 'learning_rate': 7.97361815322115e-06, 'epoch': 0.32}
 32%|███▏      | 745/2335 [47:56<1:49:32,  4.13s/it] 32%|███▏      | 746/2335 [48:00<1:45:56,  4.00s/it]                                                    {'loss': 0.207, 'grad_norm': 2.636343907475271, 'learning_rate': 7.968037506621724e-06, 'epoch': 0.32}
 32%|███▏      | 746/2335 [48:00<1:45:56,  4.00s/it] 32%|███▏      | 747/2335 [48:04<1:43:27,  3.91s/it]                                                    {'loss': 0.2473, 'grad_norm': 2.7898556464932738, 'learning_rate': 7.962451145022552e-06, 'epoch': 0.32}
 32%|███▏      | 747/2335 [48:04<1:43:27,  3.91s/it] 32%|███▏      | 748/2335 [48:07<1:41:12,  3.83s/it]                                                    {'loss': 0.206, 'grad_norm': 2.3865494143856263, 'learning_rate': 7.956859079180255e-06, 'epoch': 0.32}
 32%|███▏      | 748/2335 [48:07<1:41:12,  3.83s/it][2025-08-05 18:30:19,382] [WARNING] [stage3.py:2118:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
 32%|███▏      | 749/2335 [48:13<1:52:32,  4.26s/it]                                                    {'loss': 0.2477, 'grad_norm': 2.6834514843300976, 'learning_rate': 7.951261319862437e-06, 'epoch': 0.32}
 32%|███▏      | 749/2335 [48:13<1:52:32,  4.26s/it] 32%|███▏      | 750/2335 [48:16<1:49:11,  4.13s/it]                                                    {'loss': 0.2011, 'grad_norm': 2.3343761561570044, 'learning_rate': 7.945657877847669e-06, 'epoch': 0.32}
 32%|███▏      | 750/2335 [48:16<1:49:11,  4.13s/it] 32%|███▏      | 751/2335 [48:20<1:45:57,  4.01s/it]                                                    {'loss': 0.1919, 'grad_norm': 2.395826600085926, 'learning_rate': 7.940048763925456e-06, 'epoch': 0.32}
 32%|███▏      | 751/2335 [48:20<1:45:57,  4.01s/it] 32%|███▏      | 752/2335 [48:24<1:44:05,  3.95s/it]                                                    {'loss': 0.2829, 'grad_norm': 2.6318673831670334, 'learning_rate': 7.934433988896233e-06, 'epoch': 0.32}
 32%|███▏      | 752/2335 [48:24<1:44:05,  3.95s/it] 32%|███▏      | 753/2335 [48:28<1:41:58,  3.87s/it]                                                    {'loss': 0.2389, 'grad_norm': 2.760497816896426, 'learning_rate': 7.92881356357133e-06, 'epoch': 0.32}
 32%|███▏      | 753/2335 [48:28<1:41:58,  3.87s/it] 32%|███▏      | 754/2335 [48:31<1:40:56,  3.83s/it]                                                    {'loss': 0.2052, 'grad_norm': 2.63451595981931, 'learning_rate': 7.923187498772959e-06, 'epoch': 0.32}
 32%|███▏      | 754/2335 [48:31<1:40:56,  3.83s/it] 32%|███▏      | 755/2335 [48:35<1:39:40,  3.79s/it]                                                    {'loss': 0.2538, 'grad_norm': 3.000663928948494, 'learning_rate': 7.91755580533419e-06, 'epoch': 0.32}
 32%|███▏      | 755/2335 [48:35<1:39:40,  3.79s/it] 32%|███▏      | 756/2335 [48:39<1:38:56,  3.76s/it]                                                    {'loss': 0.2452, 'grad_norm': 2.868834854682641, 'learning_rate': 7.911918494098928e-06, 'epoch': 0.32}
 32%|███▏      | 756/2335 [48:39<1:38:56,  3.76s/it] 32%|███▏      | 757/2335 [48:43<1:38:41,  3.75s/it]                                                    {'loss': 0.3025, 'grad_norm': 3.0352073854941426, 'learning_rate': 7.906275575921906e-06, 'epoch': 0.32}
 32%|███▏      | 757/2335 [48:43<1:38:41,  3.75s/it] 32%|███▏      | 758/2335 [48:46<1:37:48,  3.72s/it]                                                    {'loss': 0.2012, 'grad_norm': 2.5720124180583435, 'learning_rate': 7.90062706166864e-06, 'epoch': 0.32}
 32%|███▏      | 758/2335 [48:46<1:37:48,  3.72s/it] 33%|███▎      | 759/2335 [48:51<1:42:53,  3.92s/it]                                                    {'loss': 0.2475, 'grad_norm': 2.6853685533243925, 'learning_rate': 7.894972962215428e-06, 'epoch': 0.33}
 33%|███▎      | 759/2335 [48:51<1:42:53,  3.92s/it] 33%|███▎      | 760/2335 [48:54<1:41:57,  3.88s/it]                                                    {'loss': 0.2885, 'grad_norm': 2.6774556475278497, 'learning_rate': 7.889313288449323e-06, 'epoch': 0.33}
 33%|███▎      | 760/2335 [48:54<1:41:57,  3.88s/it] 33%|███▎      | 761/2335 [48:58<1:40:48,  3.84s/it]                                                    {'loss': 0.2515, 'grad_norm': 2.7544752474111145, 'learning_rate': 7.883648051268107e-06, 'epoch': 0.33}
 33%|███▎      | 761/2335 [48:58<1:40:48,  3.84s/it] 33%|███▎      | 762/2335 [49:02<1:40:50,  3.85s/it]                                                    {'loss': 0.2482, 'grad_norm': 2.6470357024062325, 'learning_rate': 7.877977261580281e-06, 'epoch': 0.33}
 33%|███▎      | 762/2335 [49:02<1:40:50,  3.85s/it] 33%|███▎      | 763/2335 [49:06<1:45:34,  4.03s/it]                                                    {'loss': 0.2341, 'grad_norm': 2.482446229250705, 'learning_rate': 7.87230093030503e-06, 'epoch': 0.33}
 33%|███▎      | 763/2335 [49:06<1:45:34,  4.03s/it] 33%|███▎      | 764/2335 [49:10<1:42:58,  3.93s/it]                                                    {'loss': 0.2553, 'grad_norm': 2.760588538952661, 'learning_rate': 7.866619068372217e-06, 'epoch': 0.33}
 33%|███▎      | 764/2335 [49:10<1:42:58,  3.93s/it] 33%|███▎      | 765/2335 [49:15<1:47:00,  4.09s/it]                                                    {'loss': 0.2594, 'grad_norm': 2.6019999566135157, 'learning_rate': 7.860931686722346e-06, 'epoch': 0.33}
 33%|███▎      | 765/2335 [49:15<1:47:00,  4.09s/it] 33%|███▎      | 766/2335 [49:18<1:43:55,  3.97s/it]                                                    {'loss': 0.2109, 'grad_norm': 2.6424619893843144, 'learning_rate': 7.855238796306558e-06, 'epoch': 0.33}
 33%|███▎      | 766/2335 [49:18<1:43:55,  3.97s/it] 33%|███▎      | 767/2335 [49:22<1:42:51,  3.94s/it]                                                    {'loss': 0.2216, 'grad_norm': 2.335450297648302, 'learning_rate': 7.849540408086592e-06, 'epoch': 0.33}
 33%|███▎      | 767/2335 [49:22<1:42:51,  3.94s/it] 33%|███▎      | 768/2335 [49:26<1:41:15,  3.88s/it]                                                    {'loss': 0.2229, 'grad_norm': 2.380581442416178, 'learning_rate': 7.843836533034784e-06, 'epoch': 0.33}
 33%|███▎      | 768/2335 [49:26<1:41:15,  3.88s/it] 33%|███▎      | 769/2335 [49:30<1:39:48,  3.82s/it]                                                    {'loss': 0.2878, 'grad_norm': 2.8052554744599565, 'learning_rate': 7.838127182134023e-06, 'epoch': 0.33}
 33%|███▎      | 769/2335 [49:30<1:39:48,  3.82s/it] 33%|███▎      | 770/2335 [49:33<1:38:55,  3.79s/it]                                                    {'loss': 0.1831, 'grad_norm': 2.441354266597544, 'learning_rate': 7.832412366377755e-06, 'epoch': 0.33}
 33%|███▎      | 770/2335 [49:33<1:38:55,  3.79s/it] 33%|███▎      | 771/2335 [49:37<1:38:26,  3.78s/it]                                                    {'loss': 0.2374, 'grad_norm': 2.5387454691973446, 'learning_rate': 7.826692096769935e-06, 'epoch': 0.33}
 33%|███▎      | 771/2335 [49:37<1:38:26,  3.78s/it] 33%|███▎      | 772/2335 [49:41<1:37:48,  3.75s/it]                                                    {'loss': 0.2765, 'grad_norm': 3.1416417217819417, 'learning_rate': 7.82096638432503e-06, 'epoch': 0.33}
 33%|███▎      | 772/2335 [49:41<1:37:48,  3.75s/it] 33%|███▎      | 773/2335 [49:45<1:37:48,  3.76s/it]                                                    {'loss': 0.2304, 'grad_norm': 2.774958602309695, 'learning_rate': 7.81523524006798e-06, 'epoch': 0.33}
 33%|███▎      | 773/2335 [49:45<1:37:48,  3.76s/it] 33%|███▎      | 774/2335 [49:48<1:37:15,  3.74s/it]                                                    {'loss': 0.1742, 'grad_norm': 2.306383299294921, 'learning_rate': 7.809498675034191e-06, 'epoch': 0.33}
 33%|███▎      | 774/2335 [49:48<1:37:15,  3.74s/it] 33%|███▎      | 775/2335 [49:52<1:36:38,  3.72s/it]                                                    {'loss': 0.196, 'grad_norm': 2.8049487003742186, 'learning_rate': 7.803756700269501e-06, 'epoch': 0.33}
 33%|███▎      | 775/2335 [49:52<1:36:38,  3.72s/it] 33%|███▎      | 776/2335 [49:56<1:36:06,  3.70s/it]                                                    {'loss': 0.2512, 'grad_norm': 2.6640915421263833, 'learning_rate': 7.798009326830167e-06, 'epoch': 0.33}
 33%|███▎      | 776/2335 [49:56<1:36:06,  3.70s/it] 33%|███▎      | 777/2335 [50:01<1:46:19,  4.09s/it]                                                    {'loss': 0.2487, 'grad_norm': 2.8753907523825455, 'learning_rate': 7.792256565782841e-06, 'epoch': 0.33}
 33%|███▎      | 777/2335 [50:01<1:46:19,  4.09s/it] 33%|███▎      | 778/2335 [50:04<1:43:58,  4.01s/it]                                                    {'loss': 0.2538, 'grad_norm': 2.69166038088852, 'learning_rate': 7.786498428204547e-06, 'epoch': 0.33}
 33%|███▎      | 778/2335 [50:04<1:43:58,  4.01s/it] 33%|███▎      | 779/2335 [50:08<1:41:39,  3.92s/it]                                                    {'loss': 0.2851, 'grad_norm': 3.103868520291351, 'learning_rate': 7.780734925182666e-06, 'epoch': 0.33}
 33%|███▎      | 779/2335 [50:08<1:41:39,  3.92s/it] 33%|███▎      | 780/2335 [50:12<1:40:32,  3.88s/it]                                                    {'loss': 0.2647, 'grad_norm': 2.683604651112579, 'learning_rate': 7.774966067814906e-06, 'epoch': 0.33}
 33%|███▎      | 780/2335 [50:12<1:40:32,  3.88s/it] 33%|███▎      | 781/2335 [50:16<1:38:45,  3.81s/it]                                                    {'loss': 0.2187, 'grad_norm': 2.460845079556041, 'learning_rate': 7.76919186720929e-06, 'epoch': 0.33}
 33%|███▎      | 781/2335 [50:16<1:38:45,  3.81s/it] 33%|███▎      | 782/2335 [50:19<1:38:08,  3.79s/it]                                                    {'loss': 0.2039, 'grad_norm': 2.293937189428902, 'learning_rate': 7.76341233448412e-06, 'epoch': 0.33}
 33%|███▎      | 782/2335 [50:19<1:38:08,  3.79s/it] 34%|███▎      | 783/2335 [50:23<1:36:49,  3.74s/it]                                                    {'loss': 0.2201, 'grad_norm': 2.676324777757, 'learning_rate': 7.757627480767973e-06, 'epoch': 0.34}
 34%|███▎      | 783/2335 [50:23<1:36:49,  3.74s/it] 34%|███▎      | 784/2335 [50:27<1:36:18,  3.73s/it]                                                    {'loss': 0.2263, 'grad_norm': 2.5130815761397254, 'learning_rate': 7.751837317199673e-06, 'epoch': 0.34}
 34%|███▎      | 784/2335 [50:27<1:36:18,  3.73s/it] 34%|███▎      | 785/2335 [50:30<1:36:16,  3.73s/it]                                                    {'loss': 0.2177, 'grad_norm': 2.6395054818886017, 'learning_rate': 7.74604185492826e-06, 'epoch': 0.34}
 34%|███▎      | 785/2335 [50:30<1:36:16,  3.73s/it] 34%|███▎      | 786/2335 [50:34<1:36:38,  3.74s/it]                                                    {'loss': 0.2891, 'grad_norm': 2.6574450808494614, 'learning_rate': 7.740241105112987e-06, 'epoch': 0.34}
 34%|███▎      | 786/2335 [50:34<1:36:38,  3.74s/it] 34%|███▎      | 787/2335 [50:38<1:36:14,  3.73s/it]                                                    {'loss': 0.206, 'grad_norm': 2.740865640111425, 'learning_rate': 7.734435078923276e-06, 'epoch': 0.34}
 34%|███▎      | 787/2335 [50:38<1:36:14,  3.73s/it] 34%|███▎      | 788/2335 [50:41<1:35:52,  3.72s/it]                                                    {'loss': 0.265, 'grad_norm': 3.0383623072291353, 'learning_rate': 7.728623787538722e-06, 'epoch': 0.34}
 34%|███▎      | 788/2335 [50:41<1:35:52,  3.72s/it] 34%|███▍      | 789/2335 [50:45<1:35:15,  3.70s/it]                                                    {'loss': 0.2214, 'grad_norm': 2.6754521966242355, 'learning_rate': 7.722807242149051e-06, 'epoch': 0.34}
 34%|███▍      | 789/2335 [50:45<1:35:15,  3.70s/it] 34%|███▍      | 790/2335 [50:49<1:34:42,  3.68s/it]                                                    {'loss': 0.1947, 'grad_norm': 2.8706342149065027, 'learning_rate': 7.716985453954103e-06, 'epoch': 0.34}
 34%|███▍      | 790/2335 [50:49<1:34:42,  3.68s/it] 34%|███▍      | 791/2335 [50:52<1:34:35,  3.68s/it]                                                    {'loss': 0.2048, 'grad_norm': 2.7131229302173767, 'learning_rate': 7.711158434163817e-06, 'epoch': 0.34}
 34%|███▍      | 791/2335 [50:52<1:34:35,  3.68s/it] 34%|███▍      | 792/2335 [50:56<1:35:11,  3.70s/it]                                                    {'loss': 0.2072, 'grad_norm': 2.5436582392989093, 'learning_rate': 7.705326193998207e-06, 'epoch': 0.34}
 34%|███▍      | 792/2335 [50:56<1:35:11,  3.70s/it] 34%|███▍      | 793/2335 [51:00<1:34:38,  3.68s/it]                                                    {'loss': 0.1721, 'grad_norm': 2.584102283522472, 'learning_rate': 7.699488744687337e-06, 'epoch': 0.34}
 34%|███▍      | 793/2335 [51:00<1:34:38,  3.68s/it] 34%|███▍      | 794/2335 [51:04<1:35:02,  3.70s/it]                                                    {'loss': 0.2664, 'grad_norm': 2.954477286705158, 'learning_rate': 7.6936460974713e-06, 'epoch': 0.34}
 34%|███▍      | 794/2335 [51:04<1:35:02,  3.70s/it] 34%|███▍      | 795/2335 [51:07<1:34:32,  3.68s/it]                                                    {'loss': 0.1972, 'grad_norm': 2.7449494514626935, 'learning_rate': 7.6877982636002e-06, 'epoch': 0.34}
 34%|███▍      | 795/2335 [51:07<1:34:32,  3.68s/it] 34%|███▍      | 796/2335 [51:11<1:35:12,  3.71s/it]                                                    {'loss': 0.2648, 'grad_norm': 2.7119472980015336, 'learning_rate': 7.681945254334126e-06, 'epoch': 0.34}
 34%|███▍      | 796/2335 [51:11<1:35:12,  3.71s/it] 34%|███▍      | 797/2335 [51:15<1:34:59,  3.71s/it]                                                    {'loss': 0.1898, 'grad_norm': 2.6057975881659687, 'learning_rate': 7.676087080943133e-06, 'epoch': 0.34}
 34%|███▍      | 797/2335 [51:15<1:34:59,  3.71s/it] 34%|███▍      | 798/2335 [51:19<1:36:26,  3.76s/it]                                                    {'loss': 0.2738, 'grad_norm': 2.8234723220891724, 'learning_rate': 7.67022375470722e-06, 'epoch': 0.34}
 34%|███▍      | 798/2335 [51:19<1:36:26,  3.76s/it] 34%|███▍      | 799/2335 [51:22<1:35:34,  3.73s/it]                                                    {'loss': 0.2547, 'grad_norm': 2.435000254909467, 'learning_rate': 7.664355286916308e-06, 'epoch': 0.34}
 34%|███▍      | 799/2335 [51:22<1:35:34,  3.73s/it] 34%|███▍      | 800/2335 [51:26<1:35:13,  3.72s/it]                                                    {'loss': 0.2293, 'grad_norm': 2.4658709164097394, 'learning_rate': 7.658481688870218e-06, 'epoch': 0.34}
 34%|███▍      | 800/2335 [51:26<1:35:13,  3.72s/it] 34%|███▍      | 801/2335 [51:30<1:36:51,  3.79s/it]                                                    {'loss': 0.2438, 'grad_norm': 2.5881855046448026, 'learning_rate': 7.652602971878649e-06, 'epoch': 0.34}
 34%|███▍      | 801/2335 [51:30<1:36:51,  3.79s/it] 34%|███▍      | 802/2335 [51:34<1:35:55,  3.75s/it]                                                    {'loss': 0.2101, 'grad_norm': 2.4116697252487747, 'learning_rate': 7.646719147261156e-06, 'epoch': 0.34}
 34%|███▍      | 802/2335 [51:34<1:35:55,  3.75s/it] 34%|███▍      | 803/2335 [51:37<1:36:03,  3.76s/it]                                                    {'loss': 0.2342, 'grad_norm': 2.4902774182610963, 'learning_rate': 7.640830226347133e-06, 'epoch': 0.34}
 34%|███▍      | 803/2335 [51:37<1:36:03,  3.76s/it] 34%|███▍      | 804/2335 [51:41<1:35:39,  3.75s/it]                                                    {'loss': 0.2644, 'grad_norm': 2.942996743161323, 'learning_rate': 7.634936220475777e-06, 'epoch': 0.34}
 34%|███▍      | 804/2335 [51:41<1:35:39,  3.75s/it] 34%|███▍      | 805/2335 [51:45<1:34:35,  3.71s/it]                                                    {'loss': 0.2266, 'grad_norm': 3.047263616032456, 'learning_rate': 7.629037140996089e-06, 'epoch': 0.34}
 34%|███▍      | 805/2335 [51:45<1:34:35,  3.71s/it] 35%|███▍      | 806/2335 [51:48<1:34:52,  3.72s/it]                                                    {'loss': 0.2103, 'grad_norm': 2.5976550135406984, 'learning_rate': 7.6231329992668305e-06, 'epoch': 0.35}
 35%|███▍      | 806/2335 [51:48<1:34:52,  3.72s/it] 35%|███▍      | 807/2335 [51:52<1:33:59,  3.69s/it]                                                    {'loss': 0.2309, 'grad_norm': 2.7697911505542665, 'learning_rate': 7.617223806656513e-06, 'epoch': 0.35}
 35%|███▍      | 807/2335 [51:52<1:33:59,  3.69s/it] 35%|███▍      | 808/2335 [51:56<1:34:28,  3.71s/it]                                                    {'loss': 0.2119, 'grad_norm': 2.597981943824152, 'learning_rate': 7.611309574543373e-06, 'epoch': 0.35}
 35%|███▍      | 808/2335 [51:56<1:34:28,  3.71s/it] 35%|███▍      | 809/2335 [52:00<1:35:26,  3.75s/it]                                                    {'loss': 0.2518, 'grad_norm': 3.1188098042456636, 'learning_rate': 7.605390314315353e-06, 'epoch': 0.35}
 35%|███▍      | 809/2335 [52:00<1:35:26,  3.75s/it] 35%|███▍      | 810/2335 [52:03<1:35:27,  3.76s/it]                                                    {'loss': 0.1897, 'grad_norm': 2.517509765380658, 'learning_rate': 7.599466037370073e-06, 'epoch': 0.35}
 35%|███▍      | 810/2335 [52:03<1:35:27,  3.76s/it] 35%|███▍      | 811/2335 [52:07<1:34:21,  3.71s/it]                                                    {'loss': 0.2294, 'grad_norm': 2.4226219764938075, 'learning_rate': 7.593536755114817e-06, 'epoch': 0.35}
 35%|███▍      | 811/2335 [52:07<1:34:21,  3.71s/it] 35%|███▍      | 812/2335 [52:11<1:34:11,  3.71s/it]                                                    {'loss': 0.2275, 'grad_norm': 2.730692591458189, 'learning_rate': 7.587602478966503e-06, 'epoch': 0.35}
 35%|███▍      | 812/2335 [52:11<1:34:11,  3.71s/it] 35%|███▍      | 813/2335 [52:15<1:35:21,  3.76s/it]                                                    {'loss': 0.2402, 'grad_norm': 3.0417425496244967, 'learning_rate': 7.581663220351669e-06, 'epoch': 0.35}
 35%|███▍      | 813/2335 [52:15<1:35:21,  3.76s/it] 35%|███▍      | 814/2335 [52:18<1:34:27,  3.73s/it]                                                    {'loss': 0.2142, 'grad_norm': 2.6628290059224513, 'learning_rate': 7.575718990706442e-06, 'epoch': 0.35}
 35%|███▍      | 814/2335 [52:18<1:34:27,  3.73s/it] 35%|███▍      | 815/2335 [52:22<1:34:44,  3.74s/it]                                                    {'loss': 0.2074, 'grad_norm': 2.4900785516889634, 'learning_rate': 7.569769801476527e-06, 'epoch': 0.35}
 35%|███▍      | 815/2335 [52:22<1:34:44,  3.74s/it] 35%|███▍      | 816/2335 [52:26<1:34:45,  3.74s/it]                                                    {'loss': 0.2418, 'grad_norm': 2.513681901230348, 'learning_rate': 7.563815664117173e-06, 'epoch': 0.35}
 35%|███▍      | 816/2335 [52:26<1:34:45,  3.74s/it] 35%|███▍      | 817/2335 [52:30<1:35:06,  3.76s/it]                                                    {'loss': 0.1969, 'grad_norm': 2.373118438572732, 'learning_rate': 7.557856590093158e-06, 'epoch': 0.35}
 35%|███▍      | 817/2335 [52:30<1:35:06,  3.76s/it] 35%|███▌      | 818/2335 [52:33<1:35:43,  3.79s/it]                                                    {'loss': 0.2197, 'grad_norm': 2.382816150654525, 'learning_rate': 7.551892590878766e-06, 'epoch': 0.35}
 35%|███▌      | 818/2335 [52:33<1:35:43,  3.79s/it] 35%|███▌      | 819/2335 [52:37<1:35:21,  3.77s/it]                                                    {'loss': 0.1966, 'grad_norm': 2.880317034753188, 'learning_rate': 7.545923677957769e-06, 'epoch': 0.35}
 35%|███▌      | 819/2335 [52:37<1:35:21,  3.77s/it] 35%|███▌      | 820/2335 [52:41<1:34:15,  3.73s/it]                                                    {'loss': 0.174, 'grad_norm': 2.438366574328022, 'learning_rate': 7.5399498628233925e-06, 'epoch': 0.35}
 35%|███▌      | 820/2335 [52:41<1:34:15,  3.73s/it] 35%|███▌      | 821/2335 [52:45<1:34:51,  3.76s/it]                                                    {'loss': 0.2437, 'grad_norm': 2.7000709527410267, 'learning_rate': 7.5339711569783054e-06, 'epoch': 0.35}
 35%|███▌      | 821/2335 [52:45<1:34:51,  3.76s/it] 35%|███▌      | 822/2335 [52:48<1:34:01,  3.73s/it]                                                    {'loss': 0.2119, 'grad_norm': 2.890852072267884, 'learning_rate': 7.527987571934596e-06, 'epoch': 0.35}
 35%|███▌      | 822/2335 [52:48<1:34:01,  3.73s/it] 35%|███▌      | 823/2335 [52:52<1:34:41,  3.76s/it]                                                    {'loss': 0.1815, 'grad_norm': 2.377905288229827, 'learning_rate': 7.521999119213741e-06, 'epoch': 0.35}
 35%|███▌      | 823/2335 [52:52<1:34:41,  3.76s/it] 35%|███▌      | 824/2335 [52:56<1:35:10,  3.78s/it]                                                    {'loss': 0.2132, 'grad_norm': 2.634073051760519, 'learning_rate': 7.5160058103465985e-06, 'epoch': 0.35}
 35%|███▌      | 824/2335 [52:56<1:35:10,  3.78s/it] 35%|███▌      | 825/2335 [53:00<1:34:46,  3.77s/it]                                                    {'loss': 0.2453, 'grad_norm': 2.604933526660534, 'learning_rate': 7.5100076568733705e-06, 'epoch': 0.35}
 35%|███▌      | 825/2335 [53:00<1:34:46,  3.77s/it] 35%|███▌      | 826/2335 [53:03<1:34:27,  3.76s/it]                                                    {'loss': 0.2375, 'grad_norm': 2.671406183115142, 'learning_rate': 7.504004670343588e-06, 'epoch': 0.35}
 35%|███▌      | 826/2335 [53:03<1:34:27,  3.76s/it] 35%|███▌      | 827/2335 [53:07<1:33:23,  3.72s/it]                                                    {'loss': 0.1771, 'grad_norm': 2.5649675079378764, 'learning_rate': 7.497996862316091e-06, 'epoch': 0.35}
 35%|███▌      | 827/2335 [53:07<1:33:23,  3.72s/it] 35%|███▌      | 828/2335 [53:11<1:32:32,  3.68s/it]                                                    {'loss': 0.2324, 'grad_norm': 2.581791705899053, 'learning_rate': 7.491984244359003e-06, 'epoch': 0.35}
 35%|███▌      | 828/2335 [53:11<1:32:32,  3.68s/it] 36%|███▌      | 829/2335 [53:14<1:32:08,  3.67s/it]                                                    {'loss': 0.1874, 'grad_norm': 2.6418610681081804, 'learning_rate': 7.485966828049707e-06, 'epoch': 0.36}
 36%|███▌      | 829/2335 [53:14<1:32:08,  3.67s/it] 36%|███▌      | 830/2335 [53:18<1:32:31,  3.69s/it]                                                    {'loss': 0.1988, 'grad_norm': 2.413222311052329, 'learning_rate': 7.479944624974824e-06, 'epoch': 0.36}
 36%|███▌      | 830/2335 [53:18<1:32:31,  3.69s/it] 36%|███▌      | 831/2335 [53:22<1:33:41,  3.74s/it]                                                    {'loss': 0.2163, 'grad_norm': 2.4910359943704754, 'learning_rate': 7.473917646730199e-06, 'epoch': 0.36}
 36%|███▌      | 831/2335 [53:22<1:33:41,  3.74s/it] 36%|███▌      | 832/2335 [53:26<1:33:17,  3.72s/it]                                                    {'loss': 0.2577, 'grad_norm': 2.6887838077379635, 'learning_rate': 7.467885904920864e-06, 'epoch': 0.36}
 36%|███▌      | 832/2335 [53:26<1:33:17,  3.72s/it] 36%|███▌      | 833/2335 [53:29<1:33:53,  3.75s/it]                                                    {'loss': 0.2084, 'grad_norm': 2.3874491939415745, 'learning_rate': 7.461849411161027e-06, 'epoch': 0.36}
 36%|███▌      | 833/2335 [53:29<1:33:53,  3.75s/it] 36%|███▌      | 834/2335 [53:33<1:33:03,  3.72s/it]                                                    {'loss': 0.1757, 'grad_norm': 2.6868352240644318, 'learning_rate': 7.455808177074046e-06, 'epoch': 0.36}
 36%|███▌      | 834/2335 [53:33<1:33:03,  3.72s/it] 36%|███▌      | 835/2335 [53:37<1:33:21,  3.73s/it]                                                    {'loss': 0.2313, 'grad_norm': 2.6299010234644613, 'learning_rate': 7.449762214292404e-06, 'epoch': 0.36}
 36%|███▌      | 835/2335 [53:37<1:33:21,  3.73s/it] 36%|███▌      | 836/2335 [53:40<1:32:52,  3.72s/it]                                                    {'loss': 0.227, 'grad_norm': 2.575065185049202, 'learning_rate': 7.4437115344576935e-06, 'epoch': 0.36}
 36%|███▌      | 836/2335 [53:40<1:32:52,  3.72s/it] 36%|███▌      | 837/2335 [53:44<1:34:54,  3.80s/it]                                                    {'loss': 0.2065, 'grad_norm': 2.772284933736181, 'learning_rate': 7.437656149220584e-06, 'epoch': 0.36}
 36%|███▌      | 837/2335 [53:44<1:34:54,  3.80s/it] 36%|███▌      | 838/2335 [53:48<1:33:55,  3.76s/it]                                                    {'loss': 0.1988, 'grad_norm': 2.663960274446012, 'learning_rate': 7.431596070240812e-06, 'epoch': 0.36}
 36%|███▌      | 838/2335 [53:48<1:33:55,  3.76s/it] 36%|███▌      | 839/2335 [53:52<1:32:59,  3.73s/it]                                                    {'loss': 0.2031, 'grad_norm': 2.492564726956308, 'learning_rate': 7.425531309187146e-06, 'epoch': 0.36}
 36%|███▌      | 839/2335 [53:52<1:32:59,  3.73s/it] 36%|███▌      | 840/2335 [53:55<1:32:33,  3.71s/it]                                                    {'loss': 0.2264, 'grad_norm': 2.387499540512249, 'learning_rate': 7.419461877737373e-06, 'epoch': 0.36}
 36%|███▌      | 840/2335 [53:55<1:32:33,  3.71s/it] 36%|███▌      | 841/2335 [53:59<1:32:12,  3.70s/it]                                                    {'loss': 0.2067, 'grad_norm': 2.879183475037556, 'learning_rate': 7.413387787578274e-06, 'epoch': 0.36}
 36%|███▌      | 841/2335 [53:59<1:32:12,  3.70s/it] 36%|███▌      | 842/2335 [54:03<1:31:37,  3.68s/it]                                                    {'loss': 0.1792, 'grad_norm': 2.5338673715894497, 'learning_rate': 7.4073090504055964e-06, 'epoch': 0.36}
 36%|███▌      | 842/2335 [54:03<1:31:37,  3.68s/it] 36%|███▌      | 843/2335 [54:06<1:31:11,  3.67s/it]                                                    {'loss': 0.2408, 'grad_norm': 2.88511607720729, 'learning_rate': 7.401225677924038e-06, 'epoch': 0.36}
 36%|███▌      | 843/2335 [54:06<1:31:11,  3.67s/it] 36%|███▌      | 844/2335 [54:10<1:32:38,  3.73s/it]                                                    {'loss': 0.1768, 'grad_norm': 2.57188490833629, 'learning_rate': 7.395137681847223e-06, 'epoch': 0.36}
 36%|███▌      | 844/2335 [54:10<1:32:38,  3.73s/it] 36%|███▌      | 845/2335 [54:14<1:31:50,  3.70s/it]                                                    {'loss': 0.2003, 'grad_norm': 2.8449206082833034, 'learning_rate': 7.389045073897676e-06, 'epoch': 0.36}
 36%|███▌      | 845/2335 [54:14<1:31:50,  3.70s/it] 36%|███▌      | 846/2335 [54:18<1:31:04,  3.67s/it]                                                    {'loss': 0.2111, 'grad_norm': 2.4760676551707874, 'learning_rate': 7.3829478658068035e-06, 'epoch': 0.36}
 36%|███▌      | 846/2335 [54:18<1:31:04,  3.67s/it] 36%|███▋      | 847/2335 [54:21<1:30:57,  3.67s/it]                                                    {'loss': 0.2487, 'grad_norm': 2.761734373386148, 'learning_rate': 7.376846069314869e-06, 'epoch': 0.36}
 36%|███▋      | 847/2335 [54:21<1:30:57,  3.67s/it] 36%|███▋      | 848/2335 [54:25<1:31:49,  3.71s/it]                                                    {'loss': 0.2486, 'grad_norm': 2.6773914857678993, 'learning_rate': 7.370739696170971e-06, 'epoch': 0.36}
 36%|███▋      | 848/2335 [54:25<1:31:49,  3.71s/it] 36%|███▋      | 849/2335 [54:29<1:32:02,  3.72s/it]                                                    {'loss': 0.2338, 'grad_norm': 2.4958531128970893, 'learning_rate': 7.36462875813302e-06, 'epoch': 0.36}
 36%|███▋      | 849/2335 [54:29<1:32:02,  3.72s/it] 36%|███▋      | 850/2335 [54:32<1:31:36,  3.70s/it]                                                    {'loss': 0.1859, 'grad_norm': 2.3885400677742545, 'learning_rate': 7.358513266967717e-06, 'epoch': 0.36}
 36%|███▋      | 850/2335 [54:32<1:31:36,  3.70s/it] 36%|███▋      | 851/2335 [54:36<1:31:43,  3.71s/it]                                                    {'loss': 0.2003, 'grad_norm': 2.288002040474808, 'learning_rate': 7.3523932344505325e-06, 'epoch': 0.36}
 36%|███▋      | 851/2335 [54:36<1:31:43,  3.71s/it] 36%|███▋      | 852/2335 [54:40<1:31:27,  3.70s/it]                                                    {'loss': 0.1937, 'grad_norm': 2.4245656580901955, 'learning_rate': 7.346268672365675e-06, 'epoch': 0.36}
 36%|███▋      | 852/2335 [54:40<1:31:27,  3.70s/it] 37%|███▋      | 853/2335 [54:43<1:30:51,  3.68s/it]                                                    {'loss': 0.2217, 'grad_norm': 2.674148743268735, 'learning_rate': 7.340139592506082e-06, 'epoch': 0.37}
 37%|███▋      | 853/2335 [54:43<1:30:51,  3.68s/it] 37%|███▋      | 854/2335 [54:47<1:31:24,  3.70s/it]                                                    {'loss': 0.2167, 'grad_norm': 2.7935797140176506, 'learning_rate': 7.334006006673383e-06, 'epoch': 0.37}
 37%|███▋      | 854/2335 [54:47<1:31:24,  3.70s/it] 37%|███▋      | 855/2335 [54:51<1:30:30,  3.67s/it]                                                    {'loss': 0.1724, 'grad_norm': 2.422330853236713, 'learning_rate': 7.32786792667789e-06, 'epoch': 0.37}
 37%|███▋      | 855/2335 [54:51<1:30:30,  3.67s/it] 37%|███▋      | 856/2335 [54:54<1:30:17,  3.66s/it]                                                    {'loss': 0.2593, 'grad_norm': 3.1410197045466433, 'learning_rate': 7.321725364338566e-06, 'epoch': 0.37}
 37%|███▋      | 856/2335 [54:54<1:30:17,  3.66s/it] 37%|███▋      | 857/2335 [54:58<1:30:42,  3.68s/it]                                                    {'loss': 0.2447, 'grad_norm': 2.911272233719246, 'learning_rate': 7.315578331483005e-06, 'epoch': 0.37}
 37%|███▋      | 857/2335 [54:58<1:30:42,  3.68s/it] 37%|███▋      | 858/2335 [55:02<1:30:31,  3.68s/it]                                                    {'loss': 0.1936, 'grad_norm': 2.751249292921079, 'learning_rate': 7.309426839947407e-06, 'epoch': 0.37}
 37%|███▋      | 858/2335 [55:02<1:30:31,  3.68s/it] 37%|███▋      | 859/2335 [55:05<1:30:24,  3.68s/it]                                                    {'loss': 0.1916, 'grad_norm': 2.675794505285213, 'learning_rate': 7.30327090157656e-06, 'epoch': 0.37}
 37%|███▋      | 859/2335 [55:05<1:30:24,  3.68s/it] 37%|███▋      | 860/2335 [55:09<1:30:53,  3.70s/it]                                                    {'loss': 0.1914, 'grad_norm': 2.6736473218854084, 'learning_rate': 7.297110528223817e-06, 'epoch': 0.37}
 37%|███▋      | 860/2335 [55:09<1:30:53,  3.70s/it] 37%|███▋      | 861/2335 [55:13<1:30:41,  3.69s/it]                                                    {'loss': 0.2033, 'grad_norm': 2.6205282300608137, 'learning_rate': 7.2909457317510615e-06, 'epoch': 0.37}
 37%|███▋      | 861/2335 [55:13<1:30:41,  3.69s/it] 37%|███▋      | 862/2335 [55:17<1:31:30,  3.73s/it]                                                    {'loss': 0.2215, 'grad_norm': 2.719008378586701, 'learning_rate': 7.284776524028703e-06, 'epoch': 0.37}
 37%|███▋      | 862/2335 [55:17<1:31:30,  3.73s/it] 37%|███▋      | 863/2335 [55:21<1:32:05,  3.75s/it]                                                    {'loss': 0.2388, 'grad_norm': 2.7866597958422883, 'learning_rate': 7.278602916935641e-06, 'epoch': 0.37}
 37%|███▋      | 863/2335 [55:21<1:32:05,  3.75s/it] 37%|███▋      | 864/2335 [55:24<1:31:22,  3.73s/it]                                                    {'loss': 0.2773, 'grad_norm': 3.113407791389773, 'learning_rate': 7.272424922359246e-06, 'epoch': 0.37}
 37%|███▋      | 864/2335 [55:24<1:31:22,  3.73s/it] 37%|███▋      | 865/2335 [55:28<1:31:07,  3.72s/it]                                                    {'loss': 0.1968, 'grad_norm': 2.5068544488653575, 'learning_rate': 7.266242552195337e-06, 'epoch': 0.37}
 37%|███▋      | 865/2335 [55:28<1:31:07,  3.72s/it] 37%|███▋      | 866/2335 [55:32<1:32:31,  3.78s/it]                                                    {'loss': 0.2388, 'grad_norm': 2.7479703648622125, 'learning_rate': 7.260055818348159e-06, 'epoch': 0.37}
 37%|███▋      | 866/2335 [55:32<1:32:31,  3.78s/it] 37%|███▋      | 867/2335 [55:36<1:31:51,  3.75s/it]                                                    {'loss': 0.1352, 'grad_norm': 2.2339647493601142, 'learning_rate': 7.253864732730359e-06, 'epoch': 0.37}
 37%|███▋      | 867/2335 [55:36<1:31:51,  3.75s/it] 37%|███▋      | 868/2335 [55:39<1:32:29,  3.78s/it]                                                    {'loss': 0.2271, 'grad_norm': 2.9348987949327956, 'learning_rate': 7.247669307262964e-06, 'epoch': 0.37}
 37%|███▋      | 868/2335 [55:39<1:32:29,  3.78s/it] 37%|███▋      | 869/2335 [55:43<1:31:37,  3.75s/it]                                                    {'loss': 0.1735, 'grad_norm': 2.43646412638881, 'learning_rate': 7.2414695538753535e-06, 'epoch': 0.37}
 37%|███▋      | 869/2335 [55:43<1:31:37,  3.75s/it] 37%|███▋      | 870/2335 [55:47<1:31:27,  3.75s/it]                                                    {'loss': 0.2418, 'grad_norm': 2.697073756157046, 'learning_rate': 7.235265484505245e-06, 'epoch': 0.37}
 37%|███▋      | 870/2335 [55:47<1:31:27,  3.75s/it] 37%|███▋      | 871/2335 [55:50<1:31:14,  3.74s/it]                                                    {'loss': 0.236, 'grad_norm': 2.7058423829355376, 'learning_rate': 7.2290571110986665e-06, 'epoch': 0.37}
 37%|███▋      | 871/2335 [55:50<1:31:14,  3.74s/it] 37%|███▋      | 872/2335 [55:55<1:37:49,  4.01s/it]                                                    {'loss': 0.2022, 'grad_norm': 2.4048361416108532, 'learning_rate': 7.222844445609931e-06, 'epoch': 0.37}
 37%|███▋      | 872/2335 [55:55<1:37:49,  4.01s/it] 37%|███▋      | 873/2335 [55:59<1:36:57,  3.98s/it]                                                    {'loss': 0.1981, 'grad_norm': 2.5875908312860756, 'learning_rate': 7.216627500001616e-06, 'epoch': 0.37}
 37%|███▋      | 873/2335 [55:59<1:36:57,  3.98s/it] 37%|███▋      | 874/2335 [56:03<1:34:11,  3.87s/it]                                                    {'loss': 0.211, 'grad_norm': 2.4705789046782183, 'learning_rate': 7.210406286244543e-06, 'epoch': 0.37}
 37%|███▋      | 874/2335 [56:03<1:34:11,  3.87s/it] 37%|███▋      | 875/2335 [56:06<1:33:08,  3.83s/it]                                                    {'loss': 0.2207, 'grad_norm': 2.770005216408, 'learning_rate': 7.20418081631775e-06, 'epoch': 0.37}
 37%|███▋      | 875/2335 [56:06<1:33:08,  3.83s/it] 38%|███▊      | 876/2335 [56:10<1:31:44,  3.77s/it]                                                    {'loss': 0.1863, 'grad_norm': 2.341177825496814, 'learning_rate': 7.19795110220847e-06, 'epoch': 0.38}
 38%|███▊      | 876/2335 [56:10<1:31:44,  3.77s/it] 38%|███▊      | 877/2335 [56:14<1:31:39,  3.77s/it]                                                    {'loss': 0.2298, 'grad_norm': 2.778785013941377, 'learning_rate': 7.191717155912111e-06, 'epoch': 0.38}
 38%|███▊      | 877/2335 [56:14<1:31:39,  3.77s/it] 38%|███▊      | 878/2335 [56:18<1:31:35,  3.77s/it]                                                    {'loss': 0.1816, 'grad_norm': 2.6469023146952932, 'learning_rate': 7.185478989432225e-06, 'epoch': 0.38}
 38%|███▊      | 878/2335 [56:18<1:31:35,  3.77s/it] 38%|███▊      | 879/2335 [56:21<1:32:06,  3.80s/it]                                                    {'loss': 0.2091, 'grad_norm': 2.6408186369946405, 'learning_rate': 7.179236614780494e-06, 'epoch': 0.38}
 38%|███▊      | 879/2335 [56:21<1:32:06,  3.80s/it] 38%|███▊      | 880/2335 [56:25<1:30:58,  3.75s/it]                                                    {'loss': 0.2623, 'grad_norm': 2.4280099605384438, 'learning_rate': 7.172990043976703e-06, 'epoch': 0.38}
 38%|███▊      | 880/2335 [56:25<1:30:58,  3.75s/it] 38%|███▊      | 881/2335 [56:29<1:30:33,  3.74s/it]                                                    {'loss': 0.2047, 'grad_norm': 2.7142226082972334, 'learning_rate': 7.166739289048715e-06, 'epoch': 0.38}
 38%|███▊      | 881/2335 [56:29<1:30:33,  3.74s/it] 38%|███▊      | 882/2335 [56:32<1:30:25,  3.73s/it]                                                    {'loss': 0.178, 'grad_norm': 2.9249528330039327, 'learning_rate': 7.160484362032449e-06, 'epoch': 0.38}
 38%|███▊      | 882/2335 [56:33<1:30:25,  3.73s/it] 38%|███▊      | 883/2335 [56:36<1:30:08,  3.73s/it]                                                    {'loss': 0.1925, 'grad_norm': 2.4638173487548083, 'learning_rate': 7.15422527497186e-06, 'epoch': 0.38}
 38%|███▊      | 883/2335 [56:36<1:30:08,  3.73s/it] 38%|███▊      | 884/2335 [56:40<1:30:12,  3.73s/it]                                                    {'loss': 0.2503, 'grad_norm': 2.8607108398040078, 'learning_rate': 7.147962039918913e-06, 'epoch': 0.38}
 38%|███▊      | 884/2335 [56:40<1:30:12,  3.73s/it] 38%|███▊      | 885/2335 [56:44<1:30:28,  3.74s/it]                                                    {'loss': 0.2534, 'grad_norm': 2.696820565436154, 'learning_rate': 7.141694668933558e-06, 'epoch': 0.38}
 38%|███▊      | 885/2335 [56:44<1:30:28,  3.74s/it] 38%|███▊      | 886/2335 [56:47<1:30:27,  3.75s/it]                                                    {'loss': 0.2113, 'grad_norm': 2.598314713225295, 'learning_rate': 7.135423174083708e-06, 'epoch': 0.38}
 38%|███▊      | 886/2335 [56:47<1:30:27,  3.75s/it] 38%|███▊      | 887/2335 [56:51<1:30:09,  3.74s/it]                                                    {'loss': 0.2071, 'grad_norm': 2.659992935964774, 'learning_rate': 7.129147567445221e-06, 'epoch': 0.38}
 38%|███▊      | 887/2335 [56:51<1:30:09,  3.74s/it] 38%|███▊      | 888/2335 [56:55<1:28:54,  3.69s/it]                                                    {'loss': 0.2397, 'grad_norm': 2.707274345411228, 'learning_rate': 7.122867861101868e-06, 'epoch': 0.38}
 38%|███▊      | 888/2335 [56:55<1:28:54,  3.69s/it] 38%|███▊      | 889/2335 [56:58<1:28:52,  3.69s/it]                                                    {'loss': 0.1798, 'grad_norm': 2.482224324913828, 'learning_rate': 7.116584067145317e-06, 'epoch': 0.38}
 38%|███▊      | 889/2335 [56:58<1:28:52,  3.69s/it] 38%|███▊      | 890/2335 [57:02<1:28:42,  3.68s/it]                                                    {'loss': 0.2545, 'grad_norm': 2.549656583182633, 'learning_rate': 7.110296197675104e-06, 'epoch': 0.38}
 38%|███▊      | 890/2335 [57:02<1:28:42,  3.68s/it][2025-08-05 18:39:13,648] [WARNING] [stage3.py:2118:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
 38%|███▊      | 891/2335 [57:07<1:36:38,  4.02s/it]                                                    {'loss': 0.2312, 'grad_norm': 2.5227176311971173, 'learning_rate': 7.104004264798614e-06, 'epoch': 0.38}
 38%|███▊      | 891/2335 [57:07<1:36:38,  4.02s/it] 38%|███▊      | 892/2335 [57:11<1:35:04,  3.95s/it]                                                    {'loss': 0.2151, 'grad_norm': 2.499631554919232, 'learning_rate': 7.097708280631057e-06, 'epoch': 0.38}
 38%|███▊      | 892/2335 [57:11<1:35:04,  3.95s/it] 38%|███▊      | 893/2335 [57:15<1:34:28,  3.93s/it]                                                    {'loss': 0.227, 'grad_norm': 2.463858613407602, 'learning_rate': 7.091408257295443e-06, 'epoch': 0.38}
 38%|███▊      | 893/2335 [57:15<1:34:28,  3.93s/it] 38%|███▊      | 894/2335 [57:18<1:32:32,  3.85s/it]                                                    {'loss': 0.2186, 'grad_norm': 2.603529429224385, 'learning_rate': 7.085104206922557e-06, 'epoch': 0.38}
 38%|███▊      | 894/2335 [57:18<1:32:32,  3.85s/it] 38%|███▊      | 895/2335 [57:22<1:31:30,  3.81s/it]                                                    {'loss': 0.2026, 'grad_norm': 2.383699442272966, 'learning_rate': 7.078796141650943e-06, 'epoch': 0.38}
 38%|███▊      | 895/2335 [57:22<1:31:30,  3.81s/it] 38%|███▊      | 896/2335 [57:26<1:30:43,  3.78s/it]                                                    {'loss': 0.2087, 'grad_norm': 2.757362867188944, 'learning_rate': 7.072484073626872e-06, 'epoch': 0.38}
 38%|███▊      | 896/2335 [57:26<1:30:43,  3.78s/it] 38%|███▊      | 897/2335 [57:29<1:29:39,  3.74s/it]                                                    {'loss': 0.1939, 'grad_norm': 2.7479458338166003, 'learning_rate': 7.066168015004324e-06, 'epoch': 0.38}
 38%|███▊      | 897/2335 [57:29<1:29:39,  3.74s/it] 38%|███▊      | 898/2335 [57:33<1:29:00,  3.72s/it]                                                    {'loss': 0.2223, 'grad_norm': 2.596208001107085, 'learning_rate': 7.059847977944962e-06, 'epoch': 0.38}
 38%|███▊      | 898/2335 [57:33<1:29:00,  3.72s/it] 39%|███▊      | 899/2335 [57:37<1:28:57,  3.72s/it]                                                    {'loss': 0.2152, 'grad_norm': 2.93736227234744, 'learning_rate': 7.0535239746181115e-06, 'epoch': 0.39}
 39%|███▊      | 899/2335 [57:37<1:28:57,  3.72s/it] 39%|███▊      | 900/2335 [57:40<1:28:07,  3.68s/it]                                                    {'loss': 0.2232, 'grad_norm': 2.893701521848815, 'learning_rate': 7.047196017200731e-06, 'epoch': 0.39}
 39%|███▊      | 900/2335 [57:40<1:28:07,  3.68s/it] 39%|███▊      | 901/2335 [57:44<1:29:16,  3.74s/it]                                                    {'loss': 0.2787, 'grad_norm': 3.2701103480068854, 'learning_rate': 7.040864117877398e-06, 'epoch': 0.39}
 39%|███▊      | 901/2335 [57:44<1:29:16,  3.74s/it] 39%|███▊      | 902/2335 [57:48<1:29:04,  3.73s/it]                                                    {'loss': 0.2169, 'grad_norm': 2.7568921760071836, 'learning_rate': 7.034528288840276e-06, 'epoch': 0.39}
 39%|███▊      | 902/2335 [57:48<1:29:04,  3.73s/it] 39%|███▊      | 903/2335 [57:52<1:29:48,  3.76s/it]                                                    {'loss': 0.1997, 'grad_norm': 2.7726797158320013, 'learning_rate': 7.028188542289096e-06, 'epoch': 0.39}
 39%|███▊      | 903/2335 [57:52<1:29:48,  3.76s/it] 39%|███▊      | 904/2335 [57:55<1:29:43,  3.76s/it]                                                    {'loss': 0.2154, 'grad_norm': 2.508376837819604, 'learning_rate': 7.021844890431136e-06, 'epoch': 0.39}
 39%|███▊      | 904/2335 [57:56<1:29:43,  3.76s/it] 39%|███▉      | 905/2335 [57:59<1:29:22,  3.75s/it]                                                    {'loss': 0.1863, 'grad_norm': 2.288406984031857, 'learning_rate': 7.015497345481187e-06, 'epoch': 0.39}
 39%|███▉      | 905/2335 [57:59<1:29:22,  3.75s/it] 39%|███▉      | 906/2335 [58:03<1:29:05,  3.74s/it]                                                    {'loss': 0.2192, 'grad_norm': 2.455673471714184, 'learning_rate': 7.009145919661542e-06, 'epoch': 0.39}
 39%|███▉      | 906/2335 [58:03<1:29:05,  3.74s/it] 39%|███▉      | 907/2335 [58:07<1:29:03,  3.74s/it]                                                    {'loss': 0.1814, 'grad_norm': 2.630655277480143, 'learning_rate': 7.002790625201964e-06, 'epoch': 0.39}
 39%|███▉      | 907/2335 [58:07<1:29:03,  3.74s/it] 39%|███▉      | 908/2335 [58:10<1:28:22,  3.72s/it]                                                    {'loss': 0.2206, 'grad_norm': 2.7654968206310833, 'learning_rate': 6.996431474339666e-06, 'epoch': 0.39}
 39%|███▉      | 908/2335 [58:10<1:28:22,  3.72s/it] 39%|███▉      | 909/2335 [58:14<1:29:53,  3.78s/it]                                                    {'loss': 0.1938, 'grad_norm': 2.6314050904041495, 'learning_rate': 6.9900684793192864e-06, 'epoch': 0.39}
 39%|███▉      | 909/2335 [58:14<1:29:53,  3.78s/it] 39%|███▉      | 910/2335 [58:18<1:28:48,  3.74s/it]                                                    {'loss': 0.2175, 'grad_norm': 2.9919450595672004, 'learning_rate': 6.983701652392864e-06, 'epoch': 0.39}
 39%|███▉      | 910/2335 [58:18<1:28:48,  3.74s/it] 39%|███▉      | 911/2335 [58:22<1:29:41,  3.78s/it]                                                    {'loss': 0.2308, 'grad_norm': 2.4996239328693717, 'learning_rate': 6.977331005819821e-06, 'epoch': 0.39}
 39%|███▉      | 911/2335 [58:22<1:29:41,  3.78s/it] 39%|███▉      | 912/2335 [58:26<1:29:24,  3.77s/it]                                                    {'loss': 0.2023, 'grad_norm': 2.691253287152104, 'learning_rate': 6.970956551866925e-06, 'epoch': 0.39}
 39%|███▉      | 912/2335 [58:26<1:29:24,  3.77s/it] 39%|███▉      | 913/2335 [58:29<1:28:31,  3.74s/it]                                                    {'loss': 0.2385, 'grad_norm': 2.6697061997689584, 'learning_rate': 6.9645783028082884e-06, 'epoch': 0.39}
 39%|███▉      | 913/2335 [58:29<1:28:31,  3.74s/it] 39%|███▉      | 914/2335 [58:33<1:28:54,  3.75s/it]                                                    {'loss': 0.2508, 'grad_norm': 2.9123596342631144, 'learning_rate': 6.958196270925315e-06, 'epoch': 0.39}
 39%|███▉      | 914/2335 [58:33<1:28:54,  3.75s/it] 39%|███▉      | 915/2335 [58:37<1:28:48,  3.75s/it]                                                    {'loss': 0.2331, 'grad_norm': 2.5739456766022766, 'learning_rate': 6.951810468506706e-06, 'epoch': 0.39}
 39%|███▉      | 915/2335 [58:37<1:28:48,  3.75s/it] 39%|███▉      | 916/2335 [58:40<1:28:16,  3.73s/it]                                                    {'loss': 0.2329, 'grad_norm': 2.4736244706042503, 'learning_rate': 6.945420907848415e-06, 'epoch': 0.39}
 39%|███▉      | 916/2335 [58:40<1:28:16,  3.73s/it] 39%|███▉      | 917/2335 [58:44<1:28:06,  3.73s/it]                                                    {'loss': 0.2109, 'grad_norm': 2.7251034408151606, 'learning_rate': 6.939027601253636e-06, 'epoch': 0.39}
 39%|███▉      | 917/2335 [58:44<1:28:06,  3.73s/it] 39%|███▉      | 918/2335 [58:48<1:27:53,  3.72s/it]                                                    {'loss': 0.2256, 'grad_norm': 2.287371446384498, 'learning_rate': 6.932630561032776e-06, 'epoch': 0.39}
 39%|███▉      | 918/2335 [58:48<1:27:53,  3.72s/it] 39%|███▉      | 919/2335 [58:52<1:28:14,  3.74s/it]                                                    {'loss': 0.1756, 'grad_norm': 2.4042628028713042, 'learning_rate': 6.926229799503428e-06, 'epoch': 0.39}
 39%|███▉      | 919/2335 [58:52<1:28:14,  3.74s/it] 39%|███▉      | 920/2335 [58:55<1:27:21,  3.70s/it]                                                    {'loss': 0.2217, 'grad_norm': 2.6665043787459752, 'learning_rate': 6.9198253289903515e-06, 'epoch': 0.39}
 39%|███▉      | 920/2335 [58:55<1:27:21,  3.70s/it] 39%|███▉      | 921/2335 [58:59<1:26:49,  3.68s/it]                                                    {'loss': 0.2194, 'grad_norm': 2.8262841305826467, 'learning_rate': 6.913417161825449e-06, 'epoch': 0.39}
 39%|███▉      | 921/2335 [58:59<1:26:49,  3.68s/it] 39%|███▉      | 922/2335 [59:02<1:26:11,  3.66s/it]                                                    {'loss': 0.2566, 'grad_norm': 2.780504550892749, 'learning_rate': 6.907005310347742e-06, 'epoch': 0.39}
 39%|███▉      | 922/2335 [59:02<1:26:11,  3.66s/it] 40%|███▉      | 923/2335 [59:06<1:26:16,  3.67s/it]                                                    {'loss': 0.1921, 'grad_norm': 2.626223306545082, 'learning_rate': 6.900589786903343e-06, 'epoch': 0.4}
 40%|███▉      | 923/2335 [59:06<1:26:16,  3.67s/it] 40%|███▉      | 924/2335 [59:10<1:26:01,  3.66s/it]                                                    {'loss': 0.2169, 'grad_norm': 2.7152036741929404, 'learning_rate': 6.894170603845436e-06, 'epoch': 0.4}
 40%|███▉      | 924/2335 [59:10<1:26:01,  3.66s/it] 40%|███▉      | 925/2335 [59:14<1:26:49,  3.69s/it]                                                    {'loss': 0.2453, 'grad_norm': 2.6634411801124953, 'learning_rate': 6.887747773534255e-06, 'epoch': 0.4}
 40%|███▉      | 925/2335 [59:14<1:26:49,  3.69s/it] 40%|███▉      | 926/2335 [59:17<1:27:19,  3.72s/it]                                                    {'loss': 0.1941, 'grad_norm': 2.521897196312532, 'learning_rate': 6.881321308337049e-06, 'epoch': 0.4}
 40%|███▉      | 926/2335 [59:17<1:27:19,  3.72s/it] 40%|███▉      | 927/2335 [59:21<1:27:03,  3.71s/it]                                                    {'loss': 0.2657, 'grad_norm': 2.6980241847816813, 'learning_rate': 6.874891220628076e-06, 'epoch': 0.4}
 40%|███▉      | 927/2335 [59:21<1:27:03,  3.71s/it] 40%|███▉      | 928/2335 [59:25<1:28:37,  3.78s/it]                                                    {'loss': 0.19, 'grad_norm': 2.3721449425974352, 'learning_rate': 6.868457522788561e-06, 'epoch': 0.4}
 40%|███▉      | 928/2335 [59:25<1:28:37,  3.78s/it] 40%|███▉      | 929/2335 [59:29<1:28:29,  3.78s/it]                                                    {'loss': 0.2114, 'grad_norm': 2.65081145776317, 'learning_rate': 6.862020227206684e-06, 'epoch': 0.4}
 40%|███▉      | 929/2335 [59:29<1:28:29,  3.78s/it] 40%|███▉      | 930/2335 [59:33<1:28:25,  3.78s/it]                                                    {'loss': 0.2199, 'grad_norm': 2.8983416360532566, 'learning_rate': 6.855579346277554e-06, 'epoch': 0.4}
 40%|███▉      | 930/2335 [59:33<1:28:25,  3.78s/it] 40%|███▉      | 931/2335 [59:36<1:28:16,  3.77s/it]                                                    {'loss': 0.1782, 'grad_norm': 2.4936133927750816, 'learning_rate': 6.849134892403179e-06, 'epoch': 0.4}
 40%|███▉      | 931/2335 [59:36<1:28:16,  3.77s/it] 40%|███▉      | 932/2335 [59:40<1:28:28,  3.78s/it]                                                    {'loss': 0.1798, 'grad_norm': 2.6225688951539445, 'learning_rate': 6.842686877992453e-06, 'epoch': 0.4}
 40%|███▉      | 932/2335 [59:40<1:28:28,  3.78s/it] 40%|███▉      | 933/2335 [59:44<1:27:58,  3.77s/it]                                                    {'loss': 0.2086, 'grad_norm': 2.3797864342409927, 'learning_rate': 6.836235315461117e-06, 'epoch': 0.4}
 40%|███▉      | 933/2335 [59:44<1:27:58,  3.77s/it] 40%|████      | 934/2335 [59:48<1:27:42,  3.76s/it]                                                    {'loss': 0.165, 'grad_norm': 2.297603442830615, 'learning_rate': 6.829780217231754e-06, 'epoch': 0.4}
 40%|████      | 934/2335 [59:48<1:27:42,  3.76s/it] 40%|████      | 935/2335 [59:51<1:26:16,  3.70s/it]                                                    {'loss': 0.2024, 'grad_norm': 2.5174049768965157, 'learning_rate': 6.823321595733749e-06, 'epoch': 0.4}
 40%|████      | 935/2335 [59:51<1:26:16,  3.70s/it] 40%|████      | 936/2335 [59:55<1:27:05,  3.74s/it]                                                    {'loss': 0.2214, 'grad_norm': 2.9104583140794924, 'learning_rate': 6.816859463403271e-06, 'epoch': 0.4}
 40%|████      | 936/2335 [59:55<1:27:05,  3.74s/it] 40%|████      | 937/2335 [59:59<1:26:43,  3.72s/it]                                                    {'loss': 0.2061, 'grad_norm': 2.7436765804461647, 'learning_rate': 6.810393832683252e-06, 'epoch': 0.4}
 40%|████      | 937/2335 [59:59<1:26:43,  3.72s/it] 40%|████      | 938/2335 [1:00:02<1:26:07,  3.70s/it]                                                      {'loss': 0.1636, 'grad_norm': 2.3765889058279623, 'learning_rate': 6.803924716023358e-06, 'epoch': 0.4}
 40%|████      | 938/2335 [1:00:02<1:26:07,  3.70s/it] 40%|████      | 939/2335 [1:00:06<1:26:48,  3.73s/it]                                                      {'loss': 0.1956, 'grad_norm': 2.695626930559915, 'learning_rate': 6.7974521258799686e-06, 'epoch': 0.4}
 40%|████      | 939/2335 [1:00:06<1:26:48,  3.73s/it] 40%|████      | 940/2335 [1:00:10<1:26:14,  3.71s/it]                                                      {'loss': 0.184, 'grad_norm': 2.6287375217239766, 'learning_rate': 6.790976074716151e-06, 'epoch': 0.4}
 40%|████      | 940/2335 [1:00:10<1:26:14,  3.71s/it] 40%|████      | 941/2335 [1:00:14<1:27:34,  3.77s/it]                                                      {'loss': 0.2638, 'grad_norm': 2.4256142809364896, 'learning_rate': 6.784496575001636e-06, 'epoch': 0.4}
 40%|████      | 941/2335 [1:00:14<1:27:34,  3.77s/it] 40%|████      | 942/2335 [1:00:17<1:26:06,  3.71s/it]                                                      {'loss': 0.2125, 'grad_norm': 2.793534074150348, 'learning_rate': 6.778013639212796e-06, 'epoch': 0.4}
 40%|████      | 942/2335 [1:00:17<1:26:06,  3.71s/it] 40%|████      | 943/2335 [1:00:21<1:25:58,  3.71s/it]                                                      {'loss': 0.2009, 'grad_norm': 2.792768329417172, 'learning_rate': 6.771527279832618e-06, 'epoch': 0.4}
 40%|████      | 943/2335 [1:00:21<1:25:58,  3.71s/it] 40%|████      | 944/2335 [1:00:25<1:25:14,  3.68s/it]                                                      {'loss': 0.2293, 'grad_norm': 2.7169852585801335, 'learning_rate': 6.765037509350685e-06, 'epoch': 0.4}
 40%|████      | 944/2335 [1:00:25<1:25:14,  3.68s/it] 40%|████      | 945/2335 [1:00:28<1:25:27,  3.69s/it]                                                      {'loss': 0.2294, 'grad_norm': 2.5742831235732204, 'learning_rate': 6.758544340263141e-06, 'epoch': 0.4}
 40%|████      | 945/2335 [1:00:28<1:25:27,  3.69s/it] 41%|████      | 946/2335 [1:00:32<1:26:20,  3.73s/it]                                                      {'loss': 0.2148, 'grad_norm': 2.552857880410138, 'learning_rate': 6.752047785072682e-06, 'epoch': 0.41}
 41%|████      | 946/2335 [1:00:32<1:26:20,  3.73s/it] 41%|████      | 947/2335 [1:00:36<1:25:24,  3.69s/it]                                                      {'loss': 0.1818, 'grad_norm': 2.6381382543313285, 'learning_rate': 6.745547856288517e-06, 'epoch': 0.41}
 41%|████      | 947/2335 [1:00:36<1:25:24,  3.69s/it] 41%|████      | 948/2335 [1:00:39<1:26:10,  3.73s/it]                                                      {'loss': 0.1663, 'grad_norm': 2.3420670872807454, 'learning_rate': 6.7390445664263586e-06, 'epoch': 0.41}
 41%|████      | 948/2335 [1:00:40<1:26:10,  3.73s/it] 41%|████      | 949/2335 [1:00:43<1:26:11,  3.73s/it]                                                      {'loss': 0.1744, 'grad_norm': 2.4967110847987075, 'learning_rate': 6.732537928008382e-06, 'epoch': 0.41}
 41%|████      | 949/2335 [1:00:43<1:26:11,  3.73s/it] 41%|████      | 950/2335 [1:00:47<1:25:41,  3.71s/it]                                                      {'loss': 0.199, 'grad_norm': 2.8549497535059736, 'learning_rate': 6.7260279535632165e-06, 'epoch': 0.41}
 41%|████      | 950/2335 [1:00:47<1:25:41,  3.71s/it] 41%|████      | 951/2335 [1:00:51<1:25:37,  3.71s/it]                                                      {'loss': 0.2273, 'grad_norm': 2.4907870788601056, 'learning_rate': 6.719514655625914e-06, 'epoch': 0.41}
 41%|████      | 951/2335 [1:00:51<1:25:37,  3.71s/it] 41%|████      | 952/2335 [1:00:54<1:25:42,  3.72s/it]                                                      {'loss': 0.1703, 'grad_norm': 2.4617793825548913, 'learning_rate': 6.7129980467379265e-06, 'epoch': 0.41}
 41%|████      | 952/2335 [1:00:54<1:25:42,  3.72s/it] 41%|████      | 953/2335 [1:00:58<1:25:07,  3.70s/it]                                                      {'loss': 0.194, 'grad_norm': 2.5591827086705936, 'learning_rate': 6.706478139447077e-06, 'epoch': 0.41}
 41%|████      | 953/2335 [1:00:58<1:25:07,  3.70s/it] 41%|████      | 954/2335 [1:01:02<1:25:11,  3.70s/it]                                                      {'loss': 0.2261, 'grad_norm': 2.4983503432981733, 'learning_rate': 6.699954946307545e-06, 'epoch': 0.41}
 41%|████      | 954/2335 [1:01:02<1:25:11,  3.70s/it] 41%|████      | 955/2335 [1:01:05<1:25:09,  3.70s/it]                                                      {'loss': 0.221, 'grad_norm': 2.5501238854232926, 'learning_rate': 6.693428479879833e-06, 'epoch': 0.41}
 41%|████      | 955/2335 [1:01:05<1:25:09,  3.70s/it] 41%|████      | 956/2335 [1:01:09<1:25:51,  3.74s/it]                                                      {'loss': 0.157, 'grad_norm': 2.2421349824310335, 'learning_rate': 6.686898752730751e-06, 'epoch': 0.41}
 41%|████      | 956/2335 [1:01:09<1:25:51,  3.74s/it] 41%|████      | 957/2335 [1:01:13<1:25:22,  3.72s/it]                                                      {'loss': 0.2007, 'grad_norm': 2.6755997420855615, 'learning_rate': 6.680365777433379e-06, 'epoch': 0.41}
 41%|████      | 957/2335 [1:01:13<1:25:22,  3.72s/it] 41%|████      | 958/2335 [1:01:17<1:25:14,  3.71s/it]                                                      {'loss': 0.2011, 'grad_norm': 2.386184731115499, 'learning_rate': 6.673829566567059e-06, 'epoch': 0.41}
 41%|████      | 958/2335 [1:01:17<1:25:14,  3.71s/it] 41%|████      | 959/2335 [1:01:20<1:25:53,  3.74s/it]                                                      {'loss': 0.207, 'grad_norm': 2.7792613427657806, 'learning_rate': 6.667290132717365e-06, 'epoch': 0.41}
 41%|████      | 959/2335 [1:01:20<1:25:53,  3.74s/it] 41%|████      | 960/2335 [1:01:24<1:25:36,  3.74s/it]                                                      {'loss': 0.1656, 'grad_norm': 2.5929014170207267, 'learning_rate': 6.660747488476066e-06, 'epoch': 0.41}
 41%|████      | 960/2335 [1:01:24<1:25:36,  3.74s/it] 41%|████      | 961/2335 [1:01:28<1:25:28,  3.73s/it]                                                      {'loss': 0.2108, 'grad_norm': 3.0166822538363993, 'learning_rate': 6.6542016464411254e-06, 'epoch': 0.41}
 41%|████      | 961/2335 [1:01:28<1:25:28,  3.73s/it] 41%|████      | 962/2335 [1:01:32<1:26:05,  3.76s/it]                                                      {'loss': 0.1772, 'grad_norm': 2.593607743766415, 'learning_rate': 6.6476526192166525e-06, 'epoch': 0.41}
 41%|████      | 962/2335 [1:01:32<1:26:05,  3.76s/it] 41%|████      | 963/2335 [1:01:35<1:25:29,  3.74s/it]                                                      {'loss': 0.1865, 'grad_norm': 2.5354611486891505, 'learning_rate': 6.6411004194129e-06, 'epoch': 0.41}
 41%|████      | 963/2335 [1:01:35<1:25:29,  3.74s/it] 41%|████▏     | 964/2335 [1:01:39<1:25:46,  3.75s/it]                                                      {'loss': 0.2063, 'grad_norm': 2.6981154226446864, 'learning_rate': 6.6345450596462224e-06, 'epoch': 0.41}
 41%|████▏     | 964/2335 [1:01:39<1:25:46,  3.75s/it] 41%|████▏     | 965/2335 [1:01:43<1:26:19,  3.78s/it]                                                      {'loss': 0.2157, 'grad_norm': 2.74239729795775, 'learning_rate': 6.6279865525390605e-06, 'epoch': 0.41}
 41%|████▏     | 965/2335 [1:01:43<1:26:19,  3.78s/it] 41%|████▏     | 966/2335 [1:01:47<1:25:49,  3.76s/it]                                                      {'loss': 0.22, 'grad_norm': 3.2357715910027474, 'learning_rate': 6.62142491071992e-06, 'epoch': 0.41}
 41%|████▏     | 966/2335 [1:01:47<1:25:49,  3.76s/it] 41%|████▏     | 967/2335 [1:01:50<1:25:46,  3.76s/it]                                                      {'loss': 0.2083, 'grad_norm': 2.70462666899732, 'learning_rate': 6.614860146823333e-06, 'epoch': 0.41}
 41%|████▏     | 967/2335 [1:01:50<1:25:46,  3.76s/it] 41%|████▏     | 968/2335 [1:01:54<1:24:42,  3.72s/it]                                                      {'loss': 0.1856, 'grad_norm': 2.206917977542963, 'learning_rate': 6.608292273489851e-06, 'epoch': 0.41}
 41%|████▏     | 968/2335 [1:01:54<1:24:42,  3.72s/it] 41%|████▏     | 969/2335 [1:01:58<1:24:52,  3.73s/it]                                                      {'loss': 0.2261, 'grad_norm': 2.7987046948822862, 'learning_rate': 6.601721303366011e-06, 'epoch': 0.41}
 41%|████▏     | 969/2335 [1:01:58<1:24:52,  3.73s/it] 42%|████▏     | 970/2335 [1:02:02<1:25:33,  3.76s/it]                                                      {'loss': 0.2312, 'grad_norm': 2.5524281278778482, 'learning_rate': 6.595147249104311e-06, 'epoch': 0.42}
 42%|████▏     | 970/2335 [1:02:02<1:25:33,  3.76s/it] 42%|████▏     | 971/2335 [1:02:06<1:26:07,  3.79s/it]                                                      {'loss': 0.2004, 'grad_norm': 2.7628830833275972, 'learning_rate': 6.588570123363192e-06, 'epoch': 0.42}
 42%|████▏     | 971/2335 [1:02:06<1:26:07,  3.79s/it] 42%|████▏     | 972/2335 [1:02:09<1:25:20,  3.76s/it]                                                      {'loss': 0.1666, 'grad_norm': 2.4347827238551356, 'learning_rate': 6.581989938807001e-06, 'epoch': 0.42}
 42%|████▏     | 972/2335 [1:02:09<1:25:20,  3.76s/it] 42%|████▏     | 973/2335 [1:02:13<1:25:33,  3.77s/it]                                                      {'loss': 0.2008, 'grad_norm': 2.2894829910300323, 'learning_rate': 6.575406708105985e-06, 'epoch': 0.42}
 42%|████▏     | 973/2335 [1:02:13<1:25:33,  3.77s/it] 42%|████▏     | 974/2335 [1:02:17<1:25:56,  3.79s/it]                                                      {'loss': 0.1836, 'grad_norm': 2.4167896048641273, 'learning_rate': 6.568820443936246e-06, 'epoch': 0.42}
 42%|████▏     | 974/2335 [1:02:17<1:25:56,  3.79s/it] 42%|████▏     | 975/2335 [1:02:21<1:25:33,  3.77s/it]                                                      {'loss': 0.1824, 'grad_norm': 2.655055492551505, 'learning_rate': 6.562231158979737e-06, 'epoch': 0.42}
 42%|████▏     | 975/2335 [1:02:21<1:25:33,  3.77s/it] 42%|████▏     | 976/2335 [1:02:24<1:24:47,  3.74s/it]                                                      {'loss': 0.2376, 'grad_norm': 2.7021329145370667, 'learning_rate': 6.555638865924221e-06, 'epoch': 0.42}
 42%|████▏     | 976/2335 [1:02:24<1:24:47,  3.74s/it] 42%|████▏     | 977/2335 [1:02:28<1:25:11,  3.76s/it]                                                      {'loss': 0.2421, 'grad_norm': 2.660897560302102, 'learning_rate': 6.549043577463254e-06, 'epoch': 0.42}
 42%|████▏     | 977/2335 [1:02:28<1:25:11,  3.76s/it] 42%|████▏     | 978/2335 [1:02:32<1:24:06,  3.72s/it]                                                      {'loss': 0.1739, 'grad_norm': 2.883569277982489, 'learning_rate': 6.542445306296163e-06, 'epoch': 0.42}
 42%|████▏     | 978/2335 [1:02:32<1:24:06,  3.72s/it] 42%|████▏     | 979/2335 [1:02:35<1:24:02,  3.72s/it]                                                      {'loss': 0.2134, 'grad_norm': 2.880720445703276, 'learning_rate': 6.535844065128012e-06, 'epoch': 0.42}
 42%|████▏     | 979/2335 [1:02:35<1:24:02,  3.72s/it] 42%|████▏     | 980/2335 [1:02:39<1:23:46,  3.71s/it]                                                      {'loss': 0.1983, 'grad_norm': 2.746731361552014, 'learning_rate': 6.529239866669592e-06, 'epoch': 0.42}
 42%|████▏     | 980/2335 [1:02:39<1:23:46,  3.71s/it] 42%|████▏     | 981/2335 [1:02:43<1:23:35,  3.70s/it]                                                      {'loss': 0.1787, 'grad_norm': 2.226449102412465, 'learning_rate': 6.522632723637381e-06, 'epoch': 0.42}
 42%|████▏     | 981/2335 [1:02:43<1:23:35,  3.70s/it] 42%|████▏     | 982/2335 [1:02:47<1:23:30,  3.70s/it]                                                      {'loss': 0.2161, 'grad_norm': 2.484027619715287, 'learning_rate': 6.516022648753533e-06, 'epoch': 0.42}
 42%|████▏     | 982/2335 [1:02:47<1:23:30,  3.70s/it] 42%|████▏     | 983/2335 [1:02:50<1:23:02,  3.69s/it]                                                      {'loss': 0.1949, 'grad_norm': 2.8093354042561165, 'learning_rate': 6.509409654745841e-06, 'epoch': 0.42}
 42%|████▏     | 983/2335 [1:02:50<1:23:02,  3.69s/it] 42%|████▏     | 984/2335 [1:02:54<1:22:40,  3.67s/it]                                                      {'loss': 0.1975, 'grad_norm': 2.6134002836139594, 'learning_rate': 6.502793754347721e-06, 'epoch': 0.42}
 42%|████▏     | 984/2335 [1:02:54<1:22:40,  3.67s/it] 42%|████▏     | 985/2335 [1:02:58<1:23:00,  3.69s/it]                                                      {'loss': 0.2161, 'grad_norm': 2.648238442444048, 'learning_rate': 6.4961749602981916e-06, 'epoch': 0.42}
 42%|████▏     | 985/2335 [1:02:58<1:23:00,  3.69s/it] 42%|████▏     | 986/2335 [1:03:01<1:23:27,  3.71s/it]                                                      {'loss': 0.2042, 'grad_norm': 2.417179168155311, 'learning_rate': 6.4895532853418315e-06, 'epoch': 0.42}
 42%|████▏     | 986/2335 [1:03:01<1:23:27,  3.71s/it] 42%|████▏     | 987/2335 [1:03:05<1:23:25,  3.71s/it]                                                      {'loss': 0.195, 'grad_norm': 2.5058019321159737, 'learning_rate': 6.4829287422287765e-06, 'epoch': 0.42}
 42%|████▏     | 987/2335 [1:03:05<1:23:25,  3.71s/it] 42%|████▏     | 988/2335 [1:03:09<1:22:42,  3.68s/it]                                                      {'loss': 0.1976, 'grad_norm': 2.7918984540675216, 'learning_rate': 6.476301343714682e-06, 'epoch': 0.42}
 42%|████▏     | 988/2335 [1:03:09<1:22:42,  3.68s/it] 42%|████▏     | 989/2335 [1:03:12<1:22:05,  3.66s/it]                                                      {'loss': 0.2367, 'grad_norm': 2.6838860232558504, 'learning_rate': 6.469671102560698e-06, 'epoch': 0.42}
 42%|████▏     | 989/2335 [1:03:12<1:22:05,  3.66s/it] 42%|████▏     | 990/2335 [1:03:16<1:22:41,  3.69s/it]                                                      {'loss': 0.2287, 'grad_norm': 2.319605024812522, 'learning_rate': 6.463038031533455e-06, 'epoch': 0.42}
 42%|████▏     | 990/2335 [1:03:16<1:22:41,  3.69s/it] 42%|████▏     | 991/2335 [1:03:20<1:22:19,  3.68s/it]                                                      {'loss': 0.2054, 'grad_norm': 2.4043514813159264, 'learning_rate': 6.456402143405026e-06, 'epoch': 0.42}
 42%|████▏     | 991/2335 [1:03:20<1:22:19,  3.68s/it] 42%|████▏     | 992/2335 [1:03:23<1:22:21,  3.68s/it]                                                      {'loss': 0.1999, 'grad_norm': 2.385835650986772, 'learning_rate': 6.449763450952912e-06, 'epoch': 0.42}
 42%|████▏     | 992/2335 [1:03:23<1:22:21,  3.68s/it] 43%|████▎     | 993/2335 [1:03:27<1:21:54,  3.66s/it]                                                      {'loss': 0.203, 'grad_norm': 2.509819687127884, 'learning_rate': 6.443121966960011e-06, 'epoch': 0.43}
 43%|████▎     | 993/2335 [1:03:27<1:21:54,  3.66s/it] 43%|████▎     | 994/2335 [1:03:31<1:22:19,  3.68s/it]                                                      {'loss': 0.1838, 'grad_norm': 2.322492900819722, 'learning_rate': 6.436477704214599e-06, 'epoch': 0.43}
 43%|████▎     | 994/2335 [1:03:31<1:22:19,  3.68s/it] 43%|████▎     | 995/2335 [1:03:34<1:22:14,  3.68s/it]                                                      {'loss': 0.2438, 'grad_norm': 2.5776410243319825, 'learning_rate': 6.429830675510301e-06, 'epoch': 0.43}
 43%|████▎     | 995/2335 [1:03:34<1:22:14,  3.68s/it] 43%|████▎     | 996/2335 [1:03:38<1:22:25,  3.69s/it]                                                      {'loss': 0.1878, 'grad_norm': 2.3538078943597993, 'learning_rate': 6.423180893646068e-06, 'epoch': 0.43}
 43%|████▎     | 996/2335 [1:03:38<1:22:25,  3.69s/it] 43%|████▎     | 997/2335 [1:03:42<1:22:22,  3.69s/it]                                                      {'loss': 0.1932, 'grad_norm': 2.813234510526458, 'learning_rate': 6.416528371426155e-06, 'epoch': 0.43}
 43%|████▎     | 997/2335 [1:03:42<1:22:22,  3.69s/it] 43%|████▎     | 998/2335 [1:03:45<1:22:08,  3.69s/it]                                                      {'loss': 0.2173, 'grad_norm': 2.866946153638045, 'learning_rate': 6.409873121660088e-06, 'epoch': 0.43}
 43%|████▎     | 998/2335 [1:03:45<1:22:08,  3.69s/it] 43%|████▎     | 999/2335 [1:03:49<1:22:38,  3.71s/it]                                                      {'loss': 0.1652, 'grad_norm': 2.6808304731697468, 'learning_rate': 6.40321515716265e-06, 'epoch': 0.43}
 43%|████▎     | 999/2335 [1:03:49<1:22:38,  3.71s/it] 43%|████▎     | 1000/2335 [1:03:53<1:22:04,  3.69s/it]                                                       {'loss': 0.1498, 'grad_norm': 2.2330409883688884, 'learning_rate': 6.396554490753848e-06, 'epoch': 0.43}
 43%|████▎     | 1000/2335 [1:03:53<1:22:04,  3.69s/it]/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
 43%|████▎     | 1001/2335 [1:04:15<3:26:24,  9.28s/it]                                                       {'loss': 0.254, 'grad_norm': 2.7538899739170586, 'learning_rate': 6.389891135258893e-06, 'epoch': 0.43}
 43%|████▎     | 1001/2335 [1:04:15<3:26:24,  9.28s/it] 43%|████▎     | 1002/2335 [1:04:19<2:49:03,  7.61s/it]                                                       {'loss': 0.2277, 'grad_norm': 2.663350851056386, 'learning_rate': 6.383225103508175e-06, 'epoch': 0.43}
 43%|████▎     | 1002/2335 [1:04:19<2:49:03,  7.61s/it] 43%|████▎     | 1003/2335 [1:04:23<2:22:39,  6.43s/it]                                                       {'loss': 0.1763, 'grad_norm': 2.712401190079425, 'learning_rate': 6.376556408337233e-06, 'epoch': 0.43}
 43%|████▎     | 1003/2335 [1:04:23<2:22:39,  6.43s/it] 43%|████▎     | 1004/2335 [1:04:26<2:03:48,  5.58s/it]                                                       {'loss': 0.2002, 'grad_norm': 2.7901463452216437, 'learning_rate': 6.369885062586741e-06, 'epoch': 0.43}
 43%|████▎     | 1004/2335 [1:04:26<2:03:48,  5.58s/it] 43%|████▎     | 1005/2335 [1:04:30<1:51:29,  5.03s/it]                                                       {'loss': 0.1957, 'grad_norm': 2.6065059179536423, 'learning_rate': 6.36321107910247e-06, 'epoch': 0.43}
 43%|████▎     | 1005/2335 [1:04:30<1:51:29,  5.03s/it] 43%|████▎     | 1006/2335 [1:04:34<1:42:20,  4.62s/it]                                                       {'loss': 0.1765, 'grad_norm': 2.500841862886674, 'learning_rate': 6.356534470735274e-06, 'epoch': 0.43}
 43%|████▎     | 1006/2335 [1:04:34<1:42:20,  4.62s/it] 43%|████▎     | 1007/2335 [1:04:37<1:36:10,  4.35s/it]                                                       {'loss': 0.1935, 'grad_norm': 2.5652519669800045, 'learning_rate': 6.349855250341063e-06, 'epoch': 0.43}
 43%|████▎     | 1007/2335 [1:04:37<1:36:10,  4.35s/it] 43%|████▎     | 1008/2335 [1:04:41<1:31:15,  4.13s/it]                                                       {'loss': 0.1321, 'grad_norm': 2.208472030647767, 'learning_rate': 6.343173430780769e-06, 'epoch': 0.43}
 43%|████▎     | 1008/2335 [1:04:41<1:31:15,  4.13s/it] 43%|████▎     | 1009/2335 [1:04:45<1:28:34,  4.01s/it]                                                       {'loss': 0.1379, 'grad_norm': 2.3073006175299087, 'learning_rate': 6.336489024920338e-06, 'epoch': 0.43}
 43%|████▎     | 1009/2335 [1:04:45<1:28:34,  4.01s/it] 43%|████▎     | 1010/2335 [1:04:48<1:25:59,  3.89s/it]                                                       {'loss': 0.1809, 'grad_norm': 2.730992738390745, 'learning_rate': 6.3298020456306885e-06, 'epoch': 0.43}
 43%|████▎     | 1010/2335 [1:04:48<1:25:59,  3.89s/it] 43%|████▎     | 1011/2335 [1:04:52<1:24:50,  3.85s/it]                                                       {'loss': 0.1605, 'grad_norm': 2.3216025221462386, 'learning_rate': 6.3231125057876996e-06, 'epoch': 0.43}
 43%|████▎     | 1011/2335 [1:04:52<1:24:50,  3.85s/it] 43%|████▎     | 1012/2335 [1:04:56<1:23:44,  3.80s/it]                                                       {'loss': 0.2097, 'grad_norm': 2.5275899077572346, 'learning_rate': 6.316420418272176e-06, 'epoch': 0.43}
 43%|████▎     | 1012/2335 [1:04:56<1:23:44,  3.80s/it] 43%|████▎     | 1013/2335 [1:04:59<1:22:07,  3.73s/it]                                                       {'loss': 0.2029, 'grad_norm': 2.946082288732787, 'learning_rate': 6.309725795969832e-06, 'epoch': 0.43}
 43%|████▎     | 1013/2335 [1:04:59<1:22:07,  3.73s/it] 43%|████▎     | 1014/2335 [1:05:03<1:21:32,  3.70s/it]                                                       {'loss': 0.169, 'grad_norm': 2.5567826795463815, 'learning_rate': 6.30302865177126e-06, 'epoch': 0.43}
 43%|████▎     | 1014/2335 [1:05:03<1:21:32,  3.70s/it] 43%|████▎     | 1015/2335 [1:05:07<1:21:03,  3.68s/it]                                                       {'loss': 0.218, 'grad_norm': 2.796213231319827, 'learning_rate': 6.29632899857191e-06, 'epoch': 0.43}
 43%|████▎     | 1015/2335 [1:05:07<1:21:03,  3.68s/it] 44%|████▎     | 1016/2335 [1:05:10<1:20:34,  3.67s/it]                                                       {'loss': 0.2138, 'grad_norm': 2.8040535572865863, 'learning_rate': 6.289626849272062e-06, 'epoch': 0.44}
 44%|████▎     | 1016/2335 [1:05:10<1:20:34,  3.67s/it] 44%|████▎     | 1017/2335 [1:05:14<1:21:29,  3.71s/it]                                                       {'loss': 0.2134, 'grad_norm': 2.775118567472346, 'learning_rate': 6.2829222167768035e-06, 'epoch': 0.44}
 44%|████▎     | 1017/2335 [1:05:14<1:21:29,  3.71s/it] 44%|████▎     | 1018/2335 [1:05:18<1:20:55,  3.69s/it]                                                       {'loss': 0.1948, 'grad_norm': 2.7602196761671682, 'learning_rate': 6.2762151139960026e-06, 'epoch': 0.44}
 44%|████▎     | 1018/2335 [1:05:18<1:20:55,  3.69s/it] 44%|████▎     | 1019/2335 [1:05:21<1:20:39,  3.68s/it]                                                       {'loss': 0.1842, 'grad_norm': 2.5174080439393247, 'learning_rate': 6.269505553844284e-06, 'epoch': 0.44}
 44%|████▎     | 1019/2335 [1:05:21<1:20:39,  3.68s/it] 44%|████▎     | 1020/2335 [1:05:25<1:21:03,  3.70s/it]                                                       {'loss': 0.1774, 'grad_norm': 2.2430038611627383, 'learning_rate': 6.262793549241003e-06, 'epoch': 0.44}
 44%|████▎     | 1020/2335 [1:05:25<1:21:03,  3.70s/it] 44%|████▎     | 1021/2335 [1:05:29<1:21:40,  3.73s/it]                                                       {'loss': 0.1511, 'grad_norm': 2.305059612776913, 'learning_rate': 6.256079113110225e-06, 'epoch': 0.44}
 44%|████▎     | 1021/2335 [1:05:29<1:21:40,  3.73s/it] 44%|████▍     | 1022/2335 [1:05:32<1:21:23,  3.72s/it]                                                       {'loss': 0.2326, 'grad_norm': 2.496110150545391, 'learning_rate': 6.249362258380692e-06, 'epoch': 0.44}
 44%|████▍     | 1022/2335 [1:05:32<1:21:23,  3.72s/it] 44%|████▍     | 1023/2335 [1:05:36<1:21:07,  3.71s/it]                                                       {'loss': 0.1601, 'grad_norm': 2.229451285731679, 'learning_rate': 6.2426429979858085e-06, 'epoch': 0.44}
 44%|████▍     | 1023/2335 [1:05:36<1:21:07,  3.71s/it] 44%|████▍     | 1024/2335 [1:05:40<1:20:29,  3.68s/it]                                                       {'loss': 0.182, 'grad_norm': 2.400973508478108, 'learning_rate': 6.2359213448636104e-06, 'epoch': 0.44}
 44%|████▍     | 1024/2335 [1:05:40<1:20:29,  3.68s/it] 44%|████▍     | 1025/2335 [1:05:43<1:20:19,  3.68s/it]                                                       {'loss': 0.2026, 'grad_norm': 2.4018102463814777, 'learning_rate': 6.229197311956736e-06, 'epoch': 0.44}
 44%|████▍     | 1025/2335 [1:05:43<1:20:19,  3.68s/it] 44%|████▍     | 1026/2335 [1:05:47<1:20:39,  3.70s/it]                                                       {'loss': 0.1772, 'grad_norm': 2.993372393994128, 'learning_rate': 6.222470912212413e-06, 'epoch': 0.44}
 44%|████▍     | 1026/2335 [1:05:47<1:20:39,  3.70s/it] 44%|████▍     | 1027/2335 [1:05:51<1:20:13,  3.68s/it]                                                       {'loss': 0.1541, 'grad_norm': 2.322576894122534, 'learning_rate': 6.215742158582419e-06, 'epoch': 0.44}
 44%|████▍     | 1027/2335 [1:05:51<1:20:13,  3.68s/it] 44%|████▍     | 1028/2335 [1:05:55<1:21:11,  3.73s/it]                                                       {'loss': 0.2088, 'grad_norm': 2.8753946634125342, 'learning_rate': 6.209011064023072e-06, 'epoch': 0.44}
 44%|████▍     | 1028/2335 [1:05:55<1:21:11,  3.73s/it] 44%|████▍     | 1029/2335 [1:05:58<1:21:34,  3.75s/it]                                                       {'loss': 0.1976, 'grad_norm': 2.6794267096771573, 'learning_rate': 6.202277641495188e-06, 'epoch': 0.44}
 44%|████▍     | 1029/2335 [1:05:58<1:21:34,  3.75s/it] 44%|████▍     | 1030/2335 [1:06:02<1:20:48,  3.72s/it]                                                       {'loss': 0.1694, 'grad_norm': 2.579476193237105, 'learning_rate': 6.195541903964074e-06, 'epoch': 0.44}
 44%|████▍     | 1030/2335 [1:06:02<1:20:48,  3.72s/it] 44%|████▍     | 1031/2335 [1:06:06<1:20:35,  3.71s/it]                                                       {'loss': 0.1867, 'grad_norm': 2.5049099672637367, 'learning_rate': 6.188803864399492e-06, 'epoch': 0.44}
 44%|████▍     | 1031/2335 [1:06:06<1:20:35,  3.71s/it] 44%|████▍     | 1032/2335 [1:06:09<1:20:06,  3.69s/it]                                                       {'loss': 0.1403, 'grad_norm': 2.6272262299572464, 'learning_rate': 6.182063535775634e-06, 'epoch': 0.44}
 44%|████▍     | 1032/2335 [1:06:09<1:20:06,  3.69s/it] 44%|████▍     | 1033/2335 [1:06:13<1:20:17,  3.70s/it]                                                       {'loss': 0.1777, 'grad_norm': 2.4503247627818876, 'learning_rate': 6.175320931071105e-06, 'epoch': 0.44}
 44%|████▍     | 1033/2335 [1:06:13<1:20:17,  3.70s/it] 44%|████▍     | 1034/2335 [1:06:17<1:19:56,  3.69s/it]                                                       {'loss': 0.2045, 'grad_norm': 2.5728787111764952, 'learning_rate': 6.168576063268884e-06, 'epoch': 0.44}
 44%|████▍     | 1034/2335 [1:06:17<1:19:56,  3.69s/it] 44%|████▍     | 1035/2335 [1:06:21<1:19:55,  3.69s/it]                                                       {'loss': 0.194, 'grad_norm': 2.761346244425715, 'learning_rate': 6.161828945356318e-06, 'epoch': 0.44}
 44%|████▍     | 1035/2335 [1:06:21<1:19:55,  3.69s/it] 44%|████▍     | 1036/2335 [1:06:24<1:20:40,  3.73s/it]                                                       {'loss': 0.1972, 'grad_norm': 2.2593691666523887, 'learning_rate': 6.155079590325079e-06, 'epoch': 0.44}
 44%|████▍     | 1036/2335 [1:06:24<1:20:40,  3.73s/it] 44%|████▍     | 1037/2335 [1:06:28<1:19:31,  3.68s/it]                                                       {'loss': 0.1996, 'grad_norm': 2.538153914032363, 'learning_rate': 6.148328011171147e-06, 'epoch': 0.44}
 44%|████▍     | 1037/2335 [1:06:28<1:19:31,  3.68s/it] 44%|████▍     | 1038/2335 [1:06:32<1:19:51,  3.69s/it]                                                       {'loss': 0.2006, 'grad_norm': 2.5718458119629535, 'learning_rate': 6.141574220894793e-06, 'epoch': 0.44}
 44%|████▍     | 1038/2335 [1:06:32<1:19:51,  3.69s/it] 44%|████▍     | 1039/2335 [1:06:35<1:19:23,  3.68s/it]                                                       {'loss': 0.1712, 'grad_norm': 2.1421922481215785, 'learning_rate': 6.1348182325005314e-06, 'epoch': 0.44}
 44%|████▍     | 1039/2335 [1:06:35<1:19:23,  3.68s/it] 45%|████▍     | 1040/2335 [1:06:39<1:19:31,  3.68s/it]                                                       {'loss': 0.2035, 'grad_norm': 2.7712032771392874, 'learning_rate': 6.1280600589971225e-06, 'epoch': 0.45}
 45%|████▍     | 1040/2335 [1:06:39<1:19:31,  3.68s/it] 45%|████▍     | 1041/2335 [1:06:43<1:18:45,  3.65s/it]                                                       {'loss': 0.1943, 'grad_norm': 2.377108896263671, 'learning_rate': 6.121299713397526e-06, 'epoch': 0.45}
 45%|████▍     | 1041/2335 [1:06:43<1:18:45,  3.65s/it] 45%|████▍     | 1042/2335 [1:06:46<1:19:43,  3.70s/it]                                                       {'loss': 0.224, 'grad_norm': 2.3702882765685636, 'learning_rate': 6.114537208718888e-06, 'epoch': 0.45}
 45%|████▍     | 1042/2335 [1:06:46<1:19:43,  3.70s/it] 45%|████▍     | 1043/2335 [1:06:50<1:20:05,  3.72s/it]                                                       {'loss': 0.1706, 'grad_norm': 2.173809515313738, 'learning_rate': 6.10777255798251e-06, 'epoch': 0.45}
 45%|████▍     | 1043/2335 [1:06:50<1:20:05,  3.72s/it] 45%|████▍     | 1044/2335 [1:06:54<1:19:26,  3.69s/it]                                                       {'loss': 0.188, 'grad_norm': 2.4866767418035916, 'learning_rate': 6.1010057742138255e-06, 'epoch': 0.45}
 45%|████▍     | 1044/2335 [1:06:54<1:19:26,  3.69s/it] 45%|████▍     | 1045/2335 [1:06:58<1:20:24,  3.74s/it]                                                       {'loss': 0.2245, 'grad_norm': 2.8688519408249444, 'learning_rate': 6.094236870442376e-06, 'epoch': 0.45}
 45%|████▍     | 1045/2335 [1:06:58<1:20:24,  3.74s/it] 45%|████▍     | 1046/2335 [1:07:01<1:20:49,  3.76s/it]                                                       {'loss': 0.2118, 'grad_norm': 2.55650726813499, 'learning_rate': 6.087465859701784e-06, 'epoch': 0.45}
 45%|████▍     | 1046/2335 [1:07:01<1:20:49,  3.76s/it] 45%|████▍     | 1047/2335 [1:07:05<1:21:13,  3.78s/it]                                                       {'loss': 0.2045, 'grad_norm': 2.488382184415331, 'learning_rate': 6.080692755029734e-06, 'epoch': 0.45}
 45%|████▍     | 1047/2335 [1:07:05<1:21:13,  3.78s/it] 45%|████▍     | 1048/2335 [1:07:09<1:21:43,  3.81s/it]                                                       {'loss': 0.1793, 'grad_norm': 2.3551818763413124, 'learning_rate': 6.073917569467934e-06, 'epoch': 0.45}
 45%|████▍     | 1048/2335 [1:07:09<1:21:43,  3.81s/it] 45%|████▍     | 1049/2335 [1:07:13<1:20:49,  3.77s/it]                                                       {'loss': 0.2106, 'grad_norm': 2.7578800296141495, 'learning_rate': 6.0671403160621045e-06, 'epoch': 0.45}
 45%|████▍     | 1049/2335 [1:07:13<1:20:49,  3.77s/it] 45%|████▍     | 1050/2335 [1:07:17<1:21:07,  3.79s/it]                                                       {'loss': 0.2058, 'grad_norm': 2.6888579079373405, 'learning_rate': 6.060361007861948e-06, 'epoch': 0.45}
 45%|████▍     | 1050/2335 [1:07:17<1:21:07,  3.79s/it] 45%|████▌     | 1051/2335 [1:07:20<1:21:08,  3.79s/it]                                                       {'loss': 0.196, 'grad_norm': 2.7389336436922282, 'learning_rate': 6.053579657921118e-06, 'epoch': 0.45}
 45%|████▌     | 1051/2335 [1:07:20<1:21:08,  3.79s/it] 45%|████▌     | 1052/2335 [1:07:24<1:20:38,  3.77s/it]                                                       {'loss': 0.1722, 'grad_norm': 2.6998708216443963, 'learning_rate': 6.046796279297208e-06, 'epoch': 0.45}
 45%|████▌     | 1052/2335 [1:07:24<1:20:38,  3.77s/it] 45%|████▌     | 1053/2335 [1:07:28<1:20:07,  3.75s/it]                                                       {'loss': 0.2065, 'grad_norm': 2.743903903842347, 'learning_rate': 6.040010885051711e-06, 'epoch': 0.45}
 45%|████▌     | 1053/2335 [1:07:28<1:20:07,  3.75s/it] 45%|████▌     | 1054/2335 [1:07:32<1:20:42,  3.78s/it]                                                       {'loss': 0.2175, 'grad_norm': 2.7561614101880787, 'learning_rate': 6.033223488250001e-06, 'epoch': 0.45}
 45%|████▌     | 1054/2335 [1:07:32<1:20:42,  3.78s/it] 45%|████▌     | 1055/2335 [1:07:35<1:19:59,  3.75s/it]                                                       {'loss': 0.1788, 'grad_norm': 2.3232416942130456, 'learning_rate': 6.026434101961314e-06, 'epoch': 0.45}
 45%|████▌     | 1055/2335 [1:07:35<1:19:59,  3.75s/it] 45%|████▌     | 1056/2335 [1:07:39<1:21:09,  3.81s/it]                                                       {'loss': 0.2468, 'grad_norm': 2.830505766052931, 'learning_rate': 6.0196427392587085e-06, 'epoch': 0.45}
 45%|████▌     | 1056/2335 [1:07:39<1:21:09,  3.81s/it] 45%|████▌     | 1057/2335 [1:07:43<1:20:03,  3.76s/it]                                                       {'loss': 0.1456, 'grad_norm': 2.2917393235442542, 'learning_rate': 6.012849413219057e-06, 'epoch': 0.45}
 45%|████▌     | 1057/2335 [1:07:43<1:20:03,  3.76s/it] 45%|████▌     | 1058/2335 [1:07:47<1:20:23,  3.78s/it]                                                       {'loss': 0.2038, 'grad_norm': 2.4474753944881416, 'learning_rate': 6.0060541369230055e-06, 'epoch': 0.45}
 45%|████▌     | 1058/2335 [1:07:47<1:20:23,  3.78s/it] 45%|████▌     | 1059/2335 [1:07:51<1:20:49,  3.80s/it]                                                       {'loss': 0.159, 'grad_norm': 2.5169538828812117, 'learning_rate': 5.999256923454959e-06, 'epoch': 0.45}
 45%|████▌     | 1059/2335 [1:07:51<1:20:49,  3.80s/it] 45%|████▌     | 1060/2335 [1:07:54<1:19:44,  3.75s/it]                                                       {'loss': 0.2119, 'grad_norm': 2.6837048503104124, 'learning_rate': 5.992457785903054e-06, 'epoch': 0.45}
 45%|████▌     | 1060/2335 [1:07:54<1:19:44,  3.75s/it] 45%|████▌     | 1061/2335 [1:07:58<1:20:32,  3.79s/it]                                                       {'loss': 0.1898, 'grad_norm': 2.4529850490522365, 'learning_rate': 5.985656737359125e-06, 'epoch': 0.45}
 45%|████▌     | 1061/2335 [1:07:58<1:20:32,  3.79s/it] 45%|████▌     | 1062/2335 [1:08:02<1:20:39,  3.80s/it]                                                       {'loss': 0.1893, 'grad_norm': 2.474429009243246, 'learning_rate': 5.978853790918696e-06, 'epoch': 0.45}
 45%|████▌     | 1062/2335 [1:08:02<1:20:39,  3.80s/it] 46%|████▌     | 1063/2335 [1:08:06<1:19:40,  3.76s/it]                                                       {'loss': 0.2002, 'grad_norm': 2.725251997649122, 'learning_rate': 5.972048959680936e-06, 'epoch': 0.46}
 46%|████▌     | 1063/2335 [1:08:06<1:19:40,  3.76s/it] 46%|████▌     | 1064/2335 [1:08:09<1:20:11,  3.79s/it]                                                       {'loss': 0.1857, 'grad_norm': 2.6339385261579484, 'learning_rate': 5.96524225674865e-06, 'epoch': 0.46}
 46%|████▌     | 1064/2335 [1:08:09<1:20:11,  3.79s/it] 46%|████▌     | 1065/2335 [1:08:13<1:19:18,  3.75s/it]                                                       {'loss': 0.2038, 'grad_norm': 2.4726323367911505, 'learning_rate': 5.958433695228242e-06, 'epoch': 0.46}
 46%|████▌     | 1065/2335 [1:08:13<1:19:18,  3.75s/it] 46%|████▌     | 1066/2335 [1:08:17<1:19:52,  3.78s/it]                                                       {'loss': 0.1319, 'grad_norm': 2.219615305752368, 'learning_rate': 5.951623288229699e-06, 'epoch': 0.46}
 46%|████▌     | 1066/2335 [1:08:17<1:19:52,  3.78s/it] 46%|████▌     | 1067/2335 [1:08:21<1:19:13,  3.75s/it]                                                       {'loss': 0.2102, 'grad_norm': 2.5244632425727405, 'learning_rate': 5.9448110488665576e-06, 'epoch': 0.46}
 46%|████▌     | 1067/2335 [1:08:21<1:19:13,  3.75s/it] 46%|████▌     | 1068/2335 [1:08:24<1:18:49,  3.73s/it]                                                       {'loss': 0.1899, 'grad_norm': 2.276734834949852, 'learning_rate': 5.937996990255886e-06, 'epoch': 0.46}
 46%|████▌     | 1068/2335 [1:08:24<1:18:49,  3.73s/it] 46%|████▌     | 1069/2335 [1:08:28<1:18:26,  3.72s/it]                                                       {'loss': 0.1908, 'grad_norm': 2.5603989651544037, 'learning_rate': 5.931181125518255e-06, 'epoch': 0.46}
 46%|████▌     | 1069/2335 [1:08:28<1:18:26,  3.72s/it] 46%|████▌     | 1070/2335 [1:08:32<1:19:19,  3.76s/it]                                                       {'loss': 0.1506, 'grad_norm': 2.7942273026063837, 'learning_rate': 5.924363467777709e-06, 'epoch': 0.46}
 46%|████▌     | 1070/2335 [1:08:32<1:19:19,  3.76s/it] 46%|████▌     | 1071/2335 [1:08:36<1:18:50,  3.74s/it]                                                       {'loss': 0.204, 'grad_norm': 2.71634395100704, 'learning_rate': 5.917544030161752e-06, 'epoch': 0.46}
 46%|████▌     | 1071/2335 [1:08:36<1:18:50,  3.74s/it] 46%|████▌     | 1072/2335 [1:08:39<1:18:03,  3.71s/it]                                                       {'loss': 0.1668, 'grad_norm': 2.5411048149825377, 'learning_rate': 5.9107228258013085e-06, 'epoch': 0.46}
 46%|████▌     | 1072/2335 [1:08:39<1:18:03,  3.71s/it] 46%|████▌     | 1073/2335 [1:08:43<1:18:41,  3.74s/it]                                                       {'loss': 0.2229, 'grad_norm': 2.8242222200567006, 'learning_rate': 5.903899867830707e-06, 'epoch': 0.46}
 46%|████▌     | 1073/2335 [1:08:43<1:18:41,  3.74s/it] 46%|████▌     | 1074/2335 [1:08:47<1:19:15,  3.77s/it]                                                       {'loss': 0.2207, 'grad_norm': 2.6715047128856004, 'learning_rate': 5.897075169387655e-06, 'epoch': 0.46}
 46%|████▌     | 1074/2335 [1:08:47<1:19:15,  3.77s/it] 46%|████▌     | 1075/2335 [1:08:51<1:19:25,  3.78s/it]                                                       {'loss': 0.1683, 'grad_norm': 2.514129611820294, 'learning_rate': 5.890248743613207e-06, 'epoch': 0.46}
 46%|████▌     | 1075/2335 [1:08:51<1:19:25,  3.78s/it] 46%|████▌     | 1076/2335 [1:08:54<1:18:49,  3.76s/it]                                                       {'loss': 0.1638, 'grad_norm': 3.6605580982129498, 'learning_rate': 5.883420603651749e-06, 'epoch': 0.46}
 46%|████▌     | 1076/2335 [1:08:54<1:18:49,  3.76s/it] 46%|████▌     | 1077/2335 [1:08:58<1:18:09,  3.73s/it]                                                       {'loss': 0.2208, 'grad_norm': 2.540626929611411, 'learning_rate': 5.8765907626509625e-06, 'epoch': 0.46}
 46%|████▌     | 1077/2335 [1:08:58<1:18:09,  3.73s/it] 46%|████▌     | 1078/2335 [1:09:02<1:18:13,  3.73s/it]                                                       {'loss': 0.1632, 'grad_norm': 2.659327924725805, 'learning_rate': 5.869759233761807e-06, 'epoch': 0.46}
 46%|████▌     | 1078/2335 [1:09:02<1:18:13,  3.73s/it] 46%|████▌     | 1079/2335 [1:09:06<1:19:13,  3.78s/it]                                                       {'loss': 0.1768, 'grad_norm': 2.63608970700839, 'learning_rate': 5.8629260301384924e-06, 'epoch': 0.46}
 46%|████▌     | 1079/2335 [1:09:06<1:19:13,  3.78s/it] 46%|████▋     | 1080/2335 [1:09:09<1:18:22,  3.75s/it]                                                       {'loss': 0.1506, 'grad_norm': 2.206067706314631, 'learning_rate': 5.856091164938451e-06, 'epoch': 0.46}
 46%|████▋     | 1080/2335 [1:09:09<1:18:22,  3.75s/it] 46%|████▋     | 1081/2335 [1:09:13<1:18:14,  3.74s/it]                                                       {'loss': 0.2132, 'grad_norm': 2.9145804822844465, 'learning_rate': 5.849254651322317e-06, 'epoch': 0.46}
 46%|████▋     | 1081/2335 [1:09:13<1:18:14,  3.74s/it] 46%|████▋     | 1082/2335 [1:09:17<1:17:47,  3.73s/it]                                                       {'loss': 0.2039, 'grad_norm': 2.4756199676617663, 'learning_rate': 5.842416502453897e-06, 'epoch': 0.46}
 46%|████▋     | 1082/2335 [1:09:17<1:17:47,  3.73s/it] 46%|████▋     | 1083/2335 [1:09:21<1:18:04,  3.74s/it]                                                       {'loss': 0.218, 'grad_norm': 2.5225140475086714, 'learning_rate': 5.8355767315001485e-06, 'epoch': 0.46}
 46%|████▋     | 1083/2335 [1:09:21<1:18:04,  3.74s/it] 46%|████▋     | 1084/2335 [1:09:24<1:17:46,  3.73s/it]                                                       {'loss': 0.1902, 'grad_norm': 2.4210439606739445, 'learning_rate': 5.828735351631149e-06, 'epoch': 0.46}
 46%|████▋     | 1084/2335 [1:09:24<1:17:46,  3.73s/it] 46%|████▋     | 1085/2335 [1:09:28<1:17:33,  3.72s/it]                                                       {'loss': 0.1402, 'grad_norm': 2.6430036841327476, 'learning_rate': 5.821892376020075e-06, 'epoch': 0.46}
 46%|████▋     | 1085/2335 [1:09:28<1:17:33,  3.72s/it] 47%|████▋     | 1086/2335 [1:09:32<1:17:31,  3.72s/it]                                                       {'loss': 0.1241, 'grad_norm': 2.12461662415332, 'learning_rate': 5.815047817843179e-06, 'epoch': 0.47}
 47%|████▋     | 1086/2335 [1:09:32<1:17:31,  3.72s/it] 47%|████▋     | 1087/2335 [1:09:35<1:17:41,  3.73s/it]                                                       {'loss': 0.1796, 'grad_norm': 2.3577110854579892, 'learning_rate': 5.808201690279757e-06, 'epoch': 0.47}
 47%|████▋     | 1087/2335 [1:09:35<1:17:41,  3.73s/it] 47%|████▋     | 1088/2335 [1:09:39<1:17:45,  3.74s/it]                                                       {'loss': 0.1498, 'grad_norm': 2.4931640161723587, 'learning_rate': 5.801354006512127e-06, 'epoch': 0.47}
 47%|████▋     | 1088/2335 [1:09:39<1:17:45,  3.74s/it] 47%|████▋     | 1089/2335 [1:09:43<1:17:17,  3.72s/it]                                                       {'loss': 0.2052, 'grad_norm': 2.660646947308086, 'learning_rate': 5.794504779725607e-06, 'epoch': 0.47}
 47%|████▋     | 1089/2335 [1:09:43<1:17:17,  3.72s/it] 47%|████▋     | 1090/2335 [1:09:47<1:17:15,  3.72s/it]                                                       {'loss': 0.1999, 'grad_norm': 2.718440068007936, 'learning_rate': 5.787654023108481e-06, 'epoch': 0.47}
 47%|████▋     | 1090/2335 [1:09:47<1:17:15,  3.72s/it] 47%|████▋     | 1091/2335 [1:09:50<1:16:44,  3.70s/it]                                                       {'loss': 0.1786, 'grad_norm': 2.4969117311308433, 'learning_rate': 5.780801749851983e-06, 'epoch': 0.47}
 47%|████▋     | 1091/2335 [1:09:50<1:16:44,  3.70s/it] 47%|████▋     | 1092/2335 [1:09:54<1:16:39,  3.70s/it]                                                       {'loss': 0.2423, 'grad_norm': 2.837765269601434, 'learning_rate': 5.773947973150265e-06, 'epoch': 0.47}
 47%|████▋     | 1092/2335 [1:09:54<1:16:39,  3.70s/it] 47%|████▋     | 1093/2335 [1:09:58<1:16:12,  3.68s/it]                                                       {'loss': 0.1738, 'grad_norm': 2.5052723678948365, 'learning_rate': 5.767092706200375e-06, 'epoch': 0.47}
 47%|████▋     | 1093/2335 [1:09:58<1:16:12,  3.68s/it] 47%|████▋     | 1094/2335 [1:10:01<1:16:56,  3.72s/it]                                                       {'loss': 0.1517, 'grad_norm': 2.4480994828841887, 'learning_rate': 5.7602359622022276e-06, 'epoch': 0.47}
 47%|████▋     | 1094/2335 [1:10:01<1:16:56,  3.72s/it] 47%|████▋     | 1095/2335 [1:10:05<1:16:33,  3.70s/it]                                                       {'loss': 0.196, 'grad_norm': 2.5291021643025444, 'learning_rate': 5.753377754358587e-06, 'epoch': 0.47}
 47%|████▋     | 1095/2335 [1:10:05<1:16:33,  3.70s/it] 47%|████▋     | 1096/2335 [1:10:09<1:16:23,  3.70s/it]                                                       {'loss': 0.1657, 'grad_norm': 2.505007833475143, 'learning_rate': 5.746518095875033e-06, 'epoch': 0.47}
 47%|████▋     | 1096/2335 [1:10:09<1:16:23,  3.70s/it] 47%|████▋     | 1097/2335 [1:10:12<1:15:43,  3.67s/it]                                                       {'loss': 0.1576, 'grad_norm': 2.7105799475170675, 'learning_rate': 5.739656999959936e-06, 'epoch': 0.47}
 47%|████▋     | 1097/2335 [1:10:12<1:15:43,  3.67s/it] 47%|████▋     | 1098/2335 [1:10:16<1:16:28,  3.71s/it]                                                       {'loss': 0.2101, 'grad_norm': 2.6829362075492633, 'learning_rate': 5.73279447982444e-06, 'epoch': 0.47}
 47%|████▋     | 1098/2335 [1:10:16<1:16:28,  3.71s/it] 47%|████▋     | 1099/2335 [1:10:20<1:16:32,  3.72s/it]                                                       {'loss': 0.1943, 'grad_norm': 2.651240608848617, 'learning_rate': 5.725930548682425e-06, 'epoch': 0.47}
 47%|████▋     | 1099/2335 [1:10:20<1:16:32,  3.72s/it] 47%|████▋     | 1100/2335 [1:10:24<1:17:03,  3.74s/it]                                                       {'loss': 0.1822, 'grad_norm': 2.6364981115196096, 'learning_rate': 5.719065219750493e-06, 'epoch': 0.47}
 47%|████▋     | 1100/2335 [1:10:24<1:17:03,  3.74s/it] 47%|████▋     | 1101/2335 [1:10:27<1:16:22,  3.71s/it]                                                       {'loss': 0.1759, 'grad_norm': 2.4204264410788396, 'learning_rate': 5.712198506247935e-06, 'epoch': 0.47}
 47%|████▋     | 1101/2335 [1:10:27<1:16:22,  3.71s/it] 47%|████▋     | 1102/2335 [1:10:31<1:17:32,  3.77s/it]                                                       {'loss': 0.1938, 'grad_norm': 2.341481407828839, 'learning_rate': 5.70533042139671e-06, 'epoch': 0.47}
 47%|████▋     | 1102/2335 [1:10:31<1:17:32,  3.77s/it] 47%|████▋     | 1103/2335 [1:10:35<1:17:05,  3.75s/it]                                                       {'loss': 0.1904, 'grad_norm': 2.7077794595710207, 'learning_rate': 5.698460978421413e-06, 'epoch': 0.47}
 47%|████▋     | 1103/2335 [1:10:35<1:17:05,  3.75s/it] 47%|████▋     | 1104/2335 [1:10:39<1:17:09,  3.76s/it]                                                       {'loss': 0.1424, 'grad_norm': 2.2557959667242966, 'learning_rate': 5.6915901905492586e-06, 'epoch': 0.47}
 47%|████▋     | 1104/2335 [1:10:39<1:17:09,  3.76s/it] 47%|████▋     | 1105/2335 [1:10:43<1:17:34,  3.78s/it]                                                       {'loss': 0.2427, 'grad_norm': 3.1824196063529624, 'learning_rate': 5.6847180710100526e-06, 'epoch': 0.47}
 47%|████▋     | 1105/2335 [1:10:43<1:17:34,  3.78s/it] 47%|████▋     | 1106/2335 [1:10:46<1:16:45,  3.75s/it]                                                       {'loss': 0.1674, 'grad_norm': 2.524223632077738, 'learning_rate': 5.677844633036157e-06, 'epoch': 0.47}
 47%|████▋     | 1106/2335 [1:10:46<1:16:45,  3.75s/it] 47%|████▋     | 1107/2335 [1:10:50<1:16:09,  3.72s/it]                                                       {'loss': 0.1791, 'grad_norm': 2.652593659263161, 'learning_rate': 5.670969889862481e-06, 'epoch': 0.47}
 47%|████▋     | 1107/2335 [1:10:50<1:16:09,  3.72s/it] 47%|████▋     | 1108/2335 [1:10:54<1:15:48,  3.71s/it]                                                       {'loss': 0.1823, 'grad_norm': 2.5710734934052084, 'learning_rate': 5.664093854726442e-06, 'epoch': 0.47}
 47%|████▋     | 1108/2335 [1:10:54<1:15:48,  3.71s/it] 47%|████▋     | 1109/2335 [1:10:57<1:16:04,  3.72s/it]                                                       {'loss': 0.216, 'grad_norm': 2.388498336589055, 'learning_rate': 5.6572165408679454e-06, 'epoch': 0.47}
 47%|████▋     | 1109/2335 [1:10:57<1:16:04,  3.72s/it] 48%|████▊     | 1110/2335 [1:11:01<1:16:32,  3.75s/it]                                                       {'loss': 0.1506, 'grad_norm': 2.1303521217620474, 'learning_rate': 5.650337961529364e-06, 'epoch': 0.48}
 48%|████▊     | 1110/2335 [1:11:01<1:16:32,  3.75s/it] 48%|████▊     | 1111/2335 [1:11:05<1:16:32,  3.75s/it]                                                       {'loss': 0.1637, 'grad_norm': 2.3279828641656706, 'learning_rate': 5.643458129955497e-06, 'epoch': 0.48}
 48%|████▊     | 1111/2335 [1:11:05<1:16:32,  3.75s/it] 48%|████▊     | 1112/2335 [1:11:09<1:16:09,  3.74s/it]                                                       {'loss': 0.1833, 'grad_norm': 2.841189866432095, 'learning_rate': 5.6365770593935665e-06, 'epoch': 0.48}
 48%|████▊     | 1112/2335 [1:11:09<1:16:09,  3.74s/it] 48%|████▊     | 1113/2335 [1:11:12<1:16:51,  3.77s/it]                                                       {'loss': 0.1519, 'grad_norm': 2.358789356174836, 'learning_rate': 5.629694763093172e-06, 'epoch': 0.48}
 48%|████▊     | 1113/2335 [1:11:12<1:16:51,  3.77s/it] 48%|████▊     | 1114/2335 [1:11:16<1:16:25,  3.76s/it]                                                       {'loss': 0.2593, 'grad_norm': 2.952200427997332, 'learning_rate': 5.622811254306275e-06, 'epoch': 0.48}
 48%|████▊     | 1114/2335 [1:11:16<1:16:25,  3.76s/it] 48%|████▊     | 1115/2335 [1:11:20<1:16:36,  3.77s/it]                                                       {'loss': 0.2102, 'grad_norm': 2.6652087278861085, 'learning_rate': 5.6159265462871775e-06, 'epoch': 0.48}
 48%|████▊     | 1115/2335 [1:11:20<1:16:36,  3.77s/it] 48%|████▊     | 1116/2335 [1:11:24<1:16:01,  3.74s/it]                                                       {'loss': 0.1784, 'grad_norm': 2.7814163294936556, 'learning_rate': 5.609040652292479e-06, 'epoch': 0.48}
 48%|████▊     | 1116/2335 [1:11:24<1:16:01,  3.74s/it] 48%|████▊     | 1117/2335 [1:11:27<1:15:18,  3.71s/it]                                                       {'loss': 0.1664, 'grad_norm': 2.372052359799946, 'learning_rate': 5.602153585581075e-06, 'epoch': 0.48}
 48%|████▊     | 1117/2335 [1:11:27<1:15:18,  3.71s/it] 48%|████▊     | 1118/2335 [1:11:31<1:15:28,  3.72s/it]                                                       {'loss': 0.1511, 'grad_norm': 2.752611534379897, 'learning_rate': 5.59526535941411e-06, 'epoch': 0.48}
 48%|████▊     | 1118/2335 [1:11:31<1:15:28,  3.72s/it] 48%|████▊     | 1119/2335 [1:11:35<1:15:27,  3.72s/it]                                                       {'loss': 0.2228, 'grad_norm': 2.660967619766456, 'learning_rate': 5.588375987054967e-06, 'epoch': 0.48}
 48%|████▊     | 1119/2335 [1:11:35<1:15:27,  3.72s/it] 48%|████▊     | 1120/2335 [1:11:39<1:15:27,  3.73s/it]                                                       {'loss': 0.1707, 'grad_norm': 2.6766210678510416, 'learning_rate': 5.581485481769231e-06, 'epoch': 0.48}
 48%|████▊     | 1120/2335 [1:11:39<1:15:27,  3.73s/it] 48%|████▊     | 1121/2335 [1:11:42<1:15:15,  3.72s/it]                                                       {'loss': 0.1866, 'grad_norm': 2.62781295748319, 'learning_rate': 5.574593856824673e-06, 'epoch': 0.48}
 48%|████▊     | 1121/2335 [1:11:42<1:15:15,  3.72s/it] 48%|████▊     | 1122/2335 [1:11:46<1:14:59,  3.71s/it]                                                       {'loss': 0.2016, 'grad_norm': 2.6491539679063547, 'learning_rate': 5.567701125491217e-06, 'epoch': 0.48}
 48%|████▊     | 1122/2335 [1:11:46<1:14:59,  3.71s/it] 48%|████▊     | 1123/2335 [1:11:50<1:14:51,  3.71s/it]                                                       {'loss': 0.1384, 'grad_norm': 2.442654025680973, 'learning_rate': 5.560807301040918e-06, 'epoch': 0.48}
 48%|████▊     | 1123/2335 [1:11:50<1:14:51,  3.71s/it] 48%|████▊     | 1124/2335 [1:11:53<1:14:56,  3.71s/it]                                                       {'loss': 0.203, 'grad_norm': 2.5143625607786246, 'learning_rate': 5.553912396747938e-06, 'epoch': 0.48}
 48%|████▊     | 1124/2335 [1:11:53<1:14:56,  3.71s/it] 48%|████▊     | 1125/2335 [1:11:57<1:14:36,  3.70s/it]                                                       {'loss': 0.1778, 'grad_norm': 2.7409314585209272, 'learning_rate': 5.547016425888514e-06, 'epoch': 0.48}
 48%|████▊     | 1125/2335 [1:11:57<1:14:36,  3.70s/it] 48%|████▊     | 1126/2335 [1:12:01<1:14:11,  3.68s/it]                                                       {'loss': 0.1609, 'grad_norm': 2.421195589047659, 'learning_rate': 5.540119401740939e-06, 'epoch': 0.48}
 48%|████▊     | 1126/2335 [1:12:01<1:14:11,  3.68s/it] 48%|████▊     | 1127/2335 [1:12:04<1:14:47,  3.71s/it]                                                       {'loss': 0.1845, 'grad_norm': 2.6159323795825298, 'learning_rate': 5.533221337585536e-06, 'epoch': 0.48}
 48%|████▊     | 1127/2335 [1:12:04<1:14:47,  3.71s/it] 48%|████▊     | 1128/2335 [1:12:08<1:14:31,  3.70s/it]                                                       {'loss': 0.1683, 'grad_norm': 2.5042929575893593, 'learning_rate': 5.526322246704628e-06, 'epoch': 0.48}
 48%|████▊     | 1128/2335 [1:12:08<1:14:31,  3.70s/it] 48%|████▊     | 1129/2335 [1:12:12<1:14:19,  3.70s/it]                                                       {'loss': 0.1894, 'grad_norm': 2.6494484653472106, 'learning_rate': 5.519422142382514e-06, 'epoch': 0.48}
 48%|████▊     | 1129/2335 [1:12:12<1:14:19,  3.70s/it] 48%|████▊     | 1130/2335 [1:12:16<1:14:56,  3.73s/it]                                                       {'loss': 0.1944, 'grad_norm': 2.78193828674508, 'learning_rate': 5.512521037905447e-06, 'epoch': 0.48}
 48%|████▊     | 1130/2335 [1:12:16<1:14:56,  3.73s/it] 48%|████▊     | 1131/2335 [1:12:19<1:15:06,  3.74s/it]                                                       {'loss': 0.1539, 'grad_norm': 2.5375907051181508, 'learning_rate': 5.505618946561608e-06, 'epoch': 0.48}
 48%|████▊     | 1131/2335 [1:12:19<1:15:06,  3.74s/it] 48%|████▊     | 1132/2335 [1:12:23<1:14:44,  3.73s/it]                                                       {'loss': 0.2162, 'grad_norm': 2.858337600460061, 'learning_rate': 5.498715881641069e-06, 'epoch': 0.48}
 48%|████▊     | 1132/2335 [1:12:23<1:14:44,  3.73s/it] 49%|████▊     | 1133/2335 [1:12:27<1:14:46,  3.73s/it]                                                       {'loss': 0.1755, 'grad_norm': 2.6544062997270554, 'learning_rate': 5.491811856435788e-06, 'epoch': 0.49}
 49%|████▊     | 1133/2335 [1:12:27<1:14:46,  3.73s/it] 49%|████▊     | 1134/2335 [1:12:30<1:13:51,  3.69s/it]                                                       {'loss': 0.1313, 'grad_norm': 2.0602263137702974, 'learning_rate': 5.484906884239564e-06, 'epoch': 0.49}
 49%|████▊     | 1134/2335 [1:12:30<1:13:51,  3.69s/it] 49%|████▊     | 1135/2335 [1:12:34<1:13:35,  3.68s/it]                                                       {'loss': 0.1534, 'grad_norm': 2.3988916353730128, 'learning_rate': 5.478000978348024e-06, 'epoch': 0.49}
 49%|████▊     | 1135/2335 [1:12:34<1:13:35,  3.68s/it] 49%|████▊     | 1136/2335 [1:12:38<1:13:31,  3.68s/it]                                                       {'loss': 0.1724, 'grad_norm': 2.438267193652537, 'learning_rate': 5.471094152058592e-06, 'epoch': 0.49}
 49%|████▊     | 1136/2335 [1:12:38<1:13:31,  3.68s/it] 49%|████▊     | 1137/2335 [1:12:42<1:14:26,  3.73s/it]                                                       {'loss': 0.1765, 'grad_norm': 2.457965436585699, 'learning_rate': 5.464186418670458e-06, 'epoch': 0.49}
 49%|████▊     | 1137/2335 [1:12:42<1:14:26,  3.73s/it] 49%|████▊     | 1138/2335 [1:12:46<1:15:42,  3.80s/it]                                                       {'loss': 0.1697, 'grad_norm': 2.510408305943574, 'learning_rate': 5.45727779148457e-06, 'epoch': 0.49}
 49%|████▊     | 1138/2335 [1:12:46<1:15:42,  3.80s/it] 49%|████▉     | 1139/2335 [1:12:49<1:15:27,  3.79s/it]                                                       {'loss': 0.1991, 'grad_norm': 2.3849421744123553, 'learning_rate': 5.450368283803587e-06, 'epoch': 0.49}
 49%|████▉     | 1139/2335 [1:12:49<1:15:27,  3.79s/it] 49%|████▉     | 1140/2335 [1:12:53<1:15:15,  3.78s/it]                                                       {'loss': 0.2185, 'grad_norm': 2.7367180822643142, 'learning_rate': 5.443457908931868e-06, 'epoch': 0.49}
 49%|████▉     | 1140/2335 [1:12:53<1:15:15,  3.78s/it] 49%|████▉     | 1141/2335 [1:12:57<1:15:09,  3.78s/it]                                                       {'loss': 0.1897, 'grad_norm': 2.3992479693642195, 'learning_rate': 5.436546680175444e-06, 'epoch': 0.49}
 49%|████▉     | 1141/2335 [1:12:57<1:15:09,  3.78s/it] 49%|████▉     | 1142/2335 [1:13:01<1:15:07,  3.78s/it]                                                       {'loss': 0.1593, 'grad_norm': 2.6034079861868458, 'learning_rate': 5.429634610841984e-06, 'epoch': 0.49}
 49%|████▉     | 1142/2335 [1:13:01<1:15:07,  3.78s/it] 49%|████▉     | 1143/2335 [1:13:04<1:15:12,  3.79s/it]                                                       {'loss': 0.1724, 'grad_norm': 2.5397318001774862, 'learning_rate': 5.4227217142407805e-06, 'epoch': 0.49}
 49%|████▉     | 1143/2335 [1:13:04<1:15:12,  3.79s/it] 49%|████▉     | 1144/2335 [1:13:08<1:15:21,  3.80s/it]                                                       {'loss': 0.1643, 'grad_norm': 2.514944449247344, 'learning_rate': 5.415808003682717e-06, 'epoch': 0.49}
 49%|████▉     | 1144/2335 [1:13:08<1:15:21,  3.80s/it] 49%|████▉     | 1145/2335 [1:13:12<1:14:42,  3.77s/it]                                                       {'loss': 0.1547, 'grad_norm': 2.4625367408449033, 'learning_rate': 5.408893492480245e-06, 'epoch': 0.49}
 49%|████▉     | 1145/2335 [1:13:12<1:14:42,  3.77s/it] 49%|████▉     | 1146/2335 [1:13:16<1:14:14,  3.75s/it]                                                       {'loss': 0.1922, 'grad_norm': 2.561437905856827, 'learning_rate': 5.401978193947357e-06, 'epoch': 0.49}
 49%|████▉     | 1146/2335 [1:13:16<1:14:14,  3.75s/it] 49%|████▉     | 1147/2335 [1:13:19<1:14:11,  3.75s/it]                                                       {'loss': 0.1769, 'grad_norm': 2.599706176150563, 'learning_rate': 5.39506212139956e-06, 'epoch': 0.49}
 49%|████▉     | 1147/2335 [1:13:19<1:14:11,  3.75s/it] 49%|████▉     | 1148/2335 [1:13:23<1:14:43,  3.78s/it]                                                       {'loss': 0.1874, 'grad_norm': 2.8666879903167293, 'learning_rate': 5.388145288153855e-06, 'epoch': 0.49}
 49%|████▉     | 1148/2335 [1:13:23<1:14:43,  3.78s/it] 49%|████▉     | 1149/2335 [1:13:27<1:14:09,  3.75s/it]                                                       {'loss': 0.1801, 'grad_norm': 2.752340518072656, 'learning_rate': 5.381227707528705e-06, 'epoch': 0.49}
 49%|████▉     | 1149/2335 [1:13:27<1:14:09,  3.75s/it] 49%|████▉     | 1150/2335 [1:13:31<1:14:20,  3.76s/it]                                                       {'loss': 0.2078, 'grad_norm': 2.4806394869717154, 'learning_rate': 5.374309392844014e-06, 'epoch': 0.49}
 49%|████▉     | 1150/2335 [1:13:31<1:14:20,  3.76s/it] 49%|████▉     | 1151/2335 [1:13:34<1:13:43,  3.74s/it]                                                       {'loss': 0.145, 'grad_norm': 2.3019584337931027, 'learning_rate': 5.367390357421098e-06, 'epoch': 0.49}
 49%|████▉     | 1151/2335 [1:13:34<1:13:43,  3.74s/it] 49%|████▉     | 1152/2335 [1:13:38<1:13:42,  3.74s/it]                                                       {'loss': 0.1779, 'grad_norm': 2.653689764246234, 'learning_rate': 5.360470614582661e-06, 'epoch': 0.49}
 49%|████▉     | 1152/2335 [1:13:38<1:13:42,  3.74s/it] 49%|████▉     | 1153/2335 [1:13:42<1:13:36,  3.74s/it]                                                       {'loss': 0.1921, 'grad_norm': 2.598908257486413, 'learning_rate': 5.35355017765277e-06, 'epoch': 0.49}
 49%|████▉     | 1153/2335 [1:13:42<1:13:36,  3.74s/it] 49%|████▉     | 1154/2335 [1:13:46<1:14:05,  3.76s/it]                                                       {'loss': 0.144, 'grad_norm': 2.064450121202305, 'learning_rate': 5.346629059956825e-06, 'epoch': 0.49}
 49%|████▉     | 1154/2335 [1:13:46<1:14:05,  3.76s/it] 49%|████▉     | 1155/2335 [1:13:50<1:14:46,  3.80s/it]                                                       {'loss': 0.1698, 'grad_norm': 2.4005021739626757, 'learning_rate': 5.339707274821543e-06, 'epoch': 0.49}
 49%|████▉     | 1155/2335 [1:13:50<1:14:46,  3.80s/it] 50%|████▉     | 1156/2335 [1:13:53<1:14:01,  3.77s/it]                                                       {'loss': 0.1566, 'grad_norm': 2.1861012438086145, 'learning_rate': 5.33278483557492e-06, 'epoch': 0.5}
 50%|████▉     | 1156/2335 [1:13:53<1:14:01,  3.77s/it] 50%|████▉     | 1157/2335 [1:13:57<1:13:14,  3.73s/it]                                                       {'loss': 0.169, 'grad_norm': 2.708877459882879, 'learning_rate': 5.325861755546216e-06, 'epoch': 0.5}
 50%|████▉     | 1157/2335 [1:13:57<1:13:14,  3.73s/it] 50%|████▉     | 1158/2335 [1:14:01<1:14:03,  3.78s/it]                                                       {'loss': 0.1735, 'grad_norm': 2.8450759016756804, 'learning_rate': 5.318938048065926e-06, 'epoch': 0.5}
 50%|████▉     | 1158/2335 [1:14:01<1:14:03,  3.78s/it] 50%|████▉     | 1159/2335 [1:14:04<1:13:01,  3.73s/it]                                                       {'loss': 0.1882, 'grad_norm': 2.506456334524834, 'learning_rate': 5.312013726465744e-06, 'epoch': 0.5}
 50%|████▉     | 1159/2335 [1:14:04<1:13:01,  3.73s/it] 50%|████▉     | 1160/2335 [1:14:08<1:12:23,  3.70s/it]                                                       {'loss': 0.1653, 'grad_norm': 2.6284484254402867, 'learning_rate': 5.305088804078559e-06, 'epoch': 0.5}
 50%|████▉     | 1160/2335 [1:14:08<1:12:23,  3.70s/it] 50%|████▉     | 1161/2335 [1:14:12<1:12:06,  3.68s/it]                                                       {'loss': 0.228, 'grad_norm': 3.658927290302993, 'learning_rate': 5.298163294238405e-06, 'epoch': 0.5}
 50%|████▉     | 1161/2335 [1:14:12<1:12:06,  3.68s/it] 50%|████▉     | 1162/2335 [1:14:15<1:12:09,  3.69s/it]                                                       {'loss': 0.1862, 'grad_norm': 2.7409747948594654, 'learning_rate': 5.291237210280455e-06, 'epoch': 0.5}
 50%|████▉     | 1162/2335 [1:14:15<1:12:09,  3.69s/it] 50%|████▉     | 1163/2335 [1:14:19<1:11:53,  3.68s/it]                                                       {'loss': 0.1693, 'grad_norm': 2.344078890582227, 'learning_rate': 5.284310565540987e-06, 'epoch': 0.5}
 50%|████▉     | 1163/2335 [1:14:19<1:11:53,  3.68s/it] 50%|████▉     | 1164/2335 [1:14:23<1:11:18,  3.65s/it]                                                       {'loss': 0.1537, 'grad_norm': 2.605315707968823, 'learning_rate': 5.277383373357353e-06, 'epoch': 0.5}
 50%|████▉     | 1164/2335 [1:14:23<1:11:18,  3.65s/it] 50%|████▉     | 1165/2335 [1:14:26<1:11:27,  3.66s/it]                                                       {'loss': 0.1554, 'grad_norm': 2.332721196882709, 'learning_rate': 5.270455647067968e-06, 'epoch': 0.5}
 50%|████▉     | 1165/2335 [1:14:26<1:11:27,  3.66s/it] 50%|████▉     | 1166/2335 [1:14:30<1:11:49,  3.69s/it]                                                       {'loss': 0.1816, 'grad_norm': 2.347690314271193, 'learning_rate': 5.263527400012268e-06, 'epoch': 0.5}
 50%|████▉     | 1166/2335 [1:14:30<1:11:49,  3.69s/it] 50%|████▉     | 1167/2335 [1:14:34<1:11:14,  3.66s/it]                                                       {'loss': 0.145, 'grad_norm': 2.1378218583151685, 'learning_rate': 5.256598645530695e-06, 'epoch': 0.5}
 50%|████▉     | 1167/2335 [1:14:34<1:11:14,  3.66s/it] 50%|█████     | 1168/2335 [1:14:37<1:11:30,  3.68s/it]                                                       {'loss': 0.1391, 'grad_norm': 2.045434281103789, 'learning_rate': 5.249669396964665e-06, 'epoch': 0.5}
 50%|█████     | 1168/2335 [1:14:37<1:11:30,  3.68s/it] 50%|█████     | 1169/2335 [1:14:41<1:11:32,  3.68s/it]                                                       {'loss': 0.1971, 'grad_norm': 2.4763051701138123, 'learning_rate': 5.242739667656551e-06, 'epoch': 0.5}
 50%|█████     | 1169/2335 [1:14:41<1:11:32,  3.68s/it] 50%|█████     | 1170/2335 [1:14:45<1:11:17,  3.67s/it]                                                       {'loss': 0.1678, 'grad_norm': 2.440445519730131, 'learning_rate': 5.235809470949647e-06, 'epoch': 0.5}
 50%|█████     | 1170/2335 [1:14:45<1:11:17,  3.67s/it] 50%|█████     | 1171/2335 [1:14:49<1:12:22,  3.73s/it]                                                       {'loss': 0.168, 'grad_norm': 2.6851116213957518, 'learning_rate': 5.228878820188149e-06, 'epoch': 0.5}
 50%|█████     | 1171/2335 [1:14:49<1:12:22,  3.73s/it] 50%|█████     | 1172/2335 [1:14:52<1:11:32,  3.69s/it]                                                       {'loss': 0.1824, 'grad_norm': 2.7800859080651383, 'learning_rate': 5.221947728717126e-06, 'epoch': 0.5}
 50%|█████     | 1172/2335 [1:14:52<1:11:32,  3.69s/it] 50%|█████     | 1173/2335 [1:14:56<1:11:35,  3.70s/it]                                                       {'loss': 0.1604, 'grad_norm': 2.5593960530193103, 'learning_rate': 5.215016209882496e-06, 'epoch': 0.5}
 50%|█████     | 1173/2335 [1:14:56<1:11:35,  3.70s/it] 50%|█████     | 1174/2335 [1:15:00<1:12:04,  3.72s/it]                                                       {'loss': 0.1845, 'grad_norm': 2.948123513057818, 'learning_rate': 5.208084277031001e-06, 'epoch': 0.5}
 50%|█████     | 1174/2335 [1:15:00<1:12:04,  3.72s/it] 50%|█████     | 1175/2335 [1:15:03<1:11:56,  3.72s/it]                                                       {'loss': 0.1666, 'grad_norm': 2.4832280399696804, 'learning_rate': 5.201151943510179e-06, 'epoch': 0.5}
 50%|█████     | 1175/2335 [1:15:03<1:11:56,  3.72s/it] 50%|█████     | 1176/2335 [1:15:07<1:12:18,  3.74s/it]                                                       {'loss': 0.1759, 'grad_norm': 2.5291104917942033, 'learning_rate': 5.1942192226683385e-06, 'epoch': 0.5}
 50%|█████     | 1176/2335 [1:15:07<1:12:18,  3.74s/it] 50%|█████     | 1177/2335 [1:15:11<1:12:40,  3.77s/it]                                                       {'loss': 0.2053, 'grad_norm': 2.4751714779879133, 'learning_rate': 5.187286127854538e-06, 'epoch': 0.5}
 50%|█████     | 1177/2335 [1:15:11<1:12:40,  3.77s/it] 50%|█████     | 1178/2335 [1:15:15<1:11:47,  3.72s/it]                                                       {'loss': 0.1376, 'grad_norm': 2.222204204983334, 'learning_rate': 5.180352672418553e-06, 'epoch': 0.5}
 50%|█████     | 1178/2335 [1:15:15<1:11:47,  3.72s/it] 50%|█████     | 1179/2335 [1:15:18<1:12:05,  3.74s/it]                                                       {'loss': 0.1867, 'grad_norm': 2.3227701191871515, 'learning_rate': 5.17341886971085e-06, 'epoch': 0.5}
 50%|█████     | 1179/2335 [1:15:18<1:12:05,  3.74s/it] 51%|█████     | 1180/2335 [1:15:22<1:12:20,  3.76s/it]                                                       {'loss': 0.1412, 'grad_norm': 2.2175322273479594, 'learning_rate': 5.166484733082572e-06, 'epoch': 0.51}
 51%|█████     | 1180/2335 [1:15:22<1:12:20,  3.76s/it] 51%|█████     | 1181/2335 [1:15:26<1:11:58,  3.74s/it]                                                       {'loss': 0.1897, 'grad_norm': 2.694886350241414, 'learning_rate': 5.1595502758854966e-06, 'epoch': 0.51}
 51%|█████     | 1181/2335 [1:15:26<1:11:58,  3.74s/it] 51%|█████     | 1182/2335 [1:15:30<1:11:33,  3.72s/it]                                                       {'loss': 0.1948, 'grad_norm': 2.4309920863940144, 'learning_rate': 5.1526155114720265e-06, 'epoch': 0.51}
 51%|█████     | 1182/2335 [1:15:30<1:11:33,  3.72s/it] 51%|█████     | 1183/2335 [1:15:33<1:11:29,  3.72s/it]                                                       {'loss': 0.1824, 'grad_norm': 2.5508118711021983, 'learning_rate': 5.145680453195151e-06, 'epoch': 0.51}
 51%|█████     | 1183/2335 [1:15:33<1:11:29,  3.72s/it] 51%|█████     | 1184/2335 [1:15:37<1:12:07,  3.76s/it]                                                       {'loss': 0.1907, 'grad_norm': 2.7447940944608025, 'learning_rate': 5.138745114408427e-06, 'epoch': 0.51}
 51%|█████     | 1184/2335 [1:15:37<1:12:07,  3.76s/it] 51%|█████     | 1185/2335 [1:15:41<1:11:12,  3.72s/it]                                                       {'loss': 0.1796, 'grad_norm': 2.729567538990291, 'learning_rate': 5.131809508465949e-06, 'epoch': 0.51}
 51%|█████     | 1185/2335 [1:15:41<1:11:12,  3.72s/it] 51%|█████     | 1186/2335 [1:15:45<1:11:37,  3.74s/it]                                                       {'loss': 0.194, 'grad_norm': 2.7285883509842632, 'learning_rate': 5.124873648722329e-06, 'epoch': 0.51}
 51%|█████     | 1186/2335 [1:15:45<1:11:37,  3.74s/it] 51%|█████     | 1187/2335 [1:15:48<1:11:50,  3.75s/it]                                                       {'loss': 0.1569, 'grad_norm': 2.5878819103256956, 'learning_rate': 5.1179375485326685e-06, 'epoch': 0.51}
 51%|█████     | 1187/2335 [1:15:48<1:11:50,  3.75s/it] 51%|█████     | 1188/2335 [1:15:52<1:11:54,  3.76s/it]                                                       {'loss': 0.1841, 'grad_norm': 2.53867217461566, 'learning_rate': 5.111001221252528e-06, 'epoch': 0.51}
 51%|█████     | 1188/2335 [1:15:52<1:11:54,  3.76s/it] 51%|█████     | 1189/2335 [1:15:56<1:11:57,  3.77s/it]                                                       {'loss': 0.1525, 'grad_norm': 2.5672236061934086, 'learning_rate': 5.10406468023791e-06, 'epoch': 0.51}
 51%|█████     | 1189/2335 [1:15:56<1:11:57,  3.77s/it] 51%|█████     | 1190/2335 [1:16:00<1:10:54,  3.72s/it]                                                       {'loss': 0.1415, 'grad_norm': 2.21342755835096, 'learning_rate': 5.097127938845222e-06, 'epoch': 0.51}
 51%|█████     | 1190/2335 [1:16:00<1:10:54,  3.72s/it] 51%|█████     | 1191/2335 [1:16:03<1:10:16,  3.69s/it]                                                       {'loss': 0.1837, 'grad_norm': 2.5125466438507074, 'learning_rate': 5.0901910104312645e-06, 'epoch': 0.51}
 51%|█████     | 1191/2335 [1:16:03<1:10:16,  3.69s/it] 51%|█████     | 1192/2335 [1:16:07<1:10:33,  3.70s/it]                                                       {'loss': 0.1831, 'grad_norm': 2.528879172143243, 'learning_rate': 5.083253908353193e-06, 'epoch': 0.51}
 51%|█████     | 1192/2335 [1:16:07<1:10:33,  3.70s/it] 51%|█████     | 1193/2335 [1:16:11<1:10:19,  3.69s/it]                                                       {'loss': 0.1028, 'grad_norm': 2.050502841827448, 'learning_rate': 5.0763166459684985e-06, 'epoch': 0.51}
 51%|█████     | 1193/2335 [1:16:11<1:10:19,  3.69s/it] 51%|█████     | 1194/2335 [1:16:14<1:10:20,  3.70s/it]                                                       {'loss': 0.1623, 'grad_norm': 2.394268591906985, 'learning_rate': 5.069379236634986e-06, 'epoch': 0.51}
 51%|█████     | 1194/2335 [1:16:14<1:10:20,  3.70s/it] 51%|█████     | 1195/2335 [1:16:18<1:10:10,  3.69s/it]                                                       {'loss': 0.1658, 'grad_norm': 2.5628991001460686, 'learning_rate': 5.062441693710735e-06, 'epoch': 0.51}
 51%|█████     | 1195/2335 [1:16:18<1:10:10,  3.69s/it] 51%|█████     | 1196/2335 [1:16:22<1:10:04,  3.69s/it]                                                       {'loss': 0.208, 'grad_norm': 2.2872996970343484, 'learning_rate': 5.055504030554088e-06, 'epoch': 0.51}
 51%|█████     | 1196/2335 [1:16:22<1:10:04,  3.69s/it] 51%|█████▏    | 1197/2335 [1:16:25<1:09:38,  3.67s/it]                                                       {'loss': 0.1838, 'grad_norm': 2.2393377203157856, 'learning_rate': 5.048566260523614e-06, 'epoch': 0.51}
 51%|█████▏    | 1197/2335 [1:16:25<1:09:38,  3.67s/it] 51%|█████▏    | 1198/2335 [1:16:29<1:10:01,  3.69s/it]                                                       {'loss': 0.1394, 'grad_norm': 2.325288217431444, 'learning_rate': 5.041628396978093e-06, 'epoch': 0.51}
 51%|█████▏    | 1198/2335 [1:16:29<1:10:01,  3.69s/it] 51%|█████▏    | 1199/2335 [1:16:33<1:10:36,  3.73s/it]                                                       {'loss': 0.1793, 'grad_norm': 2.324014527852947, 'learning_rate': 5.034690453276485e-06, 'epoch': 0.51}
 51%|█████▏    | 1199/2335 [1:16:33<1:10:36,  3.73s/it] 51%|█████▏    | 1200/2335 [1:16:36<1:10:01,  3.70s/it]                                                       {'loss': 0.1542, 'grad_norm': 2.4674036005329487, 'learning_rate': 5.0277524427778986e-06, 'epoch': 0.51}
 51%|█████▏    | 1200/2335 [1:16:36<1:10:01,  3.70s/it] 51%|█████▏    | 1201/2335 [1:16:40<1:10:33,  3.73s/it]                                                       {'loss': 0.1606, 'grad_norm': 2.3928410458985603, 'learning_rate': 5.020814378841579e-06, 'epoch': 0.51}
 51%|█████▏    | 1201/2335 [1:16:40<1:10:33,  3.73s/it] 51%|█████▏    | 1202/2335 [1:16:44<1:10:59,  3.76s/it]                                                       {'loss': 0.1639, 'grad_norm': 2.640829402744844, 'learning_rate': 5.013876274826866e-06, 'epoch': 0.51}
 51%|█████▏    | 1202/2335 [1:16:44<1:10:59,  3.76s/it] 52%|█████▏    | 1203/2335 [1:16:48<1:10:39,  3.75s/it]                                                       {'loss': 0.1505, 'grad_norm': 2.2210166314371764, 'learning_rate': 5.006938144093183e-06, 'epoch': 0.52}
 52%|█████▏    | 1203/2335 [1:16:48<1:10:39,  3.75s/it] 52%|█████▏    | 1204/2335 [1:16:52<1:10:35,  3.75s/it]                                                       {'loss': 0.15, 'grad_norm': 2.318171291477901, 'learning_rate': 5e-06, 'epoch': 0.52}
 52%|█████▏    | 1204/2335 [1:16:52<1:10:35,  3.75s/it] 52%|█████▏    | 1205/2335 [1:16:56<1:11:49,  3.81s/it]                                                       {'loss': 0.1922, 'grad_norm': 2.3493192691385327, 'learning_rate': 4.993061855906819e-06, 'epoch': 0.52}
 52%|█████▏    | 1205/2335 [1:16:56<1:11:49,  3.81s/it] 52%|█████▏    | 1206/2335 [1:16:59<1:10:44,  3.76s/it]                                                       {'loss': 0.154, 'grad_norm': 2.399203523529749, 'learning_rate': 4.986123725173136e-06, 'epoch': 0.52}
 52%|█████▏    | 1206/2335 [1:16:59<1:10:44,  3.76s/it] 52%|█████▏    | 1207/2335 [1:17:03<1:11:10,  3.79s/it]                                                       {'loss': 0.1843, 'grad_norm': 2.7588946588597842, 'learning_rate': 4.979185621158423e-06, 'epoch': 0.52}
 52%|█████▏    | 1207/2335 [1:17:03<1:11:10,  3.79s/it] 52%|█████▏    | 1208/2335 [1:17:07<1:10:15,  3.74s/it]                                                       {'loss': 0.1311, 'grad_norm': 2.468021218458666, 'learning_rate': 4.972247557222102e-06, 'epoch': 0.52}
 52%|█████▏    | 1208/2335 [1:17:07<1:10:15,  3.74s/it] 52%|█████▏    | 1209/2335 [1:17:10<1:09:49,  3.72s/it]                                                       {'loss': 0.1275, 'grad_norm': 2.2195503600893343, 'learning_rate': 4.965309546723516e-06, 'epoch': 0.52}
 52%|█████▏    | 1209/2335 [1:17:10<1:09:49,  3.72s/it] 52%|█████▏    | 1210/2335 [1:17:14<1:10:14,  3.75s/it]                                                       {'loss': 0.139, 'grad_norm': 2.3828311604994723, 'learning_rate': 4.958371603021908e-06, 'epoch': 0.52}
 52%|█████▏    | 1210/2335 [1:17:14<1:10:14,  3.75s/it] 52%|█████▏    | 1211/2335 [1:17:18<1:10:41,  3.77s/it]                                                       {'loss': 0.1755, 'grad_norm': 2.1685830908392685, 'learning_rate': 4.951433739476388e-06, 'epoch': 0.52}
 52%|█████▏    | 1211/2335 [1:17:18<1:10:41,  3.77s/it] 52%|█████▏    | 1212/2335 [1:17:22<1:10:22,  3.76s/it]                                                       {'loss': 0.1497, 'grad_norm': 2.434866802895821, 'learning_rate': 4.944495969445914e-06, 'epoch': 0.52}
 52%|█████▏    | 1212/2335 [1:17:22<1:10:22,  3.76s/it] 52%|█████▏    | 1213/2335 [1:17:25<1:10:05,  3.75s/it]                                                       {'loss': 0.2098, 'grad_norm': 3.0812692922108575, 'learning_rate': 4.937558306289266e-06, 'epoch': 0.52}
 52%|█████▏    | 1213/2335 [1:17:25<1:10:05,  3.75s/it] 52%|█████▏    | 1214/2335 [1:17:29<1:09:31,  3.72s/it]                                                       {'loss': 0.2369, 'grad_norm': 2.220740386822536, 'learning_rate': 4.930620763365014e-06, 'epoch': 0.52}
 52%|█████▏    | 1214/2335 [1:17:29<1:09:31,  3.72s/it] 52%|█████▏    | 1215/2335 [1:17:33<1:08:54,  3.69s/it]                                                       {'loss': 0.1589, 'grad_norm': 2.587454223653688, 'learning_rate': 4.923683354031501e-06, 'epoch': 0.52}
 52%|█████▏    | 1215/2335 [1:17:33<1:08:54,  3.69s/it] 52%|█████▏    | 1216/2335 [1:17:36<1:08:37,  3.68s/it]                                                       {'loss': 0.1346, 'grad_norm': 2.174826071621821, 'learning_rate': 4.916746091646808e-06, 'epoch': 0.52}
 52%|█████▏    | 1216/2335 [1:17:36<1:08:37,  3.68s/it] 52%|█████▏    | 1217/2335 [1:17:40<1:09:30,  3.73s/it]                                                       {'loss': 0.2052, 'grad_norm': 2.1441594506497554, 'learning_rate': 4.909808989568737e-06, 'epoch': 0.52}
 52%|█████▏    | 1217/2335 [1:17:40<1:09:30,  3.73s/it] 52%|█████▏    | 1218/2335 [1:17:44<1:09:43,  3.75s/it]                                                       {'loss': 0.1356, 'grad_norm': 2.370418277698325, 'learning_rate': 4.902872061154779e-06, 'epoch': 0.52}
 52%|█████▏    | 1218/2335 [1:17:44<1:09:43,  3.75s/it] 52%|█████▏    | 1219/2335 [1:17:48<1:09:20,  3.73s/it]                                                       {'loss': 0.1641, 'grad_norm': 2.4298081543676906, 'learning_rate': 4.895935319762091e-06, 'epoch': 0.52}
 52%|█████▏    | 1219/2335 [1:17:48<1:09:20,  3.73s/it] 52%|█████▏    | 1220/2335 [1:17:51<1:09:13,  3.72s/it]                                                       {'loss': 0.1853, 'grad_norm': 2.5665936977122916, 'learning_rate': 4.8889987787474716e-06, 'epoch': 0.52}
 52%|█████▏    | 1220/2335 [1:17:51<1:09:13,  3.72s/it] 52%|█████▏    | 1221/2335 [1:17:55<1:09:03,  3.72s/it]                                                       {'loss': 0.1691, 'grad_norm': 2.423206893727968, 'learning_rate': 4.882062451467331e-06, 'epoch': 0.52}
 52%|█████▏    | 1221/2335 [1:17:55<1:09:03,  3.72s/it] 52%|█████▏    | 1222/2335 [1:17:59<1:08:46,  3.71s/it]                                                       {'loss': 0.1797, 'grad_norm': 2.7315741812459726, 'learning_rate': 4.875126351277672e-06, 'epoch': 0.52}
 52%|█████▏    | 1222/2335 [1:17:59<1:08:46,  3.71s/it] 52%|█████▏    | 1223/2335 [1:18:02<1:08:33,  3.70s/it]                                                       {'loss': 0.154, 'grad_norm': 2.5363513467147403, 'learning_rate': 4.868190491534054e-06, 'epoch': 0.52}
 52%|█████▏    | 1223/2335 [1:18:02<1:08:33,  3.70s/it] 52%|█████▏    | 1224/2335 [1:18:06<1:08:39,  3.71s/it]                                                       {'loss': 0.1725, 'grad_norm': 2.3403266428925615, 'learning_rate': 4.8612548855915755e-06, 'epoch': 0.52}
 52%|█████▏    | 1224/2335 [1:18:06<1:08:39,  3.71s/it] 52%|█████▏    | 1225/2335 [1:18:10<1:08:25,  3.70s/it]                                                       {'loss': 0.1595, 'grad_norm': 2.0820801550715333, 'learning_rate': 4.854319546804851e-06, 'epoch': 0.52}
 52%|█████▏    | 1225/2335 [1:18:10<1:08:25,  3.70s/it] 53%|█████▎    | 1226/2335 [1:18:14<1:08:53,  3.73s/it]                                                       {'loss': 0.1892, 'grad_norm': 2.653891221679795, 'learning_rate': 4.847384488527975e-06, 'epoch': 0.53}
 53%|█████▎    | 1226/2335 [1:18:14<1:08:53,  3.73s/it] 53%|█████▎    | 1227/2335 [1:18:17<1:09:01,  3.74s/it]                                                       {'loss': 0.1462, 'grad_norm': 2.3764751467189043, 'learning_rate': 4.840449724114505e-06, 'epoch': 0.53}
 53%|█████▎    | 1227/2335 [1:18:17<1:09:01,  3.74s/it] 53%|█████▎    | 1228/2335 [1:18:21<1:09:16,  3.76s/it]                                                       {'loss': 0.1486, 'grad_norm': 2.5257188604763483, 'learning_rate': 4.833515266917431e-06, 'epoch': 0.53}
 53%|█████▎    | 1228/2335 [1:18:21<1:09:16,  3.76s/it] 53%|█████▎    | 1229/2335 [1:18:25<1:09:16,  3.76s/it]                                                       {'loss': 0.1257, 'grad_norm': 2.2267362317281445, 'learning_rate': 4.826581130289151e-06, 'epoch': 0.53}
 53%|█████▎    | 1229/2335 [1:18:25<1:09:16,  3.76s/it] 53%|█████▎    | 1230/2335 [1:18:29<1:09:12,  3.76s/it]                                                       {'loss': 0.1411, 'grad_norm': 2.4329794243726575, 'learning_rate': 4.81964732758145e-06, 'epoch': 0.53}
 53%|█████▎    | 1230/2335 [1:18:29<1:09:12,  3.76s/it] 53%|█████▎    | 1231/2335 [1:18:32<1:08:29,  3.72s/it]                                                       {'loss': 0.1609, 'grad_norm': 2.446723479687642, 'learning_rate': 4.812713872145463e-06, 'epoch': 0.53}
 53%|█████▎    | 1231/2335 [1:18:32<1:08:29,  3.72s/it] 53%|█████▎    | 1232/2335 [1:18:36<1:07:53,  3.69s/it]                                                       {'loss': 0.1497, 'grad_norm': 2.2546916563483617, 'learning_rate': 4.805780777331662e-06, 'epoch': 0.53}
 53%|█████▎    | 1232/2335 [1:18:36<1:07:53,  3.69s/it] 53%|█████▎    | 1233/2335 [1:18:40<1:09:02,  3.76s/it]                                                       {'loss': 0.146, 'grad_norm': 2.270605077044052, 'learning_rate': 4.798848056489823e-06, 'epoch': 0.53}
 53%|█████▎    | 1233/2335 [1:18:40<1:09:02,  3.76s/it] 53%|█████▎    | 1234/2335 [1:18:44<1:08:35,  3.74s/it]                                                       {'loss': 0.1568, 'grad_norm': 2.3513584721452023, 'learning_rate': 4.791915722969e-06, 'epoch': 0.53}
 53%|█████▎    | 1234/2335 [1:18:44<1:08:35,  3.74s/it] 53%|█████▎    | 1235/2335 [1:18:47<1:08:11,  3.72s/it]                                                       {'loss': 0.144, 'grad_norm': 2.2635958411104227, 'learning_rate': 4.784983790117505e-06, 'epoch': 0.53}
 53%|█████▎    | 1235/2335 [1:18:47<1:08:11,  3.72s/it] 53%|█████▎    | 1236/2335 [1:18:51<1:08:39,  3.75s/it]                                                       {'loss': 0.1169, 'grad_norm': 2.1697840733580076, 'learning_rate': 4.778052271282875e-06, 'epoch': 0.53}
 53%|█████▎    | 1236/2335 [1:18:51<1:08:39,  3.75s/it] 53%|█████▎    | 1237/2335 [1:18:55<1:08:23,  3.74s/it]                                                       {'loss': 0.1405, 'grad_norm': 2.4962776280701053, 'learning_rate': 4.771121179811852e-06, 'epoch': 0.53}
 53%|█████▎    | 1237/2335 [1:18:55<1:08:23,  3.74s/it] 53%|█████▎    | 1238/2335 [1:18:59<1:08:48,  3.76s/it]                                                       {'loss': 0.2297, 'grad_norm': 3.571171963746266, 'learning_rate': 4.7641905290503535e-06, 'epoch': 0.53}
 53%|█████▎    | 1238/2335 [1:18:59<1:08:48,  3.76s/it] 53%|█████▎    | 1239/2335 [1:19:02<1:07:56,  3.72s/it]                                                       {'loss': 0.1485, 'grad_norm': 2.7732914448785055, 'learning_rate': 4.7572603323434505e-06, 'epoch': 0.53}
 53%|█████▎    | 1239/2335 [1:19:02<1:07:56,  3.72s/it] 53%|█████▎    | 1240/2335 [1:19:06<1:07:49,  3.72s/it]                                                       {'loss': 0.153, 'grad_norm': 2.635478084136686, 'learning_rate': 4.750330603035336e-06, 'epoch': 0.53}
 53%|█████▎    | 1240/2335 [1:19:06<1:07:49,  3.72s/it] 53%|█████▎    | 1241/2335 [1:19:10<1:07:54,  3.72s/it]                                                       {'loss': 0.1407, 'grad_norm': 2.4754492688007255, 'learning_rate': 4.743401354469307e-06, 'epoch': 0.53}
 53%|█████▎    | 1241/2335 [1:19:10<1:07:54,  3.72s/it] 53%|█████▎    | 1242/2335 [1:19:13<1:07:38,  3.71s/it]                                                       {'loss': 0.1617, 'grad_norm': 2.4976945357068723, 'learning_rate': 4.736472599987733e-06, 'epoch': 0.53}
 53%|█████▎    | 1242/2335 [1:19:13<1:07:38,  3.71s/it] 53%|█████▎    | 1243/2335 [1:19:17<1:07:17,  3.70s/it]                                                       {'loss': 0.1782, 'grad_norm': 2.3719337706254886, 'learning_rate': 4.729544352932033e-06, 'epoch': 0.53}
 53%|█████▎    | 1243/2335 [1:19:17<1:07:17,  3.70s/it] 53%|█████▎    | 1244/2335 [1:19:21<1:07:17,  3.70s/it]                                                       {'loss': 0.1865, 'grad_norm': 2.4197852198757857, 'learning_rate': 4.722616626642648e-06, 'epoch': 0.53}
 53%|█████▎    | 1244/2335 [1:19:21<1:07:17,  3.70s/it] 53%|█████▎    | 1245/2335 [1:19:25<1:07:48,  3.73s/it]                                                       {'loss': 0.1267, 'grad_norm': 2.5681246000181455, 'learning_rate': 4.715689434459016e-06, 'epoch': 0.53}
 53%|█████▎    | 1245/2335 [1:19:25<1:07:48,  3.73s/it] 53%|█████▎    | 1246/2335 [1:19:28<1:07:23,  3.71s/it]                                                       {'loss': 0.1372, 'grad_norm': 2.2278885351176334, 'learning_rate': 4.708762789719547e-06, 'epoch': 0.53}
 53%|█████▎    | 1246/2335 [1:19:28<1:07:23,  3.71s/it] 53%|█████▎    | 1247/2335 [1:19:32<1:07:21,  3.71s/it]                                                       {'loss': 0.1826, 'grad_norm': 2.315238569831459, 'learning_rate': 4.701836705761598e-06, 'epoch': 0.53}
 53%|█████▎    | 1247/2335 [1:19:32<1:07:21,  3.71s/it] 53%|█████▎    | 1248/2335 [1:19:37<1:12:22,  3.99s/it]                                                       {'loss': 0.1921, 'grad_norm': 2.562435007821753, 'learning_rate': 4.694911195921443e-06, 'epoch': 0.53}
 53%|█████▎    | 1248/2335 [1:19:37<1:12:22,  3.99s/it] 53%|█████▎    | 1249/2335 [1:19:40<1:11:00,  3.92s/it]                                                       {'loss': 0.137, 'grad_norm': 2.254287508109515, 'learning_rate': 4.687986273534257e-06, 'epoch': 0.53}
 53%|█████▎    | 1249/2335 [1:19:40<1:11:00,  3.92s/it] 54%|█████▎    | 1250/2335 [1:19:44<1:09:38,  3.85s/it]                                                       {'loss': 0.1469, 'grad_norm': 2.340022587464616, 'learning_rate': 4.681061951934075e-06, 'epoch': 0.54}
 54%|█████▎    | 1250/2335 [1:19:44<1:09:38,  3.85s/it] 54%|█████▎    | 1251/2335 [1:19:48<1:08:22,  3.79s/it]                                                       {'loss': 0.231, 'grad_norm': 2.562080716989251, 'learning_rate': 4.674138244453783e-06, 'epoch': 0.54}
 54%|█████▎    | 1251/2335 [1:19:48<1:08:22,  3.79s/it] 54%|█████▎    | 1252/2335 [1:19:52<1:08:51,  3.82s/it]                                                       {'loss': 0.1298, 'grad_norm': 2.4282521111174145, 'learning_rate': 4.66721516442508e-06, 'epoch': 0.54}
 54%|█████▎    | 1252/2335 [1:19:52<1:08:51,  3.82s/it] 54%|█████▎    | 1253/2335 [1:19:55<1:08:40,  3.81s/it]                                                       {'loss': 0.184, 'grad_norm': 2.339866742638222, 'learning_rate': 4.660292725178459e-06, 'epoch': 0.54}
 54%|█████▎    | 1253/2335 [1:19:55<1:08:40,  3.81s/it] 54%|█████▎    | 1254/2335 [1:19:59<1:08:10,  3.78s/it]                                                       {'loss': 0.158, 'grad_norm': 2.6437928338396945, 'learning_rate': 4.653370940043175e-06, 'epoch': 0.54}
 54%|█████▎    | 1254/2335 [1:19:59<1:08:10,  3.78s/it] 54%|█████▎    | 1255/2335 [1:20:03<1:07:30,  3.75s/it]                                                       {'loss': 0.1166, 'grad_norm': 2.284535673788142, 'learning_rate': 4.646449822347231e-06, 'epoch': 0.54}
 54%|█████▎    | 1255/2335 [1:20:03<1:07:30,  3.75s/it] 54%|█████▍    | 1256/2335 [1:20:06<1:06:48,  3.72s/it]                                                       {'loss': 0.1383, 'grad_norm': 2.467740789844648, 'learning_rate': 4.6395293854173395e-06, 'epoch': 0.54}
 54%|█████▍    | 1256/2335 [1:20:06<1:06:48,  3.72s/it] 54%|█████▍    | 1257/2335 [1:20:10<1:06:53,  3.72s/it]                                                       {'loss': 0.2095, 'grad_norm': 2.8151800579752435, 'learning_rate': 4.632609642578902e-06, 'epoch': 0.54}
 54%|█████▍    | 1257/2335 [1:20:10<1:06:53,  3.72s/it] 54%|█████▍    | 1258/2335 [1:20:14<1:07:13,  3.75s/it]                                                       {'loss': 0.1744, 'grad_norm': 2.7590500558038875, 'learning_rate': 4.625690607155987e-06, 'epoch': 0.54}
 54%|█████▍    | 1258/2335 [1:20:14<1:07:13,  3.75s/it] 54%|█████▍    | 1259/2335 [1:20:18<1:07:01,  3.74s/it]                                                       {'loss': 0.1559, 'grad_norm': 2.3366027261722975, 'learning_rate': 4.618772292471297e-06, 'epoch': 0.54}
 54%|█████▍    | 1259/2335 [1:20:18<1:07:01,  3.74s/it] 54%|█████▍    | 1260/2335 [1:20:21<1:06:28,  3.71s/it]                                                       {'loss': 0.2025, 'grad_norm': 2.626126247879457, 'learning_rate': 4.611854711846147e-06, 'epoch': 0.54}
 54%|█████▍    | 1260/2335 [1:20:21<1:06:28,  3.71s/it] 54%|█████▍    | 1261/2335 [1:20:25<1:06:26,  3.71s/it]                                                       {'loss': 0.1617, 'grad_norm': 2.2848318064154096, 'learning_rate': 4.604937878600443e-06, 'epoch': 0.54}
 54%|█████▍    | 1261/2335 [1:20:25<1:06:26,  3.71s/it] 54%|█████▍    | 1262/2335 [1:20:29<1:06:30,  3.72s/it]                                                       {'loss': 0.1473, 'grad_norm': 2.0858183266543366, 'learning_rate': 4.598021806052646e-06, 'epoch': 0.54}
 54%|█████▍    | 1262/2335 [1:20:29<1:06:30,  3.72s/it] 54%|█████▍    | 1263/2335 [1:20:33<1:06:58,  3.75s/it]                                                       {'loss': 0.1764, 'grad_norm': 2.695806608721385, 'learning_rate': 4.591106507519756e-06, 'epoch': 0.54}
 54%|█████▍    | 1263/2335 [1:20:33<1:06:58,  3.75s/it] 54%|█████▍    | 1264/2335 [1:20:36<1:06:56,  3.75s/it]                                                       {'loss': 0.1815, 'grad_norm': 2.659258741990666, 'learning_rate': 4.584191996317285e-06, 'epoch': 0.54}
 54%|█████▍    | 1264/2335 [1:20:36<1:06:56,  3.75s/it] 54%|█████▍    | 1265/2335 [1:20:40<1:06:12,  3.71s/it]                                                       {'loss': 0.1242, 'grad_norm': 2.3365048539112583, 'learning_rate': 4.577278285759221e-06, 'epoch': 0.54}
 54%|█████▍    | 1265/2335 [1:20:40<1:06:12,  3.71s/it] 54%|█████▍    | 1266/2335 [1:20:44<1:06:45,  3.75s/it]                                                       {'loss': 0.1443, 'grad_norm': 2.016313378494844, 'learning_rate': 4.570365389158018e-06, 'epoch': 0.54}
 54%|█████▍    | 1266/2335 [1:20:44<1:06:45,  3.75s/it] 54%|█████▍    | 1267/2335 [1:20:48<1:07:12,  3.78s/it]                                                       {'loss': 0.1607, 'grad_norm': 2.4532449054992336, 'learning_rate': 4.563453319824558e-06, 'epoch': 0.54}
 54%|█████▍    | 1267/2335 [1:20:48<1:07:12,  3.78s/it] 54%|█████▍    | 1268/2335 [1:20:51<1:06:50,  3.76s/it]                                                       {'loss': 0.1283, 'grad_norm': 2.2393326498715878, 'learning_rate': 4.5565420910681334e-06, 'epoch': 0.54}
 54%|█████▍    | 1268/2335 [1:20:51<1:06:50,  3.76s/it] 54%|█████▍    | 1269/2335 [1:20:55<1:07:22,  3.79s/it]                                                       {'loss': 0.1551, 'grad_norm': 2.4648117704206456, 'learning_rate': 4.549631716196415e-06, 'epoch': 0.54}
 54%|█████▍    | 1269/2335 [1:20:55<1:07:22,  3.79s/it] 54%|█████▍    | 1270/2335 [1:20:59<1:06:22,  3.74s/it]                                                       {'loss': 0.167, 'grad_norm': 2.6990505883020326, 'learning_rate': 4.542722208515432e-06, 'epoch': 0.54}
 54%|█████▍    | 1270/2335 [1:20:59<1:06:22,  3.74s/it] 54%|█████▍    | 1271/2335 [1:21:03<1:06:29,  3.75s/it]                                                       {'loss': 0.1271, 'grad_norm': 2.370486564623986, 'learning_rate': 4.535813581329543e-06, 'epoch': 0.54}
 54%|█████▍    | 1271/2335 [1:21:03<1:06:29,  3.75s/it] 54%|█████▍    | 1272/2335 [1:21:06<1:07:06,  3.79s/it]                                                       {'loss': 0.1407, 'grad_norm': 2.550095462872023, 'learning_rate': 4.528905847941411e-06, 'epoch': 0.54}
 54%|█████▍    | 1272/2335 [1:21:06<1:07:06,  3.79s/it] 55%|█████▍    | 1273/2335 [1:21:10<1:06:03,  3.73s/it]                                                       {'loss': 0.1106, 'grad_norm': 1.9557049637666493, 'learning_rate': 4.521999021651977e-06, 'epoch': 0.55}
 55%|█████▍    | 1273/2335 [1:21:10<1:06:03,  3.73s/it] 55%|█████▍    | 1274/2335 [1:21:14<1:05:33,  3.71s/it]                                                       {'loss': 0.1617, 'grad_norm': 2.6053184527450326, 'learning_rate': 4.515093115760436e-06, 'epoch': 0.55}
 55%|█████▍    | 1274/2335 [1:21:14<1:05:33,  3.71s/it] 55%|█████▍    | 1275/2335 [1:21:18<1:06:04,  3.74s/it]                                                       {'loss': 0.1952, 'grad_norm': 2.303789466773574, 'learning_rate': 4.508188143564214e-06, 'epoch': 0.55}
 55%|█████▍    | 1275/2335 [1:21:18<1:06:04,  3.74s/it] 55%|█████▍    | 1276/2335 [1:21:21<1:06:21,  3.76s/it]                                                       {'loss': 0.137, 'grad_norm': 2.3095581898523756, 'learning_rate': 4.501284118358932e-06, 'epoch': 0.55}
 55%|█████▍    | 1276/2335 [1:21:21<1:06:21,  3.76s/it] 55%|█████▍    | 1277/2335 [1:21:25<1:05:58,  3.74s/it]                                                       {'loss': 0.1692, 'grad_norm': 2.619520340057349, 'learning_rate': 4.494381053438394e-06, 'epoch': 0.55}
 55%|█████▍    | 1277/2335 [1:21:25<1:05:58,  3.74s/it] 55%|█████▍    | 1278/2335 [1:21:29<1:06:13,  3.76s/it]                                                       {'loss': 0.1475, 'grad_norm': 2.45156529443492, 'learning_rate': 4.487478962094554e-06, 'epoch': 0.55}
 55%|█████▍    | 1278/2335 [1:21:29<1:06:13,  3.76s/it] 55%|█████▍    | 1279/2335 [1:21:32<1:05:30,  3.72s/it]                                                       {'loss': 0.1518, 'grad_norm': 2.336844328682401, 'learning_rate': 4.480577857617487e-06, 'epoch': 0.55}
 55%|█████▍    | 1279/2335 [1:21:32<1:05:30,  3.72s/it] 55%|█████▍    | 1280/2335 [1:21:36<1:05:26,  3.72s/it]                                                       {'loss': 0.1714, 'grad_norm': 3.0047218223745715, 'learning_rate': 4.473677753295375e-06, 'epoch': 0.55}
 55%|█████▍    | 1280/2335 [1:21:36<1:05:26,  3.72s/it] 55%|█████▍    | 1281/2335 [1:21:40<1:05:38,  3.74s/it]                                                       {'loss': 0.167, 'grad_norm': 2.5773678664774637, 'learning_rate': 4.466778662414465e-06, 'epoch': 0.55}
 55%|█████▍    | 1281/2335 [1:21:40<1:05:38,  3.74s/it] 55%|█████▍    | 1282/2335 [1:21:44<1:05:05,  3.71s/it]                                                       {'loss': 0.1761, 'grad_norm': 2.5195341900864374, 'learning_rate': 4.459880598259062e-06, 'epoch': 0.55}
 55%|█████▍    | 1282/2335 [1:21:44<1:05:05,  3.71s/it] 55%|█████▍    | 1283/2335 [1:21:47<1:05:21,  3.73s/it]                                                       {'loss': 0.1464, 'grad_norm': 2.404236305433376, 'learning_rate': 4.452983574111488e-06, 'epoch': 0.55}
 55%|█████▍    | 1283/2335 [1:21:47<1:05:21,  3.73s/it] 55%|█████▍    | 1284/2335 [1:21:51<1:05:27,  3.74s/it]                                                       {'loss': 0.1669, 'grad_norm': 2.426258324338087, 'learning_rate': 4.446087603252063e-06, 'epoch': 0.55}
 55%|█████▍    | 1284/2335 [1:21:51<1:05:27,  3.74s/it] 55%|█████▌    | 1285/2335 [1:21:55<1:05:37,  3.75s/it]                                                       {'loss': 0.1417, 'grad_norm': 2.57556843680859, 'learning_rate': 4.439192698959082e-06, 'epoch': 0.55}
 55%|█████▌    | 1285/2335 [1:21:55<1:05:37,  3.75s/it] 55%|█████▌    | 1286/2335 [1:21:59<1:05:11,  3.73s/it]                                                       {'loss': 0.1365, 'grad_norm': 2.728380395424712, 'learning_rate': 4.432298874508783e-06, 'epoch': 0.55}
 55%|█████▌    | 1286/2335 [1:21:59<1:05:11,  3.73s/it] 55%|█████▌    | 1287/2335 [1:22:02<1:05:23,  3.74s/it]                                                       {'loss': 0.1486, 'grad_norm': 2.3942584160281437, 'learning_rate': 4.425406143175327e-06, 'epoch': 0.55}
 55%|█████▌    | 1287/2335 [1:22:02<1:05:23,  3.74s/it] 55%|█████▌    | 1288/2335 [1:22:06<1:05:27,  3.75s/it]                                                       {'loss': 0.2373, 'grad_norm': 2.5722394410080596, 'learning_rate': 4.418514518230769e-06, 'epoch': 0.55}
 55%|█████▌    | 1288/2335 [1:22:06<1:05:27,  3.75s/it] 55%|█████▌    | 1289/2335 [1:22:10<1:05:12,  3.74s/it]                                                       {'loss': 0.1831, 'grad_norm': 2.630923320265094, 'learning_rate': 4.4116240129450335e-06, 'epoch': 0.55}
 55%|█████▌    | 1289/2335 [1:22:10<1:05:12,  3.74s/it] 55%|█████▌    | 1290/2335 [1:22:14<1:05:02,  3.73s/it]                                                       {'loss': 0.1609, 'grad_norm': 2.3221034675872043, 'learning_rate': 4.40473464058589e-06, 'epoch': 0.55}
 55%|█████▌    | 1290/2335 [1:22:14<1:05:02,  3.73s/it] 55%|█████▌    | 1291/2335 [1:22:17<1:05:00,  3.74s/it]                                                       {'loss': 0.1472, 'grad_norm': 2.173838297353612, 'learning_rate': 4.397846414418925e-06, 'epoch': 0.55}
 55%|█████▌    | 1291/2335 [1:22:17<1:05:00,  3.74s/it] 55%|█████▌    | 1292/2335 [1:22:21<1:04:48,  3.73s/it]                                                       {'loss': 0.1482, 'grad_norm': 2.228906860017907, 'learning_rate': 4.390959347707521e-06, 'epoch': 0.55}
 55%|█████▌    | 1292/2335 [1:22:21<1:04:48,  3.73s/it] 55%|█████▌    | 1293/2335 [1:22:25<1:04:43,  3.73s/it]                                                       {'loss': 0.2063, 'grad_norm': 2.2965550003848323, 'learning_rate': 4.384073453712825e-06, 'epoch': 0.55}
 55%|█████▌    | 1293/2335 [1:22:25<1:04:43,  3.73s/it] 55%|█████▌    | 1294/2335 [1:22:28<1:04:15,  3.70s/it]                                                       {'loss': 0.1507, 'grad_norm': 2.3905780255947566, 'learning_rate': 4.377188745693725e-06, 'epoch': 0.55}
 55%|█████▌    | 1294/2335 [1:22:28<1:04:15,  3.70s/it] 55%|█████▌    | 1295/2335 [1:22:32<1:04:26,  3.72s/it]                                                       {'loss': 0.1468, 'grad_norm': 2.302275509802097, 'learning_rate': 4.370305236906831e-06, 'epoch': 0.55}
 55%|█████▌    | 1295/2335 [1:22:32<1:04:26,  3.72s/it] 56%|█████▌    | 1296/2335 [1:22:36<1:04:04,  3.70s/it]                                                       {'loss': 0.1578, 'grad_norm': 2.260050251285635, 'learning_rate': 4.363422940606435e-06, 'epoch': 0.56}
 56%|█████▌    | 1296/2335 [1:22:36<1:04:04,  3.70s/it] 56%|█████▌    | 1297/2335 [1:22:40<1:04:05,  3.71s/it]                                                       {'loss': 0.1661, 'grad_norm': 2.2261941557536202, 'learning_rate': 4.356541870044505e-06, 'epoch': 0.56}
 56%|█████▌    | 1297/2335 [1:22:40<1:04:05,  3.71s/it] 56%|█████▌    | 1298/2335 [1:22:43<1:04:30,  3.73s/it]                                                       {'loss': 0.1881, 'grad_norm': 2.922876412855788, 'learning_rate': 4.349662038470639e-06, 'epoch': 0.56}
 56%|█████▌    | 1298/2335 [1:22:43<1:04:30,  3.73s/it] 56%|█████▌    | 1299/2335 [1:22:47<1:04:28,  3.73s/it]                                                       {'loss': 0.1516, 'grad_norm': 2.0893114901094547, 'learning_rate': 4.342783459132055e-06, 'epoch': 0.56}
 56%|█████▌    | 1299/2335 [1:22:47<1:04:28,  3.73s/it] 56%|█████▌    | 1300/2335 [1:22:51<1:04:20,  3.73s/it]                                                       {'loss': 0.1457, 'grad_norm': 2.7475029821646233, 'learning_rate': 4.33590614527356e-06, 'epoch': 0.56}
 56%|█████▌    | 1300/2335 [1:22:51<1:04:20,  3.73s/it] 56%|█████▌    | 1301/2335 [1:22:54<1:04:17,  3.73s/it]                                                       {'loss': 0.1615, 'grad_norm': 2.701629922060087, 'learning_rate': 4.329030110137521e-06, 'epoch': 0.56}
 56%|█████▌    | 1301/2335 [1:22:55<1:04:17,  3.73s/it] 56%|█████▌    | 1302/2335 [1:22:58<1:03:53,  3.71s/it]                                                       {'loss': 0.1337, 'grad_norm': 2.4475140609574684, 'learning_rate': 4.322155366963845e-06, 'epoch': 0.56}
 56%|█████▌    | 1302/2335 [1:22:58<1:03:53,  3.71s/it] 56%|█████▌    | 1303/2335 [1:23:02<1:03:43,  3.71s/it]                                                       {'loss': 0.1333, 'grad_norm': 2.2002437100159113, 'learning_rate': 4.315281928989949e-06, 'epoch': 0.56}
 56%|█████▌    | 1303/2335 [1:23:02<1:03:43,  3.71s/it] 56%|█████▌    | 1304/2335 [1:23:05<1:03:18,  3.68s/it]                                                       {'loss': 0.1741, 'grad_norm': 3.183510098652473, 'learning_rate': 4.308409809450742e-06, 'epoch': 0.56}
 56%|█████▌    | 1304/2335 [1:23:06<1:03:18,  3.68s/it] 56%|█████▌    | 1305/2335 [1:23:09<1:03:53,  3.72s/it]                                                       {'loss': 0.1905, 'grad_norm': 2.4127213814294066, 'learning_rate': 4.301539021578588e-06, 'epoch': 0.56}
 56%|█████▌    | 1305/2335 [1:23:09<1:03:53,  3.72s/it] 56%|█████▌    | 1306/2335 [1:23:13<1:03:14,  3.69s/it]                                                       {'loss': 0.1609, 'grad_norm': 2.522099273884657, 'learning_rate': 4.294669578603292e-06, 'epoch': 0.56}
 56%|█████▌    | 1306/2335 [1:23:13<1:03:14,  3.69s/it] 56%|█████▌    | 1307/2335 [1:23:17<1:03:23,  3.70s/it]                                                       {'loss': 0.1266, 'grad_norm': 2.1400835933796714, 'learning_rate': 4.287801493752066e-06, 'epoch': 0.56}
 56%|█████▌    | 1307/2335 [1:23:17<1:03:23,  3.70s/it] 56%|█████▌    | 1308/2335 [1:23:20<1:03:31,  3.71s/it]                                                       {'loss': 0.1198, 'grad_norm': 2.150951919725811, 'learning_rate': 4.280934780249508e-06, 'epoch': 0.56}
 56%|█████▌    | 1308/2335 [1:23:20<1:03:31,  3.71s/it] 56%|█████▌    | 1309/2335 [1:23:24<1:04:19,  3.76s/it]                                                       {'loss': 0.1285, 'grad_norm': 2.050725459573684, 'learning_rate': 4.274069451317577e-06, 'epoch': 0.56}
 56%|█████▌    | 1309/2335 [1:23:24<1:04:19,  3.76s/it] 56%|█████▌    | 1310/2335 [1:23:28<1:03:52,  3.74s/it]                                                       {'loss': 0.1282, 'grad_norm': 2.4441530657708017, 'learning_rate': 4.267205520175562e-06, 'epoch': 0.56}
 56%|█████▌    | 1310/2335 [1:23:28<1:03:52,  3.74s/it] 56%|█████▌    | 1311/2335 [1:23:32<1:04:06,  3.76s/it]                                                       {'loss': 0.1596, 'grad_norm': 2.3549999970726794, 'learning_rate': 4.260343000040065e-06, 'epoch': 0.56}
 56%|█████▌    | 1311/2335 [1:23:32<1:04:06,  3.76s/it] 56%|█████▌    | 1312/2335 [1:23:35<1:03:57,  3.75s/it]                                                       {'loss': 0.1416, 'grad_norm': 2.1856226566935604, 'learning_rate': 4.253481904124968e-06, 'epoch': 0.56}
 56%|█████▌    | 1312/2335 [1:23:35<1:03:57,  3.75s/it] 56%|█████▌    | 1313/2335 [1:23:39<1:04:07,  3.76s/it]                                                       {'loss': 0.1716, 'grad_norm': 2.6582165240445534, 'learning_rate': 4.246622245641413e-06, 'epoch': 0.56}
 56%|█████▌    | 1313/2335 [1:23:39<1:04:07,  3.76s/it] 56%|█████▋    | 1314/2335 [1:23:43<1:03:39,  3.74s/it]                                                       {'loss': 0.1343, 'grad_norm': 2.2305415602296526, 'learning_rate': 4.239764037797773e-06, 'epoch': 0.56}
 56%|█████▋    | 1314/2335 [1:23:43<1:03:39,  3.74s/it] 56%|█████▋    | 1315/2335 [1:23:47<1:04:04,  3.77s/it]                                                       {'loss': 0.1679, 'grad_norm': 2.5609879233691104, 'learning_rate': 4.232907293799627e-06, 'epoch': 0.56}
 56%|█████▋    | 1315/2335 [1:23:47<1:04:04,  3.77s/it] 56%|█████▋    | 1316/2335 [1:23:50<1:03:36,  3.75s/it]                                                       {'loss': 0.1987, 'grad_norm': 3.011655847021986, 'learning_rate': 4.226052026849737e-06, 'epoch': 0.56}
 56%|█████▋    | 1316/2335 [1:23:50<1:03:36,  3.75s/it] 56%|█████▋    | 1317/2335 [1:23:54<1:03:34,  3.75s/it]                                                       {'loss': 0.1393, 'grad_norm': 2.551637158609248, 'learning_rate': 4.219198250148018e-06, 'epoch': 0.56}
 56%|█████▋    | 1317/2335 [1:23:54<1:03:34,  3.75s/it] 56%|█████▋    | 1318/2335 [1:23:58<1:04:38,  3.81s/it]                                                       {'loss': 0.1519, 'grad_norm': 2.619326583571539, 'learning_rate': 4.21234597689152e-06, 'epoch': 0.56}
 56%|█████▋    | 1318/2335 [1:23:58<1:04:38,  3.81s/it] 56%|█████▋    | 1319/2335 [1:24:02<1:03:51,  3.77s/it]                                                       {'loss': 0.1524, 'grad_norm': 2.294226133594756, 'learning_rate': 4.205495220274394e-06, 'epoch': 0.56}
 56%|█████▋    | 1319/2335 [1:24:02<1:03:51,  3.77s/it] 57%|█████▋    | 1320/2335 [1:24:06<1:03:45,  3.77s/it]                                                       {'loss': 0.1272, 'grad_norm': 2.512790837899654, 'learning_rate': 4.198645993487872e-06, 'epoch': 0.57}
 57%|█████▋    | 1320/2335 [1:24:06<1:03:45,  3.77s/it] 57%|█████▋    | 1321/2335 [1:24:10<1:04:25,  3.81s/it]                                                       {'loss': 0.2155, 'grad_norm': 2.984998432530334, 'learning_rate': 4.191798309720244e-06, 'epoch': 0.57}
 57%|█████▋    | 1321/2335 [1:24:10<1:04:25,  3.81s/it] 57%|█████▋    | 1322/2335 [1:24:13<1:04:01,  3.79s/it]                                                       {'loss': 0.1491, 'grad_norm': 2.3707929563093555, 'learning_rate': 4.184952182156821e-06, 'epoch': 0.57}
 57%|█████▋    | 1322/2335 [1:24:13<1:04:01,  3.79s/it] 57%|█████▋    | 1323/2335 [1:24:17<1:03:28,  3.76s/it]                                                       {'loss': 0.1304, 'grad_norm': 2.2104882053322057, 'learning_rate': 4.178107623979926e-06, 'epoch': 0.57}
 57%|█████▋    | 1323/2335 [1:24:17<1:03:28,  3.76s/it] 57%|█████▋    | 1324/2335 [1:24:21<1:03:56,  3.79s/it]                                                       {'loss': 0.1523, 'grad_norm': 2.630968556500284, 'learning_rate': 4.171264648368852e-06, 'epoch': 0.57}
 57%|█████▋    | 1324/2335 [1:24:21<1:03:56,  3.79s/it] 57%|█████▋    | 1325/2335 [1:24:25<1:04:23,  3.82s/it]                                                       {'loss': 0.1432, 'grad_norm': 2.447706278352564, 'learning_rate': 4.164423268499853e-06, 'epoch': 0.57}
 57%|█████▋    | 1325/2335 [1:24:25<1:04:23,  3.82s/it] 57%|█████▋    | 1326/2335 [1:24:29<1:03:58,  3.80s/it]                                                       {'loss': 0.1331, 'grad_norm': 2.3173614285530495, 'learning_rate': 4.157583497546103e-06, 'epoch': 0.57}
 57%|█████▋    | 1326/2335 [1:24:29<1:03:58,  3.80s/it] 57%|█████▋    | 1327/2335 [1:24:32<1:03:17,  3.77s/it]                                                       {'loss': 0.1744, 'grad_norm': 2.404183474327912, 'learning_rate': 4.150745348677683e-06, 'epoch': 0.57}
 57%|█████▋    | 1327/2335 [1:24:32<1:03:17,  3.77s/it] 57%|█████▋    | 1328/2335 [1:24:36<1:02:59,  3.75s/it]                                                       {'loss': 0.1654, 'grad_norm': 2.90735100730342, 'learning_rate': 4.143908835061551e-06, 'epoch': 0.57}
 57%|█████▋    | 1328/2335 [1:24:36<1:02:59,  3.75s/it] 57%|█████▋    | 1329/2335 [1:24:40<1:02:31,  3.73s/it]                                                       {'loss': 0.1624, 'grad_norm': 2.0742371078614723, 'learning_rate': 4.13707396986151e-06, 'epoch': 0.57}
 57%|█████▋    | 1329/2335 [1:24:40<1:02:31,  3.73s/it] 57%|█████▋    | 1330/2335 [1:24:43<1:02:17,  3.72s/it]                                                       {'loss': 0.1611, 'grad_norm': 2.2566341952147564, 'learning_rate': 4.130240766238195e-06, 'epoch': 0.57}
 57%|█████▋    | 1330/2335 [1:24:43<1:02:17,  3.72s/it] 57%|█████▋    | 1331/2335 [1:24:47<1:02:17,  3.72s/it]                                                       {'loss': 0.1327, 'grad_norm': 2.2387896492813995, 'learning_rate': 4.12340923734904e-06, 'epoch': 0.57}
 57%|█████▋    | 1331/2335 [1:24:47<1:02:17,  3.72s/it] 57%|█████▋    | 1332/2335 [1:24:51<1:02:05,  3.71s/it]                                                       {'loss': 0.1262, 'grad_norm': 2.4598580775606433, 'learning_rate': 4.116579396348253e-06, 'epoch': 0.57}
 57%|█████▋    | 1332/2335 [1:24:51<1:02:05,  3.71s/it] 57%|█████▋    | 1333/2335 [1:24:55<1:02:28,  3.74s/it]                                                       {'loss': 0.1601, 'grad_norm': 2.5682215820476686, 'learning_rate': 4.1097512563867944e-06, 'epoch': 0.57}
 57%|█████▋    | 1333/2335 [1:24:55<1:02:28,  3.74s/it] 57%|█████▋    | 1334/2335 [1:24:58<1:02:39,  3.76s/it]                                                       {'loss': 0.139, 'grad_norm': 2.453810287570149, 'learning_rate': 4.102924830612348e-06, 'epoch': 0.57}
 57%|█████▋    | 1334/2335 [1:24:58<1:02:39,  3.76s/it] 57%|█████▋    | 1335/2335 [1:25:02<1:02:59,  3.78s/it]                                                       {'loss': 0.1077, 'grad_norm': 2.0200320946403263, 'learning_rate': 4.0961001321692945e-06, 'epoch': 0.57}
 57%|█████▋    | 1335/2335 [1:25:02<1:02:59,  3.78s/it] 57%|█████▋    | 1336/2335 [1:25:06<1:03:27,  3.81s/it]                                                       {'loss': 0.1498, 'grad_norm': 2.304582777966451, 'learning_rate': 4.089277174198694e-06, 'epoch': 0.57}
 57%|█████▋    | 1336/2335 [1:25:06<1:03:27,  3.81s/it] 57%|█████▋    | 1337/2335 [1:25:10<1:03:49,  3.84s/it]                                                       {'loss': 0.1871, 'grad_norm': 1.9219419879730721, 'learning_rate': 4.082455969838249e-06, 'epoch': 0.57}
 57%|█████▋    | 1337/2335 [1:25:10<1:03:49,  3.84s/it] 57%|█████▋    | 1338/2335 [1:25:14<1:02:42,  3.77s/it]                                                       {'loss': 0.1471, 'grad_norm': 2.5628085523915933, 'learning_rate': 4.0756365322222915e-06, 'epoch': 0.57}
 57%|█████▋    | 1338/2335 [1:25:14<1:02:42,  3.77s/it] 57%|█████▋    | 1339/2335 [1:25:17<1:02:51,  3.79s/it]                                                       {'loss': 0.1577, 'grad_norm': 2.4930678949514564, 'learning_rate': 4.068818874481746e-06, 'epoch': 0.57}
 57%|█████▋    | 1339/2335 [1:25:17<1:02:51,  3.79s/it] 57%|█████▋    | 1340/2335 [1:25:21<1:02:29,  3.77s/it]                                                       {'loss': 0.1399, 'grad_norm': 2.656215758731573, 'learning_rate': 4.062003009744115e-06, 'epoch': 0.57}
 57%|█████▋    | 1340/2335 [1:25:21<1:02:29,  3.77s/it] 57%|█████▋    | 1341/2335 [1:25:25<1:02:17,  3.76s/it]                                                       {'loss': 0.1651, 'grad_norm': 2.584560690603714, 'learning_rate': 4.055188951133443e-06, 'epoch': 0.57}
 57%|█████▋    | 1341/2335 [1:25:25<1:02:17,  3.76s/it] 57%|█████▋    | 1342/2335 [1:25:29<1:02:25,  3.77s/it]                                                       {'loss': 0.1189, 'grad_norm': 2.5387708734708756, 'learning_rate': 4.048376711770302e-06, 'epoch': 0.57}
 57%|█████▋    | 1342/2335 [1:25:29<1:02:25,  3.77s/it] 58%|█████▊    | 1343/2335 [1:25:32<1:02:19,  3.77s/it]                                                       {'loss': 0.1864, 'grad_norm': 2.8490429919971905, 'learning_rate': 4.04156630477176e-06, 'epoch': 0.58}
 58%|█████▊    | 1343/2335 [1:25:32<1:02:19,  3.77s/it] 58%|█████▊    | 1344/2335 [1:25:36<1:02:23,  3.78s/it]                                                       {'loss': 0.1209, 'grad_norm': 2.3398358315970698, 'learning_rate': 4.0347577432513515e-06, 'epoch': 0.58}
 58%|█████▊    | 1344/2335 [1:25:36<1:02:23,  3.78s/it] 58%|█████▊    | 1345/2335 [1:25:40<1:02:08,  3.77s/it]                                                       {'loss': 0.1865, 'grad_norm': 2.1709534422980163, 'learning_rate': 4.027951040319065e-06, 'epoch': 0.58}
 58%|█████▊    | 1345/2335 [1:25:40<1:02:08,  3.77s/it] 58%|█████▊    | 1346/2335 [1:25:44<1:02:31,  3.79s/it]                                                       {'loss': 0.1487, 'grad_norm': 2.4444620405780926, 'learning_rate': 4.0211462090813056e-06, 'epoch': 0.58}
 58%|█████▊    | 1346/2335 [1:25:44<1:02:31,  3.79s/it] 58%|█████▊    | 1347/2335 [1:25:47<1:01:53,  3.76s/it]                                                       {'loss': 0.1238, 'grad_norm': 2.2552403672780104, 'learning_rate': 4.0143432626408756e-06, 'epoch': 0.58}
 58%|█████▊    | 1347/2335 [1:25:47<1:01:53,  3.76s/it] 58%|█████▊    | 1348/2335 [1:25:51<1:01:54,  3.76s/it]                                                       {'loss': 0.1548, 'grad_norm': 2.4573545951103806, 'learning_rate': 4.007542214096947e-06, 'epoch': 0.58}
 58%|█████▊    | 1348/2335 [1:25:51<1:01:54,  3.76s/it] 58%|█████▊    | 1349/2335 [1:25:55<1:01:32,  3.75s/it]                                                       {'loss': 0.1344, 'grad_norm': 2.3830257187975876, 'learning_rate': 4.0007430765450425e-06, 'epoch': 0.58}
 58%|█████▊    | 1349/2335 [1:25:55<1:01:32,  3.75s/it] 58%|█████▊    | 1350/2335 [1:25:59<1:01:21,  3.74s/it]                                                       {'loss': 0.1272, 'grad_norm': 2.3405710352469518, 'learning_rate': 3.993945863076996e-06, 'epoch': 0.58}
 58%|█████▊    | 1350/2335 [1:25:59<1:01:21,  3.74s/it] 58%|█████▊    | 1351/2335 [1:26:03<1:01:59,  3.78s/it]                                                       {'loss': 0.1296, 'grad_norm': 2.300720025904557, 'learning_rate': 3.987150586780945e-06, 'epoch': 0.58}
 58%|█████▊    | 1351/2335 [1:26:03<1:01:59,  3.78s/it] 58%|█████▊    | 1352/2335 [1:26:06<1:01:21,  3.75s/it]                                                       {'loss': 0.1173, 'grad_norm': 2.3105703637069563, 'learning_rate': 3.980357260741293e-06, 'epoch': 0.58}
 58%|█████▊    | 1352/2335 [1:26:06<1:01:21,  3.75s/it] 58%|█████▊    | 1353/2335 [1:26:10<1:00:59,  3.73s/it]                                                       {'loss': 0.1398, 'grad_norm': 2.4433433983270807, 'learning_rate': 3.973565898038688e-06, 'epoch': 0.58}
 58%|█████▊    | 1353/2335 [1:26:10<1:00:59,  3.73s/it] 58%|█████▊    | 1354/2335 [1:26:14<1:01:00,  3.73s/it]                                                       {'loss': 0.1248, 'grad_norm': 2.326648933726636, 'learning_rate': 3.96677651175e-06, 'epoch': 0.58}
 58%|█████▊    | 1354/2335 [1:26:14<1:01:00,  3.73s/it] 58%|█████▊    | 1355/2335 [1:26:17<1:00:47,  3.72s/it]                                                       {'loss': 0.1845, 'grad_norm': 2.688668964075498, 'learning_rate': 3.95998911494829e-06, 'epoch': 0.58}
 58%|█████▊    | 1355/2335 [1:26:17<1:00:47,  3.72s/it] 58%|█████▊    | 1356/2335 [1:26:21<1:00:26,  3.70s/it]                                                       {'loss': 0.1388, 'grad_norm': 2.3043536178790673, 'learning_rate': 3.953203720702793e-06, 'epoch': 0.58}
 58%|█████▊    | 1356/2335 [1:26:21<1:00:26,  3.70s/it] 58%|█████▊    | 1357/2335 [1:26:25<1:01:01,  3.74s/it]                                                       {'loss': 0.154, 'grad_norm': 2.4867504649514314, 'learning_rate': 3.946420342078882e-06, 'epoch': 0.58}
 58%|█████▊    | 1357/2335 [1:26:25<1:01:01,  3.74s/it] 58%|█████▊    | 1358/2335 [1:26:29<1:01:30,  3.78s/it]                                                       {'loss': 0.1536, 'grad_norm': 2.506470590411309, 'learning_rate': 3.939638992138053e-06, 'epoch': 0.58}
 58%|█████▊    | 1358/2335 [1:26:29<1:01:30,  3.78s/it] 58%|█████▊    | 1359/2335 [1:26:32<1:01:27,  3.78s/it]                                                       {'loss': 0.1495, 'grad_norm': 2.593084499904981, 'learning_rate': 3.9328596839378955e-06, 'epoch': 0.58}
 58%|█████▊    | 1359/2335 [1:26:32<1:01:27,  3.78s/it] 58%|█████▊    | 1360/2335 [1:26:36<1:01:03,  3.76s/it]                                                       {'loss': 0.1776, 'grad_norm': 2.1422920902380604, 'learning_rate': 3.926082430532067e-06, 'epoch': 0.58}
 58%|█████▊    | 1360/2335 [1:26:36<1:01:03,  3.76s/it] 58%|█████▊    | 1361/2335 [1:26:40<1:01:00,  3.76s/it]                                                       {'loss': 0.1652, 'grad_norm': 2.2094012440787147, 'learning_rate': 3.919307244970267e-06, 'epoch': 0.58}
 58%|█████▊    | 1361/2335 [1:26:40<1:01:00,  3.76s/it] 58%|█████▊    | 1362/2335 [1:26:44<1:00:45,  3.75s/it]                                                       {'loss': 0.199, 'grad_norm': 2.755182120835082, 'learning_rate': 3.912534140298216e-06, 'epoch': 0.58}
 58%|█████▊    | 1362/2335 [1:26:44<1:00:45,  3.75s/it] 58%|█████▊    | 1363/2335 [1:26:47<1:00:57,  3.76s/it]                                                       {'loss': 0.1469, 'grad_norm': 2.533180454142921, 'learning_rate': 3.905763129557625e-06, 'epoch': 0.58}
 58%|█████▊    | 1363/2335 [1:26:47<1:00:57,  3.76s/it] 58%|█████▊    | 1364/2335 [1:26:51<1:00:57,  3.77s/it]                                                       {'loss': 0.1583, 'grad_norm': 2.7387510944035456, 'learning_rate': 3.898994225786178e-06, 'epoch': 0.58}
 58%|█████▊    | 1364/2335 [1:26:51<1:00:57,  3.77s/it] 58%|█████▊    | 1365/2335 [1:26:55<1:00:24,  3.74s/it]                                                       {'loss': 0.1357, 'grad_norm': 2.5333719602003524, 'learning_rate': 3.892227442017493e-06, 'epoch': 0.58}
 58%|█████▊    | 1365/2335 [1:26:55<1:00:24,  3.74s/it] 59%|█████▊    | 1366/2335 [1:26:59<1:00:52,  3.77s/it]                                                       {'loss': 0.1114, 'grad_norm': 2.395216678832063, 'learning_rate': 3.885462791281114e-06, 'epoch': 0.59}
 59%|█████▊    | 1366/2335 [1:26:59<1:00:52,  3.77s/it] 59%|█████▊    | 1367/2335 [1:27:02<1:00:28,  3.75s/it]                                                       {'loss': 0.1582, 'grad_norm': 2.4870279765476746, 'learning_rate': 3.878700286602476e-06, 'epoch': 0.59}
 59%|█████▊    | 1367/2335 [1:27:02<1:00:28,  3.75s/it] 59%|█████▊    | 1368/2335 [1:27:06<1:00:28,  3.75s/it]                                                       {'loss': 0.1216, 'grad_norm': 2.322942952072667, 'learning_rate': 3.87193994100288e-06, 'epoch': 0.59}
 59%|█████▊    | 1368/2335 [1:27:06<1:00:28,  3.75s/it] 59%|█████▊    | 1369/2335 [1:27:10<1:00:13,  3.74s/it]                                                       {'loss': 0.1634, 'grad_norm': 2.410413516730318, 'learning_rate': 3.865181767499471e-06, 'epoch': 0.59}
 59%|█████▊    | 1369/2335 [1:27:10<1:00:13,  3.74s/it] 59%|█████▊    | 1370/2335 [1:27:14<1:00:16,  3.75s/it]                                                       {'loss': 0.1701, 'grad_norm': 2.3569293978139214, 'learning_rate': 3.858425779105211e-06, 'epoch': 0.59}
 59%|█████▊    | 1370/2335 [1:27:14<1:00:16,  3.75s/it] 59%|█████▊    | 1371/2335 [1:27:17<59:41,  3.72s/it]                                                       {'loss': 0.1742, 'grad_norm': 2.4243804166228684, 'learning_rate': 3.851671988828854e-06, 'epoch': 0.59}
 59%|█████▊    | 1371/2335 [1:27:17<59:41,  3.72s/it] 59%|█████▉    | 1372/2335 [1:27:21<58:58,  3.67s/it]                                                     {'loss': 0.096, 'grad_norm': 1.951844729954393, 'learning_rate': 3.8449204096749235e-06, 'epoch': 0.59}
 59%|█████▉    | 1372/2335 [1:27:21<58:58,  3.67s/it] 59%|█████▉    | 1373/2335 [1:27:25<58:43,  3.66s/it]                                                     {'loss': 0.1046, 'grad_norm': 2.0859312509600927, 'learning_rate': 3.838171054643683e-06, 'epoch': 0.59}
 59%|█████▉    | 1373/2335 [1:27:25<58:43,  3.66s/it] 59%|█████▉    | 1374/2335 [1:27:28<59:08,  3.69s/it]                                                     {'loss': 0.1345, 'grad_norm': 2.2698754952198557, 'learning_rate': 3.831423936731117e-06, 'epoch': 0.59}
 59%|█████▉    | 1374/2335 [1:27:28<59:08,  3.69s/it] 59%|█████▉    | 1375/2335 [1:27:32<59:15,  3.70s/it]                                                     {'loss': 0.1343, 'grad_norm': 2.115005586730726, 'learning_rate': 3.824679068928897e-06, 'epoch': 0.59}
 59%|█████▉    | 1375/2335 [1:27:32<59:15,  3.70s/it] 59%|█████▉    | 1376/2335 [1:27:36<59:14,  3.71s/it]                                                     {'loss': 0.1331, 'grad_norm': 2.404559206638727, 'learning_rate': 3.817936464224367e-06, 'epoch': 0.59}
 59%|█████▉    | 1376/2335 [1:27:36<59:14,  3.71s/it] 59%|█████▉    | 1377/2335 [1:27:39<58:58,  3.69s/it]                                                     {'loss': 0.1241, 'grad_norm': 2.38055571645337, 'learning_rate': 3.8111961356005088e-06, 'epoch': 0.59}
 59%|█████▉    | 1377/2335 [1:27:39<58:58,  3.69s/it] 59%|█████▉    | 1378/2335 [1:27:43<58:31,  3.67s/it]                                                     {'loss': 0.1305, 'grad_norm': 2.1577492643744, 'learning_rate': 3.804458096035928e-06, 'epoch': 0.59}
 59%|█████▉    | 1378/2335 [1:27:43<58:31,  3.67s/it] 59%|█████▉    | 1379/2335 [1:27:47<58:22,  3.66s/it]                                                     {'loss': 0.1468, 'grad_norm': 2.16254552351315, 'learning_rate': 3.797722358504814e-06, 'epoch': 0.59}
 59%|█████▉    | 1379/2335 [1:27:47<58:22,  3.66s/it] 59%|█████▉    | 1380/2335 [1:27:50<58:42,  3.69s/it]                                                     {'loss': 0.2029, 'grad_norm': 2.6172600034583757, 'learning_rate': 3.79098893597693e-06, 'epoch': 0.59}
 59%|█████▉    | 1380/2335 [1:27:50<58:42,  3.69s/it] 59%|█████▉    | 1381/2335 [1:27:54<58:39,  3.69s/it]                                                     {'loss': 0.1296, 'grad_norm': 2.1578993087741485, 'learning_rate': 3.7842578414175824e-06, 'epoch': 0.59}
 59%|█████▉    | 1381/2335 [1:27:54<58:39,  3.69s/it] 59%|█████▉    | 1382/2335 [1:27:58<58:20,  3.67s/it]                                                     {'loss': 0.1413, 'grad_norm': 2.078386673539379, 'learning_rate': 3.777529087787588e-06, 'epoch': 0.59}
 59%|█████▉    | 1382/2335 [1:27:58<58:20,  3.67s/it] 59%|█████▉    | 1383/2335 [1:28:02<58:53,  3.71s/it]                                                     {'loss': 0.13, 'grad_norm': 2.206480438268327, 'learning_rate': 3.7708026880432647e-06, 'epoch': 0.59}
 59%|█████▉    | 1383/2335 [1:28:02<58:53,  3.71s/it] 59%|█████▉    | 1384/2335 [1:28:05<58:55,  3.72s/it]                                                     {'loss': 0.1337, 'grad_norm': 2.55298114056071, 'learning_rate': 3.764078655136391e-06, 'epoch': 0.59}
 59%|█████▉    | 1384/2335 [1:28:05<58:55,  3.72s/it] 59%|█████▉    | 1385/2335 [1:28:09<59:12,  3.74s/it]                                                     {'loss': 0.1274, 'grad_norm': 2.594153255732443, 'learning_rate': 3.7573570020141924e-06, 'epoch': 0.59}
 59%|█████▉    | 1385/2335 [1:28:09<59:12,  3.74s/it] 59%|█████▉    | 1386/2335 [1:28:13<58:50,  3.72s/it]                                                     {'loss': 0.1396, 'grad_norm': 2.496859284981384, 'learning_rate': 3.7506377416193096e-06, 'epoch': 0.59}
 59%|█████▉    | 1386/2335 [1:28:13<58:50,  3.72s/it] 59%|█████▉    | 1387/2335 [1:28:16<58:57,  3.73s/it]                                                     {'loss': 0.1336, 'grad_norm': 2.065812436011103, 'learning_rate': 3.7439208868897768e-06, 'epoch': 0.59}
 59%|█████▉    | 1387/2335 [1:28:16<58:57,  3.73s/it] 59%|█████▉    | 1388/2335 [1:28:20<59:06,  3.75s/it]                                                     {'loss': 0.143, 'grad_norm': 2.1393695522627603, 'learning_rate': 3.737206450758999e-06, 'epoch': 0.59}
 59%|█████▉    | 1388/2335 [1:28:20<59:06,  3.75s/it] 59%|█████▉    | 1389/2335 [1:28:24<58:45,  3.73s/it]                                                     {'loss': 0.1372, 'grad_norm': 2.727108323675969, 'learning_rate': 3.7304944461557173e-06, 'epoch': 0.59}
 59%|█████▉    | 1389/2335 [1:28:24<58:45,  3.73s/it] 60%|█████▉    | 1390/2335 [1:28:28<58:42,  3.73s/it]                                                     {'loss': 0.1256, 'grad_norm': 1.9682164029103848, 'learning_rate': 3.7237848860039983e-06, 'epoch': 0.6}
 60%|█████▉    | 1390/2335 [1:28:28<58:42,  3.73s/it] 60%|█████▉    | 1391/2335 [1:28:31<59:00,  3.75s/it]                                                     {'loss': 0.1432, 'grad_norm': 2.553738340403351, 'learning_rate': 3.717077783223197e-06, 'epoch': 0.6}
 60%|█████▉    | 1391/2335 [1:28:31<59:00,  3.75s/it] 60%|█████▉    | 1392/2335 [1:28:35<58:34,  3.73s/it]                                                     {'loss': 0.1184, 'grad_norm': 2.3326529412155828, 'learning_rate': 3.7103731507279383e-06, 'epoch': 0.6}
 60%|█████▉    | 1392/2335 [1:28:35<58:34,  3.73s/it] 60%|█████▉    | 1393/2335 [1:28:39<58:15,  3.71s/it]                                                     {'loss': 0.1273, 'grad_norm': 5.563084320011895, 'learning_rate': 3.703671001428091e-06, 'epoch': 0.6}
 60%|█████▉    | 1393/2335 [1:28:39<58:15,  3.71s/it] 60%|█████▉    | 1394/2335 [1:28:43<58:10,  3.71s/it]                                                     {'loss': 0.1165, 'grad_norm': 2.4479898028614575, 'learning_rate': 3.69697134822874e-06, 'epoch': 0.6}
 60%|█████▉    | 1394/2335 [1:28:43<58:10,  3.71s/it] 60%|█████▉    | 1395/2335 [1:28:46<58:04,  3.71s/it]                                                     {'loss': 0.1136, 'grad_norm': 2.2518827099082337, 'learning_rate': 3.690274204030169e-06, 'epoch': 0.6}
 60%|█████▉    | 1395/2335 [1:28:46<58:04,  3.71s/it] 60%|█████▉    | 1396/2335 [1:28:50<58:06,  3.71s/it]                                                     {'loss': 0.1643, 'grad_norm': 2.4301075042737783, 'learning_rate': 3.683579581727824e-06, 'epoch': 0.6}
 60%|█████▉    | 1396/2335 [1:28:50<58:06,  3.71s/it] 60%|█████▉    | 1397/2335 [1:28:54<58:15,  3.73s/it]                                                     {'loss': 0.1659, 'grad_norm': 2.5208375179990865, 'learning_rate': 3.6768874942123012e-06, 'epoch': 0.6}
 60%|█████▉    | 1397/2335 [1:28:54<58:15,  3.73s/it] 60%|█████▉    | 1398/2335 [1:28:57<58:14,  3.73s/it]                                                     {'loss': 0.1181, 'grad_norm': 2.0951464477527453, 'learning_rate': 3.670197954369311e-06, 'epoch': 0.6}
 60%|█████▉    | 1398/2335 [1:28:57<58:14,  3.73s/it] 60%|█████▉    | 1399/2335 [1:29:01<58:13,  3.73s/it]                                                     {'loss': 0.2021, 'grad_norm': 2.3464556066053834, 'learning_rate': 3.6635109750796637e-06, 'epoch': 0.6}
 60%|█████▉    | 1399/2335 [1:29:01<58:13,  3.73s/it] 60%|█████▉    | 1400/2335 [1:29:05<58:34,  3.76s/it]                                                     {'loss': 0.1437, 'grad_norm': 2.149138554165214, 'learning_rate': 3.656826569219233e-06, 'epoch': 0.6}
 60%|█████▉    | 1400/2335 [1:29:05<58:34,  3.76s/it] 60%|██████    | 1401/2335 [1:29:09<59:03,  3.79s/it]                                                     {'loss': 0.1281, 'grad_norm': 2.4916727249052975, 'learning_rate': 3.650144749658939e-06, 'epoch': 0.6}
 60%|██████    | 1401/2335 [1:29:09<59:03,  3.79s/it] 60%|██████    | 1402/2335 [1:29:13<58:57,  3.79s/it]                                                     {'loss': 0.1405, 'grad_norm': 2.3577187824548607, 'learning_rate': 3.643465529264727e-06, 'epoch': 0.6}
 60%|██████    | 1402/2335 [1:29:13<58:57,  3.79s/it] 60%|██████    | 1403/2335 [1:29:16<58:36,  3.77s/it]                                                     {'loss': 0.1301, 'grad_norm': 2.239449104765556, 'learning_rate': 3.6367889208975327e-06, 'epoch': 0.6}
 60%|██████    | 1403/2335 [1:29:16<58:36,  3.77s/it] 60%|██████    | 1404/2335 [1:29:20<58:28,  3.77s/it]                                                     {'loss': 0.1281, 'grad_norm': 2.388226985221442, 'learning_rate': 3.6301149374132615e-06, 'epoch': 0.6}
 60%|██████    | 1404/2335 [1:29:20<58:28,  3.77s/it] 60%|██████    | 1405/2335 [1:29:24<58:51,  3.80s/it]                                                     {'loss': 0.16, 'grad_norm': 2.960945240587159, 'learning_rate': 3.6234435916627696e-06, 'epoch': 0.6}
 60%|██████    | 1405/2335 [1:29:24<58:51,  3.80s/it] 60%|██████    | 1406/2335 [1:29:28<59:25,  3.84s/it]                                                     {'loss': 0.1444, 'grad_norm': 2.229562610702544, 'learning_rate': 3.6167748964918282e-06, 'epoch': 0.6}
 60%|██████    | 1406/2335 [1:29:28<59:25,  3.84s/it] 60%|██████    | 1407/2335 [1:29:32<59:01,  3.82s/it]                                                     {'loss': 0.1654, 'grad_norm': 3.0305482760540388, 'learning_rate': 3.6101088647411097e-06, 'epoch': 0.6}
 60%|██████    | 1407/2335 [1:29:32<59:01,  3.82s/it] 60%|██████    | 1408/2335 [1:29:35<58:26,  3.78s/it]                                                     {'loss': 0.1153, 'grad_norm': 2.1326270451056057, 'learning_rate': 3.603445509246154e-06, 'epoch': 0.6}
 60%|██████    | 1408/2335 [1:29:35<58:26,  3.78s/it] 60%|██████    | 1409/2335 [1:29:39<57:44,  3.74s/it]                                                     {'loss': 0.1383, 'grad_norm': 2.067967423214708, 'learning_rate': 3.5967848428373512e-06, 'epoch': 0.6}
 60%|██████    | 1409/2335 [1:29:39<57:44,  3.74s/it] 60%|██████    | 1410/2335 [1:29:43<57:22,  3.72s/it]                                                     {'loss': 0.1366, 'grad_norm': 2.2836810814579787, 'learning_rate': 3.5901268783399135e-06, 'epoch': 0.6}
 60%|██████    | 1410/2335 [1:29:43<57:22,  3.72s/it] 60%|██████    | 1411/2335 [1:29:46<57:22,  3.73s/it]                                                     {'loss': 0.1434, 'grad_norm': 2.6287494862987604, 'learning_rate': 3.583471628573846e-06, 'epoch': 0.6}
 60%|██████    | 1411/2335 [1:29:47<57:22,  3.73s/it] 60%|██████    | 1412/2335 [1:29:50<56:53,  3.70s/it]                                                     {'loss': 0.1304, 'grad_norm': 2.5374128414286194, 'learning_rate': 3.5768191063539326e-06, 'epoch': 0.6}
 60%|██████    | 1412/2335 [1:29:50<56:53,  3.70s/it] 61%|██████    | 1413/2335 [1:29:54<56:27,  3.67s/it]                                                     {'loss': 0.1598, 'grad_norm': 2.2476745529691855, 'learning_rate': 3.5701693244897005e-06, 'epoch': 0.61}
 61%|██████    | 1413/2335 [1:29:54<56:27,  3.67s/it] 61%|██████    | 1414/2335 [1:29:57<56:23,  3.67s/it]                                                     {'loss': 0.1373, 'grad_norm': 2.284166364945164, 'learning_rate': 3.563522295785403e-06, 'epoch': 0.61}
 61%|██████    | 1414/2335 [1:29:57<56:23,  3.67s/it] 61%|██████    | 1415/2335 [1:30:01<56:16,  3.67s/it]                                                     {'loss': 0.1102, 'grad_norm': 2.6016190373765324, 'learning_rate': 3.556878033039991e-06, 'epoch': 0.61}
 61%|██████    | 1415/2335 [1:30:01<56:16,  3.67s/it] 61%|██████    | 1416/2335 [1:30:05<55:48,  3.64s/it]                                                     {'loss': 0.1191, 'grad_norm': 2.3484020080934256, 'learning_rate': 3.55023654904709e-06, 'epoch': 0.61}
 61%|██████    | 1416/2335 [1:30:05<55:48,  3.64s/it] 61%|██████    | 1417/2335 [1:30:08<55:32,  3.63s/it]                                                     {'loss': 0.138, 'grad_norm': 2.5639012259015574, 'learning_rate': 3.543597856594976e-06, 'epoch': 0.61}
 61%|██████    | 1417/2335 [1:30:08<55:32,  3.63s/it] 61%|██████    | 1418/2335 [1:30:12<56:18,  3.68s/it]                                                     {'loss': 0.1626, 'grad_norm': 2.3969687008646052, 'learning_rate': 3.5369619684665456e-06, 'epoch': 0.61}
 61%|██████    | 1418/2335 [1:30:12<56:18,  3.68s/it] 61%|██████    | 1419/2335 [1:30:16<55:46,  3.65s/it]                                                     {'loss': 0.1262, 'grad_norm': 2.181074231393954, 'learning_rate': 3.530328897439302e-06, 'epoch': 0.61}
 61%|██████    | 1419/2335 [1:30:16<55:46,  3.65s/it] 61%|██████    | 1420/2335 [1:30:19<55:40,  3.65s/it]                                                     {'loss': 0.2178, 'grad_norm': 3.2304137710594047, 'learning_rate': 3.5236986562853193e-06, 'epoch': 0.61}
 61%|██████    | 1420/2335 [1:30:19<55:40,  3.65s/it] 61%|██████    | 1421/2335 [1:30:23<55:36,  3.65s/it]                                                     {'loss': 0.0918, 'grad_norm': 1.8766895205643324, 'learning_rate': 3.517071257771225e-06, 'epoch': 0.61}
 61%|██████    | 1421/2335 [1:30:23<55:36,  3.65s/it] 61%|██████    | 1422/2335 [1:30:27<55:43,  3.66s/it]                                                     {'loss': 0.1496, 'grad_norm': 2.1925731213079853, 'learning_rate': 3.51044671465817e-06, 'epoch': 0.61}
 61%|██████    | 1422/2335 [1:30:27<55:43,  3.66s/it] 61%|██████    | 1423/2335 [1:30:30<56:03,  3.69s/it]                                                     {'loss': 0.1485, 'grad_norm': 2.6088861814998823, 'learning_rate': 3.50382503970181e-06, 'epoch': 0.61}
 61%|██████    | 1423/2335 [1:30:30<56:03,  3.69s/it] 61%|██████    | 1424/2335 [1:30:34<55:35,  3.66s/it]                                                     {'loss': 0.1174, 'grad_norm': 2.1868850387126493, 'learning_rate': 3.49720624565228e-06, 'epoch': 0.61}
 61%|██████    | 1424/2335 [1:30:34<55:35,  3.66s/it] 61%|██████    | 1425/2335 [1:30:38<55:48,  3.68s/it]                                                     {'loss': 0.1266, 'grad_norm': 2.235683860698061, 'learning_rate': 3.4905903452541612e-06, 'epoch': 0.61}
 61%|██████    | 1425/2335 [1:30:38<55:48,  3.68s/it] 61%|██████    | 1426/2335 [1:30:41<55:46,  3.68s/it]                                                     {'loss': 0.2125, 'grad_norm': 2.7724357243056854, 'learning_rate': 3.4839773512464693e-06, 'epoch': 0.61}
 61%|██████    | 1426/2335 [1:30:41<55:46,  3.68s/it] 61%|██████    | 1427/2335 [1:30:45<55:56,  3.70s/it]                                                     {'loss': 0.1089, 'grad_norm': 2.042974718790244, 'learning_rate': 3.477367276362619e-06, 'epoch': 0.61}
 61%|██████    | 1427/2335 [1:30:45<55:56,  3.70s/it] 61%|██████    | 1428/2335 [1:30:49<56:09,  3.72s/it]                                                     {'loss': 0.1532, 'grad_norm': 2.1601939893669555, 'learning_rate': 3.4707601333304093e-06, 'epoch': 0.61}
 61%|██████    | 1428/2335 [1:30:49<56:09,  3.72s/it] 61%|██████    | 1429/2335 [1:30:53<56:44,  3.76s/it]                                                     {'loss': 0.1173, 'grad_norm': 2.020064821812364, 'learning_rate': 3.4641559348719885e-06, 'epoch': 0.61}
 61%|██████    | 1429/2335 [1:30:53<56:44,  3.76s/it] 61%|██████    | 1430/2335 [1:30:56<56:27,  3.74s/it]                                                     {'loss': 0.1606, 'grad_norm': 2.9005360093279497, 'learning_rate': 3.4575546937038387e-06, 'epoch': 0.61}
 61%|██████    | 1430/2335 [1:30:56<56:27,  3.74s/it] 61%|██████▏   | 1431/2335 [1:31:00<56:30,  3.75s/it]                                                     {'loss': 0.1004, 'grad_norm': 2.172697422469941, 'learning_rate': 3.450956422536747e-06, 'epoch': 0.61}
 61%|██████▏   | 1431/2335 [1:31:00<56:30,  3.75s/it] 61%|██████▏   | 1432/2335 [1:31:04<56:27,  3.75s/it]                                                     {'loss': 0.1418, 'grad_norm': 2.519462157281068, 'learning_rate': 3.44436113407578e-06, 'epoch': 0.61}
 61%|██████▏   | 1432/2335 [1:31:04<56:27,  3.75s/it] 61%|██████▏   | 1433/2335 [1:31:08<56:13,  3.74s/it]                                                     {'loss': 0.0955, 'grad_norm': 2.058211812912002, 'learning_rate': 3.4377688410202634e-06, 'epoch': 0.61}
 61%|██████▏   | 1433/2335 [1:31:08<56:13,  3.74s/it] 61%|██████▏   | 1434/2335 [1:31:11<55:57,  3.73s/it]                                                     {'loss': 0.1535, 'grad_norm': 2.859151154864237, 'learning_rate': 3.431179556063756e-06, 'epoch': 0.61}
 61%|██████▏   | 1434/2335 [1:31:11<55:57,  3.73s/it] 61%|██████▏   | 1435/2335 [1:31:15<56:00,  3.73s/it]                                                     {'loss': 0.1356, 'grad_norm': 2.293692869554135, 'learning_rate': 3.4245932918940184e-06, 'epoch': 0.61}
 61%|██████▏   | 1435/2335 [1:31:15<56:00,  3.73s/it] 61%|██████▏   | 1436/2335 [1:31:19<56:06,  3.74s/it]                                                     {'loss': 0.1426, 'grad_norm': 2.462936189542011, 'learning_rate': 3.4180100611930012e-06, 'epoch': 0.61}
 61%|██████▏   | 1436/2335 [1:31:19<56:06,  3.74s/it] 62%|██████▏   | 1437/2335 [1:31:23<55:38,  3.72s/it]                                                     {'loss': 0.1492, 'grad_norm': 2.981192153845732, 'learning_rate': 3.4114298766368117e-06, 'epoch': 0.62}
 62%|██████▏   | 1437/2335 [1:31:23<55:38,  3.72s/it] 62%|██████▏   | 1438/2335 [1:31:26<56:00,  3.75s/it]                                                     {'loss': 0.1372, 'grad_norm': 2.0057968904078063, 'learning_rate': 3.4048527508956896e-06, 'epoch': 0.62}
 62%|██████▏   | 1438/2335 [1:31:26<56:00,  3.75s/it] 62%|██████▏   | 1439/2335 [1:31:30<56:05,  3.76s/it]                                                     {'loss': 0.177, 'grad_norm': 2.473787056660534, 'learning_rate': 3.398278696633991e-06, 'epoch': 0.62}
 62%|██████▏   | 1439/2335 [1:31:30<56:05,  3.76s/it] 62%|██████▏   | 1440/2335 [1:31:34<56:16,  3.77s/it]                                                     {'loss': 0.1361, 'grad_norm': 2.457571408636888, 'learning_rate': 3.3917077265101505e-06, 'epoch': 0.62}
 62%|██████▏   | 1440/2335 [1:31:34<56:16,  3.77s/it] 62%|██████▏   | 1441/2335 [1:31:38<55:50,  3.75s/it]                                                     {'loss': 0.1722, 'grad_norm': 2.452395773319289, 'learning_rate': 3.3851398531766695e-06, 'epoch': 0.62}
 62%|██████▏   | 1441/2335 [1:31:38<55:50,  3.75s/it] 62%|██████▏   | 1442/2335 [1:31:41<55:15,  3.71s/it]                                                     {'loss': 0.1883, 'grad_norm': 2.545890480440564, 'learning_rate': 3.3785750892800823e-06, 'epoch': 0.62}
 62%|██████▏   | 1442/2335 [1:31:41<55:15,  3.71s/it] 62%|██████▏   | 1443/2335 [1:31:45<55:37,  3.74s/it]                                                     {'loss': 0.1642, 'grad_norm': 2.4011874467505536, 'learning_rate': 3.37201344746094e-06, 'epoch': 0.62}
 62%|██████▏   | 1443/2335 [1:31:45<55:37,  3.74s/it] 62%|██████▏   | 1444/2335 [1:31:49<55:25,  3.73s/it]                                                     {'loss': 0.1555, 'grad_norm': 2.297064966084557, 'learning_rate': 3.365454940353779e-06, 'epoch': 0.62}
 62%|██████▏   | 1444/2335 [1:31:49<55:25,  3.73s/it] 62%|██████▏   | 1445/2335 [1:31:52<55:09,  3.72s/it]                                                     {'loss': 0.1598, 'grad_norm': 2.6420574859079857, 'learning_rate': 3.3588995805871005e-06, 'epoch': 0.62}
 62%|██████▏   | 1445/2335 [1:31:52<55:09,  3.72s/it] 62%|██████▏   | 1446/2335 [1:31:56<54:57,  3.71s/it]                                                     {'loss': 0.1212, 'grad_norm': 2.473242268022817, 'learning_rate': 3.3523473807833483e-06, 'epoch': 0.62}
 62%|██████▏   | 1446/2335 [1:31:56<54:57,  3.71s/it] 62%|██████▏   | 1447/2335 [1:32:00<54:56,  3.71s/it]                                                     {'loss': 0.1337, 'grad_norm': 2.3065412802762486, 'learning_rate': 3.3457983535588766e-06, 'epoch': 0.62}
 62%|██████▏   | 1447/2335 [1:32:00<54:56,  3.71s/it] 62%|██████▏   | 1448/2335 [1:32:04<55:36,  3.76s/it]                                                     {'loss': 0.1422, 'grad_norm': 2.3012187301192157, 'learning_rate': 3.3392525115239353e-06, 'epoch': 0.62}
 62%|██████▏   | 1448/2335 [1:32:04<55:36,  3.76s/it] 62%|██████▏   | 1449/2335 [1:32:07<55:14,  3.74s/it]                                                     {'loss': 0.1427, 'grad_norm': 2.3163118632874524, 'learning_rate': 3.3327098672826373e-06, 'epoch': 0.62}
 62%|██████▏   | 1449/2335 [1:32:07<55:14,  3.74s/it] 62%|██████▏   | 1450/2335 [1:32:11<55:13,  3.74s/it]                                                     {'loss': 0.1283, 'grad_norm': 2.328045635731721, 'learning_rate': 3.3261704334329416e-06, 'epoch': 0.62}
 62%|██████▏   | 1450/2335 [1:32:11<55:13,  3.74s/it] 62%|██████▏   | 1451/2335 [1:32:15<54:39,  3.71s/it]                                                     {'loss': 0.1598, 'grad_norm': 2.522662315468329, 'learning_rate': 3.319634222566623e-06, 'epoch': 0.62}
 62%|██████▏   | 1451/2335 [1:32:15<54:39,  3.71s/it] 62%|██████▏   | 1452/2335 [1:32:19<54:28,  3.70s/it]                                                     {'loss': 0.1429, 'grad_norm': 2.1677961999343123, 'learning_rate': 3.3131012472692515e-06, 'epoch': 0.62}
 62%|██████▏   | 1452/2335 [1:32:19<54:28,  3.70s/it] 62%|██████▏   | 1453/2335 [1:32:22<54:24,  3.70s/it]                                                     {'loss': 0.1358, 'grad_norm': 2.651002657478796, 'learning_rate': 3.3065715201201676e-06, 'epoch': 0.62}
 62%|██████▏   | 1453/2335 [1:32:22<54:24,  3.70s/it] 62%|██████▏   | 1454/2335 [1:32:26<53:47,  3.66s/it]                                                     {'loss': 0.1223, 'grad_norm': 2.560958836546812, 'learning_rate': 3.3000450536924554e-06, 'epoch': 0.62}
 62%|██████▏   | 1454/2335 [1:32:26<53:47,  3.66s/it] 62%|██████▏   | 1455/2335 [1:32:30<54:23,  3.71s/it]                                                     {'loss': 0.1394, 'grad_norm': 2.353748488824112, 'learning_rate': 3.293521860552924e-06, 'epoch': 0.62}
 62%|██████▏   | 1455/2335 [1:32:30<54:23,  3.71s/it] 62%|██████▏   | 1456/2335 [1:32:33<54:21,  3.71s/it]                                                     {'loss': 0.1512, 'grad_norm': 2.4799327295979485, 'learning_rate': 3.2870019532620744e-06, 'epoch': 0.62}
 62%|██████▏   | 1456/2335 [1:32:33<54:21,  3.71s/it] 62%|██████▏   | 1457/2335 [1:32:37<54:33,  3.73s/it]                                                     {'loss': 0.134, 'grad_norm': 2.076467722651473, 'learning_rate': 3.280485344374087e-06, 'epoch': 0.62}
 62%|██████▏   | 1457/2335 [1:32:37<54:33,  3.73s/it] 62%|██████▏   | 1458/2335 [1:32:41<54:33,  3.73s/it]                                                     {'loss': 0.1208, 'grad_norm': 2.31427504673827, 'learning_rate': 3.2739720464367848e-06, 'epoch': 0.62}
 62%|██████▏   | 1458/2335 [1:32:41<54:33,  3.73s/it] 62%|██████▏   | 1459/2335 [1:32:45<54:11,  3.71s/it]                                                     {'loss': 0.0914, 'grad_norm': 2.079939366099188, 'learning_rate': 3.2674620719916196e-06, 'epoch': 0.62}
 62%|██████▏   | 1459/2335 [1:32:45<54:11,  3.71s/it] 63%|██████▎   | 1460/2335 [1:32:48<54:46,  3.76s/it]                                                     {'loss': 0.1549, 'grad_norm': 2.5749988412187523, 'learning_rate': 3.2609554335736435e-06, 'epoch': 0.63}
 63%|██████▎   | 1460/2335 [1:32:48<54:46,  3.76s/it] 63%|██████▎   | 1461/2335 [1:32:52<54:13,  3.72s/it]                                                     {'loss': 0.1331, 'grad_norm': 2.0030913945838305, 'learning_rate': 3.2544521437114828e-06, 'epoch': 0.63}
 63%|██████▎   | 1461/2335 [1:32:52<54:13,  3.72s/it] 63%|██████▎   | 1462/2335 [1:32:56<54:36,  3.75s/it]                                                     {'loss': 0.1106, 'grad_norm': 2.110900204142116, 'learning_rate': 3.2479522149273195e-06, 'epoch': 0.63}
 63%|██████▎   | 1462/2335 [1:32:56<54:36,  3.75s/it] 63%|██████▎   | 1463/2335 [1:33:00<54:22,  3.74s/it]                                                     {'loss': 0.1227, 'grad_norm': 2.459117747745039, 'learning_rate': 3.2414556597368598e-06, 'epoch': 0.63}
 63%|██████▎   | 1463/2335 [1:33:00<54:22,  3.74s/it] 63%|██████▎   | 1464/2335 [1:33:03<54:10,  3.73s/it]                                                     {'loss': 0.1676, 'grad_norm': 2.0793960116412, 'learning_rate': 3.2349624906493164e-06, 'epoch': 0.63}
 63%|██████▎   | 1464/2335 [1:33:03<54:10,  3.73s/it] 63%|██████▎   | 1465/2335 [1:33:07<53:44,  3.71s/it]                                                     {'loss': 0.1405, 'grad_norm': 2.4157318086597055, 'learning_rate': 3.2284727201673816e-06, 'epoch': 0.63}
 63%|██████▎   | 1465/2335 [1:33:07<53:44,  3.71s/it] 63%|██████▎   | 1466/2335 [1:33:11<54:03,  3.73s/it]                                                     {'loss': 0.1429, 'grad_norm': 2.2533070122805436, 'learning_rate': 3.2219863607872044e-06, 'epoch': 0.63}
 63%|██████▎   | 1466/2335 [1:33:11<54:03,  3.73s/it] 63%|██████▎   | 1467/2335 [1:33:14<53:44,  3.72s/it]                                                     {'loss': 0.1368, 'grad_norm': 2.3659317219998104, 'learning_rate': 3.2155034249983652e-06, 'epoch': 0.63}
 63%|██████▎   | 1467/2335 [1:33:14<53:44,  3.72s/it] 63%|██████▎   | 1468/2335 [1:33:18<53:26,  3.70s/it]                                                     {'loss': 0.1342, 'grad_norm': 2.4853733418560124, 'learning_rate': 3.2090239252838496e-06, 'epoch': 0.63}
 63%|██████▎   | 1468/2335 [1:33:18<53:26,  3.70s/it] 63%|██████▎   | 1469/2335 [1:33:22<53:42,  3.72s/it]                                                     {'loss': 0.1325, 'grad_norm': 2.167748750280194, 'learning_rate': 3.2025478741200323e-06, 'epoch': 0.63}
 63%|██████▎   | 1469/2335 [1:33:22<53:42,  3.72s/it] 63%|██████▎   | 1470/2335 [1:33:26<54:04,  3.75s/it]                                                     {'loss': 0.1029, 'grad_norm': 2.1744233776790356, 'learning_rate': 3.1960752839766447e-06, 'epoch': 0.63}
 63%|██████▎   | 1470/2335 [1:33:26<54:04,  3.75s/it] 63%|██████▎   | 1471/2335 [1:33:29<53:46,  3.73s/it]                                                     {'loss': 0.1251, 'grad_norm': 2.5347222161474185, 'learning_rate': 3.18960616731675e-06, 'epoch': 0.63}
 63%|██████▎   | 1471/2335 [1:33:29<53:46,  3.73s/it] 63%|██████▎   | 1472/2335 [1:33:33<54:01,  3.76s/it]                                                     {'loss': 0.1577, 'grad_norm': 2.387896544242817, 'learning_rate': 3.1831405365967315e-06, 'epoch': 0.63}
 63%|██████▎   | 1472/2335 [1:33:33<54:01,  3.76s/it] 63%|██████▎   | 1473/2335 [1:33:37<54:00,  3.76s/it]                                                     {'loss': 0.1505, 'grad_norm': 2.1371436414771967, 'learning_rate': 3.1766784042662534e-06, 'epoch': 0.63}
 63%|██████▎   | 1473/2335 [1:33:37<54:00,  3.76s/it] 63%|██████▎   | 1474/2335 [1:33:41<53:23,  3.72s/it]                                                     {'loss': 0.1047, 'grad_norm': 2.0262216836412974, 'learning_rate': 3.1702197827682476e-06, 'epoch': 0.63}
 63%|██████▎   | 1474/2335 [1:33:41<53:23,  3.72s/it] 63%|██████▎   | 1475/2335 [1:33:44<52:51,  3.69s/it]                                                     {'loss': 0.1652, 'grad_norm': 2.958805292942883, 'learning_rate': 3.163764684538885e-06, 'epoch': 0.63}
 63%|██████▎   | 1475/2335 [1:33:44<52:51,  3.69s/it] 63%|██████▎   | 1476/2335 [1:33:48<52:45,  3.68s/it]                                                     {'loss': 0.0971, 'grad_norm': 2.1071727352811975, 'learning_rate': 3.1573131220075494e-06, 'epoch': 0.63}
 63%|██████▎   | 1476/2335 [1:33:48<52:45,  3.68s/it] 63%|██████▎   | 1477/2335 [1:33:52<52:51,  3.70s/it]                                                     {'loss': 0.1258, 'grad_norm': 2.1548782198953327, 'learning_rate': 3.1508651075968223e-06, 'epoch': 0.63}
 63%|██████▎   | 1477/2335 [1:33:52<52:51,  3.70s/it] 63%|██████▎   | 1478/2335 [1:33:55<53:14,  3.73s/it]                                                     {'loss': 0.1203, 'grad_norm': 2.2495697642393457, 'learning_rate': 3.1444206537224477e-06, 'epoch': 0.63}
 63%|██████▎   | 1478/2335 [1:33:55<53:14,  3.73s/it] 63%|██████▎   | 1479/2335 [1:33:59<53:27,  3.75s/it]                                                     {'loss': 0.1023, 'grad_norm': 2.0857625146736924, 'learning_rate': 3.137979772793317e-06, 'epoch': 0.63}
 63%|██████▎   | 1479/2335 [1:33:59<53:27,  3.75s/it] 63%|██████▎   | 1480/2335 [1:34:03<53:22,  3.75s/it]                                                     {'loss': 0.1594, 'grad_norm': 2.323150803901988, 'learning_rate': 3.1315424772114404e-06, 'epoch': 0.63}
 63%|██████▎   | 1480/2335 [1:34:03<53:22,  3.75s/it] 63%|██████▎   | 1481/2335 [1:34:07<52:59,  3.72s/it]                                                     {'loss': 0.1493, 'grad_norm': 2.387466523705558, 'learning_rate': 3.1251087793719255e-06, 'epoch': 0.63}
 63%|██████▎   | 1481/2335 [1:34:07<52:59,  3.72s/it] 63%|██████▎   | 1482/2335 [1:34:10<53:03,  3.73s/it]                                                     {'loss': 0.1599, 'grad_norm': 2.3369646078486013, 'learning_rate': 3.1186786916629517e-06, 'epoch': 0.63}
 63%|██████▎   | 1482/2335 [1:34:10<53:03,  3.73s/it] 64%|██████▎   | 1483/2335 [1:34:14<52:55,  3.73s/it]                                                     {'loss': 0.113, 'grad_norm': 2.0201126379924803, 'learning_rate': 3.1122522264657474e-06, 'epoch': 0.64}
 64%|██████▎   | 1483/2335 [1:34:14<52:55,  3.73s/it] 64%|██████▎   | 1484/2335 [1:34:18<52:51,  3.73s/it]                                                     {'loss': 0.1641, 'grad_norm': 2.381944798482335, 'learning_rate': 3.1058293961545648e-06, 'epoch': 0.64}
 64%|██████▎   | 1484/2335 [1:34:18<52:51,  3.73s/it] 64%|██████▎   | 1485/2335 [1:34:21<52:39,  3.72s/it]                                                     {'loss': 0.1331, 'grad_norm': 2.6269759521509712, 'learning_rate': 3.0994102130966588e-06, 'epoch': 0.64}
 64%|██████▎   | 1485/2335 [1:34:21<52:39,  3.72s/it] 64%|██████▎   | 1486/2335 [1:34:26<57:17,  4.05s/it]                                                     {'loss': 0.1593, 'grad_norm': 2.4203215648292393, 'learning_rate': 3.09299468965226e-06, 'epoch': 0.64}
 64%|██████▎   | 1486/2335 [1:34:26<57:17,  4.05s/it] 64%|██████▎   | 1487/2335 [1:34:30<55:51,  3.95s/it]                                                     {'loss': 0.1481, 'grad_norm': 2.2388506869150753, 'learning_rate': 3.0865828381745515e-06, 'epoch': 0.64}
 64%|██████▎   | 1487/2335 [1:34:30<55:51,  3.95s/it] 64%|██████▎   | 1488/2335 [1:34:34<54:17,  3.85s/it]                                                     {'loss': 0.1306, 'grad_norm': 2.374963990346724, 'learning_rate': 3.0801746710096497e-06, 'epoch': 0.64}
 64%|██████▎   | 1488/2335 [1:34:34<54:17,  3.85s/it] 64%|██████▍   | 1489/2335 [1:34:38<55:57,  3.97s/it]                                                     {'loss': 0.1371, 'grad_norm': 2.279968311404025, 'learning_rate': 3.0737702004965743e-06, 'epoch': 0.64}
 64%|██████▍   | 1489/2335 [1:34:38<55:57,  3.97s/it] 64%|██████▍   | 1490/2335 [1:34:42<54:56,  3.90s/it]                                                     {'loss': 0.117, 'grad_norm': 2.1777836059532585, 'learning_rate': 3.0673694389672247e-06, 'epoch': 0.64}
 64%|██████▍   | 1490/2335 [1:34:42<54:56,  3.90s/it] 64%|██████▍   | 1491/2335 [1:34:45<54:26,  3.87s/it]                                                     {'loss': 0.0942, 'grad_norm': 1.951397195419024, 'learning_rate': 3.060972398746365e-06, 'epoch': 0.64}
 64%|██████▍   | 1491/2335 [1:34:45<54:26,  3.87s/it] 64%|██████▍   | 1492/2335 [1:34:49<53:53,  3.84s/it]                                                     {'loss': 0.1211, 'grad_norm': 2.54799355701838, 'learning_rate': 3.054579092151586e-06, 'epoch': 0.64}
 64%|██████▍   | 1492/2335 [1:34:49<53:53,  3.84s/it] 64%|██████▍   | 1493/2335 [1:34:53<53:11,  3.79s/it]                                                     {'loss': 0.1074, 'grad_norm': 2.3359227557882023, 'learning_rate': 3.0481895314932965e-06, 'epoch': 0.64}
 64%|██████▍   | 1493/2335 [1:34:53<53:11,  3.79s/it] 64%|██████▍   | 1494/2335 [1:34:56<52:40,  3.76s/it]                                                     {'loss': 0.117, 'grad_norm': 2.2456631857412064, 'learning_rate': 3.041803729074686e-06, 'epoch': 0.64}
 64%|██████▍   | 1494/2335 [1:34:56<52:40,  3.76s/it] 64%|██████▍   | 1495/2335 [1:35:00<51:57,  3.71s/it]                                                     {'loss': 0.1789, 'grad_norm': 2.389151474947469, 'learning_rate': 3.035421697191714e-06, 'epoch': 0.64}
 64%|██████▍   | 1495/2335 [1:35:00<51:57,  3.71s/it] 64%|██████▍   | 1496/2335 [1:35:04<51:49,  3.71s/it]                                                     {'loss': 0.1136, 'grad_norm': 2.256650203191494, 'learning_rate': 3.0290434481330746e-06, 'epoch': 0.64}
 64%|██████▍   | 1496/2335 [1:35:04<51:49,  3.71s/it] 64%|██████▍   | 1497/2335 [1:35:08<51:48,  3.71s/it]                                                     {'loss': 0.1246, 'grad_norm': 1.8756213964567443, 'learning_rate': 3.0226689941801803e-06, 'epoch': 0.64}
 64%|██████▍   | 1497/2335 [1:35:08<51:48,  3.71s/it] 64%|██████▍   | 1498/2335 [1:35:11<51:32,  3.69s/it]                                                     {'loss': 0.122, 'grad_norm': 2.0724067672525806, 'learning_rate': 3.016298347607136e-06, 'epoch': 0.64}
 64%|██████▍   | 1498/2335 [1:35:11<51:32,  3.69s/it] 64%|██████▍   | 1499/2335 [1:35:15<51:45,  3.71s/it]                                                     {'loss': 0.1363, 'grad_norm': 2.4409852926500504, 'learning_rate': 3.0099315206807135e-06, 'epoch': 0.64}
 64%|██████▍   | 1499/2335 [1:35:15<51:45,  3.71s/it] 64%|██████▍   | 1500/2335 [1:35:19<51:37,  3.71s/it]                                                     {'loss': 0.1076, 'grad_norm': 2.2339131827097085, 'learning_rate': 3.003568525660334e-06, 'epoch': 0.64}
 64%|██████▍   | 1500/2335 [1:35:19<51:37,  3.71s/it] 64%|██████▍   | 1501/2335 [1:35:22<51:30,  3.71s/it]                                                     {'loss': 0.1294, 'grad_norm': 2.180389865509403, 'learning_rate': 2.9972093747980357e-06, 'epoch': 0.64}
 64%|██████▍   | 1501/2335 [1:35:22<51:30,  3.71s/it] 64%|██████▍   | 1502/2335 [1:35:26<51:29,  3.71s/it]                                                     {'loss': 0.1619, 'grad_norm': 4.358429464476535, 'learning_rate': 2.9908540803384577e-06, 'epoch': 0.64}
 64%|██████▍   | 1502/2335 [1:35:26<51:29,  3.71s/it] 64%|██████▍   | 1503/2335 [1:35:30<51:24,  3.71s/it]                                                     {'loss': 0.1428, 'grad_norm': 2.19453744383653, 'learning_rate': 2.9845026545188137e-06, 'epoch': 0.64}
 64%|██████▍   | 1503/2335 [1:35:30<51:24,  3.71s/it] 64%|██████▍   | 1504/2335 [1:35:33<51:11,  3.70s/it]                                                     {'loss': 0.1184, 'grad_norm': 2.287865680747469, 'learning_rate': 2.978155109568864e-06, 'epoch': 0.64}
 64%|██████▍   | 1504/2335 [1:35:33<51:11,  3.70s/it] 64%|██████▍   | 1505/2335 [1:35:37<51:05,  3.69s/it]                                                     {'loss': 0.1744, 'grad_norm': 2.8543745469745043, 'learning_rate': 2.9718114577109055e-06, 'epoch': 0.64}
 64%|██████▍   | 1505/2335 [1:35:37<51:05,  3.69s/it] 64%|██████▍   | 1506/2335 [1:35:41<50:58,  3.69s/it]                                                     {'loss': 0.148, 'grad_norm': 2.9893973262562326, 'learning_rate': 2.9654717111597265e-06, 'epoch': 0.64}
 64%|██████▍   | 1506/2335 [1:35:41<50:58,  3.69s/it] 65%|██████▍   | 1507/2335 [1:35:44<50:54,  3.69s/it]                                                     {'loss': 0.1219, 'grad_norm': 1.8641949988001123, 'learning_rate': 2.9591358821226035e-06, 'epoch': 0.65}
 65%|██████▍   | 1507/2335 [1:35:44<50:54,  3.69s/it] 65%|██████▍   | 1508/2335 [1:35:48<50:52,  3.69s/it]                                                     {'loss': 0.1467, 'grad_norm': 2.1661923402032195, 'learning_rate': 2.952803982799271e-06, 'epoch': 0.65}
 65%|██████▍   | 1508/2335 [1:35:48<50:52,  3.69s/it] 65%|██████▍   | 1509/2335 [1:35:52<50:49,  3.69s/it]                                                     {'loss': 0.1301, 'grad_norm': 1.9578036095808655, 'learning_rate': 2.94647602538189e-06, 'epoch': 0.65}
 65%|██████▍   | 1509/2335 [1:35:52<50:49,  3.69s/it] 65%|██████▍   | 1510/2335 [1:35:56<50:46,  3.69s/it]                                                     {'loss': 0.1217, 'grad_norm': 2.0918433622344437, 'learning_rate': 2.940152022055039e-06, 'epoch': 0.65}
 65%|██████▍   | 1510/2335 [1:35:56<50:46,  3.69s/it] 65%|██████▍   | 1511/2335 [1:35:59<51:39,  3.76s/it]                                                     {'loss': 0.1372, 'grad_norm': 2.5568698503065717, 'learning_rate': 2.9338319849956777e-06, 'epoch': 0.65}
 65%|██████▍   | 1511/2335 [1:35:59<51:39,  3.76s/it] 65%|██████▍   | 1512/2335 [1:36:03<51:25,  3.75s/it]                                                     {'loss': 0.1058, 'grad_norm': 2.0629176979345565, 'learning_rate': 2.927515926373129e-06, 'epoch': 0.65}
 65%|██████▍   | 1512/2335 [1:36:03<51:25,  3.75s/it] 65%|██████▍   | 1513/2335 [1:36:07<51:47,  3.78s/it]                                                     {'loss': 0.182, 'grad_norm': 2.5119807196608948, 'learning_rate': 2.9212038583490588e-06, 'epoch': 0.65}
 65%|██████▍   | 1513/2335 [1:36:07<51:47,  3.78s/it] 65%|██████▍   | 1514/2335 [1:36:11<51:46,  3.78s/it]                                                     {'loss': 0.15, 'grad_norm': 2.3584547457429568, 'learning_rate': 2.9148957930774456e-06, 'epoch': 0.65}
 65%|██████▍   | 1514/2335 [1:36:11<51:46,  3.78s/it] 65%|██████▍   | 1515/2335 [1:36:15<51:44,  3.79s/it]                                                     {'loss': 0.1355, 'grad_norm': 2.0334504061402314, 'learning_rate': 2.9085917427045598e-06, 'epoch': 0.65}
 65%|██████▍   | 1515/2335 [1:36:15<51:44,  3.79s/it] 65%|██████▍   | 1516/2335 [1:36:18<51:52,  3.80s/it]                                                     {'loss': 0.1291, 'grad_norm': 2.182498510002562, 'learning_rate': 2.902291719368945e-06, 'epoch': 0.65}
 65%|██████▍   | 1516/2335 [1:36:18<51:52,  3.80s/it] 65%|██████▍   | 1517/2335 [1:36:22<51:37,  3.79s/it]                                                     {'loss': 0.1023, 'grad_norm': 2.3173734140730584, 'learning_rate': 2.895995735201387e-06, 'epoch': 0.65}
 65%|██████▍   | 1517/2335 [1:36:22<51:37,  3.79s/it] 65%|██████▌   | 1518/2335 [1:36:26<51:01,  3.75s/it]                                                     {'loss': 0.1164, 'grad_norm': 2.2947589902337198, 'learning_rate': 2.889703802324897e-06, 'epoch': 0.65}
 65%|██████▌   | 1518/2335 [1:36:26<51:01,  3.75s/it] 65%|██████▌   | 1519/2335 [1:36:30<51:10,  3.76s/it]                                                     {'loss': 0.1294, 'grad_norm': 2.2314526063993774, 'learning_rate': 2.883415932854685e-06, 'epoch': 0.65}
 65%|██████▌   | 1519/2335 [1:36:30<51:10,  3.76s/it] 65%|██████▌   | 1520/2335 [1:36:34<51:28,  3.79s/it]                                                     {'loss': 0.1176, 'grad_norm': 2.3831556261767886, 'learning_rate': 2.8771321388981334e-06, 'epoch': 0.65}
 65%|██████▌   | 1520/2335 [1:36:34<51:28,  3.79s/it] 65%|██████▌   | 1521/2335 [1:36:37<50:50,  3.75s/it]                                                     {'loss': 0.1345, 'grad_norm': 1.9326023451772578, 'learning_rate': 2.8708524325547805e-06, 'epoch': 0.65}
 65%|██████▌   | 1521/2335 [1:36:37<50:50,  3.75s/it] 65%|██████▌   | 1522/2335 [1:36:41<50:30,  3.73s/it]                                                     {'loss': 0.1696, 'grad_norm': 2.3250939100708647, 'learning_rate': 2.8645768259162925e-06, 'epoch': 0.65}
 65%|██████▌   | 1522/2335 [1:36:41<50:30,  3.73s/it] 65%|██████▌   | 1523/2335 [1:36:45<50:09,  3.71s/it]                                                     {'loss': 0.0994, 'grad_norm': 2.0571063592540213, 'learning_rate': 2.858305331066445e-06, 'epoch': 0.65}
 65%|██████▌   | 1523/2335 [1:36:45<50:09,  3.71s/it] 65%|██████▌   | 1524/2335 [1:36:48<49:59,  3.70s/it]                                                     {'loss': 0.1371, 'grad_norm': 2.3083876796067604, 'learning_rate': 2.8520379600810886e-06, 'epoch': 0.65}
 65%|██████▌   | 1524/2335 [1:36:48<49:59,  3.70s/it] 65%|██████▌   | 1525/2335 [1:36:52<50:07,  3.71s/it]                                                     {'loss': 0.1396, 'grad_norm': 2.094774921524476, 'learning_rate': 2.845774725028141e-06, 'epoch': 0.65}
 65%|██████▌   | 1525/2335 [1:36:52<50:07,  3.71s/it] 65%|██████▌   | 1526/2335 [1:36:56<49:43,  3.69s/it]                                                     {'loss': 0.0869, 'grad_norm': 2.2137928534052618, 'learning_rate': 2.839515637967552e-06, 'epoch': 0.65}
 65%|██████▌   | 1526/2335 [1:36:56<49:43,  3.69s/it] 65%|██████▌   | 1527/2335 [1:36:59<49:36,  3.68s/it]                                                     {'loss': 0.1236, 'grad_norm': 2.5541305708978155, 'learning_rate': 2.8332607109512866e-06, 'epoch': 0.65}
 65%|██████▌   | 1527/2335 [1:36:59<49:36,  3.68s/it] 65%|██████▌   | 1528/2335 [1:37:03<49:13,  3.66s/it]                                                     {'loss': 0.1332, 'grad_norm': 2.1983186670949415, 'learning_rate': 2.8270099560232992e-06, 'epoch': 0.65}
 65%|██████▌   | 1528/2335 [1:37:03<49:13,  3.66s/it] 65%|██████▌   | 1529/2335 [1:37:07<49:22,  3.68s/it]                                                     {'loss': 0.1608, 'grad_norm': 2.5820266509241647, 'learning_rate': 2.8207633852195075e-06, 'epoch': 0.65}
 65%|██████▌   | 1529/2335 [1:37:07<49:22,  3.68s/it] 66%|██████▌   | 1530/2335 [1:37:10<49:29,  3.69s/it]                                                     {'loss': 0.128, 'grad_norm': 2.385526378485658, 'learning_rate': 2.814521010567777e-06, 'epoch': 0.66}
 66%|██████▌   | 1530/2335 [1:37:10<49:29,  3.69s/it] 66%|██████▌   | 1531/2335 [1:37:14<49:35,  3.70s/it]                                                     {'loss': 0.1366, 'grad_norm': 2.495930101918827, 'learning_rate': 2.8082828440878897e-06, 'epoch': 0.66}
 66%|██████▌   | 1531/2335 [1:37:14<49:35,  3.70s/it] 66%|██████▌   | 1532/2335 [1:37:18<49:34,  3.70s/it]                                                     {'loss': 0.1226, 'grad_norm': 2.074614667586663, 'learning_rate': 2.802048897791529e-06, 'epoch': 0.66}
 66%|██████▌   | 1532/2335 [1:37:18<49:34,  3.70s/it] 66%|██████▌   | 1533/2335 [1:37:21<49:36,  3.71s/it]                                                     {'loss': 0.1623, 'grad_norm': 2.6339330208077416, 'learning_rate': 2.7958191836822505e-06, 'epoch': 0.66}
 66%|██████▌   | 1533/2335 [1:37:21<49:36,  3.71s/it] 66%|██████▌   | 1534/2335 [1:37:25<49:58,  3.74s/it]                                                     {'loss': 0.1118, 'grad_norm': 2.3699250699650465, 'learning_rate': 2.7895937137554576e-06, 'epoch': 0.66}
 66%|██████▌   | 1534/2335 [1:37:25<49:58,  3.74s/it] 66%|██████▌   | 1535/2335 [1:37:29<49:34,  3.72s/it]                                                     {'loss': 0.1005, 'grad_norm': 1.9952289343248646, 'learning_rate': 2.783372499998384e-06, 'epoch': 0.66}
 66%|██████▌   | 1535/2335 [1:37:29<49:34,  3.72s/it] 66%|██████▌   | 1536/2335 [1:37:33<49:23,  3.71s/it]                                                     {'loss': 0.1106, 'grad_norm': 2.0003420134738956, 'learning_rate': 2.77715555439007e-06, 'epoch': 0.66}
 66%|██████▌   | 1536/2335 [1:37:33<49:23,  3.71s/it] 66%|██████▌   | 1537/2335 [1:37:36<49:34,  3.73s/it]                                                     {'loss': 0.1123, 'grad_norm': 1.9663672810795925, 'learning_rate': 2.770942888901335e-06, 'epoch': 0.66}
 66%|██████▌   | 1537/2335 [1:37:36<49:34,  3.73s/it] 66%|██████▌   | 1538/2335 [1:37:40<49:44,  3.74s/it]                                                     {'loss': 0.1026, 'grad_norm': 2.3490474344973507, 'learning_rate': 2.7647345154947557e-06, 'epoch': 0.66}
 66%|██████▌   | 1538/2335 [1:37:40<49:44,  3.74s/it] 66%|██████▌   | 1539/2335 [1:37:44<49:57,  3.77s/it]                                                     {'loss': 0.1277, 'grad_norm': 2.4488138714188183, 'learning_rate': 2.7585304461246477e-06, 'epoch': 0.66}
 66%|██████▌   | 1539/2335 [1:37:44<49:57,  3.77s/it] 66%|██████▌   | 1540/2335 [1:37:48<49:42,  3.75s/it]                                                     {'loss': 0.1313, 'grad_norm': 2.181643326585293, 'learning_rate': 2.7523306927370375e-06, 'epoch': 0.66}
 66%|██████▌   | 1540/2335 [1:37:48<49:42,  3.75s/it] 66%|██████▌   | 1541/2335 [1:37:51<49:39,  3.75s/it]                                                     {'loss': 0.0843, 'grad_norm': 2.183621378233564, 'learning_rate': 2.7461352672696423e-06, 'epoch': 0.66}
 66%|██████▌   | 1541/2335 [1:37:51<49:39,  3.75s/it] 66%|██████▌   | 1542/2335 [1:37:55<48:58,  3.71s/it]                                                     {'loss': 0.1562, 'grad_norm': 2.3299951639011516, 'learning_rate': 2.7399441816518417e-06, 'epoch': 0.66}
 66%|██████▌   | 1542/2335 [1:37:55<48:58,  3.71s/it] 66%|██████▌   | 1543/2335 [1:37:59<48:41,  3.69s/it]                                                     {'loss': 0.1467, 'grad_norm': 2.3410411585557793, 'learning_rate': 2.733757447804666e-06, 'epoch': 0.66}
 66%|██████▌   | 1543/2335 [1:37:59<48:41,  3.69s/it] 66%|██████▌   | 1544/2335 [1:38:02<48:56,  3.71s/it]                                                     {'loss': 0.0963, 'grad_norm': 2.392751552408249, 'learning_rate': 2.7275750776407568e-06, 'epoch': 0.66}
 66%|██████▌   | 1544/2335 [1:38:02<48:56,  3.71s/it] 66%|██████▌   | 1545/2335 [1:38:06<49:05,  3.73s/it]                                                     {'loss': 0.1201, 'grad_norm': 2.0522871121598065, 'learning_rate': 2.721397083064361e-06, 'epoch': 0.66}
 66%|██████▌   | 1545/2335 [1:38:06<49:05,  3.73s/it] 66%|██████▌   | 1546/2335 [1:38:10<48:42,  3.70s/it]                                                     {'loss': 0.1039, 'grad_norm': 1.9166524739030406, 'learning_rate': 2.7152234759712986e-06, 'epoch': 0.66}
 66%|██████▌   | 1546/2335 [1:38:10<48:42,  3.70s/it] 66%|██████▋   | 1547/2335 [1:38:14<48:46,  3.71s/it]                                                     {'loss': 0.1099, 'grad_norm': 2.249995162334823, 'learning_rate': 2.7090542682489398e-06, 'epoch': 0.66}
 66%|██████▋   | 1547/2335 [1:38:14<48:46,  3.71s/it] 66%|██████▋   | 1548/2335 [1:38:17<48:42,  3.71s/it]                                                     {'loss': 0.1402, 'grad_norm': 2.5096619819269153, 'learning_rate': 2.7028894717761867e-06, 'epoch': 0.66}
 66%|██████▋   | 1548/2335 [1:38:17<48:42,  3.71s/it] 66%|██████▋   | 1549/2335 [1:38:21<49:04,  3.75s/it]                                                     {'loss': 0.1322, 'grad_norm': 2.1664141332390043, 'learning_rate': 2.6967290984234413e-06, 'epoch': 0.66}
 66%|██████▋   | 1549/2335 [1:38:21<49:04,  3.75s/it] 66%|██████▋   | 1550/2335 [1:38:25<48:39,  3.72s/it]                                                     {'loss': 0.1186, 'grad_norm': 2.077055491480785, 'learning_rate': 2.6905731600525946e-06, 'epoch': 0.66}
 66%|██████▋   | 1550/2335 [1:38:25<48:39,  3.72s/it] 66%|██████▋   | 1551/2335 [1:38:28<48:18,  3.70s/it]                                                     {'loss': 0.111, 'grad_norm': 1.884526954497474, 'learning_rate': 2.6844216685169966e-06, 'epoch': 0.66}
 66%|██████▋   | 1551/2335 [1:38:28<48:18,  3.70s/it] 66%|██████▋   | 1552/2335 [1:38:32<48:13,  3.70s/it]                                                     {'loss': 0.1235, 'grad_norm': 2.0672620249804763, 'learning_rate': 2.6782746356614364e-06, 'epoch': 0.66}
 66%|██████▋   | 1552/2335 [1:38:32<48:13,  3.70s/it] 67%|██████▋   | 1553/2335 [1:38:36<48:32,  3.72s/it]                                                     {'loss': 0.087, 'grad_norm': 1.6684173576442853, 'learning_rate': 2.672132073322112e-06, 'epoch': 0.67}
 67%|██████▋   | 1553/2335 [1:38:36<48:32,  3.72s/it] 67%|██████▋   | 1554/2335 [1:38:40<48:08,  3.70s/it]                                                     {'loss': 0.0753, 'grad_norm': 1.9086501116942187, 'learning_rate': 2.665993993326619e-06, 'epoch': 0.67}
 67%|██████▋   | 1554/2335 [1:38:40<48:08,  3.70s/it] 67%|██████▋   | 1555/2335 [1:38:43<48:31,  3.73s/it]                                                     {'loss': 0.1494, 'grad_norm': 2.167075283548563, 'learning_rate': 2.65986040749392e-06, 'epoch': 0.67}
 67%|██████▋   | 1555/2335 [1:38:43<48:31,  3.73s/it] 67%|██████▋   | 1556/2335 [1:38:47<48:42,  3.75s/it]                                                     {'loss': 0.1577, 'grad_norm': 2.8685960600975675, 'learning_rate': 2.6537313276343255e-06, 'epoch': 0.67}
 67%|██████▋   | 1556/2335 [1:38:47<48:42,  3.75s/it] 67%|██████▋   | 1557/2335 [1:38:51<48:38,  3.75s/it]                                                     {'loss': 0.1401, 'grad_norm': 2.2098182014081633, 'learning_rate': 2.6476067655494696e-06, 'epoch': 0.67}
 67%|██████▋   | 1557/2335 [1:38:51<48:38,  3.75s/it] 67%|██████▋   | 1558/2335 [1:38:55<48:19,  3.73s/it]                                                     {'loss': 0.0717, 'grad_norm': 2.0752166477478635, 'learning_rate': 2.6414867330322835e-06, 'epoch': 0.67}
 67%|██████▋   | 1558/2335 [1:38:55<48:19,  3.73s/it] 67%|██████▋   | 1559/2335 [1:38:58<48:17,  3.73s/it]                                                     {'loss': 0.1286, 'grad_norm': 2.428453861134804, 'learning_rate': 2.6353712418669814e-06, 'epoch': 0.67}
 67%|██████▋   | 1559/2335 [1:38:58<48:17,  3.73s/it] 67%|██████▋   | 1560/2335 [1:39:02<48:30,  3.76s/it]                                                     {'loss': 0.1069, 'grad_norm': 2.3874296871620513, 'learning_rate': 2.6292603038290306e-06, 'epoch': 0.67}
 67%|██████▋   | 1560/2335 [1:39:02<48:30,  3.76s/it] 67%|██████▋   | 1561/2335 [1:39:06<48:18,  3.74s/it]                                                     {'loss': 0.1293, 'grad_norm': 2.3617123682253434, 'learning_rate': 2.6231539306851316e-06, 'epoch': 0.67}
 67%|██████▋   | 1561/2335 [1:39:06<48:18,  3.74s/it] 67%|██████▋   | 1562/2335 [1:39:10<48:24,  3.76s/it]                                                     {'loss': 0.119, 'grad_norm': 2.5408719814720686, 'learning_rate': 2.6170521341931986e-06, 'epoch': 0.67}
 67%|██████▋   | 1562/2335 [1:39:10<48:24,  3.76s/it] 67%|██████▋   | 1563/2335 [1:39:13<48:31,  3.77s/it]                                                     {'loss': 0.0854, 'grad_norm': 2.1280820740193436, 'learning_rate': 2.610954926102326e-06, 'epoch': 0.67}
 67%|██████▋   | 1563/2335 [1:39:13<48:31,  3.77s/it] 67%|██████▋   | 1564/2335 [1:39:17<47:51,  3.72s/it]                                                     {'loss': 0.1124, 'grad_norm': 2.4901767742636474, 'learning_rate': 2.604862318152778e-06, 'epoch': 0.67}
 67%|██████▋   | 1564/2335 [1:39:17<47:51,  3.72s/it] 67%|██████▋   | 1565/2335 [1:39:21<48:04,  3.75s/it]                                                     {'loss': 0.0946, 'grad_norm': 2.297667305901331, 'learning_rate': 2.598774322075962e-06, 'epoch': 0.67}
 67%|██████▋   | 1565/2335 [1:39:21<48:04,  3.75s/it] 67%|██████▋   | 1566/2335 [1:39:25<48:22,  3.77s/it]                                                     {'loss': 0.1669, 'grad_norm': 3.014260176318125, 'learning_rate': 2.5926909495944056e-06, 'epoch': 0.67}
 67%|██████▋   | 1566/2335 [1:39:25<48:22,  3.77s/it] 67%|██████▋   | 1567/2335 [1:39:29<48:42,  3.81s/it]                                                     {'loss': 0.1054, 'grad_norm': 2.0640467772183353, 'learning_rate': 2.5866122124217273e-06, 'epoch': 0.67}
 67%|██████▋   | 1567/2335 [1:39:29<48:42,  3.81s/it] 67%|██████▋   | 1568/2335 [1:39:32<48:31,  3.80s/it]                                                     {'loss': 0.1066, 'grad_norm': 2.2968528532871404, 'learning_rate': 2.580538122262627e-06, 'epoch': 0.67}
 67%|██████▋   | 1568/2335 [1:39:32<48:31,  3.80s/it] 67%|██████▋   | 1569/2335 [1:39:36<48:08,  3.77s/it]                                                     {'loss': 0.1326, 'grad_norm': 2.41145923383787, 'learning_rate': 2.574468690812854e-06, 'epoch': 0.67}
 67%|██████▋   | 1569/2335 [1:39:36<48:08,  3.77s/it] 67%|██████▋   | 1570/2335 [1:39:40<47:33,  3.73s/it]                                                     {'loss': 0.1054, 'grad_norm': 1.9124870958908013, 'learning_rate': 2.568403929759188e-06, 'epoch': 0.67}
 67%|██████▋   | 1570/2335 [1:39:40<47:33,  3.73s/it] 67%|██████▋   | 1571/2335 [1:39:44<47:58,  3.77s/it]                                                     {'loss': 0.1208, 'grad_norm': 2.0600210471611993, 'learning_rate': 2.562343850779417e-06, 'epoch': 0.67}
 67%|██████▋   | 1571/2335 [1:39:44<47:58,  3.77s/it] 67%|██████▋   | 1572/2335 [1:39:47<47:39,  3.75s/it]                                                     {'loss': 0.1672, 'grad_norm': 2.491197995964675, 'learning_rate': 2.556288465542308e-06, 'epoch': 0.67}
 67%|██████▋   | 1572/2335 [1:39:47<47:39,  3.75s/it] 67%|██████▋   | 1573/2335 [1:39:51<47:20,  3.73s/it]                                                     {'loss': 0.1334, 'grad_norm': 2.255296384015942, 'learning_rate': 2.550237785707596e-06, 'epoch': 0.67}
 67%|██████▋   | 1573/2335 [1:39:51<47:20,  3.73s/it] 67%|██████▋   | 1574/2335 [1:39:55<47:21,  3.73s/it]                                                     {'loss': 0.1243, 'grad_norm': 2.1337828614605145, 'learning_rate': 2.5441918229259543e-06, 'epoch': 0.67}
 67%|██████▋   | 1574/2335 [1:39:55<47:21,  3.73s/it] 67%|██████▋   | 1575/2335 [1:39:58<47:01,  3.71s/it]                                                     {'loss': 0.1255, 'grad_norm': 1.9690854329914536, 'learning_rate': 2.538150588838972e-06, 'epoch': 0.67}
 67%|██████▋   | 1575/2335 [1:39:58<47:01,  3.71s/it] 67%|██████▋   | 1576/2335 [1:40:02<46:46,  3.70s/it]                                                     {'loss': 0.1234, 'grad_norm': 2.207927367354541, 'learning_rate': 2.532114095079137e-06, 'epoch': 0.67}
 67%|██████▋   | 1576/2335 [1:40:02<46:46,  3.70s/it] 68%|██████▊   | 1577/2335 [1:40:06<46:44,  3.70s/it]                                                     {'loss': 0.0918, 'grad_norm': 2.1227697120050624, 'learning_rate': 2.526082353269803e-06, 'epoch': 0.68}
 68%|██████▊   | 1577/2335 [1:40:06<46:44,  3.70s/it] 68%|██████▊   | 1578/2335 [1:40:09<46:39,  3.70s/it]                                                     {'loss': 0.1428, 'grad_norm': 2.178324209637493, 'learning_rate': 2.520055375025178e-06, 'epoch': 0.68}
 68%|██████▊   | 1578/2335 [1:40:09<46:39,  3.70s/it] 68%|██████▊   | 1579/2335 [1:40:13<46:51,  3.72s/it]                                                     {'loss': 0.0987, 'grad_norm': 2.04673347679938, 'learning_rate': 2.5140331719502957e-06, 'epoch': 0.68}
 68%|██████▊   | 1579/2335 [1:40:13<46:51,  3.72s/it] 68%|██████▊   | 1580/2335 [1:40:17<47:24,  3.77s/it]                                                     {'loss': 0.1302, 'grad_norm': 2.8615025275666266, 'learning_rate': 2.508015755640999e-06, 'epoch': 0.68}
 68%|██████▊   | 1580/2335 [1:40:17<47:24,  3.77s/it] 68%|██████▊   | 1581/2335 [1:40:21<47:25,  3.77s/it]                                                     {'loss': 0.1403, 'grad_norm': 2.325749336058442, 'learning_rate': 2.5020031376839115e-06, 'epoch': 0.68}
 68%|██████▊   | 1581/2335 [1:40:21<47:25,  3.77s/it] 68%|██████▊   | 1582/2335 [1:40:25<46:55,  3.74s/it]                                                     {'loss': 0.097, 'grad_norm': 2.496621469420446, 'learning_rate': 2.4959953296564143e-06, 'epoch': 0.68}
 68%|██████▊   | 1582/2335 [1:40:25<46:55,  3.74s/it] 68%|██████▊   | 1583/2335 [1:40:28<46:32,  3.71s/it]                                                     {'loss': 0.1261, 'grad_norm': 2.4844462349154477, 'learning_rate': 2.489992343126632e-06, 'epoch': 0.68}
 68%|██████▊   | 1583/2335 [1:40:28<46:32,  3.71s/it] 68%|██████▊   | 1584/2335 [1:40:32<46:12,  3.69s/it]                                                     {'loss': 0.0998, 'grad_norm': 1.9144008567171158, 'learning_rate': 2.4839941896534027e-06, 'epoch': 0.68}
 68%|██████▊   | 1584/2335 [1:40:32<46:12,  3.69s/it] 68%|██████▊   | 1585/2335 [1:40:35<45:59,  3.68s/it]                                                     {'loss': 0.1772, 'grad_norm': 2.7826209691729997, 'learning_rate': 2.478000880786259e-06, 'epoch': 0.68}
 68%|██████▊   | 1585/2335 [1:40:35<45:59,  3.68s/it] 68%|██████▊   | 1586/2335 [1:40:39<46:24,  3.72s/it]                                                     {'loss': 0.1445, 'grad_norm': 2.0886486382834537, 'learning_rate': 2.4720124280654066e-06, 'epoch': 0.68}
 68%|██████▊   | 1586/2335 [1:40:39<46:24,  3.72s/it] 68%|██████▊   | 1587/2335 [1:40:43<46:10,  3.70s/it]                                                     {'loss': 0.1085, 'grad_norm': 2.170806545439487, 'learning_rate': 2.4660288430216954e-06, 'epoch': 0.68}
 68%|██████▊   | 1587/2335 [1:40:43<46:10,  3.70s/it] 68%|██████▊   | 1588/2335 [1:40:47<45:54,  3.69s/it]                                                     {'loss': 0.1083, 'grad_norm': 2.1065136869117533, 'learning_rate': 2.4600501371766087e-06, 'epoch': 0.68}
 68%|██████▊   | 1588/2335 [1:40:47<45:54,  3.69s/it] 68%|██████▊   | 1589/2335 [1:40:50<45:53,  3.69s/it]                                                     {'loss': 0.1189, 'grad_norm': 2.3309240164289604, 'learning_rate': 2.4540763220422316e-06, 'epoch': 0.68}
 68%|██████▊   | 1589/2335 [1:40:50<45:53,  3.69s/it] 68%|██████▊   | 1590/2335 [1:40:54<45:59,  3.70s/it]                                                     {'loss': 0.115, 'grad_norm': 2.3478929397527817, 'learning_rate': 2.4481074091212333e-06, 'epoch': 0.68}
 68%|██████▊   | 1590/2335 [1:40:54<45:59,  3.70s/it] 68%|██████▊   | 1591/2335 [1:40:58<46:26,  3.75s/it]                                                     {'loss': 0.1471, 'grad_norm': 2.2244080968028466, 'learning_rate': 2.442143409906844e-06, 'epoch': 0.68}
 68%|██████▊   | 1591/2335 [1:40:58<46:26,  3.75s/it] 68%|██████▊   | 1592/2335 [1:41:02<46:14,  3.73s/it]                                                     {'loss': 0.1403, 'grad_norm': 2.4695638913570543, 'learning_rate': 2.4361843358828287e-06, 'epoch': 0.68}
 68%|██████▊   | 1592/2335 [1:41:02<46:14,  3.73s/it] 68%|██████▊   | 1593/2335 [1:41:07<52:30,  4.25s/it]                                                     {'loss': 0.0969, 'grad_norm': 2.0987747841080373, 'learning_rate': 2.4302301985234737e-06, 'epoch': 0.68}
 68%|██████▊   | 1593/2335 [1:41:07<52:30,  4.25s/it] 68%|██████▊   | 1594/2335 [1:41:11<50:32,  4.09s/it]                                                     {'loss': 0.1461, 'grad_norm': 2.4302325040139405, 'learning_rate': 2.4242810092935578e-06, 'epoch': 0.68}
 68%|██████▊   | 1594/2335 [1:41:11<50:32,  4.09s/it] 68%|██████▊   | 1595/2335 [1:41:15<49:12,  3.99s/it]                                                     {'loss': 0.0966, 'grad_norm': 2.024864587382046, 'learning_rate': 2.4183367796483337e-06, 'epoch': 0.68}
 68%|██████▊   | 1595/2335 [1:41:15<49:12,  3.99s/it] 68%|██████▊   | 1596/2335 [1:41:18<47:58,  3.90s/it]                                                     {'loss': 0.1466, 'grad_norm': 2.1766076971579156, 'learning_rate': 2.4123975210334987e-06, 'epoch': 0.68}
 68%|██████▊   | 1596/2335 [1:41:18<47:58,  3.90s/it] 68%|██████▊   | 1597/2335 [1:41:22<47:01,  3.82s/it]                                                     {'loss': 0.1036, 'grad_norm': 2.1375958600080853, 'learning_rate': 2.4064632448851852e-06, 'epoch': 0.68}
 68%|██████▊   | 1597/2335 [1:41:22<47:01,  3.82s/it] 68%|██████▊   | 1598/2335 [1:41:26<46:28,  3.78s/it]                                                     {'loss': 0.1255, 'grad_norm': 2.1591745741803585, 'learning_rate': 2.4005339626299285e-06, 'epoch': 0.68}
 68%|██████▊   | 1598/2335 [1:41:26<46:28,  3.78s/it] 68%|██████▊   | 1599/2335 [1:41:29<45:58,  3.75s/it]                                                     {'loss': 0.1209, 'grad_norm': 1.8110164663790995, 'learning_rate': 2.3946096856846485e-06, 'epoch': 0.68}
 68%|██████▊   | 1599/2335 [1:41:29<45:58,  3.75s/it] 69%|██████▊   | 1600/2335 [1:41:33<45:58,  3.75s/it]                                                     {'loss': 0.1204, 'grad_norm': 2.0772773288566238, 'learning_rate': 2.388690425456629e-06, 'epoch': 0.69}
 69%|██████▊   | 1600/2335 [1:41:33<45:58,  3.75s/it] 69%|██████▊   | 1601/2335 [1:41:37<45:59,  3.76s/it]                                                     {'loss': 0.101, 'grad_norm': 1.8717301082854454, 'learning_rate': 2.3827761933434886e-06, 'epoch': 0.69}
 69%|██████▊   | 1601/2335 [1:41:37<45:59,  3.76s/it] 69%|██████▊   | 1602/2335 [1:41:40<45:49,  3.75s/it]                                                     {'loss': 0.1502, 'grad_norm': 2.2767928664577894, 'learning_rate': 2.37686700073317e-06, 'epoch': 0.69}
 69%|██████▊   | 1602/2335 [1:41:40<45:49,  3.75s/it] 69%|██████▊   | 1603/2335 [1:41:44<45:23,  3.72s/it]                                                     {'loss': 0.1383, 'grad_norm': 2.2872283766793573, 'learning_rate': 2.3709628590039106e-06, 'epoch': 0.69}
 69%|██████▊   | 1603/2335 [1:41:44<45:23,  3.72s/it] 69%|██████▊   | 1604/2335 [1:41:48<45:40,  3.75s/it]                                                     {'loss': 0.1369, 'grad_norm': 2.196502468025969, 'learning_rate': 2.365063779524222e-06, 'epoch': 0.69}
 69%|██████▊   | 1604/2335 [1:41:48<45:40,  3.75s/it] 69%|██████▊   | 1605/2335 [1:41:52<45:35,  3.75s/it]                                                     {'loss': 0.1294, 'grad_norm': 1.9381322206379352, 'learning_rate': 2.359169773652869e-06, 'epoch': 0.69}
 69%|██████▊   | 1605/2335 [1:41:52<45:35,  3.75s/it] 69%|██████▉   | 1606/2335 [1:41:55<45:19,  3.73s/it]                                                     {'loss': 0.1442, 'grad_norm': 2.467806411078072, 'learning_rate': 2.3532808527388435e-06, 'epoch': 0.69}
 69%|██████▉   | 1606/2335 [1:41:55<45:19,  3.73s/it] 69%|██████▉   | 1607/2335 [1:41:59<45:24,  3.74s/it]                                                     {'loss': 0.1318, 'grad_norm': 2.55036105640822, 'learning_rate': 2.347397028121351e-06, 'epoch': 0.69}
 69%|██████▉   | 1607/2335 [1:41:59<45:24,  3.74s/it] 69%|██████▉   | 1608/2335 [1:42:03<44:59,  3.71s/it]                                                     {'loss': 0.1031, 'grad_norm': 2.1757359560870384, 'learning_rate': 2.341518311129781e-06, 'epoch': 0.69}
 69%|██████▉   | 1608/2335 [1:42:03<44:59,  3.71s/it] 69%|██████▉   | 1609/2335 [1:42:07<45:08,  3.73s/it]                                                     {'loss': 0.0935, 'grad_norm': 2.1008347644103478, 'learning_rate': 2.335644713083693e-06, 'epoch': 0.69}
 69%|██████▉   | 1609/2335 [1:42:07<45:08,  3.73s/it] 69%|██████▉   | 1610/2335 [1:42:10<44:47,  3.71s/it]                                                     {'loss': 0.0978, 'grad_norm': 2.007351593454887, 'learning_rate': 2.3297762452927814e-06, 'epoch': 0.69}
 69%|██████▉   | 1610/2335 [1:42:10<44:47,  3.71s/it] 69%|██████▉   | 1611/2335 [1:42:14<45:11,  3.75s/it]                                                     {'loss': 0.0698, 'grad_norm': 1.7850723156181898, 'learning_rate': 2.32391291905687e-06, 'epoch': 0.69}
 69%|██████▉   | 1611/2335 [1:42:14<45:11,  3.75s/it] 69%|██████▉   | 1612/2335 [1:42:18<45:18,  3.76s/it]                                                     {'loss': 0.1803, 'grad_norm': 2.5985342929544113, 'learning_rate': 2.318054745665877e-06, 'epoch': 0.69}
 69%|██████▉   | 1612/2335 [1:42:18<45:18,  3.76s/it] 69%|██████▉   | 1613/2335 [1:42:22<44:55,  3.73s/it]                                                     {'loss': 0.092, 'grad_norm': 2.133091809474177, 'learning_rate': 2.312201736399802e-06, 'epoch': 0.69}
 69%|██████▉   | 1613/2335 [1:42:22<44:55,  3.73s/it] 69%|██████▉   | 1614/2335 [1:42:25<44:52,  3.73s/it]                                                     {'loss': 0.1079, 'grad_norm': 2.1250219237344417, 'learning_rate': 2.3063539025287014e-06, 'epoch': 0.69}
 69%|██████▉   | 1614/2335 [1:42:25<44:52,  3.73s/it] 69%|██████▉   | 1615/2335 [1:42:29<44:52,  3.74s/it]                                                     {'loss': 0.1433, 'grad_norm': 2.5156672122495967, 'learning_rate': 2.300511255312666e-06, 'epoch': 0.69}
 69%|██████▉   | 1615/2335 [1:42:29<44:52,  3.74s/it] 69%|██████▉   | 1616/2335 [1:42:33<44:48,  3.74s/it]                                                     {'loss': 0.1247, 'grad_norm': 2.4600037135143027, 'learning_rate': 2.2946738060017947e-06, 'epoch': 0.69}
 69%|██████▉   | 1616/2335 [1:42:33<44:48,  3.74s/it] 69%|██████▉   | 1617/2335 [1:42:36<44:43,  3.74s/it]                                                     {'loss': 0.0901, 'grad_norm': 2.143173864217884, 'learning_rate': 2.2888415658361845e-06, 'epoch': 0.69}
 69%|██████▉   | 1617/2335 [1:42:36<44:43,  3.74s/it] 69%|██████▉   | 1618/2335 [1:42:40<44:23,  3.72s/it]                                                     {'loss': 0.0964, 'grad_norm': 1.9667405363998096, 'learning_rate': 2.283014546045899e-06, 'epoch': 0.69}
 69%|██████▉   | 1618/2335 [1:42:40<44:23,  3.72s/it] 69%|██████▉   | 1619/2335 [1:42:44<44:43,  3.75s/it]                                                     {'loss': 0.1182, 'grad_norm': 2.0429653541677184, 'learning_rate': 2.2771927578509508e-06, 'epoch': 0.69}
 69%|██████▉   | 1619/2335 [1:42:44<44:43,  3.75s/it] 69%|██████▉   | 1620/2335 [1:42:48<44:27,  3.73s/it]                                                     {'loss': 0.0917, 'grad_norm': 2.0625862878165617, 'learning_rate': 2.2713762124612794e-06, 'epoch': 0.69}
 69%|██████▉   | 1620/2335 [1:42:48<44:27,  3.73s/it] 69%|██████▉   | 1621/2335 [1:42:51<44:11,  3.71s/it]                                                     {'loss': 0.1086, 'grad_norm': 2.367028476928625, 'learning_rate': 2.2655649210767243e-06, 'epoch': 0.69}
 69%|██████▉   | 1621/2335 [1:42:51<44:11,  3.71s/it] 69%|██████▉   | 1622/2335 [1:42:55<44:14,  3.72s/it]                                                     {'loss': 0.1175, 'grad_norm': 1.8124927186455375, 'learning_rate': 2.259758894887015e-06, 'epoch': 0.69}
 69%|██████▉   | 1622/2335 [1:42:55<44:14,  3.72s/it] 70%|██████▉   | 1623/2335 [1:42:59<44:24,  3.74s/it]                                                     {'loss': 0.13, 'grad_norm': 2.3159641810583858, 'learning_rate': 2.2539581450717403e-06, 'epoch': 0.7}
 70%|██████▉   | 1623/2335 [1:42:59<44:24,  3.74s/it] 70%|██████▉   | 1624/2335 [1:43:03<44:13,  3.73s/it]                                                     {'loss': 0.1103, 'grad_norm': 2.08641544838903, 'learning_rate': 2.24816268280033e-06, 'epoch': 0.7}
 70%|██████▉   | 1624/2335 [1:43:03<44:13,  3.73s/it] 70%|██████▉   | 1625/2335 [1:43:06<44:15,  3.74s/it]                                                     {'loss': 0.1766, 'grad_norm': 2.5141132205262697, 'learning_rate': 2.2423725192320284e-06, 'epoch': 0.7}
 70%|██████▉   | 1625/2335 [1:43:06<44:15,  3.74s/it] 70%|██████▉   | 1626/2335 [1:43:10<44:03,  3.73s/it]                                                     {'loss': 0.1313, 'grad_norm': 2.3476780168907423, 'learning_rate': 2.2365876655158824e-06, 'epoch': 0.7}
 70%|██████▉   | 1626/2335 [1:43:10<44:03,  3.73s/it] 70%|██████▉   | 1627/2335 [1:43:14<44:05,  3.74s/it]                                                     {'loss': 0.102, 'grad_norm': 1.8402619196618024, 'learning_rate': 2.230808132790712e-06, 'epoch': 0.7}
 70%|██████▉   | 1627/2335 [1:43:14<44:05,  3.74s/it] 70%|██████▉   | 1628/2335 [1:43:18<44:05,  3.74s/it]                                                     {'loss': 0.1244, 'grad_norm': 2.0907715582521633, 'learning_rate': 2.2250339321850934e-06, 'epoch': 0.7}
 70%|██████▉   | 1628/2335 [1:43:18<44:05,  3.74s/it] 70%|██████▉   | 1629/2335 [1:43:21<43:49,  3.72s/it]                                                     {'loss': 0.1318, 'grad_norm': 2.2023650665190724, 'learning_rate': 2.2192650748173354e-06, 'epoch': 0.7}
 70%|██████▉   | 1629/2335 [1:43:21<43:49,  3.72s/it] 70%|██████▉   | 1630/2335 [1:43:25<43:36,  3.71s/it]                                                     {'loss': 0.1087, 'grad_norm': 2.2118036633022853, 'learning_rate': 2.213501571795454e-06, 'epoch': 0.7}
 70%|██████▉   | 1630/2335 [1:43:25<43:36,  3.71s/it] 70%|██████▉   | 1631/2335 [1:43:29<43:57,  3.75s/it]                                                     {'loss': 0.1158, 'grad_norm': 2.1589078723456323, 'learning_rate': 2.2077434342171605e-06, 'epoch': 0.7}
 70%|██████▉   | 1631/2335 [1:43:29<43:57,  3.75s/it] 70%|██████▉   | 1632/2335 [1:43:32<43:56,  3.75s/it]                                                     {'loss': 0.0982, 'grad_norm': 2.37599259670701, 'learning_rate': 2.2019906731698337e-06, 'epoch': 0.7}
 70%|██████▉   | 1632/2335 [1:43:32<43:56,  3.75s/it] 70%|██████▉   | 1633/2335 [1:43:36<43:58,  3.76s/it]                                                     {'loss': 0.09, 'grad_norm': 2.091989450782926, 'learning_rate': 2.1962432997304993e-06, 'epoch': 0.7}
 70%|██████▉   | 1633/2335 [1:43:36<43:58,  3.76s/it] 70%|██████▉   | 1634/2335 [1:43:40<43:54,  3.76s/it]                                                     {'loss': 0.1372, 'grad_norm': 2.3803410316989475, 'learning_rate': 2.1905013249658104e-06, 'epoch': 0.7}
 70%|██████▉   | 1634/2335 [1:43:40<43:54,  3.76s/it] 70%|███████   | 1635/2335 [1:43:44<44:00,  3.77s/it]                                                     {'loss': 0.0999, 'grad_norm': 2.322082062838183, 'learning_rate': 2.1847647599320204e-06, 'epoch': 0.7}
 70%|███████   | 1635/2335 [1:43:44<44:00,  3.77s/it] 70%|███████   | 1636/2335 [1:43:48<43:47,  3.76s/it]                                                     {'loss': 0.1201, 'grad_norm': 2.2786088033104335, 'learning_rate': 2.179033615674971e-06, 'epoch': 0.7}
 70%|███████   | 1636/2335 [1:43:48<43:47,  3.76s/it] 70%|███████   | 1637/2335 [1:43:51<43:50,  3.77s/it]                                                     {'loss': 0.1127, 'grad_norm': 2.316959926848027, 'learning_rate': 2.173307903230065e-06, 'epoch': 0.7}
 70%|███████   | 1637/2335 [1:43:51<43:50,  3.77s/it] 70%|███████   | 1638/2335 [1:43:55<44:10,  3.80s/it]                                                     {'loss': 0.1275, 'grad_norm': 1.8531592308615872, 'learning_rate': 2.1675876336222475e-06, 'epoch': 0.7}
 70%|███████   | 1638/2335 [1:43:55<44:10,  3.80s/it] 70%|███████   | 1639/2335 [1:43:59<43:34,  3.76s/it]                                                     {'loss': 0.1026, 'grad_norm': 1.8970778246431528, 'learning_rate': 2.1618728178659772e-06, 'epoch': 0.7}
 70%|███████   | 1639/2335 [1:43:59<43:34,  3.76s/it] 70%|███████   | 1640/2335 [1:44:03<43:17,  3.74s/it]                                                     {'loss': 0.1011, 'grad_norm': 2.0349389477043873, 'learning_rate': 2.156163466965218e-06, 'epoch': 0.7}
 70%|███████   | 1640/2335 [1:44:03<43:17,  3.74s/it] 70%|███████   | 1641/2335 [1:44:06<43:09,  3.73s/it]                                                     {'loss': 0.1087, 'grad_norm': 2.1863239794048517, 'learning_rate': 2.1504595919134086e-06, 'epoch': 0.7}
 70%|███████   | 1641/2335 [1:44:06<43:09,  3.73s/it] 70%|███████   | 1642/2335 [1:44:10<43:02,  3.73s/it]                                                     {'loss': 0.0994, 'grad_norm': 2.431903114571287, 'learning_rate': 2.1447612036934436e-06, 'epoch': 0.7}
 70%|███████   | 1642/2335 [1:44:10<43:02,  3.73s/it] 70%|███████   | 1643/2335 [1:44:14<42:43,  3.70s/it]                                                     {'loss': 0.11, 'grad_norm': 2.315635621560668, 'learning_rate': 2.139068313277656e-06, 'epoch': 0.7}
 70%|███████   | 1643/2335 [1:44:14<42:43,  3.70s/it] 70%|███████   | 1644/2335 [1:44:17<42:48,  3.72s/it]                                                     {'loss': 0.1324, 'grad_norm': 2.756160317122608, 'learning_rate': 2.1333809316277854e-06, 'epoch': 0.7}
 70%|███████   | 1644/2335 [1:44:17<42:48,  3.72s/it] 70%|███████   | 1645/2335 [1:44:21<42:56,  3.73s/it]                                                     {'loss': 0.1028, 'grad_norm': 2.225248540707109, 'learning_rate': 2.12769906969497e-06, 'epoch': 0.7}
 70%|███████   | 1645/2335 [1:44:21<42:56,  3.73s/it] 70%|███████   | 1646/2335 [1:44:25<42:54,  3.74s/it]                                                     {'loss': 0.0983, 'grad_norm': 2.179974860774558, 'learning_rate': 2.1220227384197195e-06, 'epoch': 0.7}
 70%|███████   | 1646/2335 [1:44:25<42:54,  3.74s/it] 71%|███████   | 1647/2335 [1:44:29<43:06,  3.76s/it]                                                     {'loss': 0.1131, 'grad_norm': 2.235824115064231, 'learning_rate': 2.1163519487318936e-06, 'epoch': 0.71}
 71%|███████   | 1647/2335 [1:44:29<43:06,  3.76s/it] 71%|███████   | 1648/2335 [1:44:32<43:03,  3.76s/it]                                                     {'loss': 0.1184, 'grad_norm': 2.5224722559673407, 'learning_rate': 2.110686711550678e-06, 'epoch': 0.71}
 71%|███████   | 1648/2335 [1:44:32<43:03,  3.76s/it] 71%|███████   | 1649/2335 [1:44:36<42:59,  3.76s/it]                                                     {'loss': 0.1217, 'grad_norm': 2.2568282794435293, 'learning_rate': 2.105027037784574e-06, 'epoch': 0.71}
 71%|███████   | 1649/2335 [1:44:36<42:59,  3.76s/it] 71%|███████   | 1650/2335 [1:44:40<43:07,  3.78s/it]                                                     {'loss': 0.131, 'grad_norm': 2.093174266181544, 'learning_rate': 2.0993729383313615e-06, 'epoch': 0.71}
 71%|███████   | 1650/2335 [1:44:40<43:07,  3.78s/it] 71%|███████   | 1651/2335 [1:44:44<43:14,  3.79s/it]                                                     {'loss': 0.1762, 'grad_norm': 1.8795165537223157, 'learning_rate': 2.093724424078095e-06, 'epoch': 0.71}
 71%|███████   | 1651/2335 [1:44:44<43:14,  3.79s/it] 71%|███████   | 1652/2335 [1:44:48<43:05,  3.79s/it]                                                     {'loss': 0.1118, 'grad_norm': 2.230518127272181, 'learning_rate': 2.0880815059010716e-06, 'epoch': 0.71}
 71%|███████   | 1652/2335 [1:44:48<43:05,  3.79s/it] 71%|███████   | 1653/2335 [1:44:51<42:18,  3.72s/it]                                                     {'loss': 0.0748, 'grad_norm': 1.9731279153004047, 'learning_rate': 2.0824441946658134e-06, 'epoch': 0.71}
 71%|███████   | 1653/2335 [1:44:51<42:18,  3.72s/it] 71%|███████   | 1654/2335 [1:44:55<42:22,  3.73s/it]                                                     {'loss': 0.1508, 'grad_norm': 2.4471509750926237, 'learning_rate': 2.076812501227044e-06, 'epoch': 0.71}
 71%|███████   | 1654/2335 [1:44:55<42:22,  3.73s/it] 71%|███████   | 1655/2335 [1:44:59<42:24,  3.74s/it]                                                     {'loss': 0.0848, 'grad_norm': 2.050188941949392, 'learning_rate': 2.071186436428672e-06, 'epoch': 0.71}
 71%|███████   | 1655/2335 [1:44:59<42:24,  3.74s/it] 71%|███████   | 1656/2335 [1:45:02<41:59,  3.71s/it]                                                     {'loss': 0.1008, 'grad_norm': 2.1727267971241027, 'learning_rate': 2.0655660111037685e-06, 'epoch': 0.71}
 71%|███████   | 1656/2335 [1:45:02<41:59,  3.71s/it] 71%|███████   | 1657/2335 [1:45:06<42:14,  3.74s/it]                                                     {'loss': 0.1308, 'grad_norm': 2.267225744245954, 'learning_rate': 2.059951236074545e-06, 'epoch': 0.71}
 71%|███████   | 1657/2335 [1:45:06<42:14,  3.74s/it] 71%|███████   | 1658/2335 [1:45:10<42:02,  3.73s/it]                                                     {'loss': 0.101, 'grad_norm': 2.288699542608484, 'learning_rate': 2.054342122152334e-06, 'epoch': 0.71}
 71%|███████   | 1658/2335 [1:45:10<42:02,  3.73s/it] 71%|███████   | 1659/2335 [1:45:14<41:58,  3.72s/it]                                                     {'loss': 0.1179, 'grad_norm': 2.148082179248419, 'learning_rate': 2.0487386801375646e-06, 'epoch': 0.71}
 71%|███████   | 1659/2335 [1:45:14<41:58,  3.72s/it] 71%|███████   | 1660/2335 [1:45:17<42:07,  3.74s/it]                                                     {'loss': 0.1095, 'grad_norm': 2.3620009577802072, 'learning_rate': 2.043140920819747e-06, 'epoch': 0.71}
 71%|███████   | 1660/2335 [1:45:17<42:07,  3.74s/it] 71%|███████   | 1661/2335 [1:45:21<42:05,  3.75s/it]                                                     {'loss': 0.1118, 'grad_norm': 2.183978860614624, 'learning_rate': 2.0375488549774493e-06, 'epoch': 0.71}
 71%|███████   | 1661/2335 [1:45:21<42:05,  3.75s/it] 71%|███████   | 1662/2335 [1:45:25<42:01,  3.75s/it]                                                     {'loss': 0.0826, 'grad_norm': 2.044486113280406, 'learning_rate': 2.031962493378276e-06, 'epoch': 0.71}
 71%|███████   | 1662/2335 [1:45:25<42:01,  3.75s/it] 71%|███████   | 1663/2335 [1:45:29<41:53,  3.74s/it]                                                     {'loss': 0.1097, 'grad_norm': 2.008522499453445, 'learning_rate': 2.026381846778851e-06, 'epoch': 0.71}
 71%|███████   | 1663/2335 [1:45:29<41:53,  3.74s/it] 71%|███████▏  | 1664/2335 [1:45:32<41:43,  3.73s/it]                                                     {'loss': 0.1025, 'grad_norm': 1.8465320324277266, 'learning_rate': 2.0208069259247866e-06, 'epoch': 0.71}
 71%|███████▏  | 1664/2335 [1:45:32<41:43,  3.73s/it] 71%|███████▏  | 1665/2335 [1:45:36<41:57,  3.76s/it]                                                     {'loss': 0.1176, 'grad_norm': 2.4664839570140513, 'learning_rate': 2.0152377415506767e-06, 'epoch': 0.71}
 71%|███████▏  | 1665/2335 [1:45:36<41:57,  3.76s/it] 71%|███████▏  | 1666/2335 [1:45:40<41:47,  3.75s/it]                                                     {'loss': 0.101, 'grad_norm': 2.3011099294803836, 'learning_rate': 2.0096743043800683e-06, 'epoch': 0.71}
 71%|███████▏  | 1666/2335 [1:45:40<41:47,  3.75s/it] 71%|███████▏  | 1667/2335 [1:45:44<42:20,  3.80s/it]                                                     {'loss': 0.1102, 'grad_norm': 2.0178640680033246, 'learning_rate': 2.004116625125442e-06, 'epoch': 0.71}
 71%|███████▏  | 1667/2335 [1:45:44<42:20,  3.80s/it] 71%|███████▏  | 1668/2335 [1:45:48<41:52,  3.77s/it]                                                     {'loss': 0.1144, 'grad_norm': 2.0851121374920294, 'learning_rate': 1.998564714488187e-06, 'epoch': 0.71}
 71%|███████▏  | 1668/2335 [1:45:48<41:52,  3.77s/it] 71%|███████▏  | 1669/2335 [1:45:51<41:42,  3.76s/it]                                                     {'loss': 0.1065, 'grad_norm': 2.2561044595639492, 'learning_rate': 1.9930185831585912e-06, 'epoch': 0.71}
 71%|███████▏  | 1669/2335 [1:45:51<41:42,  3.76s/it] 72%|███████▏  | 1670/2335 [1:45:56<43:56,  3.96s/it]                                                     {'loss': 0.1074, 'grad_norm': 2.4975889922695442, 'learning_rate': 1.987478241815812e-06, 'epoch': 0.72}
 72%|███████▏  | 1670/2335 [1:45:56<43:56,  3.96s/it] 72%|███████▏  | 1671/2335 [1:45:59<43:14,  3.91s/it]                                                     {'loss': 0.1225, 'grad_norm': 2.0881135441645724, 'learning_rate': 1.981943701127857e-06, 'epoch': 0.72}
 72%|███████▏  | 1671/2335 [1:45:59<43:14,  3.91s/it] 72%|███████▏  | 1672/2335 [1:46:03<43:12,  3.91s/it]                                                     {'loss': 0.089, 'grad_norm': 2.0479604940889358, 'learning_rate': 1.976414971751568e-06, 'epoch': 0.72}
 72%|███████▏  | 1672/2335 [1:46:03<43:12,  3.91s/it] 72%|███████▏  | 1673/2335 [1:46:07<42:48,  3.88s/it]                                                     {'loss': 0.1094, 'grad_norm': 2.1080578291541574, 'learning_rate': 1.97089206433259e-06, 'epoch': 0.72}
 72%|███████▏  | 1673/2335 [1:46:07<42:48,  3.88s/it] 72%|███████▏  | 1674/2335 [1:46:11<42:42,  3.88s/it]                                                     {'loss': 0.1253, 'grad_norm': 2.2464931568362267, 'learning_rate': 1.9653749895053653e-06, 'epoch': 0.72}
 72%|███████▏  | 1674/2335 [1:46:11<42:42,  3.88s/it] 72%|███████▏  | 1675/2335 [1:46:15<41:52,  3.81s/it]                                                     {'loss': 0.0917, 'grad_norm': 2.0466478799030017, 'learning_rate': 1.9598637578931016e-06, 'epoch': 0.72}
 72%|███████▏  | 1675/2335 [1:46:15<41:52,  3.81s/it] 72%|███████▏  | 1676/2335 [1:46:18<41:40,  3.79s/it]                                                     {'loss': 0.1068, 'grad_norm': 1.9421081843084924, 'learning_rate': 1.9543583801077567e-06, 'epoch': 0.72}
 72%|███████▏  | 1676/2335 [1:46:18<41:40,  3.79s/it] 72%|███████▏  | 1677/2335 [1:46:22<41:19,  3.77s/it]                                                     {'loss': 0.0865, 'grad_norm': 1.9724478701067276, 'learning_rate': 1.948858866750017e-06, 'epoch': 0.72}
 72%|███████▏  | 1677/2335 [1:46:22<41:19,  3.77s/it] 72%|███████▏  | 1678/2335 [1:46:26<41:29,  3.79s/it]                                                     {'loss': 0.1018, 'grad_norm': 2.220519304300286, 'learning_rate': 1.943365228409273e-06, 'epoch': 0.72}
 72%|███████▏  | 1678/2335 [1:46:26<41:29,  3.79s/it] 72%|███████▏  | 1679/2335 [1:46:30<41:20,  3.78s/it]                                                     {'loss': 0.0881, 'grad_norm': 2.056870976318867, 'learning_rate': 1.9378774756636086e-06, 'epoch': 0.72}
 72%|███████▏  | 1679/2335 [1:46:30<41:20,  3.78s/it] 72%|███████▏  | 1680/2335 [1:46:33<40:58,  3.75s/it]                                                     {'loss': 0.1555, 'grad_norm': 2.5179228375951097, 'learning_rate': 1.932395619079771e-06, 'epoch': 0.72}
 72%|███████▏  | 1680/2335 [1:46:33<40:58,  3.75s/it] 72%|███████▏  | 1681/2335 [1:46:37<41:08,  3.77s/it]                                                     {'loss': 0.1016, 'grad_norm': 2.426236666720795, 'learning_rate': 1.926919669213158e-06, 'epoch': 0.72}
 72%|███████▏  | 1681/2335 [1:46:37<41:08,  3.77s/it] 72%|███████▏  | 1682/2335 [1:46:41<41:02,  3.77s/it]                                                     {'loss': 0.1078, 'grad_norm': 2.2343102427120196, 'learning_rate': 1.9214496366077893e-06, 'epoch': 0.72}
 72%|███████▏  | 1682/2335 [1:46:41<41:02,  3.77s/it] 72%|███████▏  | 1683/2335 [1:46:45<40:56,  3.77s/it]                                                     {'loss': 0.1199, 'grad_norm': 2.1416919919345885, 'learning_rate': 1.915985531796291e-06, 'epoch': 0.72}
 72%|███████▏  | 1683/2335 [1:46:45<40:56,  3.77s/it] 72%|███████▏  | 1684/2335 [1:46:49<40:45,  3.76s/it]                                                     {'loss': 0.1269, 'grad_norm': 2.3865547231591937, 'learning_rate': 1.910527365299879e-06, 'epoch': 0.72}
 72%|███████▏  | 1684/2335 [1:46:49<40:45,  3.76s/it] 72%|███████▏  | 1685/2335 [1:46:52<40:38,  3.75s/it]                                                     {'loss': 0.1253, 'grad_norm': 2.093193164019054, 'learning_rate': 1.905075147628333e-06, 'epoch': 0.72}
 72%|███████▏  | 1685/2335 [1:46:52<40:38,  3.75s/it] 72%|███████▏  | 1686/2335 [1:46:56<40:39,  3.76s/it]                                                     {'loss': 0.0984, 'grad_norm': 2.2452600956898388, 'learning_rate': 1.8996288892799775e-06, 'epoch': 0.72}
 72%|███████▏  | 1686/2335 [1:46:56<40:39,  3.76s/it] 72%|███████▏  | 1687/2335 [1:47:00<40:20,  3.74s/it]                                                     {'loss': 0.0857, 'grad_norm': 2.148567405731751, 'learning_rate': 1.8941886007416654e-06, 'epoch': 0.72}
 72%|███████▏  | 1687/2335 [1:47:00<40:20,  3.74s/it] 72%|███████▏  | 1688/2335 [1:47:03<40:20,  3.74s/it]                                                     {'loss': 0.1349, 'grad_norm': 2.4719827720402114, 'learning_rate': 1.8887542924887486e-06, 'epoch': 0.72}
 72%|███████▏  | 1688/2335 [1:47:03<40:20,  3.74s/it] 72%|███████▏  | 1689/2335 [1:47:07<40:37,  3.77s/it]                                                     {'loss': 0.0877, 'grad_norm': 2.2201500942586723, 'learning_rate': 1.883325974985068e-06, 'epoch': 0.72}
 72%|███████▏  | 1689/2335 [1:47:07<40:37,  3.77s/it] 72%|███████▏  | 1690/2335 [1:47:11<40:16,  3.75s/it]                                                     {'loss': 0.0864, 'grad_norm': 2.198646605403852, 'learning_rate': 1.8779036586829296e-06, 'epoch': 0.72}
 72%|███████▏  | 1690/2335 [1:47:11<40:16,  3.75s/it] 72%|███████▏  | 1691/2335 [1:47:15<39:58,  3.72s/it]                                                     {'loss': 0.1149, 'grad_norm': 2.2559627744041335, 'learning_rate': 1.8724873540230826e-06, 'epoch': 0.72}
 72%|███████▏  | 1691/2335 [1:47:15<39:58,  3.72s/it] 72%|███████▏  | 1692/2335 [1:47:18<39:31,  3.69s/it]                                                     {'loss': 0.1267, 'grad_norm': 2.2219302876318343, 'learning_rate': 1.8670770714347024e-06, 'epoch': 0.72}
 72%|███████▏  | 1692/2335 [1:47:18<39:31,  3.69s/it] 73%|███████▎  | 1693/2335 [1:47:22<39:26,  3.69s/it]                                                     {'loss': 0.1353, 'grad_norm': 2.0411610008836196, 'learning_rate': 1.8616728213353652e-06, 'epoch': 0.73}
 73%|███████▎  | 1693/2335 [1:47:22<39:26,  3.69s/it] 73%|███████▎  | 1694/2335 [1:47:26<39:50,  3.73s/it]                                                     {'loss': 0.099, 'grad_norm': 1.995343856594939, 'learning_rate': 1.856274614131034e-06, 'epoch': 0.73}
 73%|███████▎  | 1694/2335 [1:47:26<39:50,  3.73s/it] 73%|███████▎  | 1695/2335 [1:47:29<39:37,  3.71s/it]                                                     {'loss': 0.141, 'grad_norm': 2.4472070528894516, 'learning_rate': 1.8508824602160375e-06, 'epoch': 0.73}
 73%|███████▎  | 1695/2335 [1:47:29<39:37,  3.71s/it] 73%|███████▎  | 1696/2335 [1:47:33<39:41,  3.73s/it]                                                     {'loss': 0.1246, 'grad_norm': 2.1972712310512565, 'learning_rate': 1.8454963699730471e-06, 'epoch': 0.73}
 73%|███████▎  | 1696/2335 [1:47:33<39:41,  3.73s/it] 73%|███████▎  | 1697/2335 [1:47:37<39:42,  3.73s/it]                                                     {'loss': 0.1061, 'grad_norm': 2.0839993117653663, 'learning_rate': 1.8401163537730566e-06, 'epoch': 0.73}
 73%|███████▎  | 1697/2335 [1:47:37<39:42,  3.73s/it] 73%|███████▎  | 1698/2335 [1:47:41<39:25,  3.71s/it]                                                     {'loss': 0.1465, 'grad_norm': 2.4017355244538905, 'learning_rate': 1.8347424219753674e-06, 'epoch': 0.73}
 73%|███████▎  | 1698/2335 [1:47:41<39:25,  3.71s/it] 73%|███████▎  | 1699/2335 [1:47:44<39:16,  3.71s/it]                                                     {'loss': 0.1072, 'grad_norm': 2.0938288243223075, 'learning_rate': 1.8293745849275635e-06, 'epoch': 0.73}
 73%|███████▎  | 1699/2335 [1:47:44<39:16,  3.71s/it] 73%|███████▎  | 1700/2335 [1:47:48<39:04,  3.69s/it]                                                     {'loss': 0.1079, 'grad_norm': 2.077649515725739, 'learning_rate': 1.8240128529654944e-06, 'epoch': 0.73}
 73%|███████▎  | 1700/2335 [1:47:48<39:04,  3.69s/it] 73%|███████▎  | 1701/2335 [1:47:52<39:21,  3.73s/it]                                                     {'loss': 0.1502, 'grad_norm': 2.257793424547906, 'learning_rate': 1.8186572364132548e-06, 'epoch': 0.73}
 73%|███████▎  | 1701/2335 [1:47:52<39:21,  3.73s/it] 73%|███████▎  | 1702/2335 [1:47:56<41:36,  3.94s/it]                                                     {'loss': 0.0984, 'grad_norm': 2.118798470311055, 'learning_rate': 1.8133077455831605e-06, 'epoch': 0.73}
 73%|███████▎  | 1702/2335 [1:47:56<41:36,  3.94s/it] 73%|███████▎  | 1703/2335 [1:48:00<40:32,  3.85s/it]                                                     {'loss': 0.089, 'grad_norm': 2.159690098336262, 'learning_rate': 1.8079643907757349e-06, 'epoch': 0.73}
 73%|███████▎  | 1703/2335 [1:48:00<40:32,  3.85s/it] 73%|███████▎  | 1704/2335 [1:48:04<39:58,  3.80s/it]                                                     {'loss': 0.0904, 'grad_norm': 2.0380633214025305, 'learning_rate': 1.802627182279687e-06, 'epoch': 0.73}
 73%|███████▎  | 1704/2335 [1:48:04<39:58,  3.80s/it] 73%|███████▎  | 1705/2335 [1:48:08<42:07,  4.01s/it]                                                     {'loss': 0.121, 'grad_norm': 1.9316180660598707, 'learning_rate': 1.7972961303718899e-06, 'epoch': 0.73}
 73%|███████▎  | 1705/2335 [1:48:08<42:07,  4.01s/it] 73%|███████▎  | 1706/2335 [1:48:13<44:58,  4.29s/it]                                                     {'loss': 0.0699, 'grad_norm': 1.8759878289071652, 'learning_rate': 1.7919712453173637e-06, 'epoch': 0.73}
 73%|███████▎  | 1706/2335 [1:48:13<44:58,  4.29s/it] 73%|███████▎  | 1707/2335 [1:48:17<43:05,  4.12s/it]                                                     {'loss': 0.1092, 'grad_norm': 1.9207148928750877, 'learning_rate': 1.7866525373692495e-06, 'epoch': 0.73}
 73%|███████▎  | 1707/2335 [1:48:17<43:05,  4.12s/it] 73%|███████▎  | 1708/2335 [1:48:20<41:29,  3.97s/it]                                                     {'loss': 0.127, 'grad_norm': 2.1197148725993156, 'learning_rate': 1.781340016768799e-06, 'epoch': 0.73}
 73%|███████▎  | 1708/2335 [1:48:20<41:29,  3.97s/it] 73%|███████▎  | 1709/2335 [1:48:24<40:51,  3.92s/it]                                                     {'loss': 0.1476, 'grad_norm': 2.099455328685759, 'learning_rate': 1.7760336937453487e-06, 'epoch': 0.73}
 73%|███████▎  | 1709/2335 [1:48:24<40:51,  3.92s/it] 73%|███████▎  | 1710/2335 [1:48:28<40:06,  3.85s/it]                                                     {'loss': 0.1407, 'grad_norm': 2.0163166459452784, 'learning_rate': 1.7707335785163027e-06, 'epoch': 0.73}
 73%|███████▎  | 1710/2335 [1:48:28<40:06,  3.85s/it] 73%|███████▎  | 1711/2335 [1:48:32<42:10,  4.05s/it]                                                     {'loss': 0.1099, 'grad_norm': 1.969008748205219, 'learning_rate': 1.7654396812871072e-06, 'epoch': 0.73}
 73%|███████▎  | 1711/2335 [1:48:32<42:10,  4.05s/it] 73%|███████▎  | 1712/2335 [1:48:36<41:25,  3.99s/it]                                                     {'loss': 0.116, 'grad_norm': 2.457448635223921, 'learning_rate': 1.760152012251241e-06, 'epoch': 0.73}
 73%|███████▎  | 1712/2335 [1:48:36<41:25,  3.99s/it] 73%|███████▎  | 1713/2335 [1:48:40<40:49,  3.94s/it]                                                     {'loss': 0.0952, 'grad_norm': 1.9718514959904916, 'learning_rate': 1.7548705815901885e-06, 'epoch': 0.73}
 73%|███████▎  | 1713/2335 [1:48:40<40:49,  3.94s/it] 73%|███████▎  | 1714/2335 [1:48:44<40:13,  3.89s/it]                                                     {'loss': 0.0807, 'grad_norm': 1.8128104689408087, 'learning_rate': 1.7495953994734216e-06, 'epoch': 0.73}
 73%|███████▎  | 1714/2335 [1:48:44<40:13,  3.89s/it] 73%|███████▎  | 1715/2335 [1:48:48<39:48,  3.85s/it]                                                     {'loss': 0.1345, 'grad_norm': 2.3301141157760243, 'learning_rate': 1.7443264760583829e-06, 'epoch': 0.73}
 73%|███████▎  | 1715/2335 [1:48:48<39:48,  3.85s/it] 73%|███████▎  | 1716/2335 [1:48:51<39:34,  3.84s/it]                                                     {'loss': 0.0824, 'grad_norm': 2.0921630637365967, 'learning_rate': 1.7390638214904576e-06, 'epoch': 0.73}
 73%|███████▎  | 1716/2335 [1:48:51<39:34,  3.84s/it] 74%|███████▎  | 1717/2335 [1:48:55<39:02,  3.79s/it]                                                     {'loss': 0.1149, 'grad_norm': 2.1875529547251307, 'learning_rate': 1.733807445902968e-06, 'epoch': 0.74}
 74%|███████▎  | 1717/2335 [1:48:55<39:02,  3.79s/it] 74%|███████▎  | 1718/2335 [1:48:59<40:08,  3.90s/it]                                                     {'loss': 0.1094, 'grad_norm': 1.9832813221178773, 'learning_rate': 1.728557359417139e-06, 'epoch': 0.74}
 74%|███████▎  | 1718/2335 [1:48:59<40:08,  3.90s/it] 74%|███████▎  | 1719/2335 [1:49:03<39:48,  3.88s/it]                                                     {'loss': 0.1122, 'grad_norm': 2.056950387696738, 'learning_rate': 1.7233135721420908e-06, 'epoch': 0.74}
 74%|███████▎  | 1719/2335 [1:49:03<39:48,  3.88s/it] 74%|███████▎  | 1720/2335 [1:49:07<38:54,  3.80s/it]                                                     {'loss': 0.0958, 'grad_norm': 2.0015430714652225, 'learning_rate': 1.7180760941748132e-06, 'epoch': 0.74}
 74%|███████▎  | 1720/2335 [1:49:07<38:54,  3.80s/it] 74%|███████▎  | 1721/2335 [1:49:11<39:02,  3.82s/it]                                                     {'loss': 0.1564, 'grad_norm': 2.525215139182262, 'learning_rate': 1.7128449356001476e-06, 'epoch': 0.74}
 74%|███████▎  | 1721/2335 [1:49:11<39:02,  3.82s/it] 74%|███████▎  | 1722/2335 [1:49:15<40:27,  3.96s/it]                                                     {'loss': 0.1214, 'grad_norm': 2.199182282295698, 'learning_rate': 1.7076201064907637e-06, 'epoch': 0.74}
 74%|███████▎  | 1722/2335 [1:49:15<40:27,  3.96s/it] 74%|███████▍  | 1723/2335 [1:49:19<39:42,  3.89s/it]                                                     {'loss': 0.0833, 'grad_norm': 2.1430825481204177, 'learning_rate': 1.7024016169071483e-06, 'epoch': 0.74}
 74%|███████▍  | 1723/2335 [1:49:19<39:42,  3.89s/it] 74%|███████▍  | 1724/2335 [1:49:22<38:57,  3.83s/it]                                                     {'loss': 0.132, 'grad_norm': 2.2006679705376806, 'learning_rate': 1.6971894768975794e-06, 'epoch': 0.74}
 74%|███████▍  | 1724/2335 [1:49:22<38:57,  3.83s/it] 74%|███████▍  | 1725/2335 [1:49:26<38:13,  3.76s/it]                                                     {'loss': 0.144, 'grad_norm': 2.717340276566099, 'learning_rate': 1.6919836964981113e-06, 'epoch': 0.74}
 74%|███████▍  | 1725/2335 [1:49:26<38:13,  3.76s/it] 74%|███████▍  | 1726/2335 [1:49:30<37:56,  3.74s/it]                                                     {'loss': 0.1141, 'grad_norm': 2.2222698417797946, 'learning_rate': 1.6867842857325462e-06, 'epoch': 0.74}
 74%|███████▍  | 1726/2335 [1:49:30<37:56,  3.74s/it] 74%|███████▍  | 1727/2335 [1:49:33<37:54,  3.74s/it]                                                     {'loss': 0.13, 'grad_norm': 1.7377672561387636, 'learning_rate': 1.681591254612428e-06, 'epoch': 0.74}
 74%|███████▍  | 1727/2335 [1:49:33<37:54,  3.74s/it] 74%|███████▍  | 1728/2335 [1:49:37<37:34,  3.71s/it]                                                     {'loss': 0.1473, 'grad_norm': 2.271636227677074, 'learning_rate': 1.6764046131370142e-06, 'epoch': 0.74}
 74%|███████▍  | 1728/2335 [1:49:37<37:34,  3.71s/it] 74%|███████▍  | 1729/2335 [1:49:41<37:49,  3.74s/it]                                                     {'loss': 0.1112, 'grad_norm': 2.006703403280961, 'learning_rate': 1.671224371293259e-06, 'epoch': 0.74}
 74%|███████▍  | 1729/2335 [1:49:41<37:49,  3.74s/it] 74%|███████▍  | 1730/2335 [1:49:47<44:19,  4.40s/it]                                                     {'loss': 0.127, 'grad_norm': 2.004140140998794, 'learning_rate': 1.6660505390557958e-06, 'epoch': 0.74}
 74%|███████▍  | 1730/2335 [1:49:47<44:19,  4.40s/it] 74%|███████▍  | 1731/2335 [1:49:51<42:54,  4.26s/it]                                                     {'loss': 0.1295, 'grad_norm': 1.8269739315620814, 'learning_rate': 1.6608831263869114e-06, 'epoch': 0.74}
 74%|███████▍  | 1731/2335 [1:49:51<42:54,  4.26s/it] 74%|███████▍  | 1732/2335 [1:49:54<41:10,  4.10s/it]                                                     {'loss': 0.0964, 'grad_norm': 2.1950940871536835, 'learning_rate': 1.6557221432365355e-06, 'epoch': 0.74}
 74%|███████▍  | 1732/2335 [1:49:54<41:10,  4.10s/it] 74%|███████▍  | 1733/2335 [1:49:59<41:54,  4.18s/it]                                                     {'loss': 0.1019, 'grad_norm': 1.8438517535104932, 'learning_rate': 1.6505675995422178e-06, 'epoch': 0.74}
 74%|███████▍  | 1733/2335 [1:49:59<41:54,  4.18s/it] 74%|███████▍  | 1734/2335 [1:50:02<40:29,  4.04s/it]                                                     {'loss': 0.1186, 'grad_norm': 2.189156545934545, 'learning_rate': 1.6454195052291066e-06, 'epoch': 0.74}
 74%|███████▍  | 1734/2335 [1:50:02<40:29,  4.04s/it] 74%|███████▍  | 1735/2335 [1:50:06<39:53,  3.99s/it]                                                     {'loss': 0.1217, 'grad_norm': 1.8877889387697562, 'learning_rate': 1.6402778702099358e-06, 'epoch': 0.74}
 74%|███████▍  | 1735/2335 [1:50:06<39:53,  3.99s/it] 74%|███████▍  | 1736/2335 [1:50:10<39:14,  3.93s/it]                                                     {'loss': 0.1598, 'grad_norm': 2.2143401282478448, 'learning_rate': 1.6351427043849955e-06, 'epoch': 0.74}
 74%|███████▍  | 1736/2335 [1:50:10<39:14,  3.93s/it] 74%|███████▍  | 1737/2335 [1:50:14<39:05,  3.92s/it]                                                     {'loss': 0.0984, 'grad_norm': 2.2341853684461657, 'learning_rate': 1.6300140176421242e-06, 'epoch': 0.74}
 74%|███████▍  | 1737/2335 [1:50:14<39:05,  3.92s/it] 74%|███████▍  | 1738/2335 [1:50:18<38:14,  3.84s/it]                                                     {'loss': 0.1273, 'grad_norm': 1.8664449347593035, 'learning_rate': 1.6248918198566832e-06, 'epoch': 0.74}
 74%|███████▍  | 1738/2335 [1:50:18<38:14,  3.84s/it] 74%|███████▍  | 1739/2335 [1:50:21<37:45,  3.80s/it]                                                     {'loss': 0.1248, 'grad_norm': 2.166458767846021, 'learning_rate': 1.6197761208915413e-06, 'epoch': 0.74}
 74%|███████▍  | 1739/2335 [1:50:21<37:45,  3.80s/it] 75%|███████▍  | 1740/2335 [1:50:25<37:49,  3.81s/it]                                                     {'loss': 0.1328, 'grad_norm': 1.9955047603317966, 'learning_rate': 1.6146669305970493e-06, 'epoch': 0.75}
 75%|███████▍  | 1740/2335 [1:50:25<37:49,  3.81s/it] 75%|███████▍  | 1741/2335 [1:50:29<37:32,  3.79s/it]                                                     {'loss': 0.1552, 'grad_norm': 2.352051880437306, 'learning_rate': 1.609564258811029e-06, 'epoch': 0.75}
 75%|███████▍  | 1741/2335 [1:50:29<37:32,  3.79s/it] 75%|███████▍  | 1742/2335 [1:50:33<37:20,  3.78s/it]                                                     {'loss': 0.1136, 'grad_norm': 1.8283677076586435, 'learning_rate': 1.6044681153587493e-06, 'epoch': 0.75}
 75%|███████▍  | 1742/2335 [1:50:33<37:20,  3.78s/it] 75%|███████▍  | 1743/2335 [1:50:36<36:53,  3.74s/it]                                                     {'loss': 0.0916, 'grad_norm': 1.8435761098680266, 'learning_rate': 1.5993785100529098e-06, 'epoch': 0.75}
 75%|███████▍  | 1743/2335 [1:50:36<36:53,  3.74s/it] 75%|███████▍  | 1744/2335 [1:50:40<36:54,  3.75s/it]                                                     {'loss': 0.1338, 'grad_norm': 2.051866592192121, 'learning_rate': 1.5942954526936217e-06, 'epoch': 0.75}
 75%|███████▍  | 1744/2335 [1:50:40<36:54,  3.75s/it] 75%|███████▍  | 1745/2335 [1:50:44<37:01,  3.77s/it]                                                     {'loss': 0.0845, 'grad_norm': 1.721339478515566, 'learning_rate': 1.5892189530683833e-06, 'epoch': 0.75}
 75%|███████▍  | 1745/2335 [1:50:44<37:01,  3.77s/it] 75%|███████▍  | 1746/2335 [1:50:48<37:24,  3.81s/it]                                                     {'loss': 0.1117, 'grad_norm': 1.8101149485628358, 'learning_rate': 1.5841490209520705e-06, 'epoch': 0.75}
 75%|███████▍  | 1746/2335 [1:50:48<37:24,  3.81s/it] 75%|███████▍  | 1747/2335 [1:50:51<36:52,  3.76s/it]                                                     {'loss': 0.1301, 'grad_norm': 2.2752672863655925, 'learning_rate': 1.579085666106912e-06, 'epoch': 0.75}
 75%|███████▍  | 1747/2335 [1:50:51<36:52,  3.76s/it] 75%|███████▍  | 1748/2335 [1:50:55<36:26,  3.72s/it]                                                     {'loss': 0.0965, 'grad_norm': 1.8632670516518857, 'learning_rate': 1.574028898282472e-06, 'epoch': 0.75}
 75%|███████▍  | 1748/2335 [1:50:55<36:26,  3.72s/it] 75%|███████▍  | 1749/2335 [1:50:59<36:24,  3.73s/it]                                                     {'loss': 0.1419, 'grad_norm': 1.930925382877709, 'learning_rate': 1.568978727215632e-06, 'epoch': 0.75}
 75%|███████▍  | 1749/2335 [1:50:59<36:24,  3.73s/it] 75%|███████▍  | 1750/2335 [1:51:03<36:30,  3.74s/it]                                                     {'loss': 0.138, 'grad_norm': 2.486978577709939, 'learning_rate': 1.5639351626305682e-06, 'epoch': 0.75}
 75%|███████▍  | 1750/2335 [1:51:03<36:30,  3.74s/it] 75%|███████▍  | 1751/2335 [1:51:06<36:19,  3.73s/it]                                                     {'loss': 0.1049, 'grad_norm': 2.635567915529565, 'learning_rate': 1.55889821423874e-06, 'epoch': 0.75}
 75%|███████▍  | 1751/2335 [1:51:06<36:19,  3.73s/it] 75%|███████▌  | 1752/2335 [1:51:10<36:08,  3.72s/it]                                                     {'loss': 0.0876, 'grad_norm': 1.8717202173073386, 'learning_rate': 1.5538678917388638e-06, 'epoch': 0.75}
 75%|███████▌  | 1752/2335 [1:51:10<36:08,  3.72s/it] 75%|███████▌  | 1753/2335 [1:51:14<35:56,  3.70s/it]                                                     {'loss': 0.1, 'grad_norm': 1.8652227144634033, 'learning_rate': 1.5488442048169022e-06, 'epoch': 0.75}
 75%|███████▌  | 1753/2335 [1:51:14<35:56,  3.70s/it] 75%|███████▌  | 1754/2335 [1:51:17<35:45,  3.69s/it]                                                     {'loss': 0.0893, 'grad_norm': 2.4602313839235306, 'learning_rate': 1.5438271631460366e-06, 'epoch': 0.75}
 75%|███████▌  | 1754/2335 [1:51:17<35:45,  3.69s/it] 75%|███████▌  | 1755/2335 [1:51:21<35:56,  3.72s/it]                                                     {'loss': 0.0851, 'grad_norm': 1.7681910401272023, 'learning_rate': 1.5388167763866518e-06, 'epoch': 0.75}
 75%|███████▌  | 1755/2335 [1:51:21<35:56,  3.72s/it] 75%|███████▌  | 1756/2335 [1:51:25<35:55,  3.72s/it]                                                     {'loss': 0.1113, 'grad_norm': 2.003924197374373, 'learning_rate': 1.5338130541863233e-06, 'epoch': 0.75}
 75%|███████▌  | 1756/2335 [1:51:25<35:55,  3.72s/it] 75%|███████▌  | 1757/2335 [1:51:29<35:53,  3.73s/it]                                                     {'loss': 0.1024, 'grad_norm': 2.250763815734399, 'learning_rate': 1.5288160061797907e-06, 'epoch': 0.75}
 75%|███████▌  | 1757/2335 [1:51:29<35:53,  3.73s/it] 75%|███████▌  | 1758/2335 [1:51:32<36:07,  3.76s/it]                                                     {'loss': 0.1776, 'grad_norm': 2.256567995878781, 'learning_rate': 1.5238256419889447e-06, 'epoch': 0.75}
 75%|███████▌  | 1758/2335 [1:51:32<36:07,  3.76s/it] 75%|███████▌  | 1759/2335 [1:51:36<35:42,  3.72s/it]                                                     {'loss': 0.0866, 'grad_norm': 2.2383463361666154, 'learning_rate': 1.5188419712228053e-06, 'epoch': 0.75}
 75%|███████▌  | 1759/2335 [1:51:36<35:42,  3.72s/it] 75%|███████▌  | 1760/2335 [1:51:40<35:34,  3.71s/it]                                                     {'loss': 0.1262, 'grad_norm': 2.6892950344387465, 'learning_rate': 1.5138650034775004e-06, 'epoch': 0.75}
 75%|███████▌  | 1760/2335 [1:51:40<35:34,  3.71s/it] 75%|███████▌  | 1761/2335 [1:51:44<35:52,  3.75s/it]                                                     {'loss': 0.1199, 'grad_norm': 2.3951768682204446, 'learning_rate': 1.5088947483362559e-06, 'epoch': 0.75}
 75%|███████▌  | 1761/2335 [1:51:44<35:52,  3.75s/it] 75%|███████▌  | 1762/2335 [1:51:47<36:03,  3.78s/it]                                                     {'loss': 0.1511, 'grad_norm': 2.4850054411974907, 'learning_rate': 1.503931215369372e-06, 'epoch': 0.75}
 75%|███████▌  | 1762/2335 [1:51:47<36:03,  3.78s/it] 76%|███████▌  | 1763/2335 [1:51:51<35:56,  3.77s/it]                                                     {'loss': 0.1093, 'grad_norm': 2.21750798993055, 'learning_rate': 1.4989744141342027e-06, 'epoch': 0.76}
 76%|███████▌  | 1763/2335 [1:51:51<35:56,  3.77s/it] 76%|███████▌  | 1764/2335 [1:51:55<35:41,  3.75s/it]                                                     {'loss': 0.09, 'grad_norm': 1.9529231275466559, 'learning_rate': 1.4940243541751449e-06, 'epoch': 0.76}
 76%|███████▌  | 1764/2335 [1:51:55<35:41,  3.75s/it] 76%|███████▌  | 1765/2335 [1:51:59<35:47,  3.77s/it]                                                     {'loss': 0.0536, 'grad_norm': 1.6023687978024914, 'learning_rate': 1.4890810450236064e-06, 'epoch': 0.76}
 76%|███████▌  | 1765/2335 [1:51:59<35:47,  3.77s/it] 76%|███████▌  | 1766/2335 [1:52:03<35:57,  3.79s/it]                                                     {'loss': 0.1194, 'grad_norm': 2.4872490085114323, 'learning_rate': 1.4841444961980045e-06, 'epoch': 0.76}
 76%|███████▌  | 1766/2335 [1:52:03<35:57,  3.79s/it] 76%|███████▌  | 1767/2335 [1:52:06<36:22,  3.84s/it]                                                     {'loss': 0.094, 'grad_norm': 2.010014949461149, 'learning_rate': 1.4792147172037363e-06, 'epoch': 0.76}
 76%|███████▌  | 1767/2335 [1:52:06<36:22,  3.84s/it] 76%|███████▌  | 1768/2335 [1:52:10<35:50,  3.79s/it]                                                     {'loss': 0.11, 'grad_norm': 2.3184561821883896, 'learning_rate': 1.4742917175331644e-06, 'epoch': 0.76}
 76%|███████▌  | 1768/2335 [1:52:10<35:50,  3.79s/it] 76%|███████▌  | 1769/2335 [1:52:14<35:42,  3.79s/it]                                                     {'loss': 0.1183, 'grad_norm': 2.2783848941760554, 'learning_rate': 1.469375506665594e-06, 'epoch': 0.76}
 76%|███████▌  | 1769/2335 [1:52:14<35:42,  3.79s/it] 76%|███████▌  | 1770/2335 [1:52:18<35:12,  3.74s/it]                                                     {'loss': 0.1025, 'grad_norm': 1.763052498545839, 'learning_rate': 1.4644660940672628e-06, 'epoch': 0.76}
 76%|███████▌  | 1770/2335 [1:52:18<35:12,  3.74s/it] 76%|███████▌  | 1771/2335 [1:52:21<35:09,  3.74s/it]                                                     {'loss': 0.0725, 'grad_norm': 1.9842816196732285, 'learning_rate': 1.4595634891913168e-06, 'epoch': 0.76}
 76%|███████▌  | 1771/2335 [1:52:21<35:09,  3.74s/it] 76%|███████▌  | 1772/2335 [1:52:25<34:48,  3.71s/it]                                                     {'loss': 0.0958, 'grad_norm': 2.0447480015172723, 'learning_rate': 1.4546677014777938e-06, 'epoch': 0.76}
 76%|███████▌  | 1772/2335 [1:52:25<34:48,  3.71s/it] 76%|███████▌  | 1773/2335 [1:52:29<34:34,  3.69s/it]                                                     {'loss': 0.1239, 'grad_norm': 2.262806582270925, 'learning_rate': 1.4497787403536062e-06, 'epoch': 0.76}
 76%|███████▌  | 1773/2335 [1:52:29<34:34,  3.69s/it] 76%|███████▌  | 1774/2335 [1:52:32<34:32,  3.69s/it]                                                     {'loss': 0.0653, 'grad_norm': 1.8933151331053244, 'learning_rate': 1.4448966152325171e-06, 'epoch': 0.76}
 76%|███████▌  | 1774/2335 [1:52:32<34:32,  3.69s/it] 76%|███████▌  | 1775/2335 [1:52:36<34:29,  3.69s/it]                                                     {'loss': 0.0952, 'grad_norm': 2.0146708515656337, 'learning_rate': 1.4400213355151322e-06, 'epoch': 0.76}
 76%|███████▌  | 1775/2335 [1:52:36<34:29,  3.69s/it] 76%|███████▌  | 1776/2335 [1:52:40<34:15,  3.68s/it]                                                     {'loss': 0.0949, 'grad_norm': 2.013628258479325, 'learning_rate': 1.4351529105888735e-06, 'epoch': 0.76}
 76%|███████▌  | 1776/2335 [1:52:40<34:15,  3.68s/it] 76%|███████▌  | 1777/2335 [1:52:43<34:33,  3.72s/it]                                                     {'loss': 0.0794, 'grad_norm': 1.9543213747933397, 'learning_rate': 1.4302913498279658e-06, 'epoch': 0.76}
 76%|███████▌  | 1777/2335 [1:52:43<34:33,  3.72s/it] 76%|███████▌  | 1778/2335 [1:52:47<34:17,  3.69s/it]                                                     {'loss': 0.1516, 'grad_norm': 1.9641205817760612, 'learning_rate': 1.425436662593413e-06, 'epoch': 0.76}
 76%|███████▌  | 1778/2335 [1:52:47<34:17,  3.69s/it] 76%|███████▌  | 1779/2335 [1:52:51<34:01,  3.67s/it]                                                     {'loss': 0.0848, 'grad_norm': 2.0650269375740224, 'learning_rate': 1.4205888582329885e-06, 'epoch': 0.76}
 76%|███████▌  | 1779/2335 [1:52:51<34:01,  3.67s/it] 76%|███████▌  | 1780/2335 [1:52:54<34:15,  3.70s/it]                                                     {'loss': 0.1216, 'grad_norm': 2.255423463507378, 'learning_rate': 1.41574794608121e-06, 'epoch': 0.76}
 76%|███████▌  | 1780/2335 [1:52:54<34:15,  3.70s/it] 76%|███████▋  | 1781/2335 [1:52:58<34:23,  3.72s/it]                                                     {'loss': 0.0972, 'grad_norm': 2.0548811642508293, 'learning_rate': 1.4109139354593254e-06, 'epoch': 0.76}
 76%|███████▋  | 1781/2335 [1:52:58<34:23,  3.72s/it] 76%|███████▋  | 1782/2335 [1:53:02<34:25,  3.74s/it]                                                     {'loss': 0.151, 'grad_norm': 2.3670839338918173, 'learning_rate': 1.4060868356752938e-06, 'epoch': 0.76}
 76%|███████▋  | 1782/2335 [1:53:02<34:25,  3.74s/it] 76%|███████▋  | 1783/2335 [1:53:06<34:26,  3.74s/it]                                                     {'loss': 0.1107, 'grad_norm': 1.8956455315298428, 'learning_rate': 1.4012666560237648e-06, 'epoch': 0.76}
 76%|███████▋  | 1783/2335 [1:53:06<34:26,  3.74s/it] 76%|███████▋  | 1784/2335 [1:53:09<34:20,  3.74s/it]                                                     {'loss': 0.116, 'grad_norm': 2.468969069898418, 'learning_rate': 1.3964534057860652e-06, 'epoch': 0.76}
 76%|███████▋  | 1784/2335 [1:53:09<34:20,  3.74s/it] 76%|███████▋  | 1785/2335 [1:53:13<33:58,  3.71s/it]                                                     {'loss': 0.1435, 'grad_norm': 2.1578263898549066, 'learning_rate': 1.3916470942301796e-06, 'epoch': 0.76}
 76%|███████▋  | 1785/2335 [1:53:13<33:58,  3.71s/it] 76%|███████▋  | 1786/2335 [1:53:17<33:59,  3.72s/it]                                                     {'loss': 0.0959, 'grad_norm': 1.9541264611393145, 'learning_rate': 1.386847730610732e-06, 'epoch': 0.76}
 76%|███████▋  | 1786/2335 [1:53:17<33:59,  3.72s/it] 77%|███████▋  | 1787/2335 [1:53:21<33:55,  3.71s/it]                                                     {'loss': 0.0878, 'grad_norm': 1.7846971093702078, 'learning_rate': 1.3820553241689676e-06, 'epoch': 0.77}
 77%|███████▋  | 1787/2335 [1:53:21<33:55,  3.71s/it] 77%|███████▋  | 1788/2335 [1:53:24<33:46,  3.70s/it]                                                     {'loss': 0.1028, 'grad_norm': 2.094909679814358, 'learning_rate': 1.3772698841327347e-06, 'epoch': 0.77}
 77%|███████▋  | 1788/2335 [1:53:24<33:46,  3.70s/it] 77%|███████▋  | 1789/2335 [1:53:28<33:41,  3.70s/it]                                                     {'loss': 0.0901, 'grad_norm': 2.296731513632592, 'learning_rate': 1.3724914197164663e-06, 'epoch': 0.77}
 77%|███████▋  | 1789/2335 [1:53:28<33:41,  3.70s/it] 77%|███████▋  | 1790/2335 [1:53:32<33:22,  3.67s/it]                                                     {'loss': 0.122, 'grad_norm': 1.6033581370107242, 'learning_rate': 1.3677199401211672e-06, 'epoch': 0.77}
 77%|███████▋  | 1790/2335 [1:53:32<33:22,  3.67s/it] 77%|███████▋  | 1791/2335 [1:53:35<33:29,  3.69s/it]                                                     {'loss': 0.0777, 'grad_norm': 1.8782834749396633, 'learning_rate': 1.3629554545343921e-06, 'epoch': 0.77}
 77%|███████▋  | 1791/2335 [1:53:35<33:29,  3.69s/it] 77%|███████▋  | 1792/2335 [1:53:39<33:20,  3.68s/it]                                                     {'loss': 0.0951, 'grad_norm': 1.8934125271472486, 'learning_rate': 1.3581979721302286e-06, 'epoch': 0.77}
 77%|███████▋  | 1792/2335 [1:53:39<33:20,  3.68s/it] 77%|███████▋  | 1793/2335 [1:53:43<33:08,  3.67s/it]                                                     {'loss': 0.1486, 'grad_norm': 2.4076333979495033, 'learning_rate': 1.353447502069276e-06, 'epoch': 0.77}
 77%|███████▋  | 1793/2335 [1:53:43<33:08,  3.67s/it] 77%|███████▋  | 1794/2335 [1:53:46<33:01,  3.66s/it]                                                     {'loss': 0.0729, 'grad_norm': 1.767505137201018, 'learning_rate': 1.3487040534986357e-06, 'epoch': 0.77}
 77%|███████▋  | 1794/2335 [1:53:46<33:01,  3.66s/it] 77%|███████▋  | 1795/2335 [1:53:50<33:12,  3.69s/it]                                                     {'loss': 0.085, 'grad_norm': 1.7914545786146243, 'learning_rate': 1.343967635551887e-06, 'epoch': 0.77}
 77%|███████▋  | 1795/2335 [1:53:50<33:12,  3.69s/it] 77%|███████▋  | 1796/2335 [1:53:54<33:20,  3.71s/it]                                                     {'loss': 0.1229, 'grad_norm': 2.5785569531127126, 'learning_rate': 1.339238257349073e-06, 'epoch': 0.77}
 77%|███████▋  | 1796/2335 [1:53:54<33:20,  3.71s/it] 77%|███████▋  | 1797/2335 [1:53:57<33:14,  3.71s/it]                                                     {'loss': 0.098, 'grad_norm': 1.8750331010335577, 'learning_rate': 1.3345159279966818e-06, 'epoch': 0.77}
 77%|███████▋  | 1797/2335 [1:53:57<33:14,  3.71s/it] 77%|███████▋  | 1798/2335 [1:54:01<33:03,  3.69s/it]                                                     {'loss': 0.1009, 'grad_norm': 1.9105900786650818, 'learning_rate': 1.3298006565876249e-06, 'epoch': 0.77}
 77%|███████▋  | 1798/2335 [1:54:01<33:03,  3.69s/it] 77%|███████▋  | 1799/2335 [1:54:05<33:24,  3.74s/it]                                                     {'loss': 0.1178, 'grad_norm': 1.9447894468501432, 'learning_rate': 1.325092452201228e-06, 'epoch': 0.77}
 77%|███████▋  | 1799/2335 [1:54:05<33:24,  3.74s/it] 77%|███████▋  | 1800/2335 [1:54:09<32:58,  3.70s/it]                                                     {'loss': 0.1146, 'grad_norm': 2.5318126054021057, 'learning_rate': 1.3203913239032074e-06, 'epoch': 0.77}
 77%|███████▋  | 1800/2335 [1:54:09<32:58,  3.70s/it] 77%|███████▋  | 1801/2335 [1:54:12<33:14,  3.73s/it]                                                     {'loss': 0.0869, 'grad_norm': 1.8833297529866002, 'learning_rate': 1.3156972807456552e-06, 'epoch': 0.77}
 77%|███████▋  | 1801/2335 [1:54:12<33:14,  3.73s/it] 77%|███████▋  | 1802/2335 [1:54:16<32:58,  3.71s/it]                                                     {'loss': 0.1099, 'grad_norm': 2.283601727260495, 'learning_rate': 1.3110103317670215e-06, 'epoch': 0.77}
 77%|███████▋  | 1802/2335 [1:54:16<32:58,  3.71s/it] 77%|███████▋  | 1803/2335 [1:54:20<33:06,  3.73s/it]                                                     {'loss': 0.1745, 'grad_norm': 2.648404382367474, 'learning_rate': 1.3063304859920916e-06, 'epoch': 0.77}
 77%|███████▋  | 1803/2335 [1:54:20<33:06,  3.73s/it] 77%|███████▋  | 1804/2335 [1:54:24<33:03,  3.73s/it]                                                     {'loss': 0.1253, 'grad_norm': 1.9174319458420492, 'learning_rate': 1.30165775243198e-06, 'epoch': 0.77}
 77%|███████▋  | 1804/2335 [1:54:24<33:03,  3.73s/it] 77%|███████▋  | 1805/2335 [1:54:27<33:08,  3.75s/it]                                                     {'loss': 0.1727, 'grad_norm': 2.4934396112146855, 'learning_rate': 1.2969921400841029e-06, 'epoch': 0.77}
 77%|███████▋  | 1805/2335 [1:54:27<33:08,  3.75s/it] 77%|███████▋  | 1806/2335 [1:54:31<33:11,  3.76s/it]                                                     {'loss': 0.0751, 'grad_norm': 1.8798329812876906, 'learning_rate': 1.292333657932167e-06, 'epoch': 0.77}
 77%|███████▋  | 1806/2335 [1:54:31<33:11,  3.76s/it] 77%|███████▋  | 1807/2335 [1:54:35<33:05,  3.76s/it]                                                     {'loss': 0.1231, 'grad_norm': 2.819012380564757, 'learning_rate': 1.2876823149461453e-06, 'epoch': 0.77}
 77%|███████▋  | 1807/2335 [1:54:35<33:05,  3.76s/it] 77%|███████▋  | 1808/2335 [1:54:39<32:45,  3.73s/it]                                                     {'loss': 0.1215, 'grad_norm': 1.9578530920160313, 'learning_rate': 1.283038120082268e-06, 'epoch': 0.77}
 77%|███████▋  | 1808/2335 [1:54:39<32:45,  3.73s/it] 77%|███████▋  | 1809/2335 [1:54:42<32:30,  3.71s/it]                                                     {'loss': 0.1052, 'grad_norm': 1.7190605112399926, 'learning_rate': 1.278401082283e-06, 'epoch': 0.77}
 77%|███████▋  | 1809/2335 [1:54:42<32:30,  3.71s/it] 78%|███████▊  | 1810/2335 [1:54:46<32:50,  3.75s/it]                                                     {'loss': 0.09, 'grad_norm': 2.0236591689857404, 'learning_rate': 1.2737712104770267e-06, 'epoch': 0.78}
 78%|███████▊  | 1810/2335 [1:54:46<32:50,  3.75s/it] 78%|███████▊  | 1811/2335 [1:54:50<32:48,  3.76s/it]                                                     {'loss': 0.1204, 'grad_norm': 2.094163105104976, 'learning_rate': 1.2691485135792341e-06, 'epoch': 0.78}
 78%|███████▊  | 1811/2335 [1:54:50<32:48,  3.76s/it] 78%|███████▊  | 1812/2335 [1:54:54<33:05,  3.80s/it]                                                     {'loss': 0.1052, 'grad_norm': 2.6259548311998846, 'learning_rate': 1.2645330004906919e-06, 'epoch': 0.78}
 78%|███████▊  | 1812/2335 [1:54:54<33:05,  3.80s/it] 78%|███████▊  | 1813/2335 [1:54:58<33:07,  3.81s/it]                                                     {'loss': 0.0789, 'grad_norm': 1.7554928791494102, 'learning_rate': 1.2599246800986382e-06, 'epoch': 0.78}
 78%|███████▊  | 1813/2335 [1:54:58<33:07,  3.81s/it] 78%|███████▊  | 1814/2335 [1:55:01<32:44,  3.77s/it]                                                     {'loss': 0.1159, 'grad_norm': 1.8111625390635668, 'learning_rate': 1.255323561276462e-06, 'epoch': 0.78}
 78%|███████▊  | 1814/2335 [1:55:01<32:44,  3.77s/it] 78%|███████▊  | 1815/2335 [1:55:05<32:24,  3.74s/it]                                                     {'loss': 0.0915, 'grad_norm': 1.8891161677536685, 'learning_rate': 1.2507296528836848e-06, 'epoch': 0.78}
 78%|███████▊  | 1815/2335 [1:55:05<32:24,  3.74s/it] 78%|███████▊  | 1816/2335 [1:55:09<32:40,  3.78s/it]                                                     {'loss': 0.0904, 'grad_norm': 2.108688887017527, 'learning_rate': 1.2461429637659466e-06, 'epoch': 0.78}
 78%|███████▊  | 1816/2335 [1:55:09<32:40,  3.78s/it] 78%|███████▊  | 1817/2335 [1:55:12<32:17,  3.74s/it]                                                     {'loss': 0.114, 'grad_norm': 2.0505858329541065, 'learning_rate': 1.2415635027549817e-06, 'epoch': 0.78}
 78%|███████▊  | 1817/2335 [1:55:12<32:17,  3.74s/it] 78%|███████▊  | 1818/2335 [1:55:16<32:13,  3.74s/it]                                                     {'loss': 0.1338, 'grad_norm': 1.7846660940667833, 'learning_rate': 1.23699127866861e-06, 'epoch': 0.78}
 78%|███████▊  | 1818/2335 [1:55:16<32:13,  3.74s/it] 78%|███████▊  | 1819/2335 [1:55:20<32:01,  3.72s/it]                                                     {'loss': 0.119, 'grad_norm': 1.7118563703615908, 'learning_rate': 1.2324263003107162e-06, 'epoch': 0.78}
 78%|███████▊  | 1819/2335 [1:55:20<32:01,  3.72s/it] 78%|███████▊  | 1820/2335 [1:55:24<31:55,  3.72s/it]                                                     {'loss': 0.1465, 'grad_norm': 1.9556237332098654, 'learning_rate': 1.2278685764712356e-06, 'epoch': 0.78}
 78%|███████▊  | 1820/2335 [1:55:24<31:55,  3.72s/it] 78%|███████▊  | 1821/2335 [1:55:27<31:34,  3.68s/it]                                                     {'loss': 0.1183, 'grad_norm': 2.247066734334015, 'learning_rate': 1.2233181159261282e-06, 'epoch': 0.78}
 78%|███████▊  | 1821/2335 [1:55:27<31:34,  3.68s/it] 78%|███████▊  | 1822/2335 [1:55:31<31:24,  3.67s/it]                                                     {'loss': 0.063, 'grad_norm': 1.6912311690013284, 'learning_rate': 1.2187749274373744e-06, 'epoch': 0.78}
 78%|███████▊  | 1822/2335 [1:55:31<31:24,  3.67s/it] 78%|███████▊  | 1823/2335 [1:55:35<31:53,  3.74s/it]                                                     {'loss': 0.0853, 'grad_norm': 2.0307382635726063, 'learning_rate': 1.2142390197529508e-06, 'epoch': 0.78}
 78%|███████▊  | 1823/2335 [1:55:35<31:53,  3.74s/it] 78%|███████▊  | 1824/2335 [1:55:39<32:02,  3.76s/it]                                                     {'loss': 0.124, 'grad_norm': 2.0550548651355807, 'learning_rate': 1.2097104016068146e-06, 'epoch': 0.78}
 78%|███████▊  | 1824/2335 [1:55:39<32:02,  3.76s/it] 78%|███████▊  | 1825/2335 [1:55:42<31:54,  3.75s/it]                                                     {'loss': 0.1068, 'grad_norm': 2.0652802972379134, 'learning_rate': 1.2051890817188843e-06, 'epoch': 0.78}
 78%|███████▊  | 1825/2335 [1:55:42<31:54,  3.75s/it] 78%|███████▊  | 1826/2335 [1:55:46<31:48,  3.75s/it]                                                     {'loss': 0.081, 'grad_norm': 1.600910605247112, 'learning_rate': 1.2006750687950302e-06, 'epoch': 0.78}
 78%|███████▊  | 1826/2335 [1:55:46<31:48,  3.75s/it] 78%|███████▊  | 1827/2335 [1:55:50<31:50,  3.76s/it]                                                     {'loss': 0.1153, 'grad_norm': 2.0525618338856466, 'learning_rate': 1.1961683715270478e-06, 'epoch': 0.78}
 78%|███████▊  | 1827/2335 [1:55:50<31:50,  3.76s/it] 78%|███████▊  | 1828/2335 [1:55:53<31:27,  3.72s/it]                                                     {'loss': 0.0906, 'grad_norm': 1.7092545702679034, 'learning_rate': 1.1916689985926494e-06, 'epoch': 0.78}
 78%|███████▊  | 1828/2335 [1:55:53<31:27,  3.72s/it] 78%|███████▊  | 1829/2335 [1:55:57<31:10,  3.70s/it]                                                     {'loss': 0.1142, 'grad_norm': 2.06346770008882, 'learning_rate': 1.187176958655445e-06, 'epoch': 0.78}
 78%|███████▊  | 1829/2335 [1:55:57<31:10,  3.70s/it] 78%|███████▊  | 1830/2335 [1:56:01<31:09,  3.70s/it]                                                     {'loss': 0.1438, 'grad_norm': 2.058522832327674, 'learning_rate': 1.1826922603649221e-06, 'epoch': 0.78}
 78%|███████▊  | 1830/2335 [1:56:01<31:09,  3.70s/it] 78%|███████▊  | 1831/2335 [1:56:05<31:14,  3.72s/it]                                                     {'loss': 0.0979, 'grad_norm': 2.0927470184971213, 'learning_rate': 1.1782149123564352e-06, 'epoch': 0.78}
 78%|███████▊  | 1831/2335 [1:56:05<31:14,  3.72s/it] 78%|███████▊  | 1832/2335 [1:56:08<31:18,  3.73s/it]                                                     {'loss': 0.1113, 'grad_norm': 2.155967013451903, 'learning_rate': 1.1737449232511799e-06, 'epoch': 0.78}
 78%|███████▊  | 1832/2335 [1:56:08<31:18,  3.73s/it] 79%|███████▊  | 1833/2335 [1:56:12<31:05,  3.72s/it]                                                     {'loss': 0.1067, 'grad_norm': 1.9782844425899269, 'learning_rate': 1.1692823016561882e-06, 'epoch': 0.79}
 79%|███████▊  | 1833/2335 [1:56:12<31:05,  3.72s/it] 79%|███████▊  | 1834/2335 [1:56:16<31:06,  3.73s/it]                                                     {'loss': 0.0813, 'grad_norm': 2.0120273473544055, 'learning_rate': 1.1648270561643027e-06, 'epoch': 0.79}
 79%|███████▊  | 1834/2335 [1:56:16<31:06,  3.73s/it] 79%|███████▊  | 1835/2335 [1:56:20<31:13,  3.75s/it]                                                     {'loss': 0.091, 'grad_norm': 2.419479897513306, 'learning_rate': 1.1603791953541654e-06, 'epoch': 0.79}
 79%|███████▊  | 1835/2335 [1:56:20<31:13,  3.75s/it] 79%|███████▊  | 1836/2335 [1:56:23<31:06,  3.74s/it]                                                     {'loss': 0.1026, 'grad_norm': 2.3913353658943035, 'learning_rate': 1.1559387277901958e-06, 'epoch': 0.79}
 79%|███████▊  | 1836/2335 [1:56:23<31:06,  3.74s/it] 79%|███████▊  | 1837/2335 [1:56:27<30:49,  3.71s/it]                                                     {'loss': 0.1008, 'grad_norm': 2.0879558880659577, 'learning_rate': 1.151505662022579e-06, 'epoch': 0.79}
 79%|███████▊  | 1837/2335 [1:56:27<30:49,  3.71s/it] 79%|███████▊  | 1838/2335 [1:56:31<30:56,  3.73s/it]                                                     {'loss': 0.0811, 'grad_norm': 1.8565560279397697, 'learning_rate': 1.1470800065872489e-06, 'epoch': 0.79}
 79%|███████▊  | 1838/2335 [1:56:31<30:56,  3.73s/it] 79%|███████▉  | 1839/2335 [1:56:34<30:56,  3.74s/it]                                                     {'loss': 0.1332, 'grad_norm': 2.64402884528623, 'learning_rate': 1.14266177000587e-06, 'epoch': 0.79}
 79%|███████▉  | 1839/2335 [1:56:34<30:56,  3.74s/it] 79%|███████▉  | 1840/2335 [1:56:38<30:48,  3.73s/it]                                                     {'loss': 0.1011, 'grad_norm': 2.142953592819258, 'learning_rate': 1.1382509607858233e-06, 'epoch': 0.79}
 79%|███████▉  | 1840/2335 [1:56:38<30:48,  3.73s/it] 79%|███████▉  | 1841/2335 [1:56:42<30:35,  3.72s/it]                                                     {'loss': 0.1115, 'grad_norm': 2.0328024460899092, 'learning_rate': 1.1338475874201838e-06, 'epoch': 0.79}
 79%|███████▉  | 1841/2335 [1:56:42<30:35,  3.72s/it] 79%|███████▉  | 1842/2335 [1:56:46<30:31,  3.71s/it]                                                     {'loss': 0.0876, 'grad_norm': 1.7720190521213297, 'learning_rate': 1.1294516583877125e-06, 'epoch': 0.79}
 79%|███████▉  | 1842/2335 [1:56:46<30:31,  3.71s/it] 79%|███████▉  | 1843/2335 [1:56:49<30:23,  3.71s/it]                                                     {'loss': 0.0675, 'grad_norm': 1.8622923440072736, 'learning_rate': 1.1250631821528351e-06, 'epoch': 0.79}
 79%|███████▉  | 1843/2335 [1:56:49<30:23,  3.71s/it] 79%|███████▉  | 1844/2335 [1:56:53<30:25,  3.72s/it]                                                     {'loss': 0.1389, 'grad_norm': 1.88678614948603, 'learning_rate': 1.1206821671656277e-06, 'epoch': 0.79}
 79%|███████▉  | 1844/2335 [1:56:53<30:25,  3.72s/it] 79%|███████▉  | 1845/2335 [1:56:57<30:16,  3.71s/it]                                                     {'loss': 0.0933, 'grad_norm': 2.0096608127950892, 'learning_rate': 1.1163086218617997e-06, 'epoch': 0.79}
 79%|███████▉  | 1845/2335 [1:56:57<30:16,  3.71s/it] 79%|███████▉  | 1846/2335 [1:57:00<29:59,  3.68s/it]                                                     {'loss': 0.0825, 'grad_norm': 1.6611244358760333, 'learning_rate': 1.1119425546626738e-06, 'epoch': 0.79}
 79%|███████▉  | 1846/2335 [1:57:00<29:59,  3.68s/it] 79%|███████▉  | 1847/2335 [1:57:04<30:01,  3.69s/it]                                                     {'loss': 0.1056, 'grad_norm': 2.011919648223488, 'learning_rate': 1.1075839739751782e-06, 'epoch': 0.79}
 79%|███████▉  | 1847/2335 [1:57:04<30:01,  3.69s/it] 79%|███████▉  | 1848/2335 [1:57:08<30:09,  3.72s/it]                                                     {'loss': 0.0882, 'grad_norm': 2.222412999453805, 'learning_rate': 1.1032328881918237e-06, 'epoch': 0.79}
 79%|███████▉  | 1848/2335 [1:57:08<30:09,  3.72s/it] 79%|███████▉  | 1849/2335 [1:57:12<30:37,  3.78s/it]                                                     {'loss': 0.104, 'grad_norm': 2.121801008077988, 'learning_rate': 1.0988893056906912e-06, 'epoch': 0.79}
 79%|███████▉  | 1849/2335 [1:57:12<30:37,  3.78s/it] 79%|███████▉  | 1850/2335 [1:57:15<30:13,  3.74s/it]                                                     {'loss': 0.1229, 'grad_norm': 1.8827937967594641, 'learning_rate': 1.0945532348354104e-06, 'epoch': 0.79}
 79%|███████▉  | 1850/2335 [1:57:15<30:13,  3.74s/it] 79%|███████▉  | 1851/2335 [1:57:19<30:17,  3.76s/it]                                                     {'loss': 0.1118, 'grad_norm': 2.0502986070003533, 'learning_rate': 1.0902246839751497e-06, 'epoch': 0.79}
 79%|███████▉  | 1851/2335 [1:57:19<30:17,  3.76s/it] 79%|███████▉  | 1852/2335 [1:57:23<30:25,  3.78s/it]                                                     {'loss': 0.098, 'grad_norm': 2.069046166847525, 'learning_rate': 1.0859036614445977e-06, 'epoch': 0.79}
 79%|███████▉  | 1852/2335 [1:57:23<30:25,  3.78s/it] 79%|███████▉  | 1853/2335 [1:57:27<30:22,  3.78s/it]                                                     {'loss': 0.1244, 'grad_norm': 2.4765848775075185, 'learning_rate': 1.081590175563947e-06, 'epoch': 0.79}
 79%|███████▉  | 1853/2335 [1:57:27<30:22,  3.78s/it] 79%|███████▉  | 1854/2335 [1:57:30<30:11,  3.77s/it]                                                     {'loss': 0.1039, 'grad_norm': 1.8034344768137773, 'learning_rate': 1.0772842346388784e-06, 'epoch': 0.79}
 79%|███████▉  | 1854/2335 [1:57:30<30:11,  3.77s/it] 79%|███████▉  | 1855/2335 [1:57:34<29:47,  3.72s/it]                                                     {'loss': 0.1074, 'grad_norm': 2.2138144906073167, 'learning_rate': 1.0729858469605426e-06, 'epoch': 0.79}
 79%|███████▉  | 1855/2335 [1:57:34<29:47,  3.72s/it] 79%|███████▉  | 1856/2335 [1:57:38<29:47,  3.73s/it]                                                     {'loss': 0.1464, 'grad_norm': 2.2384560464807555, 'learning_rate': 1.0686950208055486e-06, 'epoch': 0.79}
 79%|███████▉  | 1856/2335 [1:57:38<29:47,  3.73s/it] 80%|███████▉  | 1857/2335 [1:57:42<29:40,  3.72s/it]                                                     {'loss': 0.0965, 'grad_norm': 2.014586629825217, 'learning_rate': 1.0644117644359452e-06, 'epoch': 0.8}
 80%|███████▉  | 1857/2335 [1:57:42<29:40,  3.72s/it] 80%|███████▉  | 1858/2335 [1:57:45<29:36,  3.72s/it]                                                     {'loss': 0.0865, 'grad_norm': 2.01239910302297, 'learning_rate': 1.060136086099206e-06, 'epoch': 0.8}
 80%|███████▉  | 1858/2335 [1:57:45<29:36,  3.72s/it] 80%|███████▉  | 1859/2335 [1:57:49<29:29,  3.72s/it]                                                     {'loss': 0.1125, 'grad_norm': 2.5265962293711848, 'learning_rate': 1.0558679940282135e-06, 'epoch': 0.8}
 80%|███████▉  | 1859/2335 [1:57:49<29:29,  3.72s/it] 80%|███████▉  | 1860/2335 [1:57:53<29:30,  3.73s/it]                                                     {'loss': 0.1162, 'grad_norm': 2.0499483468647277, 'learning_rate': 1.05160749644124e-06, 'epoch': 0.8}
 80%|███████▉  | 1860/2335 [1:57:53<29:30,  3.73s/it] 80%|███████▉  | 1861/2335 [1:57:56<29:26,  3.73s/it]                                                     {'loss': 0.1015, 'grad_norm': 1.9762013277461732, 'learning_rate': 1.0473546015419345e-06, 'epoch': 0.8}
 80%|███████▉  | 1861/2335 [1:57:56<29:26,  3.73s/it] 80%|███████▉  | 1862/2335 [1:58:00<29:23,  3.73s/it]                                                     {'loss': 0.0543, 'grad_norm': 1.5696627595665038, 'learning_rate': 1.0431093175193102e-06, 'epoch': 0.8}
 80%|███████▉  | 1862/2335 [1:58:00<29:23,  3.73s/it] 80%|███████▉  | 1863/2335 [1:58:04<29:07,  3.70s/it]                                                     {'loss': 0.1007, 'grad_norm': 1.9689647662038137, 'learning_rate': 1.038871652547724e-06, 'epoch': 0.8}
 80%|███████▉  | 1863/2335 [1:58:04<29:07,  3.70s/it] 80%|███████▉  | 1864/2335 [1:58:08<29:03,  3.70s/it]                                                     {'loss': 0.0882, 'grad_norm': 1.8092806530889731, 'learning_rate': 1.034641614786862e-06, 'epoch': 0.8}
 80%|███████▉  | 1864/2335 [1:58:08<29:03,  3.70s/it] 80%|███████▉  | 1865/2335 [1:58:11<28:54,  3.69s/it]                                                     {'loss': 0.0865, 'grad_norm': 2.115704368463057, 'learning_rate': 1.030419212381723e-06, 'epoch': 0.8}
 80%|███████▉  | 1865/2335 [1:58:11<28:54,  3.69s/it] 80%|███████▉  | 1866/2335 [1:58:15<29:23,  3.76s/it]                                                     {'loss': 0.1348, 'grad_norm': 1.9790739607925858, 'learning_rate': 1.0262044534626053e-06, 'epoch': 0.8}
 80%|███████▉  | 1866/2335 [1:58:15<29:23,  3.76s/it] 80%|███████▉  | 1867/2335 [1:58:19<29:06,  3.73s/it]                                                     {'loss': 0.1011, 'grad_norm': 1.9095083834545175, 'learning_rate': 1.021997346145089e-06, 'epoch': 0.8}
 80%|███████▉  | 1867/2335 [1:58:19<29:06,  3.73s/it] 80%|████████  | 1868/2335 [1:58:22<28:57,  3.72s/it]                                                     {'loss': 0.0995, 'grad_norm': 2.1820242501957243, 'learning_rate': 1.0177978985300203e-06, 'epoch': 0.8}
 80%|████████  | 1868/2335 [1:58:22<28:57,  3.72s/it] 80%|████████  | 1869/2335 [1:58:26<29:02,  3.74s/it]                                                     {'loss': 0.1277, 'grad_norm': 2.023002449095124, 'learning_rate': 1.0136061187034995e-06, 'epoch': 0.8}
 80%|████████  | 1869/2335 [1:58:26<29:02,  3.74s/it] 80%|████████  | 1870/2335 [1:58:30<29:15,  3.77s/it]                                                     {'loss': 0.1048, 'grad_norm': 1.9219686882657994, 'learning_rate': 1.009422014736857e-06, 'epoch': 0.8}
 80%|████████  | 1870/2335 [1:58:30<29:15,  3.77s/it] 80%|████████  | 1871/2335 [1:58:34<28:53,  3.74s/it]                                                     {'loss': 0.0958, 'grad_norm': 2.2544770963846847, 'learning_rate': 1.0052455946866485e-06, 'epoch': 0.8}
 80%|████████  | 1871/2335 [1:58:34<28:53,  3.74s/it] 80%|████████  | 1872/2335 [1:58:38<29:04,  3.77s/it]                                                     {'loss': 0.0937, 'grad_norm': 1.8964107790958145, 'learning_rate': 1.0010768665946309e-06, 'epoch': 0.8}
 80%|████████  | 1872/2335 [1:58:38<29:04,  3.77s/it] 80%|████████  | 1873/2335 [1:58:41<29:08,  3.78s/it]                                                     {'loss': 0.0996, 'grad_norm': 1.8450646982543988, 'learning_rate': 9.969158384877514e-07, 'epoch': 0.8}
 80%|████████  | 1873/2335 [1:58:41<29:08,  3.78s/it] 80%|████████  | 1874/2335 [1:58:45<28:44,  3.74s/it]                                                     {'loss': 0.0656, 'grad_norm': 1.736468273207795, 'learning_rate': 9.927625183781331e-07, 'epoch': 0.8}
 80%|████████  | 1874/2335 [1:58:45<28:44,  3.74s/it] 80%|████████  | 1875/2335 [1:58:49<28:31,  3.72s/it]                                                     {'loss': 0.0922, 'grad_norm': 1.707548209247148, 'learning_rate': 9.886169142630502e-07, 'epoch': 0.8}
 80%|████████  | 1875/2335 [1:58:49<28:31,  3.72s/it] 80%|████████  | 1876/2335 [1:58:52<28:14,  3.69s/it]                                                     {'loss': 0.1026, 'grad_norm': 2.0101444493792853, 'learning_rate': 9.844790341249276e-07, 'epoch': 0.8}
 80%|████████  | 1876/2335 [1:58:52<28:14,  3.69s/it] 80%|████████  | 1877/2335 [1:58:56<28:23,  3.72s/it]                                                     {'loss': 0.0639, 'grad_norm': 1.6293606099279072, 'learning_rate': 9.80348885931313e-07, 'epoch': 0.8}
 80%|████████  | 1877/2335 [1:58:56<28:23,  3.72s/it] 80%|████████  | 1878/2335 [1:59:00<28:10,  3.70s/it]                                                     {'loss': 0.0915, 'grad_norm': 2.1737251116168554, 'learning_rate': 9.76226477634869e-07, 'epoch': 0.8}
 80%|████████  | 1878/2335 [1:59:00<28:10,  3.70s/it] 80%|████████  | 1879/2335 [1:59:04<28:14,  3.72s/it]                                                     {'loss': 0.0778, 'grad_norm': 1.7504081085656953, 'learning_rate': 9.721118171733501e-07, 'epoch': 0.8}
 80%|████████  | 1879/2335 [1:59:04<28:14,  3.72s/it] 81%|████████  | 1880/2335 [1:59:07<28:11,  3.72s/it]                                                     {'loss': 0.1117, 'grad_norm': 1.8937427682243944, 'learning_rate': 9.680049124695973e-07, 'epoch': 0.81}
 81%|████████  | 1880/2335 [1:59:07<28:11,  3.72s/it] 81%|████████  | 1881/2335 [1:59:11<28:02,  3.71s/it]                                                     {'loss': 0.1098, 'grad_norm': 2.08616472868548, 'learning_rate': 9.63905771431516e-07, 'epoch': 0.81}
 81%|████████  | 1881/2335 [1:59:11<28:02,  3.71s/it] 81%|████████  | 1882/2335 [1:59:15<28:12,  3.74s/it]                                                     {'loss': 0.119, 'grad_norm': 2.5461324119276614, 'learning_rate': 9.598144019520612e-07, 'epoch': 0.81}
 81%|████████  | 1882/2335 [1:59:15<28:12,  3.74s/it] 81%|████████  | 1883/2335 [1:59:18<28:06,  3.73s/it]                                                     {'loss': 0.0996, 'grad_norm': 2.048394642808668, 'learning_rate': 9.557308119092273e-07, 'epoch': 0.81}
 81%|████████  | 1883/2335 [1:59:18<28:06,  3.73s/it] 81%|████████  | 1884/2335 [1:59:22<27:52,  3.71s/it]                                                     {'loss': 0.1008, 'grad_norm': 1.836268000691859, 'learning_rate': 9.516550091660237e-07, 'epoch': 0.81}
 81%|████████  | 1884/2335 [1:59:22<27:52,  3.71s/it] 81%|████████  | 1885/2335 [1:59:26<27:43,  3.70s/it]                                                     {'loss': 0.0846, 'grad_norm': 1.9857820910974286, 'learning_rate': 9.475870015704702e-07, 'epoch': 0.81}
 81%|████████  | 1885/2335 [1:59:26<27:43,  3.70s/it] 81%|████████  | 1886/2335 [1:59:30<27:53,  3.73s/it]                                                     {'loss': 0.0899, 'grad_norm': 1.816660437977218, 'learning_rate': 9.435267969555745e-07, 'epoch': 0.81}
 81%|████████  | 1886/2335 [1:59:30<27:53,  3.73s/it] 81%|████████  | 1887/2335 [1:59:33<27:53,  3.73s/it]                                                     {'loss': 0.1119, 'grad_norm': 2.4874888547965277, 'learning_rate': 9.394744031393199e-07, 'epoch': 0.81}
 81%|████████  | 1887/2335 [1:59:33<27:53,  3.73s/it] 81%|████████  | 1888/2335 [1:59:37<28:02,  3.76s/it]                                                     {'loss': 0.1734, 'grad_norm': 2.1662911855228493, 'learning_rate': 9.35429827924652e-07, 'epoch': 0.81}
 81%|████████  | 1888/2335 [1:59:37<28:02,  3.76s/it] 81%|████████  | 1889/2335 [1:59:41<28:00,  3.77s/it]                                                     {'loss': 0.0889, 'grad_norm': 2.257394738013523, 'learning_rate': 9.313930790994574e-07, 'epoch': 0.81}
 81%|████████  | 1889/2335 [1:59:41<28:00,  3.77s/it] 81%|████████  | 1890/2335 [1:59:45<27:51,  3.76s/it]                                                     {'loss': 0.0746, 'grad_norm': 1.9219203012722352, 'learning_rate': 9.273641644365555e-07, 'epoch': 0.81}
 81%|████████  | 1890/2335 [1:59:45<27:51,  3.76s/it] 81%|████████  | 1891/2335 [1:59:48<27:24,  3.70s/it]                                                     {'loss': 0.0746, 'grad_norm': 2.215101139707443, 'learning_rate': 9.233430916936809e-07, 'epoch': 0.81}
 81%|████████  | 1891/2335 [1:59:48<27:24,  3.70s/it] 81%|████████  | 1892/2335 [1:59:52<27:18,  3.70s/it]                                                     {'loss': 0.1325, 'grad_norm': 1.9670051245059956, 'learning_rate': 9.193298686134699e-07, 'epoch': 0.81}
 81%|████████  | 1892/2335 [1:59:52<27:18,  3.70s/it] 81%|████████  | 1893/2335 [1:59:56<27:12,  3.69s/it]                                                     {'loss': 0.115, 'grad_norm': 2.0626924580548804, 'learning_rate': 9.153245029234392e-07, 'epoch': 0.81}
 81%|████████  | 1893/2335 [1:59:56<27:12,  3.69s/it] 81%|████████  | 1894/2335 [1:59:59<27:09,  3.69s/it]                                                     {'loss': 0.08, 'grad_norm': 1.8966997723076204, 'learning_rate': 9.113270023359827e-07, 'epoch': 0.81}
 81%|████████  | 1894/2335 [1:59:59<27:09,  3.69s/it] 81%|████████  | 1895/2335 [2:00:03<27:07,  3.70s/it]                                                     {'loss': 0.0843, 'grad_norm': 1.9641484591927383, 'learning_rate': 9.073373745483427e-07, 'epoch': 0.81}
 81%|████████  | 1895/2335 [2:00:03<27:07,  3.70s/it] 81%|████████  | 1896/2335 [2:00:07<27:08,  3.71s/it]                                                     {'loss': 0.1017, 'grad_norm': 1.99412673529411, 'learning_rate': 9.033556272426075e-07, 'epoch': 0.81}
 81%|████████  | 1896/2335 [2:00:07<27:08,  3.71s/it] 81%|████████  | 1897/2335 [2:00:11<27:16,  3.74s/it]                                                     {'loss': 0.1135, 'grad_norm': 2.171509091172803, 'learning_rate': 8.993817680856909e-07, 'epoch': 0.81}
 81%|████████  | 1897/2335 [2:00:11<27:16,  3.74s/it] 81%|████████▏ | 1898/2335 [2:00:14<27:05,  3.72s/it]                                                     {'loss': 0.079, 'grad_norm': 1.8978924822469174, 'learning_rate': 8.954158047293172e-07, 'epoch': 0.81}
 81%|████████▏ | 1898/2335 [2:00:14<27:05,  3.72s/it] 81%|████████▏ | 1899/2335 [2:00:18<27:02,  3.72s/it]                                                     {'loss': 0.1179, 'grad_norm': 2.019341829955686, 'learning_rate': 8.914577448100043e-07, 'epoch': 0.81}
 81%|████████▏ | 1899/2335 [2:00:18<27:02,  3.72s/it] 81%|████████▏ | 1900/2335 [2:00:22<26:54,  3.71s/it]                                                     {'loss': 0.0993, 'grad_norm': 2.1183371844494703, 'learning_rate': 8.87507595949057e-07, 'epoch': 0.81}
 81%|████████▏ | 1900/2335 [2:00:22<26:54,  3.71s/it] 81%|████████▏ | 1901/2335 [2:00:25<26:37,  3.68s/it]                                                     {'loss': 0.0807, 'grad_norm': 2.123017959132474, 'learning_rate': 8.835653657525439e-07, 'epoch': 0.81}
 81%|████████▏ | 1901/2335 [2:00:25<26:37,  3.68s/it] 81%|████████▏ | 1902/2335 [2:00:29<26:36,  3.69s/it]                                                     {'loss': 0.1687, 'grad_norm': 2.846661211749426, 'learning_rate': 8.79631061811288e-07, 'epoch': 0.81}
 81%|████████▏ | 1902/2335 [2:00:29<26:36,  3.69s/it] 81%|████████▏ | 1903/2335 [2:00:33<26:28,  3.68s/it]                                                     {'loss': 0.0728, 'grad_norm': 1.9749421709164268, 'learning_rate': 8.757046917008494e-07, 'epoch': 0.81}
 81%|████████▏ | 1903/2335 [2:00:33<26:28,  3.68s/it] 82%|████████▏ | 1904/2335 [2:00:36<26:15,  3.66s/it]                                                     {'loss': 0.0902, 'grad_norm': 2.0437323188817316, 'learning_rate': 8.717862629815099e-07, 'epoch': 0.82}
 82%|████████▏ | 1904/2335 [2:00:36<26:15,  3.66s/it] 82%|████████▏ | 1905/2335 [2:00:40<26:08,  3.65s/it]                                                     {'loss': 0.1065, 'grad_norm': 2.1825165349040065, 'learning_rate': 8.678757831982615e-07, 'epoch': 0.82}
 82%|████████▏ | 1905/2335 [2:00:40<26:08,  3.65s/it] 82%|████████▏ | 1906/2335 [2:00:44<26:08,  3.66s/it]                                                     {'loss': 0.104, 'grad_norm': 1.9109502566238636, 'learning_rate': 8.639732598807915e-07, 'epoch': 0.82}
 82%|████████▏ | 1906/2335 [2:00:44<26:08,  3.66s/it] 82%|████████▏ | 1907/2335 [2:00:47<26:07,  3.66s/it]                                                     {'loss': 0.0814, 'grad_norm': 2.193842720755467, 'learning_rate': 8.600787005434663e-07, 'epoch': 0.82}
 82%|████████▏ | 1907/2335 [2:00:47<26:07,  3.66s/it] 82%|████████▏ | 1908/2335 [2:00:51<26:16,  3.69s/it]                                                     {'loss': 0.1119, 'grad_norm': 2.08508527032698, 'learning_rate': 8.561921126853151e-07, 'epoch': 0.82}
 82%|████████▏ | 1908/2335 [2:00:51<26:16,  3.69s/it] 82%|████████▏ | 1909/2335 [2:00:55<26:17,  3.70s/it]                                                     {'loss': 0.0759, 'grad_norm': 1.8992076815816814, 'learning_rate': 8.523135037900205e-07, 'epoch': 0.82}
 82%|████████▏ | 1909/2335 [2:00:55<26:17,  3.70s/it] 82%|████████▏ | 1910/2335 [2:00:59<26:30,  3.74s/it]                                                     {'loss': 0.0926, 'grad_norm': 2.4234358112189116, 'learning_rate': 8.48442881325901e-07, 'epoch': 0.82}
 82%|████████▏ | 1910/2335 [2:00:59<26:30,  3.74s/it] 82%|████████▏ | 1911/2335 [2:01:02<26:16,  3.72s/it]                                                     {'loss': 0.1328, 'grad_norm': 2.114700254572066, 'learning_rate': 8.445802527458969e-07, 'epoch': 0.82}
 82%|████████▏ | 1911/2335 [2:01:02<26:16,  3.72s/it] 82%|████████▏ | 1912/2335 [2:01:06<26:08,  3.71s/it]                                                     {'loss': 0.1084, 'grad_norm': 1.694382184487371, 'learning_rate': 8.407256254875573e-07, 'epoch': 0.82}
 82%|████████▏ | 1912/2335 [2:01:06<26:08,  3.71s/it] 82%|████████▏ | 1913/2335 [2:01:10<25:54,  3.68s/it]                                                     {'loss': 0.1712, 'grad_norm': 2.219486414199205, 'learning_rate': 8.368790069730221e-07, 'epoch': 0.82}
 82%|████████▏ | 1913/2335 [2:01:10<25:54,  3.68s/it] 82%|████████▏ | 1914/2335 [2:01:13<25:41,  3.66s/it]                                                     {'loss': 0.0903, 'grad_norm': 1.7275442144819615, 'learning_rate': 8.330404046090112e-07, 'epoch': 0.82}
 82%|████████▏ | 1914/2335 [2:01:13<25:41,  3.66s/it] 82%|████████▏ | 1915/2335 [2:01:17<25:34,  3.65s/it]                                                     {'loss': 0.1037, 'grad_norm': 1.9721616823471808, 'learning_rate': 8.292098257868109e-07, 'epoch': 0.82}
 82%|████████▏ | 1915/2335 [2:01:17<25:34,  3.65s/it] 82%|████████▏ | 1916/2335 [2:01:20<25:38,  3.67s/it]                                                     {'loss': 0.1021, 'grad_norm': 1.9252496561882384, 'learning_rate': 8.253872778822564e-07, 'epoch': 0.82}
 82%|████████▏ | 1916/2335 [2:01:20<25:38,  3.67s/it] 82%|████████▏ | 1917/2335 [2:01:24<25:29,  3.66s/it]                                                     {'loss': 0.1027, 'grad_norm': 1.9723532501893495, 'learning_rate': 8.215727682557212e-07, 'epoch': 0.82}
 82%|████████▏ | 1917/2335 [2:01:24<25:29,  3.66s/it] 82%|████████▏ | 1918/2335 [2:01:28<25:25,  3.66s/it]                                                     {'loss': 0.0841, 'grad_norm': 2.282480242384323, 'learning_rate': 8.177663042520972e-07, 'epoch': 0.82}
 82%|████████▏ | 1918/2335 [2:01:28<25:25,  3.66s/it] 82%|████████▏ | 1919/2335 [2:01:31<25:19,  3.65s/it]                                                     {'loss': 0.146, 'grad_norm': 4.298702946299436, 'learning_rate': 8.139678932007877e-07, 'epoch': 0.82}
 82%|████████▏ | 1919/2335 [2:01:31<25:19,  3.65s/it] 82%|████████▏ | 1920/2335 [2:01:35<25:21,  3.67s/it]                                                     {'loss': 0.1353, 'grad_norm': 2.19640029046654, 'learning_rate': 8.101775424156888e-07, 'epoch': 0.82}
 82%|████████▏ | 1920/2335 [2:01:35<25:21,  3.67s/it] 82%|████████▏ | 1921/2335 [2:01:39<25:21,  3.68s/it]                                                     {'loss': 0.1089, 'grad_norm': 1.949703746099148, 'learning_rate': 8.063952591951773e-07, 'epoch': 0.82}
 82%|████████▏ | 1921/2335 [2:01:39<25:21,  3.68s/it] 82%|████████▏ | 1922/2335 [2:01:42<25:12,  3.66s/it]                                                     {'loss': 0.0766, 'grad_norm': 2.129973325828584, 'learning_rate': 8.026210508220938e-07, 'epoch': 0.82}
 82%|████████▏ | 1922/2335 [2:01:42<25:12,  3.66s/it] 82%|████████▏ | 1923/2335 [2:01:46<25:31,  3.72s/it]                                                     {'loss': 0.048, 'grad_norm': 1.7825459111583906, 'learning_rate': 7.988549245637322e-07, 'epoch': 0.82}
 82%|████████▏ | 1923/2335 [2:01:46<25:31,  3.72s/it] 82%|████████▏ | 1924/2335 [2:01:50<25:40,  3.75s/it]                                                     {'loss': 0.1362, 'grad_norm': 2.1920427625434007, 'learning_rate': 7.95096887671824e-07, 'epoch': 0.82}
 82%|████████▏ | 1924/2335 [2:01:50<25:40,  3.75s/it] 82%|████████▏ | 1925/2335 [2:01:54<25:36,  3.75s/it]                                                     {'loss': 0.0971, 'grad_norm': 1.6327350358753876, 'learning_rate': 7.913469473825247e-07, 'epoch': 0.82}
 82%|████████▏ | 1925/2335 [2:01:54<25:36,  3.75s/it] 82%|████████▏ | 1926/2335 [2:01:58<25:34,  3.75s/it]                                                     {'loss': 0.0851, 'grad_norm': 1.7117946692752706, 'learning_rate': 7.876051109163995e-07, 'epoch': 0.82}
 82%|████████▏ | 1926/2335 [2:01:58<25:34,  3.75s/it] 83%|████████▎ | 1927/2335 [2:02:01<25:35,  3.76s/it]                                                     {'loss': 0.0605, 'grad_norm': 1.684965924202361, 'learning_rate': 7.83871385478408e-07, 'epoch': 0.83}
 83%|████████▎ | 1927/2335 [2:02:01<25:35,  3.76s/it] 83%|████████▎ | 1928/2335 [2:02:05<25:26,  3.75s/it]                                                     {'loss': 0.0803, 'grad_norm': 1.7709900781103327, 'learning_rate': 7.801457782578947e-07, 'epoch': 0.83}
 83%|████████▎ | 1928/2335 [2:02:05<25:26,  3.75s/it] 83%|████████▎ | 1929/2335 [2:02:09<25:11,  3.72s/it]                                                     {'loss': 0.1069, 'grad_norm': 2.127378516918009, 'learning_rate': 7.764282964285697e-07, 'epoch': 0.83}
 83%|████████▎ | 1929/2335 [2:02:09<25:11,  3.72s/it] 83%|████████▎ | 1930/2335 [2:02:12<25:00,  3.71s/it]                                                     {'loss': 0.1016, 'grad_norm': 2.2790486145009146, 'learning_rate': 7.727189471485013e-07, 'epoch': 0.83}
 83%|████████▎ | 1930/2335 [2:02:12<25:00,  3.71s/it] 83%|████████▎ | 1931/2335 [2:02:16<25:00,  3.71s/it]                                                     {'loss': 0.1414, 'grad_norm': 1.835719352009276, 'learning_rate': 7.690177375600926e-07, 'epoch': 0.83}
 83%|████████▎ | 1931/2335 [2:02:16<25:00,  3.71s/it] 83%|████████▎ | 1932/2335 [2:02:20<24:51,  3.70s/it]                                                     {'loss': 0.1696, 'grad_norm': 2.1570530487403983, 'learning_rate': 7.653246747900794e-07, 'epoch': 0.83}
 83%|████████▎ | 1932/2335 [2:02:20<24:51,  3.70s/it] 83%|████████▎ | 1933/2335 [2:02:24<24:48,  3.70s/it]                                                     {'loss': 0.0954, 'grad_norm': 2.187980518601719, 'learning_rate': 7.616397659495068e-07, 'epoch': 0.83}
 83%|████████▎ | 1933/2335 [2:02:24<24:48,  3.70s/it] 83%|████████▎ | 1934/2335 [2:02:27<24:38,  3.69s/it]                                                     {'loss': 0.1007, 'grad_norm': 2.0100988038246874, 'learning_rate': 7.579630181337205e-07, 'epoch': 0.83}
 83%|████████▎ | 1934/2335 [2:02:27<24:38,  3.69s/it] 83%|████████▎ | 1935/2335 [2:02:31<24:33,  3.68s/it]                                                     {'loss': 0.0898, 'grad_norm': 2.2211207432922264, 'learning_rate': 7.542944384223539e-07, 'epoch': 0.83}
 83%|████████▎ | 1935/2335 [2:02:31<24:33,  3.68s/it] 83%|████████▎ | 1936/2335 [2:02:35<24:44,  3.72s/it]                                                     {'loss': 0.1285, 'grad_norm': 2.212920810754019, 'learning_rate': 7.506340338793111e-07, 'epoch': 0.83}
 83%|████████▎ | 1936/2335 [2:02:35<24:44,  3.72s/it] 83%|████████▎ | 1937/2335 [2:02:38<24:46,  3.74s/it]                                                     {'loss': 0.1121, 'grad_norm': 1.7723207851568428, 'learning_rate': 7.469818115527527e-07, 'epoch': 0.83}
 83%|████████▎ | 1937/2335 [2:02:38<24:46,  3.74s/it] 83%|████████▎ | 1938/2335 [2:02:42<24:36,  3.72s/it]                                                     {'loss': 0.1425, 'grad_norm': 2.034060601007009, 'learning_rate': 7.433377784750878e-07, 'epoch': 0.83}
 83%|████████▎ | 1938/2335 [2:02:42<24:36,  3.72s/it] 83%|████████▎ | 1939/2335 [2:02:46<24:27,  3.71s/it]                                                     {'loss': 0.0857, 'grad_norm': 1.5209190464795752, 'learning_rate': 7.397019416629553e-07, 'epoch': 0.83}
 83%|████████▎ | 1939/2335 [2:02:46<24:27,  3.71s/it] 83%|████████▎ | 1940/2335 [2:02:49<24:19,  3.70s/it]                                                     {'loss': 0.1242, 'grad_norm': 2.5199025788418434, 'learning_rate': 7.360743081172122e-07, 'epoch': 0.83}
 83%|████████▎ | 1940/2335 [2:02:49<24:19,  3.70s/it] 83%|████████▎ | 1941/2335 [2:02:53<24:13,  3.69s/it]                                                     {'loss': 0.0986, 'grad_norm': 1.966030374764833, 'learning_rate': 7.324548848229213e-07, 'epoch': 0.83}
 83%|████████▎ | 1941/2335 [2:02:53<24:13,  3.69s/it] 83%|████████▎ | 1942/2335 [2:02:57<24:11,  3.69s/it]                                                     {'loss': 0.0669, 'grad_norm': 1.7865225364012225, 'learning_rate': 7.28843678749333e-07, 'epoch': 0.83}
 83%|████████▎ | 1942/2335 [2:02:57<24:11,  3.69s/it] 83%|████████▎ | 1943/2335 [2:03:01<24:19,  3.72s/it]                                                     {'loss': 0.1068, 'grad_norm': 2.0289644584903117, 'learning_rate': 7.252406968498788e-07, 'epoch': 0.83}
 83%|████████▎ | 1943/2335 [2:03:01<24:19,  3.72s/it] 83%|████████▎ | 1944/2335 [2:03:04<23:56,  3.67s/it]                                                     {'loss': 0.0995, 'grad_norm': 1.939397957108772, 'learning_rate': 7.216459460621528e-07, 'epoch': 0.83}
 83%|████████▎ | 1944/2335 [2:03:04<23:56,  3.67s/it] 83%|████████▎ | 1945/2335 [2:03:08<23:54,  3.68s/it]                                                     {'loss': 0.1398, 'grad_norm': 2.287472829544063, 'learning_rate': 7.180594333079005e-07, 'epoch': 0.83}
 83%|████████▎ | 1945/2335 [2:03:08<23:54,  3.68s/it] 83%|████████▎ | 1946/2335 [2:03:12<23:53,  3.69s/it]                                                     {'loss': 0.1153, 'grad_norm': 1.8379209275514834, 'learning_rate': 7.144811654930067e-07, 'epoch': 0.83}
 83%|████████▎ | 1946/2335 [2:03:12<23:53,  3.69s/it] 83%|████████▎ | 1947/2335 [2:03:15<23:56,  3.70s/it]                                                     {'loss': 0.0983, 'grad_norm': 2.464208763412115, 'learning_rate': 7.10911149507475e-07, 'epoch': 0.83}
 83%|████████▎ | 1947/2335 [2:03:15<23:56,  3.70s/it] 83%|████████▎ | 1948/2335 [2:03:19<23:46,  3.69s/it]                                                     {'loss': 0.1058, 'grad_norm': 2.0272951387226255, 'learning_rate': 7.073493922254254e-07, 'epoch': 0.83}
 83%|████████▎ | 1948/2335 [2:03:19<23:46,  3.69s/it] 83%|████████▎ | 1949/2335 [2:03:23<23:44,  3.69s/it]                                                     {'loss': 0.1143, 'grad_norm': 2.06829398179105, 'learning_rate': 7.037959005050743e-07, 'epoch': 0.83}
 83%|████████▎ | 1949/2335 [2:03:23<23:44,  3.69s/it] 84%|████████▎ | 1950/2335 [2:03:26<23:34,  3.68s/it]                                                     {'loss': 0.0973, 'grad_norm': 1.946880833708518, 'learning_rate': 7.002506811887222e-07, 'epoch': 0.84}
 84%|████████▎ | 1950/2335 [2:03:26<23:34,  3.68s/it] 84%|████████▎ | 1951/2335 [2:03:30<23:49,  3.72s/it]                                                     {'loss': 0.0851, 'grad_norm': 1.9748205355409012, 'learning_rate': 6.967137411027392e-07, 'epoch': 0.84}
 84%|████████▎ | 1951/2335 [2:03:30<23:49,  3.72s/it] 84%|████████▎ | 1952/2335 [2:03:34<23:33,  3.69s/it]                                                     {'loss': 0.0894, 'grad_norm': 2.083871104740711, 'learning_rate': 6.931850870575563e-07, 'epoch': 0.84}
 84%|████████▎ | 1952/2335 [2:03:34<23:33,  3.69s/it] 84%|████████▎ | 1953/2335 [2:03:37<23:30,  3.69s/it]                                                     {'loss': 0.0721, 'grad_norm': 1.9763734237843116, 'learning_rate': 6.896647258476485e-07, 'epoch': 0.84}
 84%|████████▎ | 1953/2335 [2:03:37<23:30,  3.69s/it] 84%|████████▎ | 1954/2335 [2:03:41<23:43,  3.74s/it]                                                     {'loss': 0.1082, 'grad_norm': 1.832221330425259, 'learning_rate': 6.861526642515232e-07, 'epoch': 0.84}
 84%|████████▎ | 1954/2335 [2:03:41<23:43,  3.74s/it] 84%|████████▎ | 1955/2335 [2:03:45<23:29,  3.71s/it]                                                     {'loss': 0.1102, 'grad_norm': 2.2860739213255097, 'learning_rate': 6.826489090317073e-07, 'epoch': 0.84}
 84%|████████▎ | 1955/2335 [2:03:45<23:29,  3.71s/it] 84%|████████▍ | 1956/2335 [2:03:49<23:21,  3.70s/it]                                                     {'loss': 0.126, 'grad_norm': 1.9830749656988804, 'learning_rate': 6.791534669347311e-07, 'epoch': 0.84}
 84%|████████▍ | 1956/2335 [2:03:49<23:21,  3.70s/it] 84%|████████▍ | 1957/2335 [2:03:52<23:17,  3.70s/it]                                                     {'loss': 0.0873, 'grad_norm': 2.061630391200355, 'learning_rate': 6.7566634469112e-07, 'epoch': 0.84}
 84%|████████▍ | 1957/2335 [2:03:52<23:17,  3.70s/it] 84%|████████▍ | 1958/2335 [2:03:56<23:05,  3.68s/it]                                                     {'loss': 0.1282, 'grad_norm': 1.7558476540711567, 'learning_rate': 6.721875490153795e-07, 'epoch': 0.84}
 84%|████████▍ | 1958/2335 [2:03:56<23:05,  3.68s/it] 84%|████████▍ | 1959/2335 [2:04:00<22:57,  3.66s/it]                                                     {'loss': 0.0786, 'grad_norm': 1.8241831622850095, 'learning_rate': 6.687170866059822e-07, 'epoch': 0.84}
 84%|████████▍ | 1959/2335 [2:04:00<22:57,  3.66s/it] 84%|████████▍ | 1960/2335 [2:04:03<22:53,  3.66s/it]                                                     {'loss': 0.0975, 'grad_norm': 1.8502615044983146, 'learning_rate': 6.652549641453543e-07, 'epoch': 0.84}
 84%|████████▍ | 1960/2335 [2:04:03<22:53,  3.66s/it] 84%|████████▍ | 1961/2335 [2:04:07<22:49,  3.66s/it]                                                     {'loss': 0.1204, 'grad_norm': 2.2244165047576954, 'learning_rate': 6.618011882998621e-07, 'epoch': 0.84}
 84%|████████▍ | 1961/2335 [2:04:07<22:49,  3.66s/it] 84%|████████▍ | 1962/2335 [2:04:11<22:37,  3.64s/it]                                                     {'loss': 0.098, 'grad_norm': 2.548223632354938, 'learning_rate': 6.583557657198025e-07, 'epoch': 0.84}
 84%|████████▍ | 1962/2335 [2:04:11<22:37,  3.64s/it] 84%|████████▍ | 1963/2335 [2:04:14<22:41,  3.66s/it]                                                     {'loss': 0.096, 'grad_norm': 2.026271114516728, 'learning_rate': 6.549187030393872e-07, 'epoch': 0.84}
 84%|████████▍ | 1963/2335 [2:04:14<22:41,  3.66s/it] 84%|████████▍ | 1964/2335 [2:04:18<22:38,  3.66s/it]                                                     {'loss': 0.0666, 'grad_norm': 1.7206676006564678, 'learning_rate': 6.514900068767316e-07, 'epoch': 0.84}
 84%|████████▍ | 1964/2335 [2:04:18<22:38,  3.66s/it] 84%|████████▍ | 1965/2335 [2:04:22<22:50,  3.70s/it]                                                     {'loss': 0.1172, 'grad_norm': 1.9822799608876212, 'learning_rate': 6.480696838338396e-07, 'epoch': 0.84}
 84%|████████▍ | 1965/2335 [2:04:22<22:50,  3.70s/it] 84%|████████▍ | 1966/2335 [2:04:25<22:58,  3.74s/it]                                                     {'loss': 0.0752, 'grad_norm': 1.7923469214608037, 'learning_rate': 6.446577404965926e-07, 'epoch': 0.84}
 84%|████████▍ | 1966/2335 [2:04:25<22:58,  3.74s/it] 84%|████████▍ | 1967/2335 [2:04:29<22:57,  3.74s/it]                                                     {'loss': 0.0721, 'grad_norm': 1.8891195203991555, 'learning_rate': 6.41254183434738e-07, 'epoch': 0.84}
 84%|████████▍ | 1967/2335 [2:04:29<22:57,  3.74s/it] 84%|████████▍ | 1968/2335 [2:04:33<22:54,  3.74s/it]                                                     {'loss': 0.0902, 'grad_norm': 1.7772833224716837, 'learning_rate': 6.378590192018752e-07, 'epoch': 0.84}
 84%|████████▍ | 1968/2335 [2:04:33<22:54,  3.74s/it] 84%|████████▍ | 1969/2335 [2:04:37<22:42,  3.72s/it]                                                     {'loss': 0.0928, 'grad_norm': 1.877016430812966, 'learning_rate': 6.344722543354426e-07, 'epoch': 0.84}
 84%|████████▍ | 1969/2335 [2:04:37<22:42,  3.72s/it] 84%|████████▍ | 1970/2335 [2:04:40<22:34,  3.71s/it]                                                     {'loss': 0.0787, 'grad_norm': 2.0838886627205424, 'learning_rate': 6.310938953567069e-07, 'epoch': 0.84}
 84%|████████▍ | 1970/2335 [2:04:40<22:34,  3.71s/it] 84%|████████▍ | 1971/2335 [2:04:44<22:29,  3.71s/it]                                                     {'loss': 0.1143, 'grad_norm': 1.6997765105488383, 'learning_rate': 6.277239487707453e-07, 'epoch': 0.84}
 84%|████████▍ | 1971/2335 [2:04:44<22:29,  3.71s/it] 84%|████████▍ | 1972/2335 [2:04:48<22:21,  3.69s/it]                                                     {'loss': 0.1143, 'grad_norm': 1.937396099546873, 'learning_rate': 6.243624210664406e-07, 'epoch': 0.84}
 84%|████████▍ | 1972/2335 [2:04:48<22:21,  3.69s/it] 84%|████████▍ | 1973/2335 [2:04:51<22:23,  3.71s/it]                                                     {'loss': 0.1276, 'grad_norm': 2.0508020025396982, 'learning_rate': 6.21009318716464e-07, 'epoch': 0.84}
 84%|████████▍ | 1973/2335 [2:04:51<22:23,  3.71s/it] 85%|████████▍ | 1974/2335 [2:04:55<22:19,  3.71s/it]                                                     {'loss': 0.1024, 'grad_norm': 2.1396827644870653, 'learning_rate': 6.17664648177263e-07, 'epoch': 0.85}
 85%|████████▍ | 1974/2335 [2:04:55<22:19,  3.71s/it] 85%|████████▍ | 1975/2335 [2:04:59<22:32,  3.76s/it]                                                     {'loss': 0.0939, 'grad_norm': 2.078583242762166, 'learning_rate': 6.143284158890511e-07, 'epoch': 0.85}
 85%|████████▍ | 1975/2335 [2:04:59<22:32,  3.76s/it] 85%|████████▍ | 1976/2335 [2:05:03<22:20,  3.74s/it]                                                     {'loss': 0.0802, 'grad_norm': 2.1349109069391536, 'learning_rate': 6.110006282757897e-07, 'epoch': 0.85}
 85%|████████▍ | 1976/2335 [2:05:03<22:20,  3.74s/it] 85%|████████▍ | 1977/2335 [2:05:06<22:11,  3.72s/it]                                                     {'loss': 0.0804, 'grad_norm': 1.827916302765162, 'learning_rate': 6.076812917451847e-07, 'epoch': 0.85}
 85%|████████▍ | 1977/2335 [2:05:06<22:11,  3.72s/it] 85%|████████▍ | 1978/2335 [2:05:10<22:12,  3.73s/it]                                                     {'loss': 0.1311, 'grad_norm': 2.1276624337084127, 'learning_rate': 6.043704126886663e-07, 'epoch': 0.85}
 85%|████████▍ | 1978/2335 [2:05:10<22:12,  3.73s/it] 85%|████████▍ | 1979/2335 [2:05:14<22:01,  3.71s/it]                                                     {'loss': 0.1207, 'grad_norm': 2.1510203730913013, 'learning_rate': 6.010679974813821e-07, 'epoch': 0.85}
 85%|████████▍ | 1979/2335 [2:05:14<22:01,  3.71s/it] 85%|████████▍ | 1980/2335 [2:05:18<22:08,  3.74s/it]                                                     {'loss': 0.1035, 'grad_norm': 2.0459360795537167, 'learning_rate': 5.977740524821796e-07, 'epoch': 0.85}
 85%|████████▍ | 1980/2335 [2:05:18<22:08,  3.74s/it] 85%|████████▍ | 1981/2335 [2:05:21<21:56,  3.72s/it]                                                     {'loss': 0.0875, 'grad_norm': 1.4233172491163002, 'learning_rate': 5.944885840335978e-07, 'epoch': 0.85}
 85%|████████▍ | 1981/2335 [2:05:21<21:56,  3.72s/it] 85%|████████▍ | 1982/2335 [2:05:25<21:57,  3.73s/it]                                                     {'loss': 0.0763, 'grad_norm': 1.8346847877646772, 'learning_rate': 5.912115984618555e-07, 'epoch': 0.85}
 85%|████████▍ | 1982/2335 [2:05:25<21:57,  3.73s/it] 85%|████████▍ | 1983/2335 [2:05:29<22:02,  3.76s/it]                                                     {'loss': 0.086, 'grad_norm': 2.031887359806279, 'learning_rate': 5.879431020768367e-07, 'epoch': 0.85}
 85%|████████▍ | 1983/2335 [2:05:29<22:02,  3.76s/it] 85%|████████▍ | 1984/2335 [2:05:33<22:00,  3.76s/it]                                                     {'loss': 0.1417, 'grad_norm': 1.8839931362570257, 'learning_rate': 5.846831011720789e-07, 'epoch': 0.85}
 85%|████████▍ | 1984/2335 [2:05:33<22:00,  3.76s/it] 85%|████████▌ | 1985/2335 [2:05:36<21:57,  3.76s/it]                                                     {'loss': 0.0598, 'grad_norm': 1.8420056397650515, 'learning_rate': 5.814316020247607e-07, 'epoch': 0.85}
 85%|████████▌ | 1985/2335 [2:05:36<21:57,  3.76s/it] 85%|████████▌ | 1986/2335 [2:05:40<21:46,  3.74s/it]                                                     {'loss': 0.066, 'grad_norm': 1.8101329917813898, 'learning_rate': 5.781886108956919e-07, 'epoch': 0.85}
 85%|████████▌ | 1986/2335 [2:05:40<21:46,  3.74s/it] 85%|████████▌ | 1987/2335 [2:05:44<21:43,  3.74s/it]                                                     {'loss': 0.1047, 'grad_norm': 1.7967854657813915, 'learning_rate': 5.749541340292997e-07, 'epoch': 0.85}
 85%|████████▌ | 1987/2335 [2:05:44<21:43,  3.74s/it] 85%|████████▌ | 1988/2335 [2:05:48<21:28,  3.71s/it]                                                     {'loss': 0.1038, 'grad_norm': 1.8532172946512087, 'learning_rate': 5.717281776536166e-07, 'epoch': 0.85}
 85%|████████▌ | 1988/2335 [2:05:48<21:28,  3.71s/it] 85%|████████▌ | 1989/2335 [2:05:51<21:25,  3.71s/it]                                                     {'loss': 0.0809, 'grad_norm': 1.6370855427016244, 'learning_rate': 5.685107479802704e-07, 'epoch': 0.85}
 85%|████████▌ | 1989/2335 [2:05:51<21:25,  3.71s/it] 85%|████████▌ | 1990/2335 [2:05:55<21:05,  3.67s/it]                                                     {'loss': 0.0749, 'grad_norm': 1.9054256227394013, 'learning_rate': 5.653018512044661e-07, 'epoch': 0.85}
 85%|████████▌ | 1990/2335 [2:05:55<21:05,  3.67s/it] 85%|████████▌ | 1991/2335 [2:05:59<21:39,  3.78s/it]                                                     {'loss': 0.0777, 'grad_norm': 1.8406669794438646, 'learning_rate': 5.621014935049835e-07, 'epoch': 0.85}
 85%|████████▌ | 1991/2335 [2:05:59<21:39,  3.78s/it] 85%|████████▌ | 1992/2335 [2:06:03<21:32,  3.77s/it]                                                     {'loss': 0.1111, 'grad_norm': 2.2606457876096377, 'learning_rate': 5.589096810441574e-07, 'epoch': 0.85}
 85%|████████▌ | 1992/2335 [2:06:03<21:32,  3.77s/it] 85%|████████▌ | 1993/2335 [2:06:06<21:15,  3.73s/it]                                                     {'loss': 0.0875, 'grad_norm': 2.077670456318267, 'learning_rate': 5.557264199678713e-07, 'epoch': 0.85}
 85%|████████▌ | 1993/2335 [2:06:06<21:15,  3.73s/it] 85%|████████▌ | 1994/2335 [2:06:10<21:30,  3.78s/it]                                                     {'loss': 0.1124, 'grad_norm': 1.8708565131756, 'learning_rate': 5.525517164055388e-07, 'epoch': 0.85}
 85%|████████▌ | 1994/2335 [2:06:10<21:30,  3.78s/it] 85%|████████▌ | 1995/2335 [2:06:14<21:25,  3.78s/it]                                                     {'loss': 0.0876, 'grad_norm': 2.393587267110176, 'learning_rate': 5.493855764700989e-07, 'epoch': 0.85}
 85%|████████▌ | 1995/2335 [2:06:14<21:25,  3.78s/it] 85%|████████▌ | 1996/2335 [2:06:18<21:12,  3.75s/it]                                                     {'loss': 0.094, 'grad_norm': 1.8106038861375993, 'learning_rate': 5.462280062580011e-07, 'epoch': 0.85}
 85%|████████▌ | 1996/2335 [2:06:18<21:12,  3.75s/it] 86%|████████▌ | 1997/2335 [2:06:21<21:11,  3.76s/it]                                                     {'loss': 0.1093, 'grad_norm': 1.8407355289194944, 'learning_rate': 5.430790118491924e-07, 'epoch': 0.86}
 86%|████████▌ | 1997/2335 [2:06:21<21:11,  3.76s/it] 86%|████████▌ | 1998/2335 [2:06:25<21:06,  3.76s/it]                                                     {'loss': 0.1094, 'grad_norm': 1.9382613524637973, 'learning_rate': 5.399385993071093e-07, 'epoch': 0.86}
 86%|████████▌ | 1998/2335 [2:06:25<21:06,  3.76s/it] 86%|████████▌ | 1999/2335 [2:06:29<20:50,  3.72s/it]                                                     {'loss': 0.0816, 'grad_norm': 1.7411763091868417, 'learning_rate': 5.368067746786598e-07, 'epoch': 0.86}
 86%|████████▌ | 1999/2335 [2:06:29<20:50,  3.72s/it] 86%|████████▌ | 2000/2335 [2:06:32<20:38,  3.70s/it]                                                     {'loss': 0.0934, 'grad_norm': 1.8958129914064883, 'learning_rate': 5.3368354399422e-07, 'epoch': 0.86}
 86%|████████▌ | 2000/2335 [2:06:32<20:38,  3.70s/it]/mnt/petrelfs/liuzhaoyang/workspace/programs/miniconda3/envs/qwen2_5vl/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
 86%|████████▌ | 2001/2335 [2:06:56<53:20,  9.58s/it]                                                     {'loss': 0.0883, 'grad_norm': 1.9980272821363083, 'learning_rate': 5.305689132676157e-07, 'epoch': 0.86}
 86%|████████▌ | 2001/2335 [2:06:56<53:20,  9.58s/it] 86%|████████▌ | 2002/2335 [2:06:59<43:24,  7.82s/it]                                                     {'loss': 0.1056, 'grad_norm': 2.0973386670832035, 'learning_rate': 5.27462888496113e-07, 'epoch': 0.86}
 86%|████████▌ | 2002/2335 [2:06:59<43:24,  7.82s/it] 86%|████████▌ | 2003/2335 [2:07:03<36:24,  6.58s/it]                                                     {'loss': 0.066, 'grad_norm': 2.146955449693084, 'learning_rate': 5.243654756604099e-07, 'epoch': 0.86}
 86%|████████▌ | 2003/2335 [2:07:03<36:24,  6.58s/it] 86%|████████▌ | 2004/2335 [2:07:07<31:28,  5.71s/it]                                                     {'loss': 0.0866, 'grad_norm': 1.9986276436166284, 'learning_rate': 5.212766807246206e-07, 'epoch': 0.86}
 86%|████████▌ | 2004/2335 [2:07:07<31:28,  5.71s/it] 86%|████████▌ | 2005/2335 [2:07:10<27:56,  5.08s/it]                                                     {'loss': 0.0987, 'grad_norm': 2.183961245353881, 'learning_rate': 5.181965096362624e-07, 'epoch': 0.86}
 86%|████████▌ | 2005/2335 [2:07:10<27:56,  5.08s/it] 86%|████████▌ | 2006/2335 [2:07:14<25:27,  4.64s/it]                                                     {'loss': 0.0981, 'grad_norm': 2.548661660338589, 'learning_rate': 5.151249683262516e-07, 'epoch': 0.86}
 86%|████████▌ | 2006/2335 [2:07:14<25:27,  4.64s/it] 86%|████████▌ | 2007/2335 [2:07:18<23:59,  4.39s/it]                                                     {'loss': 0.0808, 'grad_norm': 1.6860186728546704, 'learning_rate': 5.120620627088863e-07, 'epoch': 0.86}
 86%|████████▌ | 2007/2335 [2:07:18<23:59,  4.39s/it] 86%|████████▌ | 2008/2335 [2:07:21<22:46,  4.18s/it]                                                     {'loss': 0.0812, 'grad_norm': 2.078452825831932, 'learning_rate': 5.090077986818365e-07, 'epoch': 0.86}
 86%|████████▌ | 2008/2335 [2:07:22<22:46,  4.18s/it] 86%|████████▌ | 2009/2335 [2:07:25<21:59,  4.05s/it]                                                     {'loss': 0.0957, 'grad_norm': 2.09742759637865, 'learning_rate': 5.059621821261313e-07, 'epoch': 0.86}
 86%|████████▌ | 2009/2335 [2:07:25<21:59,  4.05s/it] 86%|████████▌ | 2010/2335 [2:07:29<21:18,  3.94s/it]                                                     {'loss': 0.107, 'grad_norm': 1.9348007694312541, 'learning_rate': 5.029252189061496e-07, 'epoch': 0.86}
 86%|████████▌ | 2010/2335 [2:07:29<21:18,  3.94s/it] 86%|████████▌ | 2011/2335 [2:07:33<20:49,  3.86s/it]                                                     {'loss': 0.0943, 'grad_norm': 1.6895081399852836, 'learning_rate': 4.998969148696098e-07, 'epoch': 0.86}
 86%|████████▌ | 2011/2335 [2:07:33<20:49,  3.86s/it] 86%|████████▌ | 2012/2335 [2:07:36<20:24,  3.79s/it]                                                     {'loss': 0.1011, 'grad_norm': 2.219552524451849, 'learning_rate': 4.968772758475554e-07, 'epoch': 0.86}
 86%|████████▌ | 2012/2335 [2:07:36<20:24,  3.79s/it] 86%|████████▌ | 2013/2335 [2:07:40<20:02,  3.74s/it]                                                     {'loss': 0.1011, 'grad_norm': 2.215781256873524, 'learning_rate': 4.938663076543465e-07, 'epoch': 0.86}
 86%|████████▌ | 2013/2335 [2:07:40<20:02,  3.74s/it] 86%|████████▋ | 2014/2335 [2:07:44<19:55,  3.72s/it]                                                     {'loss': 0.0923, 'grad_norm': 1.9005478596046508, 'learning_rate': 4.908640160876449e-07, 'epoch': 0.86}
 86%|████████▋ | 2014/2335 [2:07:44<19:55,  3.72s/it] 86%|████████▋ | 2015/2335 [2:07:47<20:01,  3.75s/it]                                                     {'loss': 0.0788, 'grad_norm': 2.0733095447316257, 'learning_rate': 4.87870406928408e-07, 'epoch': 0.86}
 86%|████████▋ | 2015/2335 [2:07:47<20:01,  3.75s/it] 86%|████████▋ | 2016/2335 [2:07:51<19:38,  3.69s/it]                                                     {'loss': 0.0749, 'grad_norm': 1.6832647020304528, 'learning_rate': 4.848854859408731e-07, 'epoch': 0.86}
 86%|████████▋ | 2016/2335 [2:07:51<19:38,  3.69s/it] 86%|████████▋ | 2017/2335 [2:07:54<19:21,  3.65s/it]                                                     {'loss': 0.0558, 'grad_norm': 1.6965576529952893, 'learning_rate': 4.819092588725505e-07, 'epoch': 0.86}
 86%|████████▋ | 2017/2335 [2:07:54<19:21,  3.65s/it] 86%|████████▋ | 2018/2335 [2:07:58<19:22,  3.67s/it]                                                     {'loss': 0.09, 'grad_norm': 2.133303822940741, 'learning_rate': 4.789417314542099e-07, 'epoch': 0.86}
 86%|████████▋ | 2018/2335 [2:07:58<19:22,  3.67s/it] 86%|████████▋ | 2019/2335 [2:08:02<19:36,  3.72s/it]                                                     {'loss': 0.0789, 'grad_norm': 1.9909533013253011, 'learning_rate': 4.7598290939986633e-07, 'epoch': 0.86}
 86%|████████▋ | 2019/2335 [2:08:02<19:36,  3.72s/it] 87%|████████▋ | 2020/2335 [2:08:06<19:23,  3.69s/it]                                                     {'loss': 0.1311, 'grad_norm': 2.071691098234863, 'learning_rate': 4.7303279840677675e-07, 'epoch': 0.87}
 87%|████████▋ | 2020/2335 [2:08:06<19:23,  3.69s/it] 87%|████████▋ | 2021/2335 [2:08:09<19:32,  3.73s/it]                                                     {'loss': 0.0798, 'grad_norm': 2.0137487430883683, 'learning_rate': 4.700914041554222e-07, 'epoch': 0.87}
 87%|████████▋ | 2021/2335 [2:08:09<19:32,  3.73s/it] 87%|████████▋ | 2022/2335 [2:08:13<19:28,  3.73s/it]                                                     {'loss': 0.0905, 'grad_norm': 1.9586335039388223, 'learning_rate': 4.6715873230950225e-07, 'epoch': 0.87}
 87%|████████▋ | 2022/2335 [2:08:13<19:28,  3.73s/it] 87%|████████▋ | 2023/2335 [2:08:17<19:15,  3.70s/it]                                                     {'loss': 0.0893, 'grad_norm': 1.6403489127477124, 'learning_rate': 4.6423478851591763e-07, 'epoch': 0.87}
 87%|████████▋ | 2023/2335 [2:08:17<19:15,  3.70s/it] 87%|████████▋ | 2024/2335 [2:08:20<19:04,  3.68s/it]                                                     {'loss': 0.0926, 'grad_norm': 1.8165373137701237, 'learning_rate': 4.613195784047653e-07, 'epoch': 0.87}
 87%|████████▋ | 2024/2335 [2:08:20<19:04,  3.68s/it] 87%|████████▋ | 2025/2335 [2:08:24<19:09,  3.71s/it]                                                     {'loss': 0.1032, 'grad_norm': 1.8844646256062234, 'learning_rate': 4.5841310758932554e-07, 'epoch': 0.87}
 87%|████████▋ | 2025/2335 [2:08:24<19:09,  3.71s/it] 87%|████████▋ | 2026/2335 [2:08:28<19:03,  3.70s/it]                                                     {'loss': 0.1022, 'grad_norm': 2.2198107017224795, 'learning_rate': 4.555153816660507e-07, 'epoch': 0.87}
 87%|████████▋ | 2026/2335 [2:08:28<19:03,  3.70s/it] 87%|████████▋ | 2027/2335 [2:08:32<19:04,  3.72s/it]                                                     {'loss': 0.0897, 'grad_norm': 1.641840021766596, 'learning_rate': 4.5262640621455523e-07, 'epoch': 0.87}
 87%|████████▋ | 2027/2335 [2:08:32<19:04,  3.72s/it] 87%|████████▋ | 2028/2335 [2:08:36<19:13,  3.76s/it]                                                     {'loss': 0.0929, 'grad_norm': 1.92157561877198, 'learning_rate': 4.4974618679760164e-07, 'epoch': 0.87}
 87%|████████▋ | 2028/2335 [2:08:36<19:13,  3.76s/it] 87%|████████▋ | 2029/2335 [2:08:39<19:03,  3.74s/it]                                                     {'loss': 0.0805, 'grad_norm': 2.0420624730789423, 'learning_rate': 4.4687472896109586e-07, 'epoch': 0.87}
 87%|████████▋ | 2029/2335 [2:08:39<19:03,  3.74s/it] 87%|████████▋ | 2030/2335 [2:08:43<19:00,  3.74s/it]                                                     {'loss': 0.0858, 'grad_norm': 1.8606414538364795, 'learning_rate': 4.4401203823407236e-07, 'epoch': 0.87}
 87%|████████▋ | 2030/2335 [2:08:43<19:00,  3.74s/it] 87%|████████▋ | 2031/2335 [2:08:47<19:09,  3.78s/it]                                                     {'loss': 0.1233, 'grad_norm': 1.874216076449617, 'learning_rate': 4.4115812012868296e-07, 'epoch': 0.87}
 87%|████████▋ | 2031/2335 [2:08:47<19:09,  3.78s/it] 87%|████████▋ | 2032/2335 [2:08:50<18:50,  3.73s/it]                                                     {'loss': 0.0885, 'grad_norm': 1.582583162096466, 'learning_rate': 4.3831298014019144e-07, 'epoch': 0.87}
 87%|████████▋ | 2032/2335 [2:08:50<18:50,  3.73s/it] 87%|████████▋ | 2033/2335 [2:08:54<18:58,  3.77s/it]                                                     {'loss': 0.0813, 'grad_norm': 1.7959587520894216, 'learning_rate': 4.354766237469532e-07, 'epoch': 0.87}
 87%|████████▋ | 2033/2335 [2:08:54<18:58,  3.77s/it] 87%|████████▋ | 2034/2335 [2:08:58<18:54,  3.77s/it]                                                     {'loss': 0.1231, 'grad_norm': 1.8487477465977122, 'learning_rate': 4.3264905641041575e-07, 'epoch': 0.87}
 87%|████████▋ | 2034/2335 [2:08:58<18:54,  3.77s/it] 87%|████████▋ | 2035/2335 [2:09:02<18:59,  3.80s/it]                                                     {'loss': 0.077, 'grad_norm': 1.8195282323746182, 'learning_rate': 4.298302835751017e-07, 'epoch': 0.87}
 87%|████████▋ | 2035/2335 [2:09:02<18:59,  3.80s/it] 87%|████████▋ | 2036/2335 [2:09:06<18:57,  3.81s/it]                                                     {'loss': 0.1087, 'grad_norm': 2.007478716695311, 'learning_rate': 4.2702031066859993e-07, 'epoch': 0.87}
 87%|████████▋ | 2036/2335 [2:09:06<18:57,  3.81s/it] 87%|████████▋ | 2037/2335 [2:09:09<18:42,  3.77s/it]                                                     {'loss': 0.102, 'grad_norm': 1.7046064189181802, 'learning_rate': 4.242191431015535e-07, 'epoch': 0.87}
 87%|████████▋ | 2037/2335 [2:09:09<18:42,  3.77s/it] 87%|████████▋ | 2038/2335 [2:09:13<18:32,  3.75s/it]                                                     {'loss': 0.1245, 'grad_norm': 2.2157170974673495, 'learning_rate': 4.214267862676508e-07, 'epoch': 0.87}
 87%|████████▋ | 2038/2335 [2:09:13<18:32,  3.75s/it] 87%|████████▋ | 2039/2335 [2:09:17<18:26,  3.74s/it]                                                     {'loss': 0.0908, 'grad_norm': 2.255868146145337, 'learning_rate': 4.1864324554361734e-07, 'epoch': 0.87}
 87%|████████▋ | 2039/2335 [2:09:17<18:26,  3.74s/it] 87%|████████▋ | 2040/2335 [2:09:21<18:20,  3.73s/it]                                                     {'loss': 0.1006, 'grad_norm': 1.7188642742432156, 'learning_rate': 4.1586852628920095e-07, 'epoch': 0.87}
 87%|████████▋ | 2040/2335 [2:09:21<18:20,  3.73s/it] 87%|████████▋ | 2041/2335 [2:09:24<18:27,  3.77s/it]                                                     {'loss': 0.111, 'grad_norm': 2.072245341452134, 'learning_rate': 4.1310263384716385e-07, 'epoch': 0.87}
 87%|████████▋ | 2041/2335 [2:09:24<18:27,  3.77s/it] 87%|████████▋ | 2042/2335 [2:09:28<18:29,  3.79s/it]                                                     {'loss': 0.0981, 'grad_norm': 2.0017984830250284, 'learning_rate': 4.1034557354327486e-07, 'epoch': 0.87}
 87%|████████▋ | 2042/2335 [2:09:28<18:29,  3.79s/it] 87%|████████▋ | 2043/2335 [2:09:32<18:27,  3.79s/it]                                                     {'loss': 0.0735, 'grad_norm': 1.8358972790099584, 'learning_rate': 4.075973506862907e-07, 'epoch': 0.87}
 87%|████████▋ | 2043/2335 [2:09:32<18:27,  3.79s/it] 88%|████████▊ | 2044/2335 [2:09:36<18:11,  3.75s/it]                                                     {'loss': 0.0946, 'grad_norm': 1.882155166730242, 'learning_rate': 4.0485797056795675e-07, 'epoch': 0.88}
 88%|████████▊ | 2044/2335 [2:09:36<18:11,  3.75s/it] 88%|████████▊ | 2045/2335 [2:09:39<18:03,  3.74s/it]                                                     {'loss': 0.0894, 'grad_norm': 2.2608179576613203, 'learning_rate': 4.021274384629892e-07, 'epoch': 0.88}
 88%|████████▊ | 2045/2335 [2:09:39<18:03,  3.74s/it] 88%|████████▊ | 2046/2335 [2:09:43<17:53,  3.71s/it]                                                     {'loss': 0.1026, 'grad_norm': 1.9924092653294023, 'learning_rate': 3.994057596290679e-07, 'epoch': 0.88}
 88%|████████▊ | 2046/2335 [2:09:43<17:53,  3.71s/it] 88%|████████▊ | 2047/2335 [2:09:47<18:02,  3.76s/it]                                                     {'loss': 0.126, 'grad_norm': 1.8073533177815335, 'learning_rate': 3.966929393068253e-07, 'epoch': 0.88}
 88%|████████▊ | 2047/2335 [2:09:47<18:02,  3.76s/it] 88%|████████▊ | 2048/2335 [2:09:51<17:57,  3.76s/it]                                                     {'loss': 0.0842, 'grad_norm': 1.7112988326542204, 'learning_rate': 3.939889827198362e-07, 'epoch': 0.88}
 88%|████████▊ | 2048/2335 [2:09:51<17:57,  3.76s/it] 88%|████████▊ | 2049/2335 [2:09:54<17:47,  3.73s/it]                                                     {'loss': 0.1141, 'grad_norm': 2.178226640718448, 'learning_rate': 3.9129389507460926e-07, 'epoch': 0.88}
 88%|████████▊ | 2049/2335 [2:09:54<17:47,  3.73s/it] 88%|████████▊ | 2050/2335 [2:09:58<17:39,  3.72s/it]                                                     {'loss': 0.105, 'grad_norm': 1.8332129404121462, 'learning_rate': 3.886076815605744e-07, 'epoch': 0.88}
 88%|████████▊ | 2050/2335 [2:09:58<17:39,  3.72s/it] 88%|████████▊ | 2051/2335 [2:10:02<17:51,  3.77s/it]                                                     {'loss': 0.0633, 'grad_norm': 1.7078580064386433, 'learning_rate': 3.85930347350077e-07, 'epoch': 0.88}
 88%|████████▊ | 2051/2335 [2:10:02<17:51,  3.77s/it] 88%|████████▊ | 2052/2335 [2:10:06<17:35,  3.73s/it]                                                     {'loss': 0.1104, 'grad_norm': 2.0508293814320115, 'learning_rate': 3.8326189759836097e-07, 'epoch': 0.88}
 88%|████████▊ | 2052/2335 [2:10:06<17:35,  3.73s/it] 88%|████████▊ | 2053/2335 [2:10:09<17:33,  3.74s/it]                                                     {'loss': 0.0936, 'grad_norm': 2.105152240241882, 'learning_rate': 3.8060233744356634e-07, 'epoch': 0.88}
 88%|████████▊ | 2053/2335 [2:10:09<17:33,  3.74s/it] 88%|████████▊ | 2054/2335 [2:10:13<17:33,  3.75s/it]                                                     {'loss': 0.0861, 'grad_norm': 1.961177010495811, 'learning_rate': 3.7795167200671554e-07, 'epoch': 0.88}
 88%|████████▊ | 2054/2335 [2:10:13<17:33,  3.75s/it] 88%|████████▊ | 2055/2335 [2:10:17<17:30,  3.75s/it]                                                     {'loss': 0.0705, 'grad_norm': 1.4840235375454818, 'learning_rate': 3.7530990639170427e-07, 'epoch': 0.88}
 88%|████████▊ | 2055/2335 [2:10:17<17:30,  3.75s/it] 88%|████████▊ | 2056/2335 [2:10:21<17:17,  3.72s/it]                                                     {'loss': 0.0745, 'grad_norm': 1.6142660448715787, 'learning_rate': 3.7267704568529015e-07, 'epoch': 0.88}
 88%|████████▊ | 2056/2335 [2:10:21<17:17,  3.72s/it] 88%|████████▊ | 2057/2335 [2:10:24<17:14,  3.72s/it]                                                     {'loss': 0.0727, 'grad_norm': 1.8535743895383656, 'learning_rate': 3.700530949570852e-07, 'epoch': 0.88}
 88%|████████▊ | 2057/2335 [2:10:24<17:14,  3.72s/it] 88%|████████▊ | 2058/2335 [2:10:28<17:11,  3.72s/it]                                                     {'loss': 0.1288, 'grad_norm': 2.272950329321654, 'learning_rate': 3.6743805925954446e-07, 'epoch': 0.88}
 88%|████████▊ | 2058/2335 [2:10:28<17:11,  3.72s/it] 88%|████████▊ | 2059/2335 [2:10:32<17:05,  3.72s/it]                                                     {'loss': 0.1113, 'grad_norm': 1.8529129016591002, 'learning_rate': 3.648319436279585e-07, 'epoch': 0.88}
 88%|████████▊ | 2059/2335 [2:10:32<17:05,  3.72s/it] 88%|████████▊ | 2060/2335 [2:10:35<16:57,  3.70s/it]                                                     {'loss': 0.0774, 'grad_norm': 1.8347826480623295, 'learning_rate': 3.622347530804415e-07, 'epoch': 0.88}
 88%|████████▊ | 2060/2335 [2:10:35<16:57,  3.70s/it] 88%|████████▊ | 2061/2335 [2:10:39<16:52,  3.70s/it]                                                     {'loss': 0.0793, 'grad_norm': 1.6713851025085391, 'learning_rate': 3.596464926179205e-07, 'epoch': 0.88}
 88%|████████▊ | 2061/2335 [2:10:39<16:52,  3.70s/it] 88%|████████▊ | 2062/2335 [2:10:43<16:40,  3.67s/it]                                                     {'loss': 0.129, 'grad_norm': 1.9688226009013277, 'learning_rate': 3.5706716722412995e-07, 'epoch': 0.88}
 88%|████████▊ | 2062/2335 [2:10:43<16:40,  3.67s/it] 88%|████████▊ | 2063/2335 [2:10:46<16:38,  3.67s/it]                                                     {'loss': 0.0879, 'grad_norm': 1.9152152541922312, 'learning_rate': 3.544967818655981e-07, 'epoch': 0.88}
 88%|████████▊ | 2063/2335 [2:10:46<16:38,  3.67s/it] 88%|████████▊ | 2064/2335 [2:10:50<16:45,  3.71s/it]                                                     {'loss': 0.0924, 'grad_norm': 2.0077135310573673, 'learning_rate': 3.519353414916404e-07, 'epoch': 0.88}
 88%|████████▊ | 2064/2335 [2:10:50<16:45,  3.71s/it] 88%|████████▊ | 2065/2335 [2:10:54<16:40,  3.70s/it]                                                     {'loss': 0.089, 'grad_norm': 1.8349193881477412, 'learning_rate': 3.4938285103434776e-07, 'epoch': 0.88}
 88%|████████▊ | 2065/2335 [2:10:54<16:40,  3.70s/it] 88%|████████▊ | 2066/2335 [2:10:57<16:34,  3.70s/it]                                                     {'loss': 0.0799, 'grad_norm': 1.7973059252971162, 'learning_rate': 3.468393154085775e-07, 'epoch': 0.88}
 88%|████████▊ | 2066/2335 [2:10:57<16:34,  3.70s/it] 89%|████████▊ | 2067/2335 [2:11:01<16:33,  3.71s/it]                                                     {'loss': 0.0928, 'grad_norm': 2.4472211909604336, 'learning_rate': 3.4430473951194477e-07, 'epoch': 0.89}
 89%|████████▊ | 2067/2335 [2:11:01<16:33,  3.71s/it] 89%|████████▊ | 2068/2335 [2:11:05<16:30,  3.71s/it]                                                     {'loss': 0.1294, 'grad_norm': 2.2819949754900044, 'learning_rate': 3.4177912822481286e-07, 'epoch': 0.89}
 89%|████████▊ | 2068/2335 [2:11:05<16:30,  3.71s/it] 89%|████████▊ | 2069/2335 [2:11:09<16:24,  3.70s/it]                                                     {'loss': 0.1101, 'grad_norm': 2.0765435649504225, 'learning_rate': 3.392624864102834e-07, 'epoch': 0.89}
 89%|████████▊ | 2069/2335 [2:11:09<16:24,  3.70s/it] 89%|████████▊ | 2070/2335 [2:11:12<16:23,  3.71s/it]                                                     {'loss': 0.1091, 'grad_norm': 2.0649771851571845, 'learning_rate': 3.3675481891418784e-07, 'epoch': 0.89}
 89%|████████▊ | 2070/2335 [2:11:12<16:23,  3.71s/it] 89%|████████▊ | 2071/2335 [2:11:16<16:27,  3.74s/it]                                                     {'loss': 0.1029, 'grad_norm': 2.171492488931347, 'learning_rate': 3.34256130565076e-07, 'epoch': 0.89}
 89%|████████▊ | 2071/2335 [2:11:16<16:27,  3.74s/it] 89%|████████▊ | 2072/2335 [2:11:20<16:32,  3.77s/it]                                                     {'loss': 0.0795, 'grad_norm': 1.710976497080942, 'learning_rate': 3.3176642617420817e-07, 'epoch': 0.89}
 89%|████████▊ | 2072/2335 [2:11:20<16:32,  3.77s/it] 89%|████████▉ | 2073/2335 [2:11:24<16:33,  3.79s/it]                                                     {'loss': 0.1017, 'grad_norm': 2.0875695700233567, 'learning_rate': 3.292857105355474e-07, 'epoch': 0.89}
 89%|████████▉ | 2073/2335 [2:11:24<16:33,  3.79s/it] 89%|████████▉ | 2074/2335 [2:11:28<16:38,  3.83s/it]                                                     {'loss': 0.1132, 'grad_norm': 2.213716997139907, 'learning_rate': 3.268139884257476e-07, 'epoch': 0.89}
 89%|████████▉ | 2074/2335 [2:11:28<16:38,  3.83s/it] 89%|████████▉ | 2075/2335 [2:11:31<16:24,  3.79s/it]                                                     {'loss': 0.0686, 'grad_norm': 1.864673497417138, 'learning_rate': 3.2435126460414746e-07, 'epoch': 0.89}
 89%|████████▉ | 2075/2335 [2:11:31<16:24,  3.79s/it] 89%|████████▉ | 2076/2335 [2:11:35<16:11,  3.75s/it]                                                     {'loss': 0.1424, 'grad_norm': 1.8390145305604613, 'learning_rate': 3.218975438127558e-07, 'epoch': 0.89}
 89%|████████▉ | 2076/2335 [2:11:35<16:11,  3.75s/it] 89%|████████▉ | 2077/2335 [2:11:39<16:11,  3.77s/it]                                                     {'loss': 0.1114, 'grad_norm': 2.4136684592502244, 'learning_rate': 3.19452830776249e-07, 'epoch': 0.89}
 89%|████████▉ | 2077/2335 [2:11:39<16:11,  3.77s/it] 89%|████████▉ | 2078/2335 [2:11:43<16:10,  3.78s/it]                                                     {'loss': 0.0945, 'grad_norm': 2.262458719137513, 'learning_rate': 3.1701713020195757e-07, 'epoch': 0.89}
 89%|████████▉ | 2078/2335 [2:11:43<16:10,  3.78s/it] 89%|████████▉ | 2079/2335 [2:11:46<16:00,  3.75s/it]                                                     {'loss': 0.0589, 'grad_norm': 1.6345493288849522, 'learning_rate': 3.1459044677985883e-07, 'epoch': 0.89}
 89%|████████▉ | 2079/2335 [2:11:46<16:00,  3.75s/it] 89%|████████▉ | 2080/2335 [2:11:50<15:58,  3.76s/it]                                                     {'loss': 0.0984, 'grad_norm': 2.0819279896076845, 'learning_rate': 3.1217278518256844e-07, 'epoch': 0.89}
 89%|████████▉ | 2080/2335 [2:11:50<15:58,  3.76s/it] 89%|████████▉ | 2081/2335 [2:11:54<15:55,  3.76s/it]                                                     {'loss': 0.0562, 'grad_norm': 1.6694625726320587, 'learning_rate': 3.09764150065327e-07, 'epoch': 0.89}
 89%|████████▉ | 2081/2335 [2:11:54<15:55,  3.76s/it] 89%|████████▉ | 2082/2335 [2:11:58<15:44,  3.73s/it]                                                     {'loss': 0.0741, 'grad_norm': 1.8547397444479317, 'learning_rate': 3.07364546065998e-07, 'epoch': 0.89}
 89%|████████▉ | 2082/2335 [2:11:58<15:44,  3.73s/it] 89%|████████▉ | 2083/2335 [2:12:01<15:45,  3.75s/it]                                                     {'loss': 0.0849, 'grad_norm': 5.1146084696456136, 'learning_rate': 3.0497397780505424e-07, 'epoch': 0.89}
 89%|████████▉ | 2083/2335 [2:12:01<15:45,  3.75s/it] 89%|████████▉ | 2084/2335 [2:12:05<15:49,  3.78s/it]                                                     {'loss': 0.1285, 'grad_norm': 2.170409448145711, 'learning_rate': 3.0259244988556977e-07, 'epoch': 0.89}
 89%|████████▉ | 2084/2335 [2:12:05<15:49,  3.78s/it] 89%|████████▉ | 2085/2335 [2:12:09<15:53,  3.81s/it]                                                     {'loss': 0.052, 'grad_norm': 1.6235718358334519, 'learning_rate': 3.002199668932121e-07, 'epoch': 0.89}
 89%|████████▉ | 2085/2335 [2:12:09<15:53,  3.81s/it] 89%|████████▉ | 2086/2335 [2:12:13<15:42,  3.79s/it]                                                     {'loss': 0.0884, 'grad_norm': 1.8625590442939792, 'learning_rate': 2.9785653339623075e-07, 'epoch': 0.89}
 89%|████████▉ | 2086/2335 [2:12:13<15:42,  3.79s/it] 89%|████████▉ | 2087/2335 [2:12:17<15:41,  3.80s/it]                                                     {'loss': 0.0849, 'grad_norm': 2.25019113317266, 'learning_rate': 2.9550215394545277e-07, 'epoch': 0.89}
 89%|████████▉ | 2087/2335 [2:12:17<15:41,  3.80s/it] 89%|████████▉ | 2088/2335 [2:12:20<15:28,  3.76s/it]                                                     {'loss': 0.0866, 'grad_norm': 2.397584208447054, 'learning_rate': 2.93156833074269e-07, 'epoch': 0.89}
 89%|████████▉ | 2088/2335 [2:12:20<15:28,  3.76s/it] 89%|████████▉ | 2089/2335 [2:12:24<15:25,  3.76s/it]                                                     {'loss': 0.0827, 'grad_norm': 1.8105825857220579, 'learning_rate': 2.908205752986315e-07, 'epoch': 0.89}
 89%|████████▉ | 2089/2335 [2:12:24<15:25,  3.76s/it] 90%|████████▉ | 2090/2335 [2:12:28<15:16,  3.74s/it]                                                     {'loss': 0.0747, 'grad_norm': 1.524161543215394, 'learning_rate': 2.884933851170357e-07, 'epoch': 0.9}
 90%|████████▉ | 2090/2335 [2:12:28<15:16,  3.74s/it] 90%|████████▉ | 2091/2335 [2:12:31<15:07,  3.72s/it]                                                     {'loss': 0.1215, 'grad_norm': 2.7672765584114964, 'learning_rate': 2.8617526701052277e-07, 'epoch': 0.9}
 90%|████████▉ | 2091/2335 [2:12:31<15:07,  3.72s/it] 90%|████████▉ | 2092/2335 [2:12:35<15:04,  3.72s/it]                                                     {'loss': 0.1157, 'grad_norm': 2.6035646394887206, 'learning_rate': 2.8386622544266273e-07, 'epoch': 0.9}
 90%|████████▉ | 2092/2335 [2:12:35<15:04,  3.72s/it] 90%|████████▉ | 2093/2335 [2:12:39<14:58,  3.71s/it]                                                     {'loss': 0.0792, 'grad_norm': 1.9285122691266525, 'learning_rate': 2.8156626485954796e-07, 'epoch': 0.9}
 90%|████████▉ | 2093/2335 [2:12:39<14:58,  3.71s/it] 90%|████████▉ | 2094/2335 [2:12:43<14:50,  3.70s/it]                                                     {'loss': 0.096, 'grad_norm': 1.8596863420233114, 'learning_rate': 2.7927538968978816e-07, 'epoch': 0.9}
 90%|████████▉ | 2094/2335 [2:12:43<14:50,  3.70s/it] 90%|████████▉ | 2095/2335 [2:12:46<14:40,  3.67s/it]                                                     {'loss': 0.1086, 'grad_norm': 1.9215425221672913, 'learning_rate': 2.769936043444954e-07, 'epoch': 0.9}
 90%|████████▉ | 2095/2335 [2:12:46<14:40,  3.67s/it] 90%|████████▉ | 2096/2335 [2:12:50<14:36,  3.67s/it]                                                     {'loss': 0.1106, 'grad_norm': 2.0725220057443794, 'learning_rate': 2.7472091321728067e-07, 'epoch': 0.9}
 90%|████████▉ | 2096/2335 [2:12:50<14:36,  3.67s/it] 90%|████████▉ | 2097/2335 [2:12:54<14:39,  3.69s/it]                                                     {'loss': 0.0637, 'grad_norm': 1.5267823693891664, 'learning_rate': 2.7245732068424567e-07, 'epoch': 0.9}
 90%|████████▉ | 2097/2335 [2:12:54<14:39,  3.69s/it] 90%|████████▉ | 2098/2335 [2:12:57<14:37,  3.70s/it]                                                     {'loss': 0.0872, 'grad_norm': 1.9721064630149536, 'learning_rate': 2.702028311039695e-07, 'epoch': 0.9}
 90%|████████▉ | 2098/2335 [2:12:57<14:37,  3.70s/it] 90%|████████▉ | 2099/2335 [2:13:01<14:37,  3.72s/it]                                                     {'loss': 0.0978, 'grad_norm': 1.729438748713927, 'learning_rate': 2.679574488175063e-07, 'epoch': 0.9}
 90%|████████▉ | 2099/2335 [2:13:01<14:37,  3.72s/it][2025-08-05 19:55:12,507] [WARNING] [stage3.py:2118:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
 90%|████████▉ | 2100/2335 [2:13:06<15:44,  4.02s/it]                                                     {'loss': 0.0893, 'grad_norm': 1.7585645079915428, 'learning_rate': 2.6572117814837096e-07, 'epoch': 0.9}
 90%|████████▉ | 2100/2335 [2:13:06<15:44,  4.02s/it] 90%|████████▉ | 2101/2335 [2:13:10<15:21,  3.94s/it]                                                     {'loss': 0.0805, 'grad_norm': 1.9261318323659733, 'learning_rate': 2.634940234025368e-07, 'epoch': 0.9}
 90%|████████▉ | 2101/2335 [2:13:10<15:21,  3.94s/it] 90%|█████████ | 2102/2335 [2:13:13<15:00,  3.86s/it]                                                     {'loss': 0.0778, 'grad_norm': 1.7034514906040545, 'learning_rate': 2.612759888684219e-07, 'epoch': 0.9}
 90%|█████████ | 2102/2335 [2:13:13<15:00,  3.86s/it] 90%|█████████ | 2103/2335 [2:13:17<14:55,  3.86s/it]                                                     {'loss': 0.0914, 'grad_norm': 1.6390722670476559, 'learning_rate': 2.5906707881688587e-07, 'epoch': 0.9}
 90%|█████████ | 2103/2335 [2:13:17<14:55,  3.86s/it] 90%|█████████ | 2104/2335 [2:13:21<14:43,  3.82s/it]                                                     {'loss': 0.1044, 'grad_norm': 2.053204052918339, 'learning_rate': 2.568672975012154e-07, 'epoch': 0.9}
 90%|█████████ | 2104/2335 [2:13:21<14:43,  3.82s/it] 90%|█████████ | 2105/2335 [2:13:24<14:28,  3.78s/it]                                                     {'loss': 0.0937, 'grad_norm': 1.7051884823011207, 'learning_rate': 2.546766491571229e-07, 'epoch': 0.9}
 90%|█████████ | 2105/2335 [2:13:24<14:28,  3.78s/it] 90%|█████████ | 2106/2335 [2:13:28<14:19,  3.75s/it]                                                     {'loss': 0.0893, 'grad_norm': 1.7543377574670076, 'learning_rate': 2.524951380027335e-07, 'epoch': 0.9}
 90%|█████████ | 2106/2335 [2:13:28<14:19,  3.75s/it] 90%|█████████ | 2107/2335 [2:13:32<14:16,  3.76s/it]                                                     {'loss': 0.119, 'grad_norm': 2.365836333683227, 'learning_rate': 2.5032276823858003e-07, 'epoch': 0.9}
 90%|█████████ | 2107/2335 [2:13:32<14:16,  3.76s/it] 90%|█████████ | 2108/2335 [2:13:36<14:10,  3.75s/it]                                                     {'loss': 0.1257, 'grad_norm': 2.0145582873798995, 'learning_rate': 2.4815954404759034e-07, 'epoch': 0.9}
 90%|█████████ | 2108/2335 [2:13:36<14:10,  3.75s/it] 90%|█████████ | 2109/2335 [2:13:39<14:04,  3.74s/it]                                                     {'loss': 0.1138, 'grad_norm': 1.8237118226732931, 'learning_rate': 2.4600546959508585e-07, 'epoch': 0.9}
 90%|█████████ | 2109/2335 [2:13:39<14:04,  3.74s/it] 90%|█████████ | 2110/2335 [2:13:43<14:03,  3.75s/it]                                                     {'loss': 0.0972, 'grad_norm': 2.3319755733358294, 'learning_rate': 2.4386054902876767e-07, 'epoch': 0.9}
 90%|█████████ | 2110/2335 [2:13:43<14:03,  3.75s/it] 90%|█████████ | 2111/2335 [2:13:47<14:01,  3.76s/it]                                                     {'loss': 0.0935, 'grad_norm': 2.0449395506806574, 'learning_rate': 2.41724786478712e-07, 'epoch': 0.9}
 90%|█████████ | 2111/2335 [2:13:47<14:01,  3.76s/it] 90%|█████████ | 2112/2335 [2:13:51<13:56,  3.75s/it]                                                     {'loss': 0.1092, 'grad_norm': 2.9083101066317654, 'learning_rate': 2.3959818605736095e-07, 'epoch': 0.9}
 90%|█████████ | 2112/2335 [2:13:51<13:56,  3.75s/it] 90%|█████████ | 2113/2335 [2:13:54<13:46,  3.72s/it]                                                     {'loss': 0.0803, 'grad_norm': 2.031298889424573, 'learning_rate': 2.3748075185951515e-07, 'epoch': 0.9}
 90%|█████████ | 2113/2335 [2:13:54<13:46,  3.72s/it] 91%|█████████ | 2114/2335 [2:13:58<13:52,  3.77s/it]                                                     {'loss': 0.1278, 'grad_norm': 1.7488958392412313, 'learning_rate': 2.3537248796232537e-07, 'epoch': 0.91}
 91%|█████████ | 2114/2335 [2:13:58<13:52,  3.77s/it] 91%|█████████ | 2115/2335 [2:14:02<13:42,  3.74s/it]                                                     {'loss': 0.0947, 'grad_norm': 1.9496078873664138, 'learning_rate': 2.3327339842528385e-07, 'epoch': 0.91}
 91%|█████████ | 2115/2335 [2:14:02<13:42,  3.74s/it] 91%|█████████ | 2116/2335 [2:14:06<13:32,  3.71s/it]                                                     {'loss': 0.129, 'grad_norm': 2.222708382964901, 'learning_rate': 2.3118348729021856e-07, 'epoch': 0.91}
 91%|█████████ | 2116/2335 [2:14:06<13:32,  3.71s/it] 91%|█████████ | 2117/2335 [2:14:09<13:24,  3.69s/it]                                                     {'loss': 0.101, 'grad_norm': 2.4783669080550803, 'learning_rate': 2.2910275858128439e-07, 'epoch': 0.91}
 91%|█████████ | 2117/2335 [2:14:09<13:24,  3.69s/it] 91%|█████████ | 2118/2335 [2:14:13<13:20,  3.69s/it]                                                     {'loss': 0.1318, 'grad_norm': 2.0132866064849364, 'learning_rate': 2.270312163049554e-07, 'epoch': 0.91}
 91%|█████████ | 2118/2335 [2:14:13<13:20,  3.69s/it] 91%|█████████ | 2119/2335 [2:14:16<13:14,  3.68s/it]                                                     {'loss': 0.057, 'grad_norm': 1.6336165063117767, 'learning_rate': 2.249688644500153e-07, 'epoch': 0.91}
 91%|█████████ | 2119/2335 [2:14:16<13:14,  3.68s/it] 91%|█████████ | 2120/2335 [2:14:20<13:12,  3.69s/it]                                                     {'loss': 0.0913, 'grad_norm': 1.5176292977752488, 'learning_rate': 2.229157069875537e-07, 'epoch': 0.91}
 91%|█████████ | 2120/2335 [2:14:20<13:12,  3.69s/it] 91%|█████████ | 2121/2335 [2:14:24<13:18,  3.73s/it]                                                     {'loss': 0.0878, 'grad_norm': 1.876026299884056, 'learning_rate': 2.2087174787095488e-07, 'epoch': 0.91}
 91%|█████████ | 2121/2335 [2:14:24<13:18,  3.73s/it] 91%|█████████ | 2122/2335 [2:14:28<13:17,  3.74s/it]                                                     {'loss': 0.0842, 'grad_norm': 1.6346029517592429, 'learning_rate': 2.1883699103589285e-07, 'epoch': 0.91}
 91%|█████████ | 2122/2335 [2:14:28<13:17,  3.74s/it] 91%|█████████ | 2123/2335 [2:14:31<13:04,  3.70s/it]                                                     {'loss': 0.074, 'grad_norm': 1.727251511970511, 'learning_rate': 2.1681144040032188e-07, 'epoch': 0.91}
 91%|█████████ | 2123/2335 [2:14:31<13:04,  3.70s/it] 91%|█████████ | 2124/2335 [2:14:35<12:59,  3.70s/it]                                                     {'loss': 0.1243, 'grad_norm': 1.9223893471700446, 'learning_rate': 2.1479509986446822e-07, 'epoch': 0.91}
 91%|█████████ | 2124/2335 [2:14:35<12:59,  3.70s/it] 91%|█████████ | 2125/2335 [2:14:39<12:56,  3.70s/it]                                                     {'loss': 0.064, 'grad_norm': 1.9581979615810354, 'learning_rate': 2.1278797331082567e-07, 'epoch': 0.91}
 91%|█████████ | 2125/2335 [2:14:39<12:56,  3.70s/it] 91%|█████████ | 2126/2335 [2:14:42<12:50,  3.69s/it]                                                     {'loss': 0.0904, 'grad_norm': 2.2510036329493035, 'learning_rate': 2.1079006460414608e-07, 'epoch': 0.91}
 91%|█████████ | 2126/2335 [2:14:42<12:50,  3.69s/it] 91%|█████████ | 2127/2335 [2:14:46<12:46,  3.68s/it]                                                     {'loss': 0.0656, 'grad_norm': 1.7098770410794524, 'learning_rate': 2.0880137759143216e-07, 'epoch': 0.91}
 91%|█████████ | 2127/2335 [2:14:46<12:46,  3.68s/it] 91%|█████████ | 2128/2335 [2:14:50<12:45,  3.70s/it]                                                     {'loss': 0.0727, 'grad_norm': 1.8739877736594273, 'learning_rate': 2.068219161019297e-07, 'epoch': 0.91}
 91%|█████████ | 2128/2335 [2:14:50<12:45,  3.70s/it] 91%|█████████ | 2129/2335 [2:14:54<12:44,  3.71s/it]                                                     {'loss': 0.0802, 'grad_norm': 1.7533771553103317, 'learning_rate': 2.048516839471204e-07, 'epoch': 0.91}
 91%|█████████ | 2129/2335 [2:14:54<12:44,  3.71s/it] 91%|█████████ | 2130/2335 [2:14:57<12:38,  3.70s/it]                                                     {'loss': 0.0838, 'grad_norm': 1.7804075535663664, 'learning_rate': 2.0289068492071574e-07, 'epoch': 0.91}
 91%|█████████ | 2130/2335 [2:14:57<12:38,  3.70s/it] 91%|█████████▏| 2131/2335 [2:15:01<12:36,  3.71s/it]                                                     {'loss': 0.0948, 'grad_norm': 1.8504852841655546, 'learning_rate': 2.0093892279864802e-07, 'epoch': 0.91}
 91%|█████████▏| 2131/2335 [2:15:01<12:36,  3.71s/it] 91%|█████████▏| 2132/2335 [2:15:05<12:34,  3.72s/it]                                                     {'loss': 0.107, 'grad_norm': 2.075162760097523, 'learning_rate': 1.9899640133906384e-07, 'epoch': 0.91}
 91%|█████████▏| 2132/2335 [2:15:05<12:34,  3.72s/it] 91%|█████████▏| 2133/2335 [2:15:08<12:32,  3.72s/it]                                                     {'loss': 0.1165, 'grad_norm': 1.6326873135151379, 'learning_rate': 1.970631242823162e-07, 'epoch': 0.91}
 91%|█████████▏| 2133/2335 [2:15:08<12:32,  3.72s/it] 91%|█████████▏| 2134/2335 [2:15:12<12:24,  3.70s/it]                                                     {'loss': 0.1097, 'grad_norm': 2.185820347123858, 'learning_rate': 1.9513909535095853e-07, 'epoch': 0.91}
 91%|█████████▏| 2134/2335 [2:15:12<12:24,  3.70s/it] 91%|█████████▏| 2135/2335 [2:15:16<12:21,  3.71s/it]                                                     {'loss': 0.094, 'grad_norm': 2.063229659285653, 'learning_rate': 1.9322431824973731e-07, 'epoch': 0.91}
 91%|█████████▏| 2135/2335 [2:15:16<12:21,  3.71s/it] 91%|█████████▏| 2136/2335 [2:15:19<12:12,  3.68s/it]                                                     {'loss': 0.0497, 'grad_norm': 1.705872497325175, 'learning_rate': 1.9131879666558385e-07, 'epoch': 0.91}
 91%|█████████▏| 2136/2335 [2:15:19<12:12,  3.68s/it] 92%|█████████▏| 2137/2335 [2:15:23<12:11,  3.69s/it]                                                     {'loss': 0.069, 'grad_norm': 1.5460248930523435, 'learning_rate': 1.8942253426760814e-07, 'epoch': 0.92}
 92%|█████████▏| 2137/2335 [2:15:23<12:11,  3.69s/it] 92%|█████████▏| 2138/2335 [2:15:27<12:15,  3.73s/it]                                                     {'loss': 0.1436, 'grad_norm': 2.3255407612995906, 'learning_rate': 1.8753553470709063e-07, 'epoch': 0.92}
 92%|█████████▏| 2138/2335 [2:15:27<12:15,  3.73s/it] 92%|█████████▏| 2139/2335 [2:15:31<12:11,  3.73s/it]                                                     {'loss': 0.0845, 'grad_norm': 2.1441170031423393, 'learning_rate': 1.8565780161747648e-07, 'epoch': 0.92}
 92%|█████████▏| 2139/2335 [2:15:31<12:11,  3.73s/it] 92%|█████████▏| 2140/2335 [2:15:34<12:03,  3.71s/it]                                                     {'loss': 0.1239, 'grad_norm': 2.3267955510728204, 'learning_rate': 1.8378933861436855e-07, 'epoch': 0.92}
 92%|█████████▏| 2140/2335 [2:15:34<12:03,  3.71s/it] 92%|█████████▏| 2141/2335 [2:15:38<11:56,  3.70s/it]                                                     {'loss': 0.0958, 'grad_norm': 1.8007978326440754, 'learning_rate': 1.8193014929552e-07, 'epoch': 0.92}
 92%|█████████▏| 2141/2335 [2:15:38<11:56,  3.70s/it] 92%|█████████▏| 2142/2335 [2:15:42<11:55,  3.71s/it]                                                     {'loss': 0.0992, 'grad_norm': 2.1899851706514752, 'learning_rate': 1.800802372408278e-07, 'epoch': 0.92}
 92%|█████████▏| 2142/2335 [2:15:42<11:55,  3.71s/it] 92%|█████████▏| 2143/2335 [2:15:46<11:56,  3.73s/it]                                                     {'loss': 0.09, 'grad_norm': 1.9587448309508733, 'learning_rate': 1.782396060123237e-07, 'epoch': 0.92}
 92%|█████████▏| 2143/2335 [2:15:46<11:56,  3.73s/it] 92%|█████████▏| 2144/2335 [2:15:49<11:48,  3.71s/it]                                                     {'loss': 0.1133, 'grad_norm': 2.2804196541114643, 'learning_rate': 1.7640825915416994e-07, 'epoch': 0.92}
 92%|█████████▏| 2144/2335 [2:15:49<11:48,  3.71s/it] 92%|█████████▏| 2145/2335 [2:15:53<11:41,  3.69s/it]                                                     {'loss': 0.0984, 'grad_norm': 1.6127218153719036, 'learning_rate': 1.7458620019265183e-07, 'epoch': 0.92}
 92%|█████████▏| 2145/2335 [2:15:53<11:41,  3.69s/it] 92%|█████████▏| 2146/2335 [2:15:57<11:37,  3.69s/it]                                                     {'loss': 0.0714, 'grad_norm': 1.8968866698859284, 'learning_rate': 1.727734326361713e-07, 'epoch': 0.92}
 92%|█████████▏| 2146/2335 [2:15:57<11:37,  3.69s/it] 92%|█████████▏| 2147/2335 [2:16:00<11:32,  3.68s/it]                                                     {'loss': 0.1454, 'grad_norm': 2.080668239080616, 'learning_rate': 1.7096995997523902e-07, 'epoch': 0.92}
 92%|█████████▏| 2147/2335 [2:16:00<11:32,  3.68s/it] 92%|█████████▏| 2148/2335 [2:16:04<11:33,  3.71s/it]                                                     {'loss': 0.1319, 'grad_norm': 2.554820574714056, 'learning_rate': 1.6917578568246717e-07, 'epoch': 0.92}
 92%|█████████▏| 2148/2335 [2:16:04<11:33,  3.71s/it] 92%|█████████▏| 2149/2335 [2:16:08<11:25,  3.68s/it]                                                     {'loss': 0.0821, 'grad_norm': 2.0241204681936122, 'learning_rate': 1.673909132125645e-07, 'epoch': 0.92}
 92%|█████████▏| 2149/2335 [2:16:08<11:25,  3.68s/it] 92%|█████████▏| 2150/2335 [2:16:11<11:25,  3.70s/it]                                                     {'loss': 0.102, 'grad_norm': 1.884302399272295, 'learning_rate': 1.656153460023302e-07, 'epoch': 0.92}
 92%|█████████▏| 2150/2335 [2:16:11<11:25,  3.70s/it] 92%|█████████▏| 2151/2335 [2:16:15<11:33,  3.77s/it]                                                     {'loss': 0.081, 'grad_norm': 2.1791001934071255, 'learning_rate': 1.6384908747064443e-07, 'epoch': 0.92}
 92%|█████████▏| 2151/2335 [2:16:15<11:33,  3.77s/it] 92%|█████████▏| 2152/2335 [2:16:19<11:33,  3.79s/it]                                                     {'loss': 0.1052, 'grad_norm': 2.208903816620388, 'learning_rate': 1.6209214101846394e-07, 'epoch': 0.92}
 92%|█████████▏| 2152/2335 [2:16:19<11:33,  3.79s/it] 92%|█████████▏| 2153/2335 [2:16:23<11:23,  3.76s/it]                                                     {'loss': 0.0963, 'grad_norm': 1.875722747708676, 'learning_rate': 1.6034451002881478e-07, 'epoch': 0.92}
 92%|█████████▏| 2153/2335 [2:16:23<11:23,  3.76s/it] 92%|█████████▏| 2154/2335 [2:16:27<11:17,  3.74s/it]                                                     {'loss': 0.0881, 'grad_norm': 2.0137968897091, 'learning_rate': 1.5860619786678632e-07, 'epoch': 0.92}
 92%|█████████▏| 2154/2335 [2:16:27<11:17,  3.74s/it] 92%|█████████▏| 2155/2335 [2:16:30<11:15,  3.75s/it]                                                     {'loss': 0.0641, 'grad_norm': 1.8263463424059274, 'learning_rate': 1.5687720787952332e-07, 'epoch': 0.92}
 92%|█████████▏| 2155/2335 [2:16:30<11:15,  3.75s/it] 92%|█████████▏| 2156/2335 [2:16:34<11:03,  3.71s/it]                                                     {'loss': 0.0897, 'grad_norm': 2.0141103510719662, 'learning_rate': 1.5515754339622214e-07, 'epoch': 0.92}
 92%|█████████▏| 2156/2335 [2:16:34<11:03,  3.71s/it] 92%|█████████▏| 2157/2335 [2:16:38<10:54,  3.68s/it]                                                     {'loss': 0.0921, 'grad_norm': 1.8183366286514095, 'learning_rate': 1.5344720772812294e-07, 'epoch': 0.92}
 92%|█████████▏| 2157/2335 [2:16:38<10:54,  3.68s/it] 92%|█████████▏| 2158/2335 [2:16:41<10:48,  3.66s/it]                                                     {'loss': 0.1144, 'grad_norm': 2.036279406098828, 'learning_rate': 1.5174620416849972e-07, 'epoch': 0.92}
 92%|█████████▏| 2158/2335 [2:16:41<10:48,  3.66s/it] 92%|█████████▏| 2159/2335 [2:16:45<10:50,  3.70s/it]                                                     {'loss': 0.1074, 'grad_norm': 2.057341571537349, 'learning_rate': 1.500545359926614e-07, 'epoch': 0.92}
 92%|█████████▏| 2159/2335 [2:16:45<10:50,  3.70s/it] 93%|█████████▎| 2160/2335 [2:16:49<10:42,  3.67s/it]                                                     {'loss': 0.0885, 'grad_norm': 1.5560703276970007, 'learning_rate': 1.4837220645793905e-07, 'epoch': 0.93}
 93%|█████████▎| 2160/2335 [2:16:49<10:42,  3.67s/it] 93%|█████████▎| 2161/2335 [2:16:52<10:41,  3.69s/it]                                                     {'loss': 0.0928, 'grad_norm': 1.7598687321429338, 'learning_rate': 1.4669921880368422e-07, 'epoch': 0.93}
 93%|█████████▎| 2161/2335 [2:16:52<10:41,  3.69s/it] 93%|█████████▎| 2162/2335 [2:16:56<10:37,  3.68s/it]                                                     {'loss': 0.0573, 'grad_norm': 1.7330808055898828, 'learning_rate': 1.4503557625125787e-07, 'epoch': 0.93}
 93%|█████████▎| 2162/2335 [2:16:56<10:37,  3.68s/it] 93%|█████████▎| 2163/2335 [2:17:00<10:33,  3.68s/it]                                                     {'loss': 0.076, 'grad_norm': 2.235830845063436, 'learning_rate': 1.4338128200402867e-07, 'epoch': 0.93}
 93%|█████████▎| 2163/2335 [2:17:00<10:33,  3.68s/it] 93%|█████████▎| 2164/2335 [2:17:03<10:25,  3.66s/it]                                                     {'loss': 0.0555, 'grad_norm': 1.5969657493763263, 'learning_rate': 1.4173633924736364e-07, 'epoch': 0.93}
 93%|█████████▎| 2164/2335 [2:17:03<10:25,  3.66s/it] 93%|█████████▎| 2165/2335 [2:17:07<10:26,  3.68s/it]                                                     {'loss': 0.0913, 'grad_norm': 2.0321971422792258, 'learning_rate': 1.401007511486252e-07, 'epoch': 0.93}
 93%|█████████▎| 2165/2335 [2:17:07<10:26,  3.68s/it] 93%|█████████▎| 2166/2335 [2:17:11<10:23,  3.69s/it]                                                     {'loss': 0.1315, 'grad_norm': 2.3586765307652158, 'learning_rate': 1.3847452085716252e-07, 'epoch': 0.93}
 93%|█████████▎| 2166/2335 [2:17:11<10:23,  3.69s/it] 93%|█████████▎| 2167/2335 [2:17:14<10:15,  3.66s/it]                                                     {'loss': 0.0904, 'grad_norm': 1.514883966086733, 'learning_rate': 1.3685765150430462e-07, 'epoch': 0.93}
 93%|█████████▎| 2167/2335 [2:17:14<10:15,  3.66s/it] 93%|█████████▎| 2168/2335 [2:17:18<10:17,  3.70s/it]                                                     {'loss': 0.0874, 'grad_norm': 2.35842942546834, 'learning_rate': 1.3525014620335786e-07, 'epoch': 0.93}
 93%|█████████▎| 2168/2335 [2:17:18<10:17,  3.70s/it] 93%|█████████▎| 2169/2335 [2:17:22<10:16,  3.72s/it]                                                     {'loss': 0.1031, 'grad_norm': 1.819561457852712, 'learning_rate': 1.3365200804959731e-07, 'epoch': 0.93}
 93%|█████████▎| 2169/2335 [2:17:22<10:16,  3.72s/it] 93%|█████████▎| 2170/2335 [2:17:26<10:13,  3.72s/it]                                                     {'loss': 0.0977, 'grad_norm': 2.218630999737059, 'learning_rate': 1.3206324012026095e-07, 'epoch': 0.93}
 93%|█████████▎| 2170/2335 [2:17:26<10:13,  3.72s/it] 93%|█████████▎| 2171/2335 [2:17:29<10:09,  3.71s/it]                                                     {'loss': 0.0731, 'grad_norm': 1.9005852049610779, 'learning_rate': 1.304838454745455e-07, 'epoch': 0.93}
 93%|█████████▎| 2171/2335 [2:17:29<10:09,  3.71s/it] 93%|█████████▎| 2172/2335 [2:17:33<10:07,  3.73s/it]                                                     {'loss': 0.0827, 'grad_norm': 2.149906648638233, 'learning_rate': 1.289138271535978e-07, 'epoch': 0.93}
 93%|█████████▎| 2172/2335 [2:17:33<10:07,  3.73s/it] 93%|█████████▎| 2173/2335 [2:17:37<10:00,  3.70s/it]                                                     {'loss': 0.0823, 'grad_norm': 2.127444934055037, 'learning_rate': 1.2735318818051123e-07, 'epoch': 0.93}
 93%|█████████▎| 2173/2335 [2:17:37<10:00,  3.70s/it] 93%|█████████▎| 2174/2335 [2:17:40<10:02,  3.74s/it]                                                     {'loss': 0.1051, 'grad_norm': 1.6210918512549735, 'learning_rate': 1.2580193156031927e-07, 'epoch': 0.93}
 93%|█████████▎| 2174/2335 [2:17:40<10:02,  3.74s/it] 93%|█████████▎| 2175/2335 [2:17:44<09:53,  3.71s/it]                                                     {'loss': 0.0753, 'grad_norm': 2.1489038516958243, 'learning_rate': 1.2426006027998982e-07, 'epoch': 0.93}
 93%|█████████▎| 2175/2335 [2:17:44<09:53,  3.71s/it] 93%|█████████▎| 2176/2335 [2:17:48<09:52,  3.73s/it]                                                     {'loss': 0.1242, 'grad_norm': 1.8479358715216865, 'learning_rate': 1.2272757730841744e-07, 'epoch': 0.93}
 93%|█████████▎| 2176/2335 [2:17:48<09:52,  3.73s/it] 93%|█████████▎| 2177/2335 [2:17:52<09:50,  3.74s/it]                                                     {'loss': 0.103, 'grad_norm': 2.0490385956245194, 'learning_rate': 1.2120448559642228e-07, 'epoch': 0.93}
 93%|█████████▎| 2177/2335 [2:17:52<09:50,  3.74s/it] 93%|█████████▎| 2178/2335 [2:17:55<09:49,  3.76s/it]                                                     {'loss': 0.1155, 'grad_norm': 2.0508324457458977, 'learning_rate': 1.1969078807673728e-07, 'epoch': 0.93}
 93%|█████████▎| 2178/2335 [2:17:55<09:49,  3.76s/it] 93%|█████████▎| 2179/2335 [2:17:59<09:41,  3.73s/it]                                                     {'loss': 0.0814, 'grad_norm': 2.079486216040738, 'learning_rate': 1.1818648766401097e-07, 'epoch': 0.93}
 93%|█████████▎| 2179/2335 [2:17:59<09:41,  3.73s/it] 93%|█████████▎| 2180/2335 [2:18:03<09:38,  3.73s/it]                                                     {'loss': 0.0845, 'grad_norm': 1.8535737836322963, 'learning_rate': 1.1669158725479579e-07, 'epoch': 0.93}
 93%|█████████▎| 2180/2335 [2:18:03<09:38,  3.73s/it] 93%|█████████▎| 2181/2335 [2:18:07<09:36,  3.74s/it]                                                     {'loss': 0.0886, 'grad_norm': 1.6593447618955748, 'learning_rate': 1.1520608972754422e-07, 'epoch': 0.93}
 93%|█████████▎| 2181/2335 [2:18:07<09:36,  3.74s/it] 93%|█████████▎| 2182/2335 [2:18:10<09:29,  3.72s/it]                                                     {'loss': 0.1353, 'grad_norm': 2.043977517227241, 'learning_rate': 1.137299979426032e-07, 'epoch': 0.93}
 93%|█████████▎| 2182/2335 [2:18:10<09:29,  3.72s/it] 93%|█████████▎| 2183/2335 [2:18:14<09:26,  3.73s/it]                                                     {'loss': 0.1005, 'grad_norm': 1.761925708760175, 'learning_rate': 1.122633147422092e-07, 'epoch': 0.93}
 93%|█████████▎| 2183/2335 [2:18:14<09:26,  3.73s/it] 94%|█████████▎| 2184/2335 [2:18:18<09:26,  3.75s/it]                                                     {'loss': 0.0673, 'grad_norm': 1.8536756832089298, 'learning_rate': 1.1080604295048203e-07, 'epoch': 0.94}
 94%|█████████▎| 2184/2335 [2:18:18<09:26,  3.75s/it] 94%|█████████▎| 2185/2335 [2:18:22<09:52,  3.95s/it]                                                     {'loss': 0.0916, 'grad_norm': 1.9084781378134363, 'learning_rate': 1.0935818537342103e-07, 'epoch': 0.94}
 94%|█████████▎| 2185/2335 [2:18:22<09:52,  3.95s/it] 94%|█████████▎| 2186/2335 [2:18:26<09:34,  3.85s/it]                                                     {'loss': 0.0991, 'grad_norm': 1.7927939493883385, 'learning_rate': 1.079197447988961e-07, 'epoch': 0.94}
 94%|█████████▎| 2186/2335 [2:18:26<09:34,  3.85s/it] 94%|█████████▎| 2187/2335 [2:18:30<09:20,  3.79s/it]                                                     {'loss': 0.1326, 'grad_norm': 1.8705253072404289, 'learning_rate': 1.0649072399664562e-07, 'epoch': 0.94}
 94%|█████████▎| 2187/2335 [2:18:30<09:20,  3.79s/it] 94%|█████████▎| 2188/2335 [2:18:33<09:08,  3.73s/it]                                                     {'loss': 0.0757, 'grad_norm': 1.5904308490762913, 'learning_rate': 1.0507112571827072e-07, 'epoch': 0.94}
 94%|█████████▎| 2188/2335 [2:18:33<09:08,  3.73s/it] 94%|█████████▎| 2189/2335 [2:18:37<09:01,  3.71s/it]                                                     {'loss': 0.0819, 'grad_norm': 2.164119547470118, 'learning_rate': 1.036609526972282e-07, 'epoch': 0.94}
 94%|█████████▎| 2189/2335 [2:18:37<09:01,  3.71s/it] 94%|█████████▍| 2190/2335 [2:18:41<09:05,  3.76s/it]                                                     {'loss': 0.0922, 'grad_norm': 2.2880037516785245, 'learning_rate': 1.0226020764882771e-07, 'epoch': 0.94}
 94%|█████████▍| 2190/2335 [2:18:41<09:05,  3.76s/it] 94%|█████████▍| 2191/2335 [2:18:44<08:59,  3.74s/it]                                                     {'loss': 0.0943, 'grad_norm': 1.7604268338637419, 'learning_rate': 1.0086889327022343e-07, 'epoch': 0.94}
 94%|█████████▍| 2191/2335 [2:18:44<08:59,  3.74s/it] 94%|█████████▍| 2192/2335 [2:18:48<08:54,  3.74s/it]                                                     {'loss': 0.1254, 'grad_norm': 2.182158856582203, 'learning_rate': 9.948701224041124e-08, 'epoch': 0.94}
 94%|█████████▍| 2192/2335 [2:18:48<08:54,  3.74s/it] 94%|█████████▍| 2193/2335 [2:18:52<08:46,  3.71s/it]                                                     {'loss': 0.1123, 'grad_norm': 2.079802327711691, 'learning_rate': 9.811456722022495e-08, 'epoch': 0.94}
 94%|█████████▍| 2193/2335 [2:18:52<08:46,  3.71s/it] 94%|█████████▍| 2194/2335 [2:18:56<08:46,  3.73s/it]                                                     {'loss': 0.0682, 'grad_norm': 1.7501029127261278, 'learning_rate': 9.675156085232617e-08, 'epoch': 0.94}
 94%|█████████▍| 2194/2335 [2:18:56<08:46,  3.73s/it] 94%|█████████▍| 2195/2335 [2:18:59<08:45,  3.75s/it]                                                     {'loss': 0.1109, 'grad_norm': 2.0644879695165783, 'learning_rate': 9.539799576120445e-08, 'epoch': 0.94}
 94%|█████████▍| 2195/2335 [2:18:59<08:45,  3.75s/it] 94%|█████████▍| 2196/2335 [2:19:03<08:39,  3.74s/it]                                                     {'loss': 0.079, 'grad_norm': 1.5891202327047582, 'learning_rate': 9.405387455316884e-08, 'epoch': 0.94}
 94%|█████████▍| 2196/2335 [2:19:03<08:39,  3.74s/it] 94%|█████████▍| 2197/2335 [2:19:07<08:36,  3.74s/it]                                                     {'loss': 0.0871, 'grad_norm': 1.7924970238925495, 'learning_rate': 9.271919981634459e-08, 'epoch': 0.94}
 94%|█████████▍| 2197/2335 [2:19:07<08:36,  3.74s/it] 94%|█████████▍| 2198/2335 [2:19:11<08:33,  3.75s/it]                                                     {'loss': 0.075, 'grad_norm': 1.7976532399423706, 'learning_rate': 9.139397412066709e-08, 'epoch': 0.94}
 94%|█████████▍| 2198/2335 [2:19:11<08:33,  3.75s/it] 94%|█████████▍| 2199/2335 [2:19:14<08:26,  3.73s/it]                                                     {'loss': 0.0884, 'grad_norm': 1.8254822018188919, 'learning_rate': 9.007820001787848e-08, 'epoch': 0.94}
 94%|█████████▍| 2199/2335 [2:19:14<08:26,  3.73s/it] 94%|█████████▍| 2200/2335 [2:19:18<08:23,  3.73s/it]                                                     {'loss': 0.0965, 'grad_norm': 1.758251583159856, 'learning_rate': 8.877188004152104e-08, 'epoch': 0.94}
 94%|█████████▍| 2200/2335 [2:19:18<08:23,  3.73s/it] 94%|█████████▍| 2201/2335 [2:19:22<08:17,  3.71s/it]                                                     {'loss': 0.0553, 'grad_norm': 1.469273607335507, 'learning_rate': 8.747501670693215e-08, 'epoch': 0.94}
 94%|█████████▍| 2201/2335 [2:19:22<08:17,  3.71s/it] 94%|█████████▍| 2202/2335 [2:19:25<08:15,  3.73s/it]                                                     {'loss': 0.0996, 'grad_norm': 2.2052977706664247, 'learning_rate': 8.618761251124207e-08, 'epoch': 0.94}
 94%|█████████▍| 2202/2335 [2:19:25<08:15,  3.73s/it] 94%|█████████▍| 2203/2335 [2:19:29<08:12,  3.73s/it]                                                     {'loss': 0.0897, 'grad_norm': 2.1161346775684566, 'learning_rate': 8.490966993336625e-08, 'epoch': 0.94}
 94%|█████████▍| 2203/2335 [2:19:29<08:12,  3.73s/it] 94%|█████████▍| 2204/2335 [2:19:33<08:09,  3.74s/it]                                                     {'loss': 0.1316, 'grad_norm': 2.143647782952967, 'learning_rate': 8.364119143400185e-08, 'epoch': 0.94}
 94%|█████████▍| 2204/2335 [2:19:33<08:09,  3.74s/it] 94%|█████████▍| 2205/2335 [2:19:37<08:07,  3.75s/it]                                                     {'loss': 0.1095, 'grad_norm': 2.137778782740592, 'learning_rate': 8.238217945562288e-08, 'epoch': 0.94}
 94%|█████████▍| 2205/2335 [2:19:37<08:07,  3.75s/it] 94%|█████████▍| 2206/2335 [2:19:40<08:03,  3.75s/it]                                                     {'loss': 0.0954, 'grad_norm': 2.139238974768021, 'learning_rate': 8.113263642247516e-08, 'epoch': 0.94}
 94%|█████████▍| 2206/2335 [2:19:40<08:03,  3.75s/it] 95%|█████████▍| 2207/2335 [2:19:44<07:58,  3.74s/it]                                                     {'loss': 0.0734, 'grad_norm': 1.5101254511314042, 'learning_rate': 7.989256474057183e-08, 'epoch': 0.95}
 95%|█████████▍| 2207/2335 [2:19:44<07:58,  3.74s/it] 95%|█████████▍| 2208/2335 [2:19:48<07:57,  3.76s/it]                                                     {'loss': 0.1096, 'grad_norm': 1.9120963093097392, 'learning_rate': 7.866196679768956e-08, 'epoch': 0.95}
 95%|█████████▍| 2208/2335 [2:19:48<07:57,  3.76s/it] 95%|█████████▍| 2209/2335 [2:19:52<07:50,  3.73s/it]                                                     {'loss': 0.1185, 'grad_norm': 2.0198750775157452, 'learning_rate': 7.744084496336346e-08, 'epoch': 0.95}
 95%|█████████▍| 2209/2335 [2:19:52<07:50,  3.73s/it] 95%|█████████▍| 2210/2335 [2:19:55<07:43,  3.71s/it]                                                     {'loss': 0.1058, 'grad_norm': 2.1983077575393657, 'learning_rate': 7.622920158888048e-08, 'epoch': 0.95}
 95%|█████████▍| 2210/2335 [2:19:55<07:43,  3.71s/it] 95%|█████████▍| 2211/2335 [2:19:59<07:42,  3.73s/it]                                                     {'loss': 0.0768, 'grad_norm': 1.910246765754372, 'learning_rate': 7.50270390072777e-08, 'epoch': 0.95}
 95%|█████████▍| 2211/2335 [2:19:59<07:42,  3.73s/it] 95%|█████████▍| 2212/2335 [2:20:03<07:36,  3.72s/it]                                                     {'loss': 0.0791, 'grad_norm': 1.9844083328928481, 'learning_rate': 7.383435953333684e-08, 'epoch': 0.95}
 95%|█████████▍| 2212/2335 [2:20:03<07:36,  3.72s/it] 95%|█████████▍| 2213/2335 [2:20:06<07:32,  3.71s/it]                                                     {'loss': 0.0842, 'grad_norm': 2.4009357283358987, 'learning_rate': 7.265116546358086e-08, 'epoch': 0.95}
 95%|█████████▍| 2213/2335 [2:20:06<07:32,  3.71s/it] 95%|█████████▍| 2214/2335 [2:20:10<07:27,  3.70s/it]                                                     {'loss': 0.0938, 'grad_norm': 1.7623128910598351, 'learning_rate': 7.147745907626569e-08, 'epoch': 0.95}
 95%|█████████▍| 2214/2335 [2:20:10<07:27,  3.70s/it] 95%|█████████▍| 2215/2335 [2:20:14<07:26,  3.72s/it]                                                     {'loss': 0.0703, 'grad_norm': 1.8214891756490985, 'learning_rate': 7.031324263138129e-08, 'epoch': 0.95}
 95%|█████████▍| 2215/2335 [2:20:14<07:26,  3.72s/it] 95%|█████████▍| 2216/2335 [2:20:18<07:21,  3.71s/it]                                                     {'loss': 0.0932, 'grad_norm': 2.0799484640790853, 'learning_rate': 6.91585183706428e-08, 'epoch': 0.95}
 95%|█████████▍| 2216/2335 [2:20:18<07:21,  3.71s/it] 95%|█████████▍| 2217/2335 [2:20:21<07:20,  3.74s/it]                                                     {'loss': 0.0651, 'grad_norm': 1.9060018769550933, 'learning_rate': 6.801328851748889e-08, 'epoch': 0.95}
 95%|█████████▍| 2217/2335 [2:20:21<07:20,  3.74s/it] 95%|█████████▍| 2218/2335 [2:20:25<07:18,  3.74s/it]                                                     {'loss': 0.0818, 'grad_norm': 1.771851875002198, 'learning_rate': 6.687755527707673e-08, 'epoch': 0.95}
 95%|█████████▍| 2218/2335 [2:20:25<07:18,  3.74s/it] 95%|█████████▌| 2219/2335 [2:20:29<07:08,  3.70s/it]                                                     {'loss': 0.0963, 'grad_norm': 1.9396478378261757, 'learning_rate': 6.575132083627755e-08, 'epoch': 0.95}
 95%|█████████▌| 2219/2335 [2:20:29<07:08,  3.70s/it] 95%|█████████▌| 2220/2335 [2:20:32<07:09,  3.74s/it]                                                     {'loss': 0.1091, 'grad_norm': 2.287061152756386, 'learning_rate': 6.463458736367111e-08, 'epoch': 0.95}
 95%|█████████▌| 2220/2335 [2:20:32<07:09,  3.74s/it] 95%|█████████▌| 2221/2335 [2:20:36<07:05,  3.73s/it]                                                     {'loss': 0.0794, 'grad_norm': 1.775595587153788, 'learning_rate': 6.352735700954571e-08, 'epoch': 0.95}
 95%|█████████▌| 2221/2335 [2:20:36<07:05,  3.73s/it] 95%|█████████▌| 2222/2335 [2:20:40<07:00,  3.72s/it]                                                     {'loss': 0.092, 'grad_norm': 2.076705370009214, 'learning_rate': 6.242963190588813e-08, 'epoch': 0.95}
 95%|█████████▌| 2222/2335 [2:20:40<07:00,  3.72s/it] 95%|█████████▌| 2223/2335 [2:20:44<06:54,  3.70s/it]                                                     {'loss': 0.072, 'grad_norm': 1.9357460384369356, 'learning_rate': 6.134141416638484e-08, 'epoch': 0.95}
 95%|█████████▌| 2223/2335 [2:20:44<06:54,  3.70s/it] 95%|█████████▌| 2224/2335 [2:20:47<06:51,  3.71s/it]                                                     {'loss': 0.0796, 'grad_norm': 1.7459544896788788, 'learning_rate': 6.02627058864158e-08, 'epoch': 0.95}
 95%|█████████▌| 2224/2335 [2:20:47<06:51,  3.71s/it] 95%|█████████▌| 2225/2335 [2:20:51<06:48,  3.71s/it]                                                     {'loss': 0.0592, 'grad_norm': 1.836770654548759, 'learning_rate': 5.9193509143048446e-08, 'epoch': 0.95}
 95%|█████████▌| 2225/2335 [2:20:51<06:48,  3.71s/it] 95%|█████████▌| 2226/2335 [2:20:55<06:43,  3.70s/it]                                                     {'loss': 0.0705, 'grad_norm': 1.8914141395885018, 'learning_rate': 5.813382599503703e-08, 'epoch': 0.95}
 95%|█████████▌| 2226/2335 [2:20:55<06:43,  3.70s/it] 95%|█████████▌| 2227/2335 [2:20:58<06:42,  3.72s/it]                                                     {'loss': 0.0651, 'grad_norm': 1.5078008096069424, 'learning_rate': 5.7083658482817165e-08, 'epoch': 0.95}
 95%|█████████▌| 2227/2335 [2:20:58<06:42,  3.72s/it] 95%|█████████▌| 2228/2335 [2:21:02<06:40,  3.74s/it]                                                     {'loss': 0.0721, 'grad_norm': 1.8708658871665158, 'learning_rate': 5.604300862850187e-08, 'epoch': 0.95}
 95%|█████████▌| 2228/2335 [2:21:02<06:40,  3.74s/it] 95%|█████████▌| 2229/2335 [2:21:06<06:32,  3.71s/it]                                                     {'loss': 0.0991, 'grad_norm': 1.7719682375896253, 'learning_rate': 5.501187843587774e-08, 'epoch': 0.95}
 95%|█████████▌| 2229/2335 [2:21:06<06:32,  3.71s/it] 96%|█████████▌| 2230/2335 [2:21:09<06:25,  3.67s/it]                                                     {'loss': 0.0788, 'grad_norm': 1.691075578684216, 'learning_rate': 5.399026989040101e-08, 'epoch': 0.96}
 96%|█████████▌| 2230/2335 [2:21:09<06:25,  3.67s/it] 96%|█████████▌| 2231/2335 [2:21:13<06:21,  3.67s/it]                                                     {'loss': 0.0748, 'grad_norm': 1.792308882526915, 'learning_rate': 5.2978184959193714e-08, 'epoch': 0.96}
 96%|█████████▌| 2231/2335 [2:21:13<06:21,  3.67s/it] 96%|█████████▌| 2232/2335 [2:21:17<06:18,  3.67s/it]                                                     {'loss': 0.1042, 'grad_norm': 2.1475261772586998, 'learning_rate': 5.19756255910403e-08, 'epoch': 0.96}
 96%|█████████▌| 2232/2335 [2:21:17<06:18,  3.67s/it] 96%|█████████▌| 2233/2335 [2:21:21<06:16,  3.69s/it]                                                     {'loss': 0.0696, 'grad_norm': 2.2081277918854836, 'learning_rate': 5.098259371638437e-08, 'epoch': 0.96}
 96%|█████████▌| 2233/2335 [2:21:21<06:16,  3.69s/it] 96%|█████████▌| 2234/2335 [2:21:24<06:13,  3.70s/it]                                                     {'loss': 0.0656, 'grad_norm': 1.6197862952788515, 'learning_rate': 4.999909124732194e-08, 'epoch': 0.96}
 96%|█████████▌| 2234/2335 [2:21:24<06:13,  3.70s/it] 96%|█████████▌| 2235/2335 [2:21:28<06:10,  3.71s/it]                                                     {'loss': 0.0646, 'grad_norm': 1.9941261555479501, 'learning_rate': 4.902512007760207e-08, 'epoch': 0.96}
 96%|█████████▌| 2235/2335 [2:21:28<06:10,  3.71s/it] 96%|█████████▌| 2236/2335 [2:21:32<06:09,  3.73s/it]                                                     {'loss': 0.113, 'grad_norm': 1.836558692425522, 'learning_rate': 4.806068208262071e-08, 'epoch': 0.96}
 96%|█████████▌| 2236/2335 [2:21:32<06:09,  3.73s/it] 96%|█████████▌| 2237/2335 [2:21:36<06:06,  3.74s/it]                                                     {'loss': 0.0681, 'grad_norm': 1.778015688021829, 'learning_rate': 4.710577911941738e-08, 'epoch': 0.96}
 96%|█████████▌| 2237/2335 [2:21:36<06:06,  3.74s/it] 96%|█████████▌| 2238/2335 [2:21:39<06:05,  3.76s/it]                                                     {'loss': 0.0612, 'grad_norm': 1.8603500022691677, 'learning_rate': 4.6160413026671844e-08, 'epoch': 0.96}
 96%|█████████▌| 2238/2335 [2:21:39<06:05,  3.76s/it] 96%|█████████▌| 2239/2335 [2:21:43<05:58,  3.74s/it]                                                     {'loss': 0.0973, 'grad_norm': 2.1359891459644884, 'learning_rate': 4.522458562469967e-08, 'epoch': 0.96}
 96%|█████████▌| 2239/2335 [2:21:43<05:58,  3.74s/it] 96%|█████████▌| 2240/2335 [2:21:47<05:55,  3.74s/it]                                                     {'loss': 0.1171, 'grad_norm': 2.0411966133162003, 'learning_rate': 4.429829871545055e-08, 'epoch': 0.96}
 96%|█████████▌| 2240/2335 [2:21:47<05:55,  3.74s/it] 96%|█████████▌| 2241/2335 [2:21:50<05:51,  3.73s/it]                                                     {'loss': 0.1023, 'grad_norm': 2.233874380047149, 'learning_rate': 4.338155408250388e-08, 'epoch': 0.96}
 96%|█████████▌| 2241/2335 [2:21:50<05:51,  3.73s/it] 96%|█████████▌| 2242/2335 [2:21:54<05:47,  3.74s/it]                                                     {'loss': 0.0887, 'grad_norm': 1.910316885530526, 'learning_rate': 4.247435349106488e-08, 'epoch': 0.96}
 96%|█████████▌| 2242/2335 [2:21:54<05:47,  3.74s/it] 96%|█████████▌| 2243/2335 [2:21:58<05:46,  3.77s/it]                                                     {'loss': 0.0886, 'grad_norm': 1.8288802129891473, 'learning_rate': 4.1576698687961766e-08, 'epoch': 0.96}
 96%|█████████▌| 2243/2335 [2:21:58<05:46,  3.77s/it] 96%|█████████▌| 2244/2335 [2:22:02<05:40,  3.74s/it]                                                     {'loss': 0.1275, 'grad_norm': 1.875607645632209, 'learning_rate': 4.068859140164083e-08, 'epoch': 0.96}
 96%|█████████▌| 2244/2335 [2:22:02<05:40,  3.74s/it] 96%|█████████▌| 2245/2335 [2:22:05<05:34,  3.71s/it]                                                     {'loss': 0.1133, 'grad_norm': 2.0533638730836246, 'learning_rate': 3.981003334216693e-08, 'epoch': 0.96}
 96%|█████████▌| 2245/2335 [2:22:05<05:34,  3.71s/it] 96%|█████████▌| 2246/2335 [2:22:09<05:29,  3.70s/it]                                                     {'loss': 0.0819, 'grad_norm': 1.9459260505014058, 'learning_rate': 3.894102620121576e-08, 'epoch': 0.96}
 96%|█████████▌| 2246/2335 [2:22:09<05:29,  3.70s/it] 96%|█████████▌| 2247/2335 [2:22:13<05:24,  3.69s/it]                                                     {'loss': 0.0877, 'grad_norm': 2.074237578678291, 'learning_rate': 3.808157165207438e-08, 'epoch': 0.96}
 96%|█████████▌| 2247/2335 [2:22:13<05:24,  3.69s/it] 96%|█████████▋| 2248/2335 [2:22:16<05:20,  3.69s/it]                                                     {'loss': 0.0814, 'grad_norm': 1.9358040709577922, 'learning_rate': 3.7231671349634015e-08, 'epoch': 0.96}
 96%|█████████▋| 2248/2335 [2:22:16<05:20,  3.69s/it] 96%|█████████▋| 2249/2335 [2:22:20<05:17,  3.69s/it]                                                     {'loss': 0.1027, 'grad_norm': 1.9926800737203083, 'learning_rate': 3.6391326930390045e-08, 'epoch': 0.96}
 96%|█████████▋| 2249/2335 [2:22:20<05:17,  3.69s/it] 96%|█████████▋| 2250/2335 [2:22:24<05:14,  3.70s/it]                                                     {'loss': 0.0968, 'grad_norm': 2.1909552161420507, 'learning_rate': 3.5560540012438694e-08, 'epoch': 0.96}
 96%|█████████▋| 2250/2335 [2:22:24<05:14,  3.70s/it] 96%|█████████▋| 2251/2335 [2:22:28<05:15,  3.76s/it]                                                     {'loss': 0.0668, 'grad_norm': 1.4259474739503946, 'learning_rate': 3.4739312195471995e-08, 'epoch': 0.96}
 96%|█████████▋| 2251/2335 [2:22:28<05:15,  3.76s/it] 96%|█████████▋| 2252/2335 [2:22:31<05:12,  3.76s/it]                                                     {'loss': 0.0925, 'grad_norm': 1.71476307954407, 'learning_rate': 3.3927645060776725e-08, 'epoch': 0.96}
 96%|█████████▋| 2252/2335 [2:22:31<05:12,  3.76s/it] 96%|█████████▋| 2253/2335 [2:22:35<05:11,  3.80s/it]                                                     {'loss': 0.088, 'grad_norm': 1.5093887112939293, 'learning_rate': 3.312554017122882e-08, 'epoch': 0.96}
 96%|█████████▋| 2253/2335 [2:22:35<05:11,  3.80s/it] 97%|█████████▋| 2254/2335 [2:22:39<05:06,  3.78s/it]                                                     {'loss': 0.0762, 'grad_norm': 1.73263368713124, 'learning_rate': 3.233299907129395e-08, 'epoch': 0.97}
 97%|█████████▋| 2254/2335 [2:22:39<05:06,  3.78s/it] 97%|█████████▋| 2255/2335 [2:22:43<05:00,  3.75s/it]                                                     {'loss': 0.0966, 'grad_norm': 1.813158013589331, 'learning_rate': 3.1550023287021394e-08, 'epoch': 0.97}
 97%|█████████▋| 2255/2335 [2:22:43<05:00,  3.75s/it] 97%|█████████▋| 2256/2335 [2:22:47<04:55,  3.74s/it]                                                     {'loss': 0.1265, 'grad_norm': 2.073802613038506, 'learning_rate': 3.077661432604184e-08, 'epoch': 0.97}
 97%|█████████▋| 2256/2335 [2:22:47<04:55,  3.74s/it] 97%|█████████▋| 2257/2335 [2:22:50<04:52,  3.75s/it]                                                     {'loss': 0.0821, 'grad_norm': 2.1721805333459927, 'learning_rate': 3.0012773677566274e-08, 'epoch': 0.97}
 97%|█████████▋| 2257/2335 [2:22:50<04:52,  3.75s/it] 97%|█████████▋| 2258/2335 [2:22:54<04:48,  3.74s/it]                                                     {'loss': 0.0718, 'grad_norm': 1.6525714494656556, 'learning_rate': 2.925850281238152e-08, 'epoch': 0.97}
 97%|█████████▋| 2258/2335 [2:22:54<04:48,  3.74s/it] 97%|█████████▋| 2259/2335 [2:22:58<04:43,  3.72s/it]                                                     {'loss': 0.0774, 'grad_norm': 1.710438124605696, 'learning_rate': 2.85138031828458e-08, 'epoch': 0.97}
 97%|█████████▋| 2259/2335 [2:22:58<04:43,  3.72s/it] 97%|█████████▋| 2260/2335 [2:23:01<04:41,  3.75s/it]                                                     {'loss': 0.0831, 'grad_norm': 1.6251419626388464, 'learning_rate': 2.7778676222890433e-08, 'epoch': 0.97}
 97%|█████████▋| 2260/2335 [2:23:02<04:41,  3.75s/it] 97%|█████████▋| 2261/2335 [2:23:05<04:34,  3.72s/it]                                                     {'loss': 0.0806, 'grad_norm': 1.9441530979751092, 'learning_rate': 2.7053123348012023e-08, 'epoch': 0.97}
 97%|█████████▋| 2261/2335 [2:23:05<04:34,  3.72s/it] 97%|█████████▋| 2262/2335 [2:23:09<04:30,  3.71s/it]                                                     {'loss': 0.1057, 'grad_norm': 2.4086550687452384, 'learning_rate': 2.63371459552747e-08, 'epoch': 0.97}
 97%|█████████▋| 2262/2335 [2:23:09<04:30,  3.71s/it] 97%|█████████▋| 2263/2335 [2:23:13<04:31,  3.77s/it]                                                     {'loss': 0.1131, 'grad_norm': 2.657891161730371, 'learning_rate': 2.563074542330235e-08, 'epoch': 0.97}
 97%|█████████▋| 2263/2335 [2:23:13<04:31,  3.77s/it] 97%|█████████▋| 2264/2335 [2:23:16<04:27,  3.76s/it]                                                     {'loss': 0.1355, 'grad_norm': 1.6529635041496884, 'learning_rate': 2.4933923112279712e-08, 'epoch': 0.97}
 97%|█████████▋| 2264/2335 [2:23:16<04:27,  3.76s/it] 97%|█████████▋| 2265/2335 [2:23:20<04:24,  3.78s/it]                                                     {'loss': 0.1085, 'grad_norm': 2.138354075350018, 'learning_rate': 2.4246680363948504e-08, 'epoch': 0.97}
 97%|█████████▋| 2265/2335 [2:23:20<04:24,  3.78s/it] 97%|█████████▋| 2266/2335 [2:23:24<04:19,  3.76s/it]                                                     {'loss': 0.0722, 'grad_norm': 1.6540067727449508, 'learning_rate': 2.3569018501605202e-08, 'epoch': 0.97}
 97%|█████████▋| 2266/2335 [2:23:24<04:19,  3.76s/it] 97%|█████████▋| 2267/2335 [2:23:28<04:16,  3.77s/it]                                                     {'loss': 0.0783, 'grad_norm': 1.6566570854640978, 'learning_rate': 2.290093883009714e-08, 'epoch': 0.97}
 97%|█████████▋| 2267/2335 [2:23:28<04:16,  3.77s/it] 97%|█████████▋| 2268/2335 [2:23:32<04:12,  3.76s/it]                                                     {'loss': 0.1053, 'grad_norm': 1.9734291496976233, 'learning_rate': 2.224244263582087e-08, 'epoch': 0.97}
 97%|█████████▋| 2268/2335 [2:23:32<04:12,  3.76s/it] 97%|█████████▋| 2269/2335 [2:23:35<04:05,  3.73s/it]                                                     {'loss': 0.1066, 'grad_norm': 2.3218798061592683, 'learning_rate': 2.1593531186721585e-08, 'epoch': 0.97}
 97%|█████████▋| 2269/2335 [2:23:35<04:05,  3.73s/it] 97%|█████████▋| 2270/2335 [2:23:39<04:01,  3.71s/it]                                                     {'loss': 0.0838, 'grad_norm': 2.3538216038994833, 'learning_rate': 2.095420573228757e-08, 'epoch': 0.97}
 97%|█████████▋| 2270/2335 [2:23:39<04:01,  3.71s/it] 97%|█████████▋| 2271/2335 [2:23:43<03:58,  3.72s/it]                                                     {'loss': 0.0787, 'grad_norm': 1.9562462596830206, 'learning_rate': 2.0324467503549107e-08, 'epoch': 0.97}
 97%|█████████▋| 2271/2335 [2:23:43<03:58,  3.72s/it] 97%|█████████▋| 2272/2335 [2:23:46<03:53,  3.70s/it]                                                     {'loss': 0.0808, 'grad_norm': 1.805341008897864, 'learning_rate': 1.9704317713076236e-08, 'epoch': 0.97}
 97%|█████████▋| 2272/2335 [2:23:46<03:53,  3.70s/it] 97%|█████████▋| 2273/2335 [2:23:50<03:49,  3.70s/it]                                                     {'loss': 0.0997, 'grad_norm': 1.7872738857097992, 'learning_rate': 1.909375755497711e-08, 'epoch': 0.97}
 97%|█████████▋| 2273/2335 [2:23:50<03:49,  3.70s/it] 97%|█████████▋| 2274/2335 [2:23:54<03:46,  3.71s/it]                                                     {'loss': 0.103, 'grad_norm': 1.6259299182122677, 'learning_rate': 1.8492788204893532e-08, 'epoch': 0.97}
 97%|█████████▋| 2274/2335 [2:23:54<03:46,  3.71s/it] 97%|█████████▋| 2275/2335 [2:23:58<03:44,  3.74s/it]                                                     {'loss': 0.0805, 'grad_norm': 1.7493212280320063, 'learning_rate': 1.7901410820000964e-08, 'epoch': 0.97}
 97%|█████████▋| 2275/2335 [2:23:58<03:44,  3.74s/it] 97%|█████████▋| 2276/2335 [2:24:01<03:37,  3.69s/it]                                                     {'loss': 0.0811, 'grad_norm': 1.96996229145216, 'learning_rate': 1.7319626539005762e-08, 'epoch': 0.97}
 97%|█████████▋| 2276/2335 [2:24:01<03:37,  3.69s/it] 98%|█████████▊| 2277/2335 [2:24:05<03:38,  3.77s/it]                                                     {'loss': 0.0831, 'grad_norm': 2.014613215428129, 'learning_rate': 1.6747436482141276e-08, 'epoch': 0.98}
 98%|█████████▊| 2277/2335 [2:24:05<03:38,  3.77s/it] 98%|█████████▊| 2278/2335 [2:24:09<03:33,  3.75s/it]                                                     {'loss': 0.0841, 'grad_norm': 1.720886105024453, 'learning_rate': 1.6184841751168966e-08, 'epoch': 0.98}
 98%|█████████▊| 2278/2335 [2:24:09<03:33,  3.75s/it] 98%|█████████▊| 2279/2335 [2:24:12<03:28,  3.72s/it]                                                     {'loss': 0.0788, 'grad_norm': 1.8099263483951549, 'learning_rate': 1.563184342937174e-08, 'epoch': 0.98}
 98%|█████████▊| 2279/2335 [2:24:12<03:28,  3.72s/it] 98%|█████████▊| 2280/2335 [2:24:16<03:26,  3.76s/it]                                                     {'loss': 0.106, 'grad_norm': 2.008600014374065, 'learning_rate': 1.508844258155728e-08, 'epoch': 0.98}
 98%|█████████▊| 2280/2335 [2:24:16<03:26,  3.76s/it] 98%|█████████▊| 2281/2335 [2:24:20<03:21,  3.74s/it]                                                     {'loss': 0.0756, 'grad_norm': 1.7994453406003306, 'learning_rate': 1.4554640254051955e-08, 'epoch': 0.98}
 98%|█████████▊| 2281/2335 [2:24:20<03:21,  3.74s/it] 98%|█████████▊| 2282/2335 [2:24:24<03:18,  3.74s/it]                                                     {'loss': 0.0773, 'grad_norm': 1.7606468320624635, 'learning_rate': 1.4030437474698566e-08, 'epoch': 0.98}
 98%|█████████▊| 2282/2335 [2:24:24<03:18,  3.74s/it] 98%|█████████▊| 2283/2335 [2:24:28<03:17,  3.79s/it]                                                     {'loss': 0.116, 'grad_norm': 2.001597295323409, 'learning_rate': 1.35158352528586e-08, 'epoch': 0.98}
 98%|█████████▊| 2283/2335 [2:24:28<03:17,  3.79s/it] 98%|█████████▊| 2284/2335 [2:24:31<03:11,  3.76s/it]                                                     {'loss': 0.0904, 'grad_norm': 1.9096447139375108, 'learning_rate': 1.3010834579405552e-08, 'epoch': 0.98}
 98%|█████████▊| 2284/2335 [2:24:31<03:11,  3.76s/it] 98%|█████████▊| 2285/2335 [2:24:35<03:09,  3.80s/it]                                                     {'loss': 0.0606, 'grad_norm': 1.6602585290234597, 'learning_rate': 1.2515436426725481e-08, 'epoch': 0.98}
 98%|█████████▊| 2285/2335 [2:24:35<03:09,  3.80s/it] 98%|█████████▊| 2286/2335 [2:24:39<03:04,  3.76s/it]                                                     {'loss': 0.0866, 'grad_norm': 1.9487214545517622, 'learning_rate': 1.2029641748715349e-08, 'epoch': 0.98}
 98%|█████████▊| 2286/2335 [2:24:39<03:04,  3.76s/it] 98%|█████████▊| 2287/2335 [2:24:43<03:02,  3.80s/it]                                                     {'loss': 0.0753, 'grad_norm': 1.6416729014286375, 'learning_rate': 1.1553451480779687e-08, 'epoch': 0.98}
 98%|█████████▊| 2287/2335 [2:24:43<03:02,  3.80s/it] 98%|█████████▊| 2288/2335 [2:24:47<02:59,  3.82s/it]                                                     {'loss': 0.0824, 'grad_norm': 1.8197526811911202, 'learning_rate': 1.1086866539830044e-08, 'epoch': 0.98}
 98%|█████████▊| 2288/2335 [2:24:47<02:59,  3.82s/it] 98%|█████████▊| 2289/2335 [2:24:50<02:54,  3.79s/it]                                                     {'loss': 0.0862, 'grad_norm': 1.8420407575901185, 'learning_rate': 1.0629887824282203e-08, 'epoch': 0.98}
 98%|█████████▊| 2289/2335 [2:24:50<02:54,  3.79s/it] 98%|█████████▊| 2290/2335 [2:24:54<02:49,  3.76s/it]                                                     {'loss': 0.1256, 'grad_norm': 2.0679211309715395, 'learning_rate': 1.0182516214055083e-08, 'epoch': 0.98}
 98%|█████████▊| 2290/2335 [2:24:54<02:49,  3.76s/it] 98%|█████████▊| 2291/2335 [2:24:58<02:45,  3.75s/it]                                                     {'loss': 0.0984, 'grad_norm': 1.8039995077032147, 'learning_rate': 9.74475257057017e-09, 'epoch': 0.98}
 98%|█████████▊| 2291/2335 [2:24:58<02:45,  3.75s/it] 98%|█████████▊| 2292/2335 [2:25:02<02:43,  3.80s/it]                                                     {'loss': 0.0943, 'grad_norm': 2.11358201171608, 'learning_rate': 9.316597736747091e-09, 'epoch': 0.98}
 98%|█████████▊| 2292/2335 [2:25:02<02:43,  3.80s/it] 98%|█████████▊| 2293/2335 [2:25:06<02:40,  3.82s/it]                                                     {'loss': 0.0999, 'grad_norm': 1.7018457605302033, 'learning_rate': 8.898052537004709e-09, 'epoch': 0.98}
 98%|█████████▊| 2293/2335 [2:25:06<02:40,  3.82s/it] 98%|█████████▊| 2294/2335 [2:25:09<02:36,  3.81s/it]                                                     {'loss': 0.1489, 'grad_norm': 2.140404705545362, 'learning_rate': 8.489117777257804e-09, 'epoch': 0.98}
 98%|█████████▊| 2294/2335 [2:25:09<02:36,  3.81s/it] 98%|█████████▊| 2295/2335 [2:25:13<02:31,  3.78s/it]                                                     {'loss': 0.0614, 'grad_norm': 1.7102431982822932, 'learning_rate': 8.08979424491596e-09, 'epoch': 0.98}
 98%|█████████▊| 2295/2335 [2:25:13<02:31,  3.78s/it] 98%|█████████▊| 2296/2335 [2:25:17<02:28,  3.81s/it]                                                     {'loss': 0.0991, 'grad_norm': 2.1226175271901795, 'learning_rate': 7.700082708883006e-09, 'epoch': 0.98}
 98%|█████████▊| 2296/2335 [2:25:17<02:28,  3.81s/it] 98%|█████████▊| 2297/2335 [2:25:21<02:22,  3.75s/it]                                                     {'loss': 0.0949, 'grad_norm': 1.6642794085709158, 'learning_rate': 7.319983919553686e-09, 'epoch': 0.98}
 98%|█████████▊| 2297/2335 [2:25:21<02:22,  3.75s/it] 98%|█████████▊| 2298/2335 [2:25:24<02:18,  3.73s/it]                                                     {'loss': 0.0959, 'grad_norm': 2.0887931163757636, 'learning_rate': 6.94949860881422e-09, 'epoch': 0.98}
 98%|█████████▊| 2298/2335 [2:25:24<02:18,  3.73s/it] 98%|█████████▊| 2299/2335 [2:25:28<02:13,  3.72s/it]                                                     {'loss': 0.0694, 'grad_norm': 2.035765233336901, 'learning_rate': 6.588627490038968e-09, 'epoch': 0.98}
 98%|█████████▊| 2299/2335 [2:25:28<02:13,  3.72s/it] 99%|█████████▊| 2300/2335 [2:25:32<02:10,  3.72s/it]                                                     {'loss': 0.0965, 'grad_norm': 2.0333443061532708, 'learning_rate': 6.237371258090985e-09, 'epoch': 0.99}
 99%|█████████▊| 2300/2335 [2:25:32<02:10,  3.72s/it] 99%|█████████▊| 2301/2335 [2:25:35<02:06,  3.73s/it]                                                     {'loss': 0.0956, 'grad_norm': 1.904176095270097, 'learning_rate': 5.895730589319248e-09, 'epoch': 0.99}
 99%|█████████▊| 2301/2335 [2:25:35<02:06,  3.73s/it] 99%|█████████▊| 2302/2335 [2:25:39<02:03,  3.73s/it]                                                     {'loss': 0.0692, 'grad_norm': 1.9875775405100682, 'learning_rate': 5.563706141558101e-09, 'epoch': 0.99}
 99%|█████████▊| 2302/2335 [2:25:39<02:03,  3.73s/it] 99%|█████████▊| 2303/2335 [2:25:43<01:58,  3.71s/it]                                                     {'loss': 0.1055, 'grad_norm': 1.9514387473966723, 'learning_rate': 5.241298554125029e-09, 'epoch': 0.99}
 99%|█████████▊| 2303/2335 [2:25:43<01:58,  3.71s/it] 99%|█████████▊| 2304/2335 [2:25:47<01:55,  3.73s/it]                                                     {'loss': 0.0834, 'grad_norm': 2.29696524281879, 'learning_rate': 4.928508447821223e-09, 'epoch': 0.99}
 99%|█████████▊| 2304/2335 [2:25:47<01:55,  3.73s/it] 99%|█████████▊| 2305/2335 [2:25:50<01:52,  3.76s/it]                                                     {'loss': 0.1093, 'grad_norm': 1.8357185558755715, 'learning_rate': 4.625336424927685e-09, 'epoch': 0.99}
 99%|█████████▊| 2305/2335 [2:25:50<01:52,  3.76s/it] 99%|█████████▉| 2306/2335 [2:25:54<01:48,  3.74s/it]                                                     {'loss': 0.0961, 'grad_norm': 2.058551100549323, 'learning_rate': 4.331783069207451e-09, 'epoch': 0.99}
 99%|█████████▉| 2306/2335 [2:25:54<01:48,  3.74s/it] 99%|█████████▉| 2307/2335 [2:25:58<01:44,  3.73s/it]                                                     {'loss': 0.0817, 'grad_norm': 2.238984910159028, 'learning_rate': 4.047848945901156e-09, 'epoch': 0.99}
 99%|█████████▉| 2307/2335 [2:25:58<01:44,  3.73s/it] 99%|█████████▉| 2308/2335 [2:26:01<01:40,  3.71s/it]                                                     {'loss': 0.1192, 'grad_norm': 2.2269826663778027, 'learning_rate': 3.77353460172869e-09, 'epoch': 0.99}
 99%|█████████▉| 2308/2335 [2:26:01<01:40,  3.71s/it] 99%|█████████▉| 2309/2335 [2:26:05<01:36,  3.72s/it]                                                     {'loss': 0.0716, 'grad_norm': 1.8787394903693637, 'learning_rate': 3.5088405648858735e-09, 'epoch': 0.99}
 99%|█████████▉| 2309/2335 [2:26:05<01:36,  3.72s/it] 99%|█████████▉| 2310/2335 [2:26:09<01:32,  3.71s/it]                                                     {'loss': 0.0604, 'grad_norm': 1.6226282143574633, 'learning_rate': 3.2537673450450115e-09, 'epoch': 0.99}
 99%|█████████▉| 2310/2335 [2:26:09<01:32,  3.71s/it] 99%|█████████▉| 2311/2335 [2:26:13<01:28,  3.71s/it]                                                     {'loss': 0.069, 'grad_norm': 1.743215664730554, 'learning_rate': 3.0083154333537814e-09, 'epoch': 0.99}
 99%|█████████▉| 2311/2335 [2:26:13<01:28,  3.71s/it] 99%|█████████▉| 2312/2335 [2:26:16<01:25,  3.70s/it]                                                     {'loss': 0.112, 'grad_norm': 1.9440042440337575, 'learning_rate': 2.7724853024324594e-09, 'epoch': 0.99}
 99%|█████████▉| 2312/2335 [2:26:16<01:25,  3.70s/it] 99%|█████████▉| 2313/2335 [2:26:20<01:21,  3.71s/it]                                                     {'loss': 0.083, 'grad_norm': 1.7183285850620549, 'learning_rate': 2.546277406376696e-09, 'epoch': 0.99}
 99%|█████████▉| 2313/2335 [2:26:20<01:21,  3.71s/it] 99%|█████████▉| 2314/2335 [2:26:24<01:18,  3.75s/it]                                                     {'loss': 0.0761, 'grad_norm': 1.6908378463323896, 'learning_rate': 2.3296921807525187e-09, 'epoch': 0.99}
 99%|█████████▉| 2314/2335 [2:26:24<01:18,  3.75s/it] 99%|█████████▉| 2315/2335 [2:26:28<01:14,  3.75s/it]                                                     {'loss': 0.1129, 'grad_norm': 2.647317077027036, 'learning_rate': 2.122730042597998e-09, 'epoch': 0.99}
 99%|█████████▉| 2315/2335 [2:26:28<01:14,  3.75s/it] 99%|█████████▉| 2316/2335 [2:26:31<01:11,  3.74s/it]                                                     {'loss': 0.0719, 'grad_norm': 1.9560346846913992, 'learning_rate': 1.925391390421583e-09, 'epoch': 0.99}
 99%|█████████▉| 2316/2335 [2:26:31<01:11,  3.74s/it] 99%|█████████▉| 2317/2335 [2:26:35<01:06,  3.69s/it]                                                     {'loss': 0.0785, 'grad_norm': 2.0060637561382837, 'learning_rate': 1.7376766042015437e-09, 'epoch': 0.99}
 99%|█████████▉| 2317/2335 [2:26:35<01:06,  3.69s/it] 99%|█████████▉| 2318/2335 [2:26:39<01:02,  3.70s/it]                                                     {'loss': 0.0888, 'grad_norm': 1.8576963432457074, 'learning_rate': 1.5595860453859745e-09, 'epoch': 0.99}
 99%|█████████▉| 2318/2335 [2:26:39<01:02,  3.70s/it] 99%|█████████▉| 2319/2335 [2:26:42<00:59,  3.70s/it]                                                     {'loss': 0.1108, 'grad_norm': 2.2718368949031267, 'learning_rate': 1.3911200568905713e-09, 'epoch': 0.99}
 99%|█████████▉| 2319/2335 [2:26:42<00:59,  3.70s/it] 99%|█████████▉| 2320/2335 [2:26:46<00:55,  3.72s/it]                                                     {'loss': 0.0742, 'grad_norm': 1.8191785875241426, 'learning_rate': 1.2322789630997422e-09, 'epoch': 0.99}
 99%|█████████▉| 2320/2335 [2:26:46<00:55,  3.72s/it] 99%|█████████▉| 2321/2335 [2:26:50<00:52,  3.74s/it]                                                     {'loss': 0.0777, 'grad_norm': 1.7229480201322784, 'learning_rate': 1.0830630698632772e-09, 'epoch': 0.99}
 99%|█████████▉| 2321/2335 [2:26:50<00:52,  3.74s/it] 99%|█████████▉| 2322/2335 [2:26:53<00:48,  3.71s/it]                                                     {'loss': 0.1367, 'grad_norm': 1.852549223952128, 'learning_rate': 9.434726644991231e-10, 'epoch': 0.99}
 99%|█████████▉| 2322/2335 [2:26:53<00:48,  3.71s/it] 99%|█████████▉| 2323/2335 [2:26:57<00:44,  3.71s/it]                                                     {'loss': 0.1042, 'grad_norm': 1.8754387771716792, 'learning_rate': 8.135080157906095e-10, 'epoch': 0.99}
 99%|█████████▉| 2323/2335 [2:26:57<00:44,  3.71s/it]100%|█████████▉| 2324/2335 [2:27:01<00:41,  3.75s/it]                                                     {'loss': 0.0828, 'grad_norm': 1.937714020877812, 'learning_rate': 6.931693739864465e-10, 'epoch': 1.0}
100%|█████████▉| 2324/2335 [2:27:01<00:41,  3.75s/it]100%|█████████▉| 2325/2335 [2:27:05<00:37,  3.71s/it]                                                     {'loss': 0.0796, 'grad_norm': 2.249789374073427, 'learning_rate': 5.824569708001715e-10, 'epoch': 1.0}
100%|█████████▉| 2325/2335 [2:27:05<00:37,  3.71s/it]100%|█████████▉| 2326/2335 [2:27:08<00:33,  3.71s/it]                                                     {'loss': 0.1115, 'grad_norm': 2.3064343577047715, 'learning_rate': 4.813710194112586e-10, 'epoch': 1.0}
100%|█████████▉| 2326/2335 [2:27:08<00:33,  3.71s/it]100%|█████████▉| 2327/2335 [2:27:12<00:29,  3.74s/it]                                                     {'loss': 0.0823, 'grad_norm': 1.8144698853245798, 'learning_rate': 3.89911714461233e-10, 'epoch': 1.0}
100%|█████████▉| 2327/2335 [2:27:12<00:29,  3.74s/it]100%|█████████▉| 2328/2335 [2:27:16<00:26,  3.76s/it]                                                     {'loss': 0.1137, 'grad_norm': 1.767548046279923, 'learning_rate': 3.080792320564463e-10, 'epoch': 1.0}
100%|█████████▉| 2328/2335 [2:27:16<00:26,  3.76s/it]100%|█████████▉| 2329/2335 [2:27:20<00:22,  3.75s/it]                                                     {'loss': 0.1222, 'grad_norm': 1.8602068211337615, 'learning_rate': 2.3587372976641154e-10, 'epoch': 1.0}
100%|█████████▉| 2329/2335 [2:27:20<00:22,  3.75s/it]100%|█████████▉| 2330/2335 [2:27:23<00:18,  3.71s/it]                                                     {'loss': 0.0636, 'grad_norm': 1.7705213812741822, 'learning_rate': 1.732953466243581e-10, 'epoch': 1.0}
100%|█████████▉| 2330/2335 [2:27:23<00:18,  3.71s/it]100%|█████████▉| 2331/2335 [2:27:27<00:14,  3.70s/it]                                                     {'loss': 0.0887, 'grad_norm': 1.4639216957290855, 'learning_rate': 1.2034420312556638e-10, 'epoch': 1.0}
100%|█████████▉| 2331/2335 [2:27:27<00:14,  3.70s/it]100%|█████████▉| 2332/2335 [2:27:31<00:11,  3.69s/it]                                                     {'loss': 0.0692, 'grad_norm': 1.809462716094516, 'learning_rate': 7.702040122847809e-11, 'epoch': 1.0}
100%|█████████▉| 2332/2335 [2:27:31<00:11,  3.69s/it]100%|█████████▉| 2333/2335 [2:27:34<00:07,  3.65s/it]                                                     {'loss': 0.1135, 'grad_norm': 1.973461026771547, 'learning_rate': 4.3324024353030845e-11, 'epoch': 1.0}
100%|█████████▉| 2333/2335 [2:27:34<00:07,  3.65s/it]100%|█████████▉| 2334/2335 [2:27:38<00:03,  3.65s/it]                                                     {'loss': 0.0751, 'grad_norm': 1.660273888473188, 'learning_rate': 1.925513738287865e-11, 'epoch': 1.0}
100%|█████████▉| 2334/2335 [2:27:38<00:03,  3.65s/it]100%|██████████| 2335/2335 [2:27:42<00:00,  3.67s/it]                                                     {'loss': 0.107, 'grad_norm': 2.1480105062453925, 'learning_rate': 4.813786663171449e-12, 'epoch': 1.0}
100%|██████████| 2335/2335 [2:27:42<00:00,  3.67s/it]                                                     {'train_runtime': 8883.3109, 'train_samples_per_second': 16.824, 'train_steps_per_second': 0.263, 'train_loss': 0.18601225457080425, 'epoch': 1.0}
100%|██████████| 2335/2335 [2:28:03<00:00,  3.67s/it]100%|██████████| 2335/2335 [2:28:03<00:00,  3.80s/it]