[2025-10-11 23:41:03,998][__main__][INFO] - Training for 50000 timesteps with NormalQNetwork and NormalReplayBuffer
[2025-10-11 23:41:14,639][core][INFO] - Step: 2000, Eval mean: 262.8, Eval std: 52.92409659125038
[2025-10-11 23:41:26,221][core][INFO] - Step: 4000, Eval mean: 243.4, Eval std: 65.53655468515262
[2025-10-11 23:41:37,900][core][INFO] - Step: 6000, Eval mean: 181.4, Eval std: 57.339689570139804
[2025-10-11 23:41:48,820][core][INFO] - Step: 8000, Eval mean: 98.2, Eval std: 2.638181191654584
[2025-10-11 23:42:00,404][core][INFO] - Step: 10000, Eval mean: 116.9, Eval std: 5.18555686498567
[2025-10-11 23:42:12,569][core][INFO] - Step: 12000, Eval mean: 108.0, Eval std: 3.4641016151377544
[2025-10-11 23:42:24,494][core][INFO] - Step: 14000, Eval mean: 149.4, Eval std: 7.578918128598566
[2025-10-11 23:42:37,439][core][INFO] - Step: 16000, Eval mean: 250.2, Eval std: 12.416118556135006
[2025-10-11 23:42:52,336][core][INFO] - Step: 18000, Eval mean: 500.0, Eval std: 0.0
[2025-10-11 23:43:07,082][core][INFO] - Step: 20000, Eval mean: 500.0, Eval std: 0.0