[2025-10-11 23:25:33,757][__main__][INFO] - Training for 50000 timesteps with NormalQNetwork and NormalReplayBuffer [2025-10-11 23:25:44,936][core][INFO] - Step: 2000, Eval mean: 262.8, Eval std: 52.92409659125038