[2025-10-11 22:32:20,571][__main__][INFO] - Training for 50000 timesteps with NormalQNetwork and NormalReplayBuffer [2025-10-11 22:32:37,605][core][INFO] - Step: 2000, Eval mean: 9.2, Eval std: 0.6