A parallel scheduling algorithm for reinforcement learning in large state space