这种人工智能机制通过与周围环境互动、观察互动结果并获得奖励的方式学习,帮助它决定其行为在长期来看是否具有相关性。
由于一开始相关性是未知的,人工智能将通过连续互动进行学习,就像人类学习新游戏一样。通过在各种可能的环境下测试每个行为,人工智能将更新每个行为的预估长期影响。“长期”概念对强化学习至关重要。例如,人在下国际象棋时,为了获胜,可以牺牲一个兵(短期损失)。同样,开车从 A 点到 B 点时,有时更明智的做法时选择高速路,虽然绝对距离更长,但总用时更短。
根据行为能否满足目标来衡量每个行为,通过这种方式,人工智能将持续调整自身行为,试图做到理智决策,找到最优解。