使用整个训练集的优化方法被称为批量(batch) 或确定性(deterministic)梯度算法,他们会在每次更新参数时计算所有样本。通常,“批量梯度下降”指使用全部训练集,而“批量”单独出现时,指一组样本。每次只使用部分样本的方法被称为随机(stochastic)或者在线(online)算法。在线通常是指从连续产生的数据流(stream)中提取样本,而不是从一个固定大小的样本中遍历多次采样的情形。大多数深度学习算法介于两者之间,使用一个以上但不是全部的训练样本,传统上称这种方法为小批量(minibatch)或者小批量随机(minibatch stochastic)方法,现在统称为随机(stochastic)方法。