为什么频繁主义者的机器学习方法比贝叶斯方法更成功?
人们经常将贝叶斯方法称为考虑了我们不确定性的方法。 总而言之,这通常可以提高数据效率,并且可以更好地泛化到看不见的数据,但是在计算上也具有挑战性,并且在概念上更加复杂。 例如,标准的神经网络是一个常客模型,我们只考虑一个具有随时间更新的特定权重集的神经网络。 从贝叶斯角度来看,最能解决我们问题的权重值是未知的。 因此,我们根据训练示例为我们更新的每个权重建模一个分布。 为了做出预测,我们可以为每个权重采样一个具体值,或者更好地,对所有可能的权重(通过训练获得的权重分布进行加权)计算平均预测。 贝叶斯方法在这里通常数据效率更高,并且泛化效果更好。 同时,它在计算上更昂贵,概念上也更复杂。 这是频繁主义者方法在机器学习中占主导地位的主要原因。 目前,贝叶斯模型在较小的数据上能够做出更好的预测,但是许多人正在努力将其扩展到可用于许多任务的大型数据集。