拥有如此庞大数据的分类任务有哪些步骤?

具有39个功能(小于1GB)的300万个实例的数据集虽然规模不小,但似乎处理起来并不大。 另一方面,您的某些步骤与您所关注的大量实例不太相关。 如果我想进行分类并希望在这种情况下具有一定的可解释性,也许我会先尝试采用随机梯度下降法进行逻辑回归。 即使是朴素的贝叶斯也可能表现不错,但易于实现。 至少,您有一个基准可以击败。 如果您在计算条件概率时稍加注意,那么朴素贝叶斯可以很好地工作。 您只有39个功能,我认为消除功能不是至关重要的,甚至根本没有帮助。 相反,它可能会降低性能。 仅通过查看方差来减少特征听起来对我来说有点危险,因为不存在(总体)方差可能是最大类的指标。 如果您确实想在分类之前将特征归约作为预过滤步骤,则可能需要以不同的方式(某种熵测度)来定义“非信息性”。 通常只有在特征的大小在几个数量级上不同时,特征归一化才有用。 好吧,它一般不会受到伤害。 美白有时会有所帮助,但有时却无济于事。 一些算法,例如逻辑回归,可以很好地利用功能之间的相关性(在解释权重时只需小心)。 顺便说一句,除了PCA以外,您还有什么要考虑的美白方面吗? PCA之所以有用,主要是因为它降低了维数(并提供了某种正则化效果)。 在不尝试分类并先查看输出的情况下,如何衡量实例的重要性? 您还有其他信息来源吗?…

如何跟踪您的日常学习进度?

在学习过程中找到可衡量的元素,并设计一种跟踪它们的方法。 例如,当我从事编辑工作时,有时会涉及到学习曲线和查找我不熟悉的信息。 我保留了一个电子表格,其中记录了手稿中有多少个单词,我花了几个小时的工作来了解自己的速度。 如果我知道我每小时要编辑6,000个单词(估计每页300个单词,如果有一个好的作家,我可以以每小时20 pp。的速度滚动),而手稿的长度为60,000个单词,那么我至少需要10个单词几个小时来做​​工作。 我可以在必须按时完成任务的时间内进行分配。 因此,如果我有两周的时间完成工作,并且每周给自己一个“正常”的工作,那么每天只有一小时可以完成机械的编辑工作。 然后,我可以列出问题的清单,并每天花另外一个小时研究它们。 我决定抽出时间从事有薪工作,并从事自由职业,以了解互联网,我坚信互联网是最终的出版场所。 就我而言,我心目中的目标非常模糊,因为我没有如何进行研究的框架。 所以我挣扎了很多。 当我学到一些东西时,我会尝试寻找一种情况,以便立即使用该知识,以便我了解它。 另一方面,您似乎有一个非常具体的目标,并且至少对所学内容有某种背景。 您可能会汇总要学习的材料的大纲,以防万一事实证明要学习的内容比您最初想象的要多。 您可能会使用电子工作簿或日记,在其中将材料分解为有意义的单元,可能是需要先学习x才能理解y,并记录在每个主题上花费的时间。 学习并非总是以线性方式发生。 因此,如果您担心自己的进度正常,请进行一次尝试,以舒适的速度摄取材料并查看: 您每小时可以拿多少钱;…