多元统计股票应用?
楼上很多大佬都写了很专业的分析,我来个通俗一点的解释吧。 先说结论,多元统计在选股方面的使用是非常有限的(相对于传统特征工程),但是在对已有股票的分类/聚类方面却有很重要的作用。(ps.由于本人是统计背景,对于量化策略研究不是很精通,所以如果哪些地方说得不对欢迎大家指正!)
首先,从定义上来看,多元统计分析是指基于大样本的数据进行统计分析,所涉及的变量个数大于1。这里的“变量的个数”指的是特征的个数。也就是说,如果待解决的问题是需要构建一个预测模型的话,这个模型中所需要考虑的特征个数是多元统计分析中变量个数的限制条件之一。因此可以得出结论,当需要构建预测模型时,多元统计分析在选型上是没有价值的。
原因也很简单,因为针对同一个问题,只要改变模型的复杂度(加入新特征或者对现有特征做处理)就能达到相同的效果,为何还要选择那种看起来更复杂但实则可能效果还不如原来的方法呢? 但是,多元统计在分类和聚类问题中是有重要作用的。这是因为在上述问题中,我们并不需要根据模型的去估计未知参数,而是通过对已知数据集的分析将样本划分为不同的类别并找出每类的代表样本。这时变量个数的限制就已经不成立了。由于分类问题的目标函数是确定的,而聚类问题的目标函数是不确定的(除非加约束),所以在选择优化算法的时候往往需要采用启发式搜索的方法而不是最优化的方法(后者寻找全局最优,而对于这类问题其实根本不存在全局最优解)。在选取合适的搜索策略之后,多元统计在本题中的意义就体现在它所提供的丰富特征上面了。
当然,这里并不是说传统的特征工程就不重要了,实际上在分类/聚类问题中,传统特征工程仍然非常重要甚至很多时候比多元统计更重要。我在这里只是强调元统计在选股方面的作用并不明显而已。 最后的最后说一下,本文所述内容仅限于数理统计的范畴,对于机器学习和深度学习以及其他现代统计方法不在讨论范围之内。