哪些股票纳入吗?
首先,你要弄清楚为什么要选500只股票进行测算。 比如你测算是考察一个指标在历史上是否有效,那么理论上来说你至少需要2000个历史数据(500组数据*4次测试)才能算这个指标的统计学显著性(即p值,用来判断是否在5%的置信水平上有效)。这还不包括你的指标设计是否正确、前后有没有逻辑漏洞等等问题。
如果涉及选股,你需要考虑的因素就更多了,每个因素又可能包含成千上万的选项,所以你想要通过几个简单的公式就选出能稳定赚钱的一百只股票,基本是不可能的——如果你真的发现了这么一个神奇的公式,那我只能说运气真好! 但话说回来,如果你只是单纯想做一个模拟测试,看看资金在不同策略下的结果,那么100-500只股票确实已经足够精确了。 比如你建立了一个多因子模型(或任何其他模型)来预测股票的未来收益率,你只需要把未来收益按模型计算出来就可以了。此时股票的数量对结果的影响并不重要,因为影响结果的主要是参数,而参数只要取值合理,测试结果就会比较准确。当然,测试的结果越精确,对参数的估计要求就越严格。
但如果测试的初衷在于检验策略的逻辑是否成立并在历史数据上得到了验证,那选择500只股票确实有点少了,应该尽可能多地收集历史数据并保证数据的完整性。 如果想要增加数据的完备性,你可以:
①扩大测试的时间跨度;
②将同一时间段内不同资产的价格变动综合考虑进去(即考虑组合的风险)③将同一时间段内不同市场之间的波动幅度考虑进来(考虑流动性风险)④将同一时间段内不同行业之间的波动幅度考虑进来⑤将同一时间段内不同国家之间(或区域间)的波动幅度考虑进来…… 这样下来,你测试的策略可能就没多少实际意义了,因为任何一个策略都不能同时满足这么多条件。不过测试出来的结果倒是更加符合实际了。