数据难题:A股量化进程中的“裹脚布”
http://msn.finance.sina.com.cn 2012-02-18 01:16 来源: 第一财经日报量化投资面临行情数据使用过于广泛、财务数据发布频率低、分析师客观性存疑等一系列数据问题
黄婷
[ “量化数据相似之后,量化策略也会很相似,这样,原来提供阿尔法的因子就变成了风险因子。” ]
“狼就在门口。”这是世界上最神秘的对冲基金、量化投资的杰出代表文艺复兴科技公司创始人詹姆斯·哈里斯·西蒙斯经常挂在嘴边的话。
即便是华尔街最成功的量化大师,也无时无刻不在担心,自己的魔法可能会随时随地失灵,如同瓶子里的精灵一样,“嗖”的一声就不见了踪影。
而国内还处于萌芽阶段的量化投资也正面临重重困难的考验。
数据难题:哪些量化数据更适用?
2011年被称为量化投资的元年,但相对于国外40多年的量化投资历史,A股的量化还处于初级阶段。在一批批华尔街人士回国的过程当中,华尔街这一先进的投资方式也被带了回来,大量国外模型被直接引进到A股市场当中,A股的量化也直接跳过了原始的探索阶段直接步入实战阶段。但在“一口吃成大胖子”之后,一些弊端和困境也开始逐渐显露出来,而其中数据问题尤为受到关注。
“量化投资中,数据非常核心,因为量化就是对市场信息的结构化过程,数据将直接影响投资结果。”朝阳永续数据部总经理李智对第一财经日报《财商》记者说。
据李智介绍,目前国内量化投资领域运用到投资中的主要有四种数据,包括行情数据(来源:交易所),财务数据(来源:上市公司的财务报表),分析师数据(来源:数据提供商对卖方研究报告的结构化整理)以及行业专业数据(来源:行业网站或者数据商)。
其中,来源于交易所的行情数据或者价格数据是量化投资中最普遍使用的数据,目前国内量化投资领域中,相当大一部分量化策略和模型都是基于行情数据。
“行情数据的量化是最早的。”深圳市今日投资财经资讯有限公司量化研究部总监陈智对记者表示,早期的技术指标就是对行情数据的量化应用,所以在量化投资中,行情数据量化应用比较广泛,但这也显现了行情数据的缺陷,就是大家都在用这个数据,出现同质化的几率就比较高。
“量化数据相似之后,量化策略也会很相似,这样,原来提供阿尔法的因子就变成了风险因子。”曾供职于华尔街量化对冲基金的一位公募基金经理说。
这也是所有数据普遍存在的问题。至于财务数据,其局限性则更为突出。
“财务数据存在的最大问题是频率问题。”陈智说,财务数据也是量化投资中应用较为广泛的数据,包括市盈率、市净率等等,但是财务报表最快也只能一个季度公布一次,所以很难只依赖财务数据进行量化投资。
行业专业数据主要包括材料、大宗商品等各种细分行业,数据来源则较为分散。
分析师数据能反映市场情绪吗?
私募康晓阳2002年从美国回国从事量化投资,第一件事就是创立今日投资数据库。根据国外量化投资的经验,分析师数据是量化投资中一项重要的基础数据,而当时国内对这类数据的梳理还处于空白阶段,康晓阳旗下的今日投资也成为国内最早的分析师数据库之一。
拥有专业数据商背景的上海朝阳永续信息技术有限公司也是从2005年开始着手分析师数据库的建设,李智告诉记者,目前使用朝阳永续分析师数据的量化投资机构中,就有20家基金、前十大保险公司以及部分私募和券商。
“分析师的研究报告实际上是研究市场情绪的一个很好的代理指标,因为分析师的报告会影响投资者,最终再转化为影响投资行为,从而传递到交易层面上去的。”陈智说。
简而言之,分析师数据就是把市场上卖方机构的研究报告通过技术和人工的手段进行处理之后,将其用数量化的方式呈现出来,其中最主要的就是分析师对于上市公司的业绩预期。
“分析师给市场不断提供信息,有的投资者在看这个信息,它成了市场情绪的载体,逐渐传播到投资者那里,投资者有什么反应就是我们要研究的因素。现在很多学术研究也证明,利用分析师数据是可以获得阿尔法收益的。”上述基金经理说。
但是,上述基金经理也指出,这其中仍然存在不少来自数据源本身的问题。
上述基金经理列举了几个例子,比如,作为卖方机构,分析师喜欢推荐有市场情绪的股票,希望通过推荐股票能够增加市场的交易量。还有,分析师大部分是推荐买入,基本上不会有“卖出”评级的研究报告,这些都会影响到分析师数据的覆盖面以及有效性。
“我们还要考虑,分析师是不是作出客观分析。”上述基金经理说,券商与上市公司之间的利益关系等也会影响分析师作出的评级。
“国外分析师报告中做得较多的是季度预测,而在国内则没有,频率较低也影响了分析师数据在量化投资过程中的应用。”上述基金经理说。
量化模型存在同质化倾向
除了数据问题之外,国内量化模型也尚停留在比较初级的阶段。
好买基金研究中心在对国内量化基金进行分析之后就指出,从基金行业的情况看,量化模型存在同质化倾向。
“每一个量化模型背后都隐含着一个逻辑出发点,代表了一种选股或择时的思路,而在一种思路被众多投资者广泛应用的情况下,模型是很难产生超额收益的。”好买基金指出,目前大部分的量化基金使用的选股逻辑有着很多相似之处,普遍使用的选股模型是多因素模型,出发点大都是基于对上市公司基本面的量化。模型的因子也大同小异,模型输入数据来源也基本上是一些季报上公布的诸如“盈利指标”、“效率指标”等财务数据以及一些估值相关的数据,同质化倾向较重,因此,模型的“效力”可能会被减弱。
“投资工具的缺失也是限制量化投资发展的一大问题。”一家券商量化投资部总监对记者说,目前国内可交易的股票市场衍生品就是沪深300股指期货,衍生品品种很有限,而量化基金的很多策略都是基于灵活地运用衍生产品,投资工具的缺失会使得量化策略不能达到预期中的效果,所以目前量化产品收益率都不高,只有在去年熊市环境中,注重风险控制的量化产品才能脱颖而出,而一旦市场环境走好,量化产品又将在一片高收益的产品中被淹没。