关注余额宝也有一段时间了。
前段时间A股一路下跌,而余额宝的利率一路上行。我就开始胡思乱想,年底银行缺钱,只好提高利率吸引储蓄。同样的理由导致余额宝这类货币基金的利率也高高在上。难道是这个缘故致使股市大量资金流出,从而导致股市一路走低?那月初开始余额宝的利率不断下降,是否有资金流向股市呢,这预示着A股即将见底反弹?
余额宝这类货币基金和股市是否存在这样的关系:余额宝利率涨,则股市跌;利率跌,则股市涨。
大胆假设,小心求证。
要印证我的想法,先从余额宝和股市的数据着手吧。
于是从网上找最近半年来余额宝的收益走势图和沪深两市的股指数据,数据来源如下:
把数据整理好,然后生成line chart,相信应该能从chart的走势看出点名堂。
生成chart之前,我猜,沪深股市是联动的,所以它们的走势应该大致差不多吧。呵呵,生成的line chart印证了我的想法,这哥俩指数的队形保持得相当好。
上证指数与深证成指
那余额宝和股市的关系呢,二者的涨跌关系如我所料的相反吗?在生成chart时,我准备把chart的primary axis设为余额宝的万份收益,从小到大;把chart的secondary axis设为上证指数,从大到小。如果猜测正确的话,那它们在line chart中的走势即使没有上证指数和深圳成指那么一致,应该大致上不会相差太远吧?
于是,根据数据我生成了如下line chart。
余额宝与上证指数
从6月30日到9月30日的数据感觉有些杂乱无章,9月30日之后的数据好像走势有点类似。它们到底是有关系呢,还是有关系呢?如果没有一定的标准,仅仅用肉眼来判别人走势是否一致,是不是太牵强?肿么办捏?值得庆幸的是,一个同事告诉我,有现成的算法来计算两组数据之间的关联程度,在
Wikipedia上,可以找到Pearson product-moment correlation coefficient算法:
cor公式
这种算法用来计算两组数据之间的线性相关程度。计算结果是-1到1之间。如果结果越接近0,那它们的相关性就越小;越接近-1或1,相关性就越大。
同事还告诉我,在自然科学的统计中,如果超过0.7,那就认为相关性很大;对于社会科学,因为参杂了太多的认为因素在内,如果超过0.6,就认为相关性比较大了。
让人振奋的是,有一种称之为R的统计工具,内嵌了很多统计算法,只需要调用cor()函数就能得到我要的结果。实在太好了,我不必重新发明轮子。
分别把余额宝、上证指数、深圳成指的数据输出到3个文件中,然后通过scan()导入到三个变量中。
调用cor函数,把上证指数和深证成指代进去,得到结果0.945。嗯,意料之中,相关性非常大。
把上证指数和余额宝的万份收益代进去试试看吧。汗,结果让我大吃一惊,竟然是-0.135。这个结果实在太令人沮丧了!
从图形上来看,9月30日之后的数据似乎走势差不多,它们还是有关系的吧?要不要代进去试试看?可这是一组我刻意选择的样本,即使相关性大,似乎也不能说明它们有关系吧?别想那么多,还是先试试看。
如我所料,上证指数和深证成指的相关性是0.975。
上证指数和余额宝的相关性仍旧是很低的-0.136。汗,看走眼了,看来它们本就是貌合神离的两个,没法凑成一对的!
好吧,是我想多了。令人失望的-0.135和-0.136,基本上证明了我的猜想纯粹是扯淡,二者没有线性相关。
自我安慰一下吧,说不定二者之间存在着某种我不知道的曲线相关性;或许二者的相关性在时间上有一定的滞后;也或许二者有一定程度的联系,只是并不占主导因素,被其他的因素给湮没,从而导致让他们看起来关系不那么大;也或许是样本太少,很难体现他们的相关性;也或许是余额宝在成立之初,各种因素太多,它的走势并不是货币基金走势的真实体现;也或许… 算了,不必找太多借口。总之,在个人能力范围之内,从现有的数据来看,我只能得出二者没有关系的结论。
以后学点经济学的知识再进一步研究,至于今天,还是洗洗睡吧。:(
以上部分完成于2014.01.24,以下部分为2014.01.27新增。
多谢Jerry的提醒,在处理数据之前,应该先剔除干扰点。
在R中,通过plot()函数,我得到了余额宝的数据分布图,如下:
余额宝数据范围
很显然,绝大部分数据都集中在0.8到2之间,唯一有个数据达到了3.6037。查看了下历史数据,在3.6037这个数据之前,连续2天没有数据更新。严重怀疑这个3.6037是3天数据的总和。于是,剔除这个干扰数据之后重新计算。
上证和余额宝的相关性为-0.315,从余额宝成立至今到现在,看起来应该没有相关性。
2013.09.30到2014.01.21的上证指数和余额宝的相关性为-0.749,应该是有相关性。
当然,由于后者是我刻意选择的数据,加之样本数目太小,很难断定它们就是相关的。继续观察吧。