第236章:第一个“因子”的寻找 (第2/3页)
的《数据清洗标准手册》,对着那一堆原始数据,一条一条核对。
“这里,”他指着屏幕,“2005年6月30日,招商银行。三个来源的数据,两个说收盘价是6.52,一个说是6.55。差三分钱。”
陈默凑过去看。
“三分钱,影响大吗?”
周寻摇头:
“单看一天,不大。但如果用来算年化收益,差之毫厘,谬以千里。”
他顿了顿:
“而且,如果三分钱的误差是系统性的,那整个回测结果都会偏。”
陈默沉默了几秒。
然后他问:
“那怎么办?”
周寻想了想:
“找第四个来源。如果还是对不上,就取中位数。然后把这个问题记下来,以后做敏感性分析。”
他看着陈默:
“所有类似的问题,都要记下来。不能假装不存在。”
陈默点头。
他拿起一支笔,在笔记本上写下第一行:
“数据问题清单”
下面,他写:
1. 2005.6.30 招商银行 收盘价 三个来源不一致 (6.52/6.55) 处理:取中位数6.53
2. ……
这本笔记本,后来成了“默石数据清洗史”的第一页。
整整三年后,他们才真正拥有一套干净的、可用的十年数据库。
而这本笔记本,已经写满了三百多页。
---
下午三点,陈默亲自开始核对数据。
陆方给他分配了第一批任务:2005年到2007年,上证50成分股的日线数据。
一共50只股票,三年,大约750个交易日。每只股票每天有开盘、收盘、最高、最低、成交量、成交额——六个字段。
总共225,000个数据点。
陈默坐在那张折叠桌前,面前摊着三份打印出来的表格——分别来自三个不同的数据源。
他的任务:一行一行比对,把不一致的地方标出来。
第一行,招商银行,2005年1月4日。
来源A:开盘8.52,收盘8.55,最高8.60,最低8.48
来源B:开盘8.52,收盘8.55,最高8.60,最低8.48
来源C:开盘8.51,收盘8.55,最高8.60,最低8.48
开盘价差一分钱。
陈默拿起红笔,在来源C那一列画了个圈。
然后他翻开笔记本,写下:
2005.1.4 招商银行 开盘 来源C=8.51 其他=8.52 差异0.01 暂以多数为准
第二行,2005年1月5日。
三份来源完全一致。
第三行,2005年1月6日。
来源A和C一致,来源B的成交量少了一个零。
陈默愣了一下。
他仔细看了看——来源B的成交量是“1,234,500”,来源A和C是“12,345,000”。差十倍。
他拿起红笔,在来源B那一行画了个大圈。
然后他站起来,走到陆方身后。
“这个,”他指着屏幕,“你看。”
陆方看了看,骂了一句脏话。
“这些网站,”他说,“有时候为了省空间,会把成交量的单位搞混。有的用‘手’,有的用‘股’,有的直接用省略写法,万、十万、百万混着来。”
他看着陈默:
“这种问题,爬虫处理不了。只能人工核对。”
陈默沉默了几秒。
然后他走回座位,继续核对。
一个下午,他核对了3000多个数据点。
发现了47处不一致的地方。
每一处,他都用红笔标出来,记在那本笔记本上。
下班时,他的手指因为一直握着笔,已经有点发僵。
他站起来,活动了一下手腕。
周寻走过来,看着他。
“陈总,”他说,“您今天核对了多少?”
“三千多个。”
周寻点了点头,没有说“辛苦了”,也没有说“这活不该您干”。
他只是说:
“明天还有两万多个。”
陈默愣了一下,然后笑了。
“好。”他说,“明
(本章未完,请点击下一页继续阅读)
『加入书签,方便阅读』