目录
自马克维兹(Markowitz)发表投资组合理论、夏普(Sharpe)修改提出了资本资产定价模型(CAPM),与罗斯(Ross)进一步发展出的套利定价理论(APT)后,学者们逐渐发现股票的特征对其期望报酬率具有一定的解释能力,这也成为量化投资分析之先河。后续随电脑与演算法迅速进步下,机器学习与人工智慧应用到数据挖掘上也取得良好的成果,使量化投资分析在金融领域成为重要的一环。与此同时,投资市场对数据需求也同步增温,当研究者进行量化投资分析时,往往需要大量的数据支持。
台股市场每日产生了许多交易的资讯,如价量、信用与借贷交易…等,也公告了很多公司的重大讯息,如营收、盈余和股利政策…等。若要每日搜集取得这些资讯并整理是相当困难的。况且,资料的品质也是个问题,虽然坊间许多网站提供了免费的数据,研究者可以透过网路爬虫方法抓取资料,但这些免费的数据普遍均存在缺失与错误,若要每日对这些数据作清洗与维护,可能需要耗费另一笔高额的成本。因此,为了解决上述问题,满足量化投资分析者对数据分析的需求,一个数据齐全且高品质的资料库是必备的。有鉴于此,TEJ投资用资料库因此孕育而生。
TEJ投资用资料库收集了大量的台股资料,且研究员也会定期清洗、校阅,以维护资料的品质。资料库内容涵盖三种不同类别的资料库分别为市场交易资料(market data)、财务会计资料(financial accounting data)与公司活动事件(corporate action event)资料。市场交易资料的资料库包含了股票的价量、筹码资料;财务会计资料的资料库包含了公司营收、盈余资料;公司活动事件资料包含了公司经营层重大决策的资料。整体资料库的内容除了对台股市场资讯覆盖度高外,也具备了量化分析必备的point in time的特色。
TEJ投资用资料库的主要架构是以市场交易资料(market data)、财务会计资料(financial accounting data)与公司活动事件(corporate action event)三大类别的资料库所组成,其中各自的资料库又包含不同种类的资料,以下将分别做说明:
涵盖了股票价量、信用与借贷交易,以及法人的卖卖超。另外亦有属性资料,可用以判断股票当时的上下市状况与所属的产业别,亦可用以确认当日股票是否有受到处置、暂停交易或是列为全额交割股。另外也包含了过去曾经上下市柜的股票、每日不同指数成分股和ETF成分股的资讯,利用此资料作量化分析可避免生存者偏差的产生。
收录了月营收资料、经会计师核阅的财报与未经会计师核阅的公司自结损益。月营收与未经会计师核阅的自结财报资讯公布较早,可帮助投资人在公司营运发生变化时,及早进行投资决策的调整。此外经会计师核阅的财报和公司的自结损益均包含了三种资料型态,分别为单季、累计与移动四季的资料,让分析者可依照自己的需求取用,省去资料整理繁琐的程序。
内容包含管理阶层的人事异动、内部人持股申报转让、企业合并收购、资本形成(包含增减资、私募等影响股本的重要讯息)、固定资产异动、股利与库藏股政策,以及公司的重大讯息等。其中每一类别的事件均包含其宣告日、相关的重要讯息,很适合作事件宣告效果的研究,或搭配其他资讯作更进一步的探讨。此外,贯穿整体资料库最重要的特色是具有point-in-time的精神。
如果上市公司的股价资料,因为破产、下市、并购等因素,或像期货合约到期,而消失于历史资料库中,我们一般直觉用现在的上市公司POOL抓取历史资料,就会漏掉这群当时存在市场的投资标的,将无法反应市场当时现况,造成策略绩效高估或低估。而TEJ提供完整上下市资料,让使用者开发策略时,可以避免生存者偏误。
窥视未来(Look ahead Bias)是实验过程中,采用到未来资料,而非当时点能采集的资料,将导致实验结果偏差。例如财务报表有重编后或者去年同期修正资料,就是未来的资料,若采用该资料做为选股条件,策略将无法精准地反映真实交易情况。
TEJ独家提供使用者重编前的财报资料,做成投资用财务资料库提高策略开发的精准度。当然也保留了该资讯公告日的日期,像前面所说的宣告日当天消息反应的价格最真实,因此公告日在量化策略上是必要的资讯。
财报公布的时间点若未加留意,误将财报结束日作为资讯采用的时间点,例如年度财务报表结束日期为当年12月31日,而该笔财报资讯在隔年3月底前才公告,若误用为当年12月31日的日期,则容易造成前视偏差,以能预测未来的前提去进行统计分析。
TEJ资料库除了提供财报日期,同样提供该笔财报公告的日期,以公告日来推了解股价反应,才避免策略误判。
而在进行股价分析时,价格资讯是否有经过公司派发股利股息以及增减资的时间点,也会大幅影响到报酬率分析的结果,
而且避免价格经过除权息节点的不寻常波动,且要将现在价格与过去价格放在同一个基准上比较,我们一定要使用TEJ调整后股价,作为回测的资料。
以上四个PIT资料的重点特色,在TEJ的API资料库,提供给使用者前,就已将上述的问题都处理完毕,让研究者可以直接取用已清洗过的资讯,大幅节省分析前资料处理的时间。
所谓工欲善其事必先利其器,研究者进行量化投资分析时需要大量的数据支持,必须要使用point-in-time资料,以此解决量化资料与一般资料的两大差异,提高策略的准确度。
延伸阅读
欲了解更多量化投资用资料库介绍,请点选以下连结👇
TEJ Youtube影片
如各位读者对于此文章有任何不清楚或想进一步了解
欢迎你于留言版留言或来电、来信询问
☎️ 电话:02–87681088 ✉️ 信箱:tej@tej.com.tw