我的分享内容主要分为三部分:
第二个核心要素是算法
那接下来我们结合人工智能的核心三要素,展开谈谈其在量化投资中落地与应用。
同时处理金融数据时要非常注重逻辑。以A股为例,不同的股票具有不同的涨跌停规则,另外新股上市以及复牌等行为,这些都要特殊处理。所以我们要在逻辑的基础上,对信息进行合理挖掘、过滤、组合。
第三个核心要素是算力
未来我们会进一步扩建计算集群,现在每个月都要做一次规划,为未来半年、甚至一年算力扩张提前做好准备,这样才能为各种算法模型的训练提供充足的资源保障。
模型的算法依赖算力。我们从早期简单的几台CPU服务器,算是“小米加步枪”,到目前大规模高性能计算集群,其实只经历了五六年的时间。预计到今年底,我们的计算集群将拥有1500张GPU卡,3万CPU核、1Pb内存以及5Pb磁盘存储,在金融数据的应用场景下AI算力达到400PFlops。而去年同期的数字只有1/大家可以直观感受到:我们每一年在高性能计算集群的投入非常巨大。
☑第三部分我将以表的形式为大家呈现目前使用的量化投资AI框架。
当市场数据流向底层之后,我们会先进入数据模块,经过数据清洗、标准化处理,再流向应用层。应用层主要包括刚才提到的算法,分为因子部分模型部分和交易部分,当预测模型得到结果后,就会进入组合优化和交易执行。经过组合优化和交易执行后,就会形成交易发单给市场,市场再形成交易回报,返回给交易单元。
金融数据的类别
左边是底层、应用层和分析层。底层就是设施+数据,包括数据模块和各种各样的计算资源、网络资源、存储资源。
各位嘉宾下午好,我是明汯投资解环宇,非常感谢主办方的邀请,可以有这样的机会和大家分享今天的主题:未来已来——人工智能开启量化投资新篇章。
解环宇演讲中还展示了其正在推行的量化投资AI框架,在他看来一个较为成熟的量化投资AI平台应该具备两大特质:前瞻性和高效迭代,前者体现在较为完善的顶层设计上,后者体现在多项目协同推进中。
那随之也带来一些不错的成果,比如2019年年底,明汯投资管理规模率先突破300亿;到2020年中,明汯成为国内首批管理规模突破500亿的量化私募管理人。可以看出,明汯的成长历程也是人工智能在量化领域的一次成功探索。
a.低信噪比
b.非标准化数据
a.传统的均值方差模型
b.比较前沿的强化学习模型
预测模型
基于这样的高性能计算集群,一个成熟的量化投资AI框架应该具备哪些特质?首先要有前瞻性,体现在较为完善的顶层策略架构设计上;同时要高效迭代,需要多项目协同推进。具体来看可以归纳为五个观察维度:标准化、流程化、自动化、智能化和精细化。
a.注重可解释性的线性模型:OLS
当我们做完因子工程之后,我们就要去做预测模型。绝大多数的量化策略的本质就是做预测,比如预测未来一段时间的收益率,那有哪些模型呢?
c.可端到端的深度学习模型:DNN、LSTM、Transformer、GNN
算法无疑是整个量化投资的核心,也可以称之为模型。
“低信噪比”意味着数据中噪音比例高,提取有效信号的难度也就比较大。模型在学习过程中,如果调整不够得当,就容易学习“噪音”。由于这一特性,我们在制造模型的时候,尤其强调避免过拟合。
最右侧的可以这样认为,在实盘中是真正的市场或者是交易所,各方参与交易的场景;在回测中你可以自己构建这样的机制,来模拟市场环境。
第一个核心要素是数据
b.统计学习、机器学习模型:Lasso、SVM、GBDT
但从2000年开始,统计学习,机器学习等方法逐渐被大家所认可,更多的对冲基金开始使用更加复杂的预测模型,随着技术和数据的积累便有了后面深度学习、强化学习等人工智能技术。
我们的目的是用历史数据预测未来,所以一定要避免未来信息的引入,并要合理评估历史回测。
首先我们一起来回顾下AI与量化投资的发展进程,大家看这张:
☑第二部分我将结合人工智能的核心三要素,展开谈谈AI在量化投资中应用与实践;
接下来的2012018年,我们开始系统性地加入机器学习和深度学习技术,成为国内最早一批将人工智能技术成功应用到金融市场的量化私募管理人。
组合优化及交易算法模型:
b.时序单调性
前面这段AI发展的历史我不多做赘述,几经波折到90年代,一些实验室的学者和量化界的前辈,开始把人工智能的概念和方法论引入量化投资领域,像大家熟知的几家国际顶尖对冲基金也都在那个时间段相继成立,比如Shaw成立于1988年,Citadel成立于1990年,TwoSigma成立于2001年等。但在那个时间段,AI在量化界更多的是以概念的形式存在,实战中还是以定价模型和统计方法为主流。
b.算法因子挖掘
金融数据的复杂性:
以下为演讲实录精编
☑第一部分是关于AI与量化投资的发展进程;
金融数据与其他行业的数据不同,较为复杂。
我们的脚步没有停下,反而不断加快。2020年,我们设立北美投研中心,从中国走向世界,持续吸收全球顶级投研人才,为明汯提供世界最前沿的技术支持。2021年,我们自有的高性能计算集群已经位居世界超算排名TOP500榜单——这对一家量化投资机构是非常难得的。
接下来再简单回顾下AI与明汯投资的发展进程。明汯于2014年4月成立,其2014-2016年是公司的起步阶段,以传统的统计方法为主。
另一类则是这样的:可能我只是把一些价格、交易量或者其他数据输入到算法里,让算法学习在目标下学习出最优参数,这种称为算法做出来的因子,这类因子更注重在预测中的表现而非逻辑。
可以看出,人工智能体现在量化框架的每一个环节和角落,相信它在未来会有更多的应用。
以上三个模型也侧面反映出我们的迭代进程,复杂度逐渐递增。其实很长一段时间我们都把机器学习作为我们重点研究的对象,比如说树模型,其模型复杂度、参数相比传统统计学习模型有了很大的提升,预测效果也更好。那再到后来的深度学习模型,复杂度进一步扩展,你能调出的结果的空间自然比原来扩大许多。
作为本届世界人工智能大会承办单位之数库科技于9月3日下午举办以“数无疆·智无界”主题分论坛,明汯投资合伙人、投资总监解环宇发表了《未来已来——人工智能开启量化投资新篇章》的主题演讲,从AI与量化投资的发展进程谈起,再结合AI核心三要素拆解人工智能在量化投资的应用和实践,最后围绕如何打造高效迭代量化投资AI框架展开阐述。
因子挖掘模型:简单来讲就是把清洗好的数据做特征工程
2022世界人工智能大会于2022年9月1日至3日在上海举办。世界人工智能大会自2018年以来,已成功举办四届。2022世界人工智能大会由国家发展和改革委员会、科学技术部、工业和信息化部、国家互联网信息办公室、中国科学院、中国工程院和上海市人民政府共同主办。
结合刚才所说的三要素,接下来分享下我们目前所使用的量化投资AI框架。
举个简单例子:过去一段时间的收益率就是一个特征,描述的是过去一段时间内股票涨跌的状态,通过回测,通过评估,你可能会发现这样的特征在未来会具有一个趋势或是反转。
总体而言,预测模型的发展是从简单到复杂、未来还要更复杂的过程。
2019年开始,我们进一步加大投入,开始大规模建设高性能计算集群,每年我们都在持续投入,目前仍处在指数增长阶段。
在解环宇看来,人工智能核心三要素在量化投资中都至关重要,三要素有效协同有助于量化投资策略持续⾼效迭代,如某一要素出现明显短板则有可能造成错失高速发展机遇。“2021年,我们自有的高性能计算集群已经位居世界超算排名TOP500榜单前列。预计到今年底,我们的计算集群将拥有1500张GPU卡,3万CPU核、1Pb内存以及5Pb磁盘存储,在金融数据的应用场景下AI算力达到400PFlops。”
a.逻辑因子挖掘
比如交易所原始数据、原始行情,各类衍生出来的价格、交易量、K线等等。你打开一个炒股软件,上面可能会有分时、K线等。这些其实都是基于交易所原始数据衍生出来的数据,这些比较“Clean”,我们称之为标准化数据。
a.标准化数据
文章为作者独立观点,不代表股票交易接口观点