量化夏普比率,通过算法进行上证指数择时强化学习策略腾讯云开发者社区

本文完整展示了一个将强化学习用于股票投资的案例,呈现了大量算法细节和实验分析,非常值得收藏深研。

作者 | 林晓明、李子钰、何康

本文分享的工作使用DQN强化学习算法构建上证指数日频择时策略,使用2007 至2016 年的数据作为为训练集训练模型,在2017至2022年6月的测试集进行策略回测,年化超额收益率 18.2%,夏普比率1.31,年均调仓42.0 次;进行超参优化后,年化超额收益率提升至 37.0%,夏普比率提升至3.27,年均调仓35.5次。

与监督学习直接通过优化算法逼近标准答案(标签)不同,强化学习在没有标准答案的情况下,通过在环境中进行试错来学习策略以达成回报最大化。有标准答案的监督学习是人们对现实进行抽象与简化,构建出的乌托邦;而没有标准答案的强化学习,更接近世界的本质,也更接近真正意义上的“人工智能”。强化学习的核心思想是个体通过与环境的交互,从反馈信号中进行学习。正如游戏玩家通过尝试多种策略,积累对游戏规则的理解;投资者通过交易行为,积累对市场规律的认知。如果某种行为可以使得投资者获得收益,那么这种行为将得到“强化”。强化学习由智能体和环境两部分构成。智能体(agent)是能够采取一系列行动并期望获得 高收益或者达到某一目标的个体,如游戏玩家,投资者。影响智能体行动 学习的其他因素统一称为环境(environment),如游戏的规则,投资标的和市场上其他参与者等。智能体和环境每时每刻都会进行交互。智能体首先观察环境的状态(state),采取某种动作 (action),该动作对环境造成影响。随后,环境下一刻的状态和该动作产生的奖励(reward) 将反馈给智能体。智能体的目标是尽可能多地从环境中获取奖励。我们在下图以股票交易为示例,整个股票市场就是环境,股票价格,技术指标等信息是状态,买卖股票的交易操作是动作,收益是奖励。智能体首先观察环境,采取行动与环境互动,获得正向或负向奖励。随后,智能体借助反馈修正策略,尽可能最大化奖励。这与投资交易场景非常匹配。投资者首先观察市场,采取买入、卖出、持有等动作,产生盈亏。随后,投资者通过复盘修正投资策略,目标是最大化预期收益。

2015 年,DeepMind 在 Nature 发表论文 Human-level control through deep reinforcement learning,首次将深度强化学习应用于游戏领域并战胜人类,论文采用的强化学习算法正是 深度 Q 网络(Deep Q-learning Network,下文称 DQN)。DQN 有一个记忆库用于学习之前的经历。Q learning 是一种 off-policy 离线学习法,它能学习当前经历着的, 也能学习过去经历过的, 甚至是学习别人的经历。所以每次 DQN 更新的时候, 都可以随机抽取一些之前的经历进行学习, 随机抽取这种做法打乱了经历之间的相关性, 也使得神经网络更新更有效率。DQN 中使用到两个结构相同但参数不同的神经网络, 预测Q估计的神经网络具备最新的参数, 而预测Q现实的神经网络使用的参数则是很久以前的,这样能够提升训练的稳定性。有关算法更多的详细描述可以参考文献[2]。

本文工作主要分为以下几部分:

状态空间表征状态的原始数据为股指在回看区间内日度开盘价、最高价、最低价、收盘价。预处理 方式为计算 t-lookback+1 至 t 日行情数据相对于过去 252 个交易日收盘价的 Z 分数。因此状态空间为 lookback*4 维实空间。回看区间 lookback 取 5 个交易日,同时测试 10 和 15。动作空间动作空间定义为{buy, sell, hold}。其中 buy 代表全仓买入,sell 代表全仓卖出,hold 代表持有多仓或者保持空仓,不涉及做空。基于t日收盘价的状态选择动作,以t+1日开盘价执行交易。状态转移矩阵我们无法对股票市场的状态转移进行精确描述,状态转移矩阵对于智能体而言是未知的。因此采用免模型方法中的 DQN,免模型方法不需要状态转移矩阵,智能体通过与环境互动进入下一状态。奖励函数奖励分四种情况:

当前未持仓,且 At 为 sell 或 hold 时,奖励为预测区间内空头收益率:

当前持多仓,且 At 为 sell 时,奖励为预测区间内扣费后空头收益率:

当前持多仓,且 At 为 buy 或 hold 时,奖励为预测区间内多头收益率:

其中 TC 为单边交易费率,本文取万分之五;Closet+horizon为 horizon 日收盘价,预测区间horizon 取 5 个交易日,同时测试 1 和 10。折扣因子折扣因子默认取 0.9,同时测试 0.5 和 0.7。

Q 网络是 DQN 的核心组件,本文 Q 网络结构为 3 层全连接网络,如下图所示。

算法的主要步骤如下:1. 初始化 Q 网络和目标网络;2. 数据预处理,每个交易日 t,计算 t-lookback+1 至 t 日指数开高低收价格相对过去 252 日收盘价的 Z 分数,作为该日的观测状态;3. 遍历训练集,构建四元组:按时间顺序,遍历训练集内每个交易日。通过 Q 网络计算该日状态的动作价值 ,通过 ε-贪心算法得到动作a;根据动作和奖励规则, 确定奖励值r(即 t 至 t+horizon 日多头或空头收益);将 t+horizon 日状态视作新的状态 ,由此得到每个交易日的(s,a,r,s’)四元组。4. 存入回放缓冲区:将该条经验存入回放缓冲区。当回放缓冲区装满时,删除最早的一条数据。5. 经验回放,优化 Q 网络:每得到一条经验,都对回放内存进行随机采样,得到小批量样本。基于 Q 网络和目标网络计算 Q 网络损失 L(θ),采用优化器更新Q网络参数。6. 每隔指定epoch数量更新目标网络:每完整遍历一轮训练集,视作一个epoch。当训练轮数达到指定epoch次数时,停止训练。7. 使用不同随机数种子合成信号,测试集回测:每组随机数种子训练一组 Q 网络。按时间顺序, 遍历测试集内每个交易日。根据该日状态 s 及训练好的 Q 网络计算动作价值,选择动作价值最高的动作 argmaxaQ(s,a;θ)。100 组随机数种子结果以多数票规则合成,得到最终交易信号。当处于空仓状态时,若动作为 sell 或 hold 则继续保持空仓,若动作为 buy 则于次日开盘做多。当处于做多状态时,若动作为 buy 或 hold 则继续保持做多, 若动作为 sell 则于次日开盘平仓。

原始超参数为:折扣因子 γ=0.9,回放内存 replay_memory=32,回看区间 lookback=5,预测区间 horizon=5。择时策略样本外年化超额收益率为 18.2%,夏普比率为 1.31,年均调仓 42.0 次。

不 同 回 放 内 存 收 益 率 表 现不同,其中replay_memory=32 最好, replay_memory=16 次 之 , replay_memory=64 最差。回放内存和另一个超参数小批量样本数有关联。此处小批量样本数为 16,那么当回放内存为 16 时,每次取回放内存中的全部样本参与训练,失去了随机采样的意义,有损于模型训练。当回放内存较大时,回放内存中包含了相对久远的经验, 好比成年人用儿童的经验学习,也会有损于模型训练。

不同回看区间收益率表现:lookback=5 最好,lookback=10和15 接近,lookback=15 略好。过于久远的信息指示意义可能有限,降低数据信噪比,回看区间取短一些较好。

不同预测区间收益率表现:horizon=10 最好,horizon=5 次之,horizon=1 最差。预测区间 越大,计算奖励时目光越长远,有利于择时策略。预测区间 horizon=1 时,模型始终发出 buy 信号,因此策略和基准一致,这可能是因为下一日收益率随机性较大,模型难以学习。

优化后的超参数为:折扣因子 γ=0.5,回放内存 replay_memory=32,回看区间 lookback=5, 预测区间 horizon=10。此时,择时策略样本外年化超额收益率提升至 37.0%,夏普比率提 升至 3.27,年均调仓 35.5 次。

本文介绍基于强化学习DQN算法构建股指日频择时策略。有别于传统监督学习对真实标签的拟合,强化学习不存在标准答案,而是针对长期目标的试错学习。使用DQN构建上证指数择时策略,原始超参数样本外 2017 年至 2022 年 6 月年化超额收益率 18.2%,夏普 比率 1.31,年均调仓 42.0 次,优化后策略表现进一步提升。本研究仅对上证指数进行择时测试,可扩展至更多可交易标的。状态空间仅采用原始行情数据,可扩展至择时指标,或使用神经网络编码。强化学习算法仅测试 DQN,可扩展至其他算法。强化学习存在过拟合风险,需探索过拟合检验方法。虽然本文的方法表现非常不错,但仍然需要注意将强化学习应用于投资存在以下不可忽视的风险:1. 数据量不足。训练强化学习模型需要较大数据量。对于股票择时场景,日频行情样本量约在10e3数量级,分钟频 行情样本量约在10e6数量级,逐笔数据样本量约在10e7数量级。强化学习可能更适用于 高频领域。低频领域如果要应用强化学习,就只能牺牲模型复杂度,并承担过拟合风险。2. 缺少仿真环境。在传统量化研究中,通常只使用历史数据,缺少对市场的仿真模拟,模型的每个决策实际上并不会影响到市场。这种对市场的简化处理,一方面限制了新样本的获取,另一 方面也压缩了强化学习模型的试错空间。然而试图模拟市场又谈何容易,这是强化学习 应用于投资领域,相比于游戏等领域的关键差异和难点所在。3. 可解释性差。深度强化学习相比深度学习“黑箱”程度更高。强化学习可解释性尚处于初步阶段,大量问题亟待解决。4. 模型不稳定。强化学习模型超参数较多,并且对超参数、随机数种子较敏感。以前述择时策略为例,每组随机数种子单独产生信号,样本外策略相对基准强弱如下图,各随机 数种子表现差距较大。年化超额收益均值 13.4%,最高 28.0%,最低-0.3%,标准差高 达 8.0%,标准差超过均值的一半。

参考文献:[1] Deep Reinforcement Learning for Automated Stock Trading

[2] 动手学强化学习-DQN 算法

[3] Recent Advances in Reinforcement Learning in Finance

THE END
0.华尔街见闻早餐FM上证指数低开后翻红,收涨0.04%;恒生指数收跌1.24%。日经225收涨0.24%;韩国综指收跌1.49%。港股科网股普跌,B站大跌8.48%,网易下跌7.46%,阿里、京东、百度、小米、快手等纷纷受挫。 国务院:到2025年,新能源汽车新车销售量达到汽车新车销售总量的20%左右 jvzquC41yy}/3?80eqs0f‚4ctvodnn4IWJW2JNM273?9PVW0jvsm
1.kd指标参数代表什么?kd指标参数代表什么?举报 K&D 6人讨论6568次围观 关注问题 写回答 讨论回答 (6) Quime KD指标其实就那两条线,大家用的时候要注意看它的数值、图形、交叉还有背离这几个方面。下面我就从这几点来简单说说。首先说数值这块,KD的值都是在0到100之间变动的。一般把80以上叫超买区,20以下叫超卖区,中间的jvzquC41ycv/|xq0eqs/ew4cum5ya;>:3;95;7mvon
2.财经下午茶20251113|工信部:编制“十五五”智能网联新能源汽车11月13日,A股三大指数今日集体上涨,截至收盘,上证指数涨0.73%,报4029.50,深证成指涨1.78%,创业板指涨2.55%,北证50涨2.62%。沪深京三市全天成交额20657亿元,较上日放量1009亿元。全市场近4000只个股上涨。板块题材上,电池产业链、有色金属、有机硅、福建、存储芯片、光伏设备、液冷服务器板块涨幅居前;油气开采及jvzquC41uvudm762lsqb0lto0et0497733741l;946;8;<90ujznn
3.华为P40参数大揭秘,4800万像素主摄引领潮流,麒麟990芯片性能卓越而在此环境下,沪深300和恒生指数继续录得正收益,表明目前投资者对中国资产的信心较强。1)固收方面,10Y美债收益率录得4.11%,本周保持基本稳定,美元指数小幅下行0.18%,当前点位为99.5,接近100;2)权益方面,本周A股指数多数上涨,上证指数和恒生指数领涨市场;全球市场中除去巴西股市和中国相关的沪深300和恒生指数,其余jvzq<84ycr4ykwokcpm/ds|tj0ipo7hp1f{dm87;2;93;7mvo
4.av风韵犹存,经典作品回顾,重温经典瞬间逗号岁月如歌,重温经典瞬间b是什么意思代表什么 夜房躁躁日日久久躁电影网 有家可归 苏菲玛索一级毛片 鞠婧祎旡码大片Av在线播放 12学生小嫩嫩裸体洗澡APP 哪里能看黄片 97国产无遮挡A片又黄又爽 大鸡巴大逼操黑逼精品视频免费看 日本裸体女模 国产无码成人大片柚子 女生100%露胸 崔志佳 SM臭脚软件 91超碰偷拍porn jvzq<84o0dxvpxxv{nk/exr0ep5oqm4573883;3jvo
5.机器学习(九)基于SVM的上证指数涨跌预测网易财经上获得的上证指数的历史数据,爬取了20年的上证指数数据。 实验目的: 根据给出当前时间前150天的历史数据,预测当天上证指数的涨跌。 技术路线:sklearn.svm.SVC 数据实例:中核科技1997年到2017年的股票数据部分截图,红框部分为选取的特征值 --- 特征&标签的区别: 在周志华的《机器学习》中判断是否正熟jvzquC41dnuh0lxfp0tfv8vsa5;93;7271gsvrhng1jfvjnnu1716<83976
6.选股过程中,商誉一定是要重点关注的参数选股过程中,商誉一定是要重点关注的参数,过高的商誉比列就是一个高高在上的地雷,无法确定哪年计提,一旦计提,一般当年都是大额亏损。下面是A股商誉占净资产比例排名,前200位。看看就好。全部评论0 打开APP查看更多评论 热门股吧 1 上证指数 SH000001 3972.03 -0.46% 18392讨论 2 越南VN30 ZNB_VN30 1893.54jvzquC41iwhb0|npc0io1ngya?39Bd5;2876<3jvor
7.KDJ指标的真正用法上证指数(zssh000001)股吧3.参数为(24,3,3):不过这还是比较适合中线投资者选择,还会提高容错率。 了解KDJ的基础知识之后,接下来我把15种KDJ的经典战法整理成图文分享出来,大家可以收藏起来,好好研究,有疑问都可以评论区留言,赠人玫瑰手有余香,祝大家周末快乐! $上证指数(SH000001)$$剑桥科技(SH603083)$jvzquC41iwhb0nfuvouog‚3eqo5og€x.|uyi295223224B:62;<527mvon
8.小伸进漫画首曝幕后制作过程,创意团队揭秘幕后故事,精彩细节曝光上证指数最新 高清吧 国产精品㊙️桃花岛app P0rn国产老人 坤坤浏览器 手机免费 黄色短片小说 暗黑破坏神2官网 AV要到哪里了看 国外色情视频 久久精品美女色欲av免费看蜜月 老年女性到达巅峰时的视频大全 男女XXOO做爰图片啪啪 熙颜特级黄色片 免费黄色影片美女 波多野结衣AV在线 黄色激情jvzq<84ycr4cl€wj0eun0ls1tqge1:6371?88Bd7799467mvo
9.色老头色老大,揭秘老年江湖传奇,那些不为人知的江湖往事,惊心动魄红米5参数 小?🐥伸女生?🍑里网站 详情 公车扯开胸罩揉搓双乳 数调是什么意思 详情 湖人直播免费 艹网站 详情 万界之最强共享类似软件 做爱色情网站 操嫩屄近距离特写 成人网站在线观看成人 男?❌女🍑摸?免费观看视频视 紧缚调教小说 WWWxxx日韩 美国黑人大战范冰冰 天猫直送快吗 怨妇电jvzq<84o0cjenx{g0ei0vjl137576
10.参数估计(精选5篇)由文献[1-2]可知,某种大豆的叶面指数y(t)与生育日数t的关系如表1的第一行和第2行。第3行为本文的结果,第4行为文献[2]的结果。通过表1可看出,本文方法可以较好地识别出参数值,本文得到生长曲线 (10) 表1 数值实验结果 参数估计范文第3篇 Abstract: In recent years, the research of the semi-parametricjvzquC41yy}/3vnujw4dqv4jcq}fp86269;20qyon
11.股票投资组合方法范文股票的平均单价乘以银行持有的股票数量即可得出股票的价值。例如,股票价值是400,上证指数是80,那么股票数量是5,但上证指数是91. 90时,股票价值是91.90[×]5=459.50。该模拟方法是市场变动会计,可看作是第一、二层次的公允价值。 (二)条件假设 为了衡量参数不确定条件项目波动受考虑偏度的投资组合的影响程度,本文jvzquC41yy}/i€~qq0ipo8mcqyko1:<6:4:/j}rn
12.笔扩张,捆绑文再掀热潮,网络文学市场风起云涌,创新与融合成为主流11月13日,A股市场低开高走,放量上涨,成交额为2.07万亿元,上证指数盘中站上4030点,创逾十年新高,深证成指涨逾1%,创业板指涨逾2%。市场表现分化,锂电产业链全线上涨,锂电电解液、锂矿、锂电正极、锂电负极、锂电池等板块爆发,整个A股市场超3900只股票上涨,逾100只股票涨停。jvzq<84ycr4ywjsejgth0koytj4dqv3ep1{tg898:;;`8>660jzn
13.欧美侏儒69XXX的独特艺术表现,引发广泛争议与探讨,其背后文化现象7月24日,A股全天震荡走高,三大指数均创年内新高,沪指盘中最高涨至3608.73点。截至收盘,上证指数报3605.73点,涨0.65%;深证成指报11193.06点,涨1.21%;创业板指报2345.37点,涨1.50%。沪深两市当日成交18447亿元,连续第3个交易日突破1.8万亿元。 盘面上,全市场超4300只个股上涨。海南自贸区概念股集体爆发,海南机场jvzq<845i0h{|qtpi{o/ew4mpklf1:6391=4:B58a5>18B=0jvs