-

整体来看LightGBM相比等权组合2025年8月20日

来源:未知 时间:2025-08-20 21:33
导读:整体来看LightGBM相比等权组合2025年8月20日 摘要:跟着转换盛开的一贯长远,住民家庭的收入程度和生存程度一贯升高,对家庭资产装备有了更高质地的央浼。资产装备涉及资产订价和投


  整体来看LightGBM相比等权组合2025年8月20日摘要:跟着转换盛开的一贯长远,住民家庭的收入程度和生存程度一贯升高,对家庭资产装备有了更高质地的央浼。资产装备涉及资产订价和投资优化组合等题目,仍然成为数理统计、机械研习、活动金融等众学科的交叉探讨热门。合理的资产装备政策不光或许为投资者们带来可观的逾额收益,还能激动血本商场矫健起色和维持邦度金融安静。大大批住民的投资政策基于史乘投资体味、宏观商场的实时讯息和片面的思法,难以随外界改变而乖巧变通。人工智能、云揣测、大数据等科学工夫正重塑资产装备模子,行使合系工夫能够供应更一切切实的讯息判辨,优化资产装备模子与政策,晋升投资决议的出力与质地,从而正在可控危机的条款下得到稳重收益,杀青住民家当的保值增值目的。本文核心合心决议树和深度研习算法正在资产订价题目上为住民资产装备供应的处理计划,并正在中邦A股商场的几个合头指数上验证了模子的有用性。本文的孝敬如下:其一,基于LightGBM的决议树模子与古板众因子组合模子比拟,具有可讲明性强、数据质地央浼低等特色,正在沪深300和A500的指数因素股上行使纯众头政策杀青了年化收益率约7%和2%的晋升;其二,基于Transformer的深度研习模子与其他深度模子比拟,通过自防备力机制能够发现更深的隐含联系具有更强的非线的指数因素股上比拟ALSTM(基于防备力的是非回忆搜集)杀青了年化收益率0.7%和1%的晋升。合系算法的探讨丰厚了证券公司智能投顾平台的资产装备政策,为住民供应了众样化的家当打点计划。

  本世纪以后,我邦住民家当积聚速率加快,个中房地产占家庭家当的比例高达80%,大幅领先以股票、基金为代外的权利类金融资产占比。正在家当打点商场,银行理财占比高达50%,远远高于基金、信任和保障资管等产物的比例。该局面与邦际上成熟的家当打点商场截然相反。党的二十大讲述中夸大中邦式当代化是理想群众协同浊富确当代化,而住民家当的保值增值是杀青协同浊富的苛重途径之一。跟着近年来我邦对房地产商场的科学调控以及银行存款利率跌破2%,住民将挤出更众存款向血本商场倾斜。

  合理的资产装备政策不光或许为投资者带来较为可观的逾额收益,同时对付激动血本商场矫健起色和维持金融安静具有苛重实际事理。大大批住民的投资政策是基于史乘投资体味、宏观商场的实时讯息和片面的思法,难以随外界改变而乖巧变通;另外投资标的快速增进以及标的讯息的大爆炸导致古板的资产装备政策面对着资产数目维度大和投资讯息集维度高的离间,是以构修适该当前时间投资需求的资产装备本事显得尤为需要。

  人工智能、云揣测、大数据等科学工夫驱动着资产装备模子的转型和重塑。通过对海量数据的发现,为住民资产装备供应更一切、长远的讯息根柢;通过对危机接受才气和收益目的的平均,为住民定制合理的危机管制计划;通过对商场动态的跟踪,助助住民实时调动资产装备政策,避免因讯息滞后而导致的决议失误。

  面临金融商场非平定和随机的性子,机械研习或许执掌和判辨非线性联系,通过过滤噪音和消浸特点维度察觉荫蔽的形式和趋向,揭示古板本事难以逮捕的庞大数据布局,升高政策的乖巧性和切实性。决议树模子比拟古板的特点工程工夫(比方主因素判辨、诡秘值领会和独立因素判辨等)或许供应大白的决议旅途和礼貌,可讲明性好;正在执掌输入变量的相当值和缺失值上不需求正经的圭表化数据,具有较强的鲁棒性;正在锻练和推理的历程中会主动筛选特点的讯息增益,有用避免无合或冗余特点的影响。本文正在股票上愚弄LightGBM树模子对资产价值举行回归和分类的考试,验证了机械研习算法的有用性,缓解了人工筛选因子的难度,晋升了资产订价的出力。

  正在海量数据的配景下,深度研习工夫从卷积神经搜集 (CNN)、轮回神经搜集(RNN)、图神经搜集(GNN)到现正在以ChatGPT为代外的大措辞模子(LLM),通过堆叠更众的参数层能够拟合更庞大的处境变量。以Transformer为代外的自防备力机制,动作大措辞模子的中枢工夫,无论是正在执掌众资产横截面收益判辨的题目依旧单资产时刻序列预测的题目上都有很好的泛化性。本文正在股票上愚弄Transformer编码器从时刻和空间两个维度判辨资产收益,通过自防备力机制缉捕资产自己正在时刻上的动量效应以及资产互相间的价值传导机制,杀青了更切实的价值预测,扩展了古板投研本事的范围。

  综上,对付资产订价,本文搜求了以LightGBM为代外的决议树模子和以Transformer为代外的深度神经搜集正在股票价值趋向预测上的非线性拟合才气。

  正在不确定条款下资产改日危机与收益之间的量度联系是资产订价(Asset Pricing)的中枢题目。古板资产订价模子首要有血本资产订价模子(CAPM)[1]和套利订价外面(APT)[2]。

  CAPM是基于危机资产巴望收益平衡根柢上的预测模子,它以为资产的预期收益率等于无危机利率加优势险溢价,而危机溢价取决于资产的体例性危机:

  个中E(Ri)是资产i的预期收益率,Rf是无危机利率,资产的贝塔系数βi权衡资产相对付商场组合的体例性危机,E(Rm)是商场组合的预期收益率。

  APT以为资产的预期收益率取决于众个身分,而不光仅是商场组合的收益率。它通过构修众身分模子来讲明资产的收益:

  个中bij是资产i对第j个身分的敏锐度,Fj是第j个身分的危机溢价,k是危机身分的数目。即使资产的订价不对理,就会呈现套利时机,投资者会通过套利活动使资产价值回归合理程度。

  Fama-French三因子模子[3]以为股票的收益率除了受商场危机身分影响外,还受到公司范畴、账面市值比等身分的影响。套利订价外面为三因子模子的起色供应了外面根柢,Fama-French三因子模子是正在套利订价外面根柢上的简直使用和拓展。Fama-French众因子模子还存正在红利程度危机、投资程度危机等其他身分影响股票的收益率。跟着数据的丰厚和揣测才气的晋升,大宗的因子被发现出来,用于讲明资产价值或投资组合的展现,就如统一个“动物园”里有各样各样的因子——“FactorZoo”。这些因子原因众样、数目繁众且性子各异,首要分为商场因子、范畴因子、代价因子、红利因子、投资因子等。

  金融数据和因子的几何式延长对古板资产订价和组合打点模子的参数猜度、有用性都充满了离间。跟着深度研习的提出和硬件算力的晋升,金融范畴也正正在款待“大数据+深度模子”的时间。金融数据具有非线性、非平定性和高噪音性三大本质,这对付传全数计学本事是灾害的,但机械研习不需求庞大的数据预执掌,或许通过大宗样本的锻练确保模子的泛化才气。

  个中集成研习算法将众个弱研习器通过各样投票机制构修成一个强研习器的模子,正在图像识别、自然措辞执掌等范畴都有普及使用。目前集成算法分为Bagging(袋装法)和Boosting(晋升法)两类。Bagging以随机丛林为代外,通过对原始数据集举行有放回的随机抽样,获得众个区别的子数据集,然后永别正在这些子数据集上锻练众个弱研习器(一样是决议树),结果通过投票等式样将这些弱研习器的结果举行组合。Boosting以AdaBoost(AdaptiveBoosting)、GBDT(GradientBoostingDecisionTree)为代外,是一种串行的集本钱事,即挨次锻练众个弱研习器,每个弱研习器都是基于上一个弱研习器的过失举行调动和修正。通过一贯地调动样本权重和研习器权重,使得后续的弱研习器越发合心那些被前一个弱研习器过失分类的样本,从而慢慢升高举座模子的本能。微软斥地的LightGBM[6]采用了一系列优化工夫,正在锻练速率、内存占用和切实率等方面具有光鲜上风,普及使用于信用危机评估、金融商场价值和趋向预测等使命。

  端到端的深度研习是一种直接从原始输入数据到最终输出目的的本事,无需手工打算中央方法或特点工程。它试图通过构修深度神经搜集,让模子主动研习从输入到输出的映照联系。它无须专业职员深入庞大的先验常识,撤除了对数据和模子内部逻辑的庞大执掌和打算。卷积神经搜集(CNN)、是非期回忆搜集(LSTM)[7]和Transformer[8]成为深度研习主流的模子架构,CNN通过卷积层、池化层和全连绵层等组合来提取二维空间数据的特点;LSTM由遗忘门、输初学和输出门构成,处理了古板RNN(轮回神经搜集)正在执掌长序列时面对的梯度消散和梯度爆炸题目,用于执掌序列数据;Transformer基于防备力机制,摒弃了古板的递归和卷积布局,能够高度并行化揣测大大加快锻练速率,无论是正在长时刻序列数据依旧二维空间数据上都得到了极端好的成效。

  依据决议树输出结果的区别,决议树能够分为分类树和回归树两类。其中枢逻辑是依据胸怀圭表,从树根先河选取最优特点逐级支解,递推天生一颗完善的决议树。业界公共运用讯息增益(示意讯息不确定性裁汰的水平,越大越好)、讯息增益比(越大越好)、基尼系数(权衡集中的纯度,越小越好)动作支解圭表。CART(ClassificationandRegressionTree)决议树每次选取基尼系数最小的属性举行迭代,它既能够处理分类题目又能够处理回归题目。决议树正在修造树时即使参数选取不对理(即树根或者枝干略有差池),树就也许会彻底长偏,发生过拟合的局面,导致泛化才气变弱,是以公共会采用剪枝、交叉验证等手法。除此以外,为了有用裁汰单决议树带来的题目,与决议树合系的组合(譬喻Bagging, Boosting等算法)也慢慢被引入进来,这些算法的精华都是通过天生N棵树(N也许高达几百)最终酿成一棵最适合的大树。如图3-1所示,Bagging工夫肖似大批投票机制,对付区别的分类器能够通过并行锻练而得到,且每个分类器的权重相称;但Boosting则是正在前面已锻练得到的分类器根柢上加以调动(更合怀之前分类器分错的样本)而得到新的分类器,是以Boosting中的分类器权重并不相称,其权重值代外该分类器正在上一轮迭代中的胜利度。总的来说Boosting首要合心消浸误差,能基于泛化本能相对弱的研习器构修出很强的集成;Bagging首要合心消浸方差,正在不剪枝的决议树、神经搜集等研习器上效用更为光鲜。GBDT(GradientBoostingDecisionTree)是基于bagging的算法,通过构制一组弱的分类回归树CART,并把众颗决议树的结果累加起来动作最终的预测输出。整个弱分类器的结果相加等于预测值。每次都以目前预测为基准,下一个弱分类器去拟合偏差函数对预测值的残差(预测值与实正在值之间的偏差)。LightGBM是GBDT的算法杀青,引入了并行计划、基于梯度的单边检测、排他性特点系结等,供应一个急迅高效、低内存占用、高切实度、援手并行和大范畴数据执掌的数据科学器材。正在本探讨中,将股票的众因子特点动作输入,股票改日几日的收益率动作标签,通过决议树拟合伙票改日N天的收益率改变趋向。

  自从BERT(一种基于Transformer架构的深度研习模子)和GPT模子得到巨大胜利之后,Transformer布局仍然替换了轮回神经搜集(RNN)和卷积神经搜集(CNN),成为了目前NLP模子(自然措辞执掌模子)的标配。如图3-2所示,Transformer模子架构中的左半个别为编码器(Encoder),右半个别为解码器(Decoder)。

  公式中正在揣测矩阵Q和K内积时,为了抗御内积过大,是以除以dk的平方根。而众头防备力是由众个自防备力组合酿成,通过将每个自防备机制的输出拼接正在沿途(Concat),然后传入一个线性层,获得最终的输出。众头防备力的输出和原始输入相加是一种残差连绵,肖似于ResNet中处理众层搜集锻练过拟合的题目,让搜集只合心目前分别的个别。LayerNorm用于归一化单个数据样本中整个特点的均值和方差,有利于序列化样本以及批执掌范畴较小或动态的处境。全连绵层蕴涵两层,第一层的激活函数为ReLU,第二层不运用激活函数。正在本文探讨中,仅合用Transformer的编码器个别,对输入的股票众因子特点举行编码,历程堆叠众层的众头防备力和全连绵层后将整个荫蔽的因子特包括和动作输出,举行股票改日收益率的回归。

  数据集:为了验证资产装备的实证成效,咱们对中邦A股商场两个首要股票指数(CSI300和A500)的因素股举行了测试,巴望到达指数加强。值得防备的是,中邦A股商场区别意空头仓位,为了验证因子组合模子的有用性,正在试验中假设A股同意空头。数据被分为锻练集和测试集,如外4-1所述。因为短缺数据或者存正在ST警卫,少少公司实质会被剔除股票池。

  基准模子:对付LightGBM和Transformer,这类直接预测股票价值然后依据改日涨跌幅举行横截面排序装备资产比例的模子,咱们采用了等权因子组合模子(Eqw)、DNN、LSTM举行斗劲。

  评估圭表:咱们愚弄六种评估目标来餍足投资者的区别危机偏好,如下:(1)利润圭表,征求年化收益率(ARR)。(2)危机圭表,征求年化动摇率(AVol)和最大回撤(MDD)。(3)危机利润圭表,征求年化夏普比率(ASR)、卡尔玛比率(CR)和索提诺比率(SoR)。对付AVol和MDD,较低的值是可取的;而对付ARR、ASR、CR和SoR,较高的值是可取的。另外还引入了换手率权衡实质业务中的业务本钱。

  MDDT(Maximum DrawDown)是权衡投资政策正在最倒霉处境下的耗损,ACi和ACj是正在时刻戳i和j下的累计资产净值。

  TVRT(Turnover Ratio)是换手率,正在T工夫内的成交量和发行总股数的比值。

  为了验证机械研习算法是否或许优化已有因子组合的资产装备,咱们基于已有股票因子测试了LightGBM和众因子等权组合的成效。外4-2和外4-3永别闪现了LightGBM和等权组合正在沪深300和A500两个指数因素股纯众头(依据因子组合结果排序取前50%的股票支数)的资产装备条款下收益和危机的展现。

  举座来看LightGBM比拟等权组合,正在年化收益率、年化夏普率、最大回撤目标上结果更好,正在年化动摇率和换手率目标上结果稍逊。这解释机械研习算法能够修正古板的资产装备结果,杀青正在危机可控条款下较高的收益。正在2022、2023年商场低迷的处境下,LightGBM的资产组合或许裁汰耗损;正在2021年商场行情好的处境下,LightGBM也或许疾速逮捕热门捉住赢利效应;正在2024年商场动摇热烈的处境下,LightGBM的组合展现也许不尽如人意,是以咱们能够将LightGBM和已有的因子组合模子相维系,酿成一个众样化且鲁棒性强的组合装备政策。

  为了引发深度研习模子的非线性拟合才气,咱们考试了对已有因子的组合装备选取众层感知机DNN、基于防备力的是非回忆神经搜集ALSTM以及基于自防备力机制的Transformer三种深度研习算法,测试其正在沪深300和A500上众头组合的结果。如外4-4所示,三个深度模子和等权组合比拟,正在年化收益率、年化动摇率、年化夏普率和最大回撤目标上结果更有,然则换手率更高,这解释机械研习算法或许疾速逮捕商场热门举行调仓。图4-1和图4-2闪现了三种深度研习模子正在沪深300和A500因素股组合上的净值弧线年支配,深度研习模子展现稳重回撤小,正在2023-2024行情热烈和横幅振荡的处境下展现优异,或许裁汰投资者的耗损。

  通过正在指数上的实证探讨,基于LightGBM和Transformer算法的资产装备政策正在商场动摇较大的工夫,投资组合的均匀年化动摇率较古板资产投资有光鲜革新,同时年化收益率依旧正在相对牢固且具有竞赛力的程度,杀青了危机与收益的有用平均。

  本文正在资产装备使命上,引入了各样机械研习和深度研习算法,并使用于中邦A股商场。通过决议树模子验证了机械研习算法能够适当区别经济大局下的A股商场缔造牢固的组合收益,比拟手工构制因子组合升高了组合装备的出力;通过深度研习的Transformer模子应解释深度研习模子具有更强的非线性拟合才气,能够构制绝伦样化的因子组合结果。这证明了人工智能正在为住民供应更一切切实的商场讯息、性子化定制的资产装备计划、升高投资出力等众方面的代价。同时,人工智能工夫对质券公司而言,能够辅助客户活动判辨,革新客户的性子化资产投资计划,晋升公司任职程度助助住民更好地杀青家当打点目的,践行证券行业以群众为中央的理念。

  [14]雷明明. 基于恒久资产价值预测的投资组合算法[D].山东财经大学,2023.

  (作家:杨雨松,西南证券股份有限公司党委副书记、总司理,高级经济师;慕宗燊,西南证券股份有限公司博士后科研办事站探讨职员)

加入新手交流群:

添加助理微信,一对一专业指导:/

加入新手交流群

一对一专业指导:/