在IDEA最新研究報告中首次提出了Quant 4.0的研究流程,在深度學(xué)習(xí)不斷融入量化研究的時代,非常值得處于量化行業(yè)的我們仔細研讀。
今天,公眾號將與大家一起分享研究報告中量化研究過程的演進。
(資料圖)
Quant 1.0的特點包括:
在該模式中,數(shù)百甚至數(shù)千名投資研究人員使用標(biāo)準(zhǔn)化的評估標(biāo)準(zhǔn)、標(biāo)準(zhǔn)化的回測流程和標(biāo)準(zhǔn)化的參數(shù)配置,在同一條流水線上工作,從大量的數(shù)據(jù)中挖掘有效的Alpha因子。這些Alpha挖掘研究者通過提交合格的Alpha因子而獲得獎勵,這些因子通常具有高回測收益率,高夏普比率,合理的換手率以及與Alpha數(shù)據(jù)庫中現(xiàn)有因子的低相關(guān)性。盡管越來越復(fù)雜的機器學(xué)習(xí)因子也被挖掘出來,傳統(tǒng)上,每個Alpha因子都是一個數(shù)學(xué)表達式,表征股票的某種模式,或股票之間的某種關(guān)系。典型的因子包括動量因子、均值回歸因子、事件驅(qū)動因子、量價分布因子、成長因子等。由Alpha研究者提交的許多Alpha因子被組合到投資組合經(jīng)理的統(tǒng)計模型或機器學(xué)習(xí)模型中,在適當(dāng)?shù)娘L(fēng)險中和后確定最優(yōu)的權(quán)重。
造成這一現(xiàn)象的原因是策略的市場容量的有限性、發(fā)現(xiàn)新的有效阿爾法算法的難度越來越大,甚至是人工智能在策略空間中搜索所有可能性的局限性。
與Quant 2.0將更多的研究精力和人力投入到挖掘復(fù)雜的Alpha因子上不同,Quant 3.0更注重深度學(xué)習(xí)建模。在使用相對簡單的因子下,深度學(xué)習(xí)仍然有潛力通過其強大的端到端學(xué)習(xí)能力和靈活的模型擬合能力,學(xué)習(xí)出一個表現(xiàn)與Quant2.0一樣好的預(yù)測模型。在Quant 3.0中,Alpha挖掘的人力成本至少部分被算力成本所取代,特別是對于昂貴的GPU服務(wù)器。但總的來說,從長遠來看,這是一種更有效的量化研究方式。
盡管Quant 3.0在高頻股票和期貨交易等策略場景中已經(jīng)證明了它的成功,但它有三個主要局限性:
1、一般來說,構(gòu)建一個好用的深度學(xué)習(xí)模型是非常耗時的。這其中包括繁重的網(wǎng)絡(luò)架構(gòu)設(shè)計和模型超參數(shù)調(diào)優(yōu)工作,以及非常耗時耗力的交易端模型部署和維護工作。
2、解釋一個深度學(xué)習(xí)模型是一個挑戰(zhàn),這對于那些非常關(guān)心金融市場機制并希望知道盈虧來源的投資者和研究人員來說非常不友好。
3、深度學(xué)習(xí)需要大量的數(shù)據(jù),因此于該模式只適用于高頻交易或至少具有大廣度的中等頻率的橫截面alpha策略。這種現(xiàn)象阻礙了深度學(xué)習(xí)技術(shù)在低頻率投資場景中的應(yīng)用,如價值投資、基本面CTA和全球宏觀策略。
下圖藍色部分為傳統(tǒng)量化研究的流程,其中包括數(shù)據(jù)預(yù)處理、因子挖掘、建模、組合優(yōu)化、執(zhí)行及風(fēng)險分析。
數(shù)據(jù)預(yù)處理通常是量化研究的第一步。原始數(shù)據(jù)可能存在許多問題。最常見的就是數(shù)據(jù)缺失的問題。雖然傳統(tǒng)的方法可以用來估計和填補缺失的記錄,但我們必須避免在輸入過程中使用未來的信息。其次,金融數(shù)據(jù)包含極端值和異常值,這些異常值可能來自錯誤記錄、數(shù)據(jù)存儲問題、數(shù)據(jù)傳輸問題或極端市場,這些異常值可能導(dǎo)致投資決策中的風(fēng)險偏差。異常值可以通過數(shù)據(jù)winsorization方法消除,該方法將極值限制在一定的每百分位數(shù)范圍內(nèi),但我們必須注意到,一些異常值實際上是量化交易的強烈信號,而不是噪聲,并且必須在數(shù)據(jù)預(yù)處理期間將兩者區(qū)分開來。第三,許多金融數(shù)據(jù),如新聞事件數(shù)據(jù),數(shù)據(jù)覆蓋率低,更新頻率不規(guī)律。第四,不同的數(shù)據(jù)特征在取值范圍上有很大的差異,因此在建模中一些“大”的特征可能會支配“小”的特征。
因此,采用數(shù)據(jù)標(biāo)準(zhǔn)化方法對特征范圍進行規(guī)范化。為了減少信息的丟失,我們必須注意標(biāo)準(zhǔn)化數(shù)據(jù)的方法。
因子挖掘是特征工程的一項任務(wù),它使用金融和經(jīng)濟領(lǐng)域的知識從原始數(shù)據(jù)中設(shè)計、搜索或提取因子。通常,一個較大的因子值表示一個更重要的交易信號。因子挖掘的動機是從原始數(shù)據(jù)中發(fā)現(xiàn)市場預(yù)測的信號,提高下游建模任務(wù)的質(zhì)量。傳統(tǒng)上,因子可以用公式或基于規(guī)則的表達式來表示。
建模是指使用因子構(gòu)建統(tǒng)計或機器學(xué)習(xí)模型并預(yù)測市場趨勢、資產(chǎn)價格變動、最佳交易時間或最有/最沒有價值的資產(chǎn)的任務(wù)。模型的選擇必須考慮許多因素,如預(yù)測精度、模型可解釋性、模型魯棒性和計算復(fù)雜性,并根據(jù)最終目標(biāo)找到最佳方案。特別是,我們必須注意到,大多數(shù)統(tǒng)計或機器學(xué)習(xí)模型并不是專門為金融時間序列開發(fā)的,我們必須調(diào)整這些模型在量化建模中的應(yīng)用。首先,金融時間序列預(yù)測必須避免使用未來信息,因此我們更傾向于前向驗證(隨著時間的推移將時間序列分成訓(xùn)練、驗證和測試塊),而不是模型超參數(shù)優(yōu)化中的交叉驗證。
其次,金融時間序列通常是非平穩(wěn)的,與許多機器學(xué)習(xí)模型所要求的獨立和同分布(i.i.d)假設(shè)相去甚遠。因此,需要進行數(shù)據(jù)轉(zhuǎn)換,使數(shù)據(jù)分布更接近i.i.d.,如果可能的話,看起來更像正態(tài)分布。第三,市場風(fēng)格隨時間變化,導(dǎo)致金融時間序列分布的變化。因此,為了使模型適應(yīng)市場風(fēng)格的變化,定期對模型進行再訓(xùn)練是必要的。
組合優(yōu)化的目的是尋找最優(yōu)的資產(chǎn)配置,獲得更高收益和更低風(fēng)險。預(yù)測模型告訴我們買什么或什么時候買/賣,而投資組合優(yōu)化則指定買/賣多少。一個典型的投資組合優(yōu)化器試圖解決一個約束凸二次規(guī)劃問題,該問題是由馬科維茨的有效前沿理論擴展而來的。該優(yōu)化問題的關(guān)鍵是如何估計波動率矩陣,當(dāng)歷史數(shù)據(jù)不夠長時,波動矩陣的估計通常是不穩(wěn)定的,在這種情況下,正則化和因子化等降維技巧有助于提高估計的魯棒性。
訂單執(zhí)行是一項以最優(yōu)價格和最小市場影響買賣訂單的任務(wù)。通常一次買入(或賣出)一大筆訂單會將目標(biāo)資產(chǎn)的價格推向不利的方向(市場受到這一大筆訂單的影響),從而增加交易成本。一個廣泛使用的解決方案是訂單分割,將一個大訂單分成許多小訂單,以減少市場影響。從最簡單的時間加權(quán)平均價格(TWAP)和成交量加權(quán)平均價格(VWAP)到復(fù)雜的強化學(xué)習(xí)方法,算法交易提供了一系列的數(shù)學(xué)工具來分割訂單,其中最優(yōu)訂單流被建模為一個(部分可觀察的)馬爾可夫決策過程。
風(fēng)險分析是量化研究和量化交易不可缺少的一項任務(wù)。為了更好地控制量化研究和交易中不必要的和有害的風(fēng)險,我們必須發(fā)現(xiàn)和理解每一個可能的風(fēng)險暴露。在監(jiān)控模塊中,風(fēng)險被實時測量,以幫助量化研究人員改進他們的策略。股票交易中最流行的風(fēng)險模型是BARRA模型,該模型將投資組合的波動性分解為多個預(yù)定義風(fēng)險因子的敞口,包括風(fēng)格因子(規(guī)模、成長性、流動性等)和行業(yè)因子。然而,BARRA模型只能解釋總波動率的30%左右,其余70%的風(fēng)險仍然未知。
Quant 4.0的自動化量化研究流程如上圖(橙色部分)所示。在本節(jié)的以下部分中,我們將集中討論自動化流程中的三個核心模塊:
應(yīng)用自動化特征工程技術(shù)來搜索和評估由元因素產(chǎn)生的重要金融因素。我們將介紹流行的搜索算法,并演示如何設(shè)計算法工作流程。量化研究中的特征工程是指從原始數(shù)據(jù)中提取因子的過程,由于其固有的噪聲,很難對其進行有效的模式識別。
在Quant4.0中,我們提出將特征工程作為一個搜索問題,并利用相應(yīng)的算法生成具有令人滿意的大規(guī)?;販y性能的因子,從而實現(xiàn)因子挖掘過程的自動化。特別是,根據(jù)它們的表達形式,我們將因子分類為:
符號因子挖掘可以看作是符號回歸的一個特例。傳統(tǒng)的符號回歸算法通常從給定的操作數(shù)和運算符中生成大量的符號表達式,并選擇使預(yù)定目標(biāo)函數(shù)最大化的符號表達式。下圖為一個自動符號因子挖掘的框架,它由四個核心部分組成:操作數(shù)空間、運算符空間、搜索算法和評估準(zhǔn)則。
操作空間定義了哪些元因子可以用于因子挖掘。元因子是因子構(gòu)建的基本組成部分。典型的元因子包括基本的價格和成交量信息、行業(yè)分類、從限價/訂單中提取的基本特征、常見的技術(shù)指標(biāo)、分析師的基本統(tǒng)計數(shù)據(jù)、財務(wù)報告中的重要信號、上市公司的公告和其他研究報告、投資者情緒的情緒信號。
算子空間定義了哪些算子可以在因子挖掘過程中使用。例如,在橫截面選股中,操作者可分為構(gòu)建符號因子的主算子和標(biāo)準(zhǔn)化不同交易環(huán)境下因子的后處理算子。主算子可進一步分類為元素級算子(element-wise operator),如()和log();時間序列運算符,如ts_rank()和ts_mean(),分別計算每只股票的排名順序和平均值;橫截面運算符,如rank()和quantile(),在特定交易時間沿橫截面計算排名和分位數(shù);分組運算符,如group_rank(),分別計算每組(例如,行業(yè)或部門)的排名順序。后處理操作符用于“微調(diào)”生成的因子。典型的后處理算子有標(biāo)準(zhǔn)化算子,如用于異常值處理的winsorization算子和用于統(tǒng)一數(shù)據(jù)量綱的歸一化算子,以及用于風(fēng)險中性化的算子,用于限制選股范圍的分組算子,以及用于控制換手率以降低交易成本的衰減算子。
搜索算法的目的是盡可能高效地搜索和發(fā)現(xiàn)有效或合格的因子。生成新因子的一種簡單方法是蒙特卡羅(MC)算法,該算法在操作數(shù)和操作符空間中隨機選取元素,遞歸地生成符號表達式樹。不幸的是,搜索時間可能會隨著生成公式的長度和復(fù)雜性呈指數(shù)增長,并迫使我們考慮更有效的替代方案。第一種選擇是馬爾可夫鏈蒙特卡羅(Markov-chain Monte Carlo, MCMC)算法,該算法從后驗分布中以重要方式生成采樣因子,因此比MC效率更高。第二種選擇是遺傳規(guī)劃,它是一種特殊的用于采樣和優(yōu)化樹型數(shù)據(jù)的進化算法。第三種選擇是基于梯度的方法,如神經(jīng)網(wǎng)絡(luò),它用連續(xù)的非線性函數(shù)近似離散的符號公式,沿著梯度方向搜索,比隨機搜索效率高得多。
評估標(biāo)準(zhǔn)衡量的是因子的質(zhì)量。利用回測對所生成因子進行了評價。典型的評價標(biāo)準(zhǔn)包括信息系數(shù)(IC)、基于信息系數(shù)的信息比率(ICIR)、年化收益率、最大回收量、夏普比率和換手率。此外,通過過濾掉與其他因子高度相關(guān)的冗余因素,保持因子之間信息的多樣性是非常重要的。
符號因子具有簡單易懂的優(yōu)點,在實踐中得到了廣泛的應(yīng)用。然而,它們的表示能力受到操作數(shù)和操作符的限制。另一方面,機器學(xué)習(xí)因子在表示上更靈活,以適應(yīng)更復(fù)雜的非線性關(guān)系,因此它們有可能在市場預(yù)測中表現(xiàn)得更好。特別是,挖掘機器學(xué)習(xí)因子是一個擬合神經(jīng)網(wǎng)絡(luò)的過程,其中梯度為快速搜索解決方案提供了最佳方向。
機器學(xué)習(xí)因子也有一些局限性。首先,由于機器學(xué)習(xí)的黑箱性質(zhì),它們通常很難解釋和理解。其次,神經(jīng)網(wǎng)絡(luò)的梯度搜索可能會卡在局部最優(yōu)點,導(dǎo)致模型不穩(wěn)定問題。最后,神經(jīng)網(wǎng)絡(luò)由于其靈活性可能會遭受更嚴重的過擬合,并且由于數(shù)據(jù)具有極大的噪聲,這種情況在量化中會變得更糟。
在本文中,我們關(guān)注最先進的深度學(xué)習(xí)自動化問題,將AutoML技術(shù)應(yīng)用于發(fā)現(xiàn)最優(yōu)深度學(xué)習(xí)模型,自動選擇最合適的模型和最優(yōu)模型結(jié)構(gòu),并調(diào)整最佳超參數(shù)。由于建模中的端到端特性和網(wǎng)絡(luò)架構(gòu)問題,該問題更加復(fù)雜。深度學(xué)習(xí)模型的配置包括架構(gòu)、超參數(shù)和目標(biāo)三部分,它們共同決定了模型的最終性能。傳統(tǒng)上,這些配置是手動調(diào)優(yōu)的。在Quant4.0中,它們使用各種AutoML算法進行搜索和優(yōu)化。一個標(biāo)準(zhǔn)的AutoML系統(tǒng)需要回答以下三個問題:搜索什么(即搜索空間),如何搜索(即搜索算法),以及為什么要搜索(即性能評估)。
給定搜索空間,我們可以使用搜索算法來找到最佳的模型配置。表2列出了各種類型的搜索算法及其相應(yīng)的任務(wù):網(wǎng)絡(luò)架構(gòu)搜索(NAS)、超參數(shù)優(yōu)化(HPO)[83]和訓(xùn)練目標(biāo)選擇(TOS)。
Copyright @ 2015-2022 太平洋家電網(wǎng)版權(quán)所有 備案號: 豫ICP備2022016495號-17 聯(lián)系郵箱:93 96 74 66 9@qq.com