亚洲乱码中文字幕手机在线_人妻少妇被猛烈进入中文字幕_日本欧美大码A在线观看_国产成人欧美日本在线观看_女人自熨全过程直播

首頁 > 資訊 >

Quant 4.0:你的量化研究處于哪個時代? 焦點觀察

2023-06-14 17:45:45 來源:雪球網(wǎng)

在IDEA最新研究報告中首次提出了Quant 4.0的研究流程,在深度學(xué)習(xí)不斷融入量化研究的時代,非常值得處于量化行業(yè)的我們仔細研讀。

今天,公眾號將與大家一起分享研究報告中量化研究過程的演進。


(資料圖)

Quant 1.0

Quant 1.0的特點包括:

在該模式中,數(shù)百甚至數(shù)千名投資研究人員使用標(biāo)準(zhǔn)化的評估標(biāo)準(zhǔn)、標(biāo)準(zhǔn)化的回測流程和標(biāo)準(zhǔn)化的參數(shù)配置,在同一條流水線上工作,從大量的數(shù)據(jù)中挖掘有效的Alpha因子。這些Alpha挖掘研究者通過提交合格的Alpha因子而獲得獎勵,這些因子通常具有高回測收益率,高夏普比率,合理的換手率以及與Alpha數(shù)據(jù)庫中現(xiàn)有因子的低相關(guān)性。盡管越來越復(fù)雜的機器學(xué)習(xí)因子也被挖掘出來,傳統(tǒng)上,每個Alpha因子都是一個數(shù)學(xué)表達式,表征股票的某種模式,或股票之間的某種關(guān)系。典型的因子包括動量因子、均值回歸因子、事件驅(qū)動因子、量價分布因子、成長因子等。由Alpha研究者提交的許多Alpha因子被組合到投資組合經(jīng)理的統(tǒng)計模型或機器學(xué)習(xí)模型中,在適當(dāng)?shù)娘L(fēng)險中和后確定最優(yōu)的權(quán)重。

造成這一現(xiàn)象的原因是策略的市場容量的有限性、發(fā)現(xiàn)新的有效阿爾法算法的難度越來越大,甚至是人工智能在策略空間中搜索所有可能性的局限性。

Quant 3.0

與Quant 2.0將更多的研究精力和人力投入到挖掘復(fù)雜的Alpha因子上不同,Quant 3.0更注重深度學(xué)習(xí)建模。在使用相對簡單的因子下,深度學(xué)習(xí)仍然有潛力通過其強大的端到端學(xué)習(xí)能力和靈活的模型擬合能力,學(xué)習(xí)出一個表現(xiàn)與Quant2.0一樣好的預(yù)測模型。在Quant 3.0中,Alpha挖掘的人力成本至少部分被算力成本所取代,特別是對于昂貴的GPU服務(wù)器。但總的來說,從長遠來看,這是一種更有效的量化研究方式。

盡管Quant 3.0在高頻股票和期貨交易等策略場景中已經(jīng)證明了它的成功,但它有三個主要局限性

1、一般來說,構(gòu)建一個好用的深度學(xué)習(xí)模型是非常耗時的。這其中包括繁重的網(wǎng)絡(luò)架構(gòu)設(shè)計和模型超參數(shù)調(diào)優(yōu)工作,以及非常耗時耗力的交易端模型部署和維護工作。

2、解釋一個深度學(xué)習(xí)模型是一個挑戰(zhàn),這對于那些非常關(guān)心金融市場機制并希望知道盈虧來源的投資者和研究人員來說非常不友好。

3、深度學(xué)習(xí)需要大量的數(shù)據(jù),因此于該模式只適用于高頻交易或至少具有大廣度的中等頻率的橫截面alpha策略。這種現(xiàn)象阻礙了深度學(xué)習(xí)技術(shù)在低頻率投資場景中的應(yīng)用,如價值投資、基本面CTA和全球宏觀策略。

Quant 4.0

下圖藍色部分為傳統(tǒng)量化研究的流程,其中包括數(shù)據(jù)預(yù)處理、因子挖掘、建模、組合優(yōu)化、執(zhí)行及風(fēng)險分析。

數(shù)據(jù)預(yù)處理通常是量化研究的第一步。原始數(shù)據(jù)可能存在許多問題。最常見的就是數(shù)據(jù)缺失的問題。雖然傳統(tǒng)的方法可以用來估計和填補缺失的記錄,但我們必須避免在輸入過程中使用未來的信息。其次,金融數(shù)據(jù)包含極端值和異常值,這些異常值可能來自錯誤記錄、數(shù)據(jù)存儲問題、數(shù)據(jù)傳輸問題或極端市場,這些異常值可能導(dǎo)致投資決策中的風(fēng)險偏差。異常值可以通過數(shù)據(jù)winsorization方法消除,該方法將極值限制在一定的每百分位數(shù)范圍內(nèi),但我們必須注意到,一些異常值實際上是量化交易的強烈信號,而不是噪聲,并且必須在數(shù)據(jù)預(yù)處理期間將兩者區(qū)分開來。第三,許多金融數(shù)據(jù),如新聞事件數(shù)據(jù),數(shù)據(jù)覆蓋率低,更新頻率不規(guī)律。第四,不同的數(shù)據(jù)特征在取值范圍上有很大的差異,因此在建模中一些“大”的特征可能會支配“小”的特征。

因此,采用數(shù)據(jù)標(biāo)準(zhǔn)化方法對特征范圍進行規(guī)范化。為了減少信息的丟失,我們必須注意標(biāo)準(zhǔn)化數(shù)據(jù)的方法。

因子挖掘是特征工程的一項任務(wù),它使用金融和經(jīng)濟領(lǐng)域的知識從原始數(shù)據(jù)中設(shè)計、搜索或提取因子。通常,一個較大的因子值表示一個更重要的交易信號。因子挖掘的動機是從原始數(shù)據(jù)中發(fā)現(xiàn)市場預(yù)測的信號,提高下游建模任務(wù)的質(zhì)量。傳統(tǒng)上,因子可以用公式或基于規(guī)則的表達式來表示。

建模是指使用因子構(gòu)建統(tǒng)計或機器學(xué)習(xí)模型并預(yù)測市場趨勢、資產(chǎn)價格變動、最佳交易時間或最有/最沒有價值的資產(chǎn)的任務(wù)。模型的選擇必須考慮許多因素,如預(yù)測精度、模型可解釋性、模型魯棒性和計算復(fù)雜性,并根據(jù)最終目標(biāo)找到最佳方案。特別是,我們必須注意到,大多數(shù)統(tǒng)計或機器學(xué)習(xí)模型并不是專門為金融時間序列開發(fā)的,我們必須調(diào)整這些模型在量化建模中的應(yīng)用。首先,金融時間序列預(yù)測必須避免使用未來信息,因此我們更傾向于前向驗證(隨著時間的推移將時間序列分成訓(xùn)練、驗證和測試塊),而不是模型超參數(shù)優(yōu)化中的交叉驗證。

其次,金融時間序列通常是非平穩(wěn)的,與許多機器學(xué)習(xí)模型所要求的獨立和同分布(i.i.d)假設(shè)相去甚遠。因此,需要進行數(shù)據(jù)轉(zhuǎn)換,使數(shù)據(jù)分布更接近i.i.d.,如果可能的話,看起來更像正態(tài)分布。第三,市場風(fēng)格隨時間變化,導(dǎo)致金融時間序列分布的變化。因此,為了使模型適應(yīng)市場風(fēng)格的變化,定期對模型進行再訓(xùn)練是必要的。

組合優(yōu)化的目的是尋找最優(yōu)的資產(chǎn)配置,獲得更高收益和更低風(fēng)險。預(yù)測模型告訴我們買什么或什么時候買/賣,而投資組合優(yōu)化則指定買/賣多少。一個典型的投資組合優(yōu)化器試圖解決一個約束凸二次規(guī)劃問題,該問題是由馬科維茨的有效前沿理論擴展而來的。該優(yōu)化問題的關(guān)鍵是如何估計波動率矩陣,當(dāng)歷史數(shù)據(jù)不夠長時,波動矩陣的估計通常是不穩(wěn)定的,在這種情況下,正則化和因子化等降維技巧有助于提高估計的魯棒性。

訂單執(zhí)行是一項以最優(yōu)價格和最小市場影響買賣訂單的任務(wù)。通常一次買入(或賣出)一大筆訂單會將目標(biāo)資產(chǎn)的價格推向不利的方向(市場受到這一大筆訂單的影響),從而增加交易成本。一個廣泛使用的解決方案是訂單分割,將一個大訂單分成許多小訂單,以減少市場影響。從最簡單的時間加權(quán)平均價格(TWAP)和成交量加權(quán)平均價格(VWAP)到復(fù)雜的強化學(xué)習(xí)方法,算法交易提供了一系列的數(shù)學(xué)工具來分割訂單,其中最優(yōu)訂單流被建模為一個(部分可觀察的)馬爾可夫決策過程。

風(fēng)險分析是量化研究和量化交易不可缺少的一項任務(wù)。為了更好地控制量化研究和交易中不必要的和有害的風(fēng)險,我們必須發(fā)現(xiàn)和理解每一個可能的風(fēng)險暴露。在監(jiān)控模塊中,風(fēng)險被實時測量,以幫助量化研究人員改進他們的策略。股票交易中最流行的風(fēng)險模型是BARRA模型,該模型將投資組合的波動性分解為多個預(yù)定義風(fēng)險因子的敞口,包括風(fēng)格因子(規(guī)模、成長性、流動性等)和行業(yè)因子。然而,BARRA模型只能解釋總波動率的30%左右,其余70%的風(fēng)險仍然未知。

Quant 4.0的自動化量化研究流程如上圖(橙色部分)所示。在本節(jié)的以下部分中,我們將集中討論自動化流程中的三個核心模塊:

應(yīng)用自動化特征工程技術(shù)來搜索和評估由元因素產(chǎn)生的重要金融因素。我們將介紹流行的搜索算法,并演示如何設(shè)計算法工作流程。量化研究中的特征工程是指從原始數(shù)據(jù)中提取因子的過程,由于其固有的噪聲,很難對其進行有效的模式識別。

在Quant4.0中,我們提出將特征工程作為一個搜索問題,并利用相應(yīng)的算法生成具有令人滿意的大規(guī)?;販y性能的因子,從而實現(xiàn)因子挖掘過程的自動化。特別是,根據(jù)它們的表達形式,我們將因子分類為:

符號因子挖掘可以看作是符號回歸的一個特例。傳統(tǒng)的符號回歸算法通常從給定的操作數(shù)和運算符中生成大量的符號表達式,并選擇使預(yù)定目標(biāo)函數(shù)最大化的符號表達式。下圖為一個自動符號因子挖掘的框架,它由四個核心部分組成:操作數(shù)空間、運算符空間、搜索算法和評估準(zhǔn)則。

操作空間定義了哪些元因子可以用于因子挖掘。元因子是因子構(gòu)建的基本組成部分。典型的元因子包括基本的價格和成交量信息、行業(yè)分類、從限價/訂單中提取的基本特征、常見的技術(shù)指標(biāo)、分析師的基本統(tǒng)計數(shù)據(jù)、財務(wù)報告中的重要信號、上市公司的公告和其他研究報告、投資者情緒的情緒信號。

算子空間定義了哪些算子可以在因子挖掘過程中使用。例如,在橫截面選股中,操作者可分為構(gòu)建符號因子的主算子和標(biāo)準(zhǔn)化不同交易環(huán)境下因子的后處理算子。主算子可進一步分類為元素級算子(element-wise operator),如()和log();時間序列運算符,如ts_rank()和ts_mean(),分別計算每只股票的排名順序和平均值;橫截面運算符,如rank()和quantile(),在特定交易時間沿橫截面計算排名和分位數(shù);分組運算符,如group_rank(),分別計算每組(例如,行業(yè)或部門)的排名順序。后處理操作符用于“微調(diào)”生成的因子。典型的后處理算子有標(biāo)準(zhǔn)化算子,如用于異常值處理的winsorization算子和用于統(tǒng)一數(shù)據(jù)量綱的歸一化算子,以及用于風(fēng)險中性化的算子,用于限制選股范圍的分組算子,以及用于控制換手率以降低交易成本的衰減算子。

搜索算法的目的是盡可能高效地搜索和發(fā)現(xiàn)有效或合格的因子。生成新因子的一種簡單方法是蒙特卡羅(MC)算法,該算法在操作數(shù)和操作符空間中隨機選取元素,遞歸地生成符號表達式樹。不幸的是,搜索時間可能會隨著生成公式的長度和復(fù)雜性呈指數(shù)增長,并迫使我們考慮更有效的替代方案。第一種選擇是馬爾可夫鏈蒙特卡羅(Markov-chain Monte Carlo, MCMC)算法,該算法從后驗分布中以重要方式生成采樣因子,因此比MC效率更高。第二種選擇是遺傳規(guī)劃,它是一種特殊的用于采樣和優(yōu)化樹型數(shù)據(jù)的進化算法。第三種選擇是基于梯度的方法,如神經(jīng)網(wǎng)絡(luò),它用連續(xù)的非線性函數(shù)近似離散的符號公式,沿著梯度方向搜索,比隨機搜索效率高得多。

評估標(biāo)準(zhǔn)衡量的是因子的質(zhì)量。利用回測對所生成因子進行了評價。典型的評價標(biāo)準(zhǔn)包括信息系數(shù)(IC)、基于信息系數(shù)的信息比率(ICIR)、年化收益率、最大回收量、夏普比率和換手率。此外,通過過濾掉與其他因子高度相關(guān)的冗余因素,保持因子之間信息的多樣性是非常重要的。

符號因子具有簡單易懂的優(yōu)點,在實踐中得到了廣泛的應(yīng)用。然而,它們的表示能力受到操作數(shù)和操作符的限制。另一方面,機器學(xué)習(xí)因子在表示上更靈活,以適應(yīng)更復(fù)雜的非線性關(guān)系,因此它們有可能在市場預(yù)測中表現(xiàn)得更好。特別是,挖掘機器學(xué)習(xí)因子是一個擬合神經(jīng)網(wǎng)絡(luò)的過程,其中梯度為快速搜索解決方案提供了最佳方向。

機器學(xué)習(xí)因子也有一些局限性。首先,由于機器學(xué)習(xí)的黑箱性質(zhì),它們通常很難解釋和理解。其次,神經(jīng)網(wǎng)絡(luò)的梯度搜索可能會卡在局部最優(yōu)點,導(dǎo)致模型不穩(wěn)定問題。最后,神經(jīng)網(wǎng)絡(luò)由于其靈活性可能會遭受更嚴重的過擬合,并且由于數(shù)據(jù)具有極大的噪聲,這種情況在量化中會變得更糟。

在本文中,我們關(guān)注最先進的深度學(xué)習(xí)自動化問題,將AutoML技術(shù)應(yīng)用于發(fā)現(xiàn)最優(yōu)深度學(xué)習(xí)模型,自動選擇最合適的模型和最優(yōu)模型結(jié)構(gòu),并調(diào)整最佳超參數(shù)。由于建模中的端到端特性和網(wǎng)絡(luò)架構(gòu)問題,該問題更加復(fù)雜。深度學(xué)習(xí)模型的配置包括架構(gòu)、超參數(shù)和目標(biāo)三部分,它們共同決定了模型的最終性能。傳統(tǒng)上,這些配置是手動調(diào)優(yōu)的。在Quant4.0中,它們使用各種AutoML算法進行搜索和優(yōu)化。一個標(biāo)準(zhǔn)的AutoML系統(tǒng)需要回答以下三個問題:搜索什么(即搜索空間),如何搜索(即搜索算法),以及為什么要搜索(即性能評估)。

給定搜索空間,我們可以使用搜索算法來找到最佳的模型配置。表2列出了各種類型的搜索算法及其相應(yīng)的任務(wù):網(wǎng)絡(luò)架構(gòu)搜索(NAS)、超參數(shù)優(yōu)化(HPO)[83]和訓(xùn)練目標(biāo)選擇(TOS)。

標(biāo)簽:

Quant 4.0:你的量化研究處于哪個時代? 焦點觀察

在IDEA最新研究報告中首次提出了Quant4 0的研究流程,在深度學(xué)習(xí)不斷融

2023-06-14

全國碳市場今日收盤價與前一日持平,報57.00元/噸_每日看點

App6月14日消息,“全國碳交易”微信公眾號消息,今日全國碳市場碳排放

2023-06-14

市場監(jiān)管總局:積極推動《消費者權(quán)益保護法實施條例》修訂

南方財經(jīng)6月14日電,國家市場監(jiān)督管理總局登記注冊局局長任端平在國新

2023-06-14

我國第一口萬米科探井開鉆大國深度:向地下一萬米挺進 全球滾動

5月30日11時11分,我國第一口萬米科探井——深地塔科1井在新疆塔里木盆

2023-06-14

國光電氣(688776.SH):人才儲備能滿足后續(xù)發(fā)展所需_世界速讀

格隆匯6月14日丨有投資者向國光電氣688776SH提問據(jù)了解公司主營業(yè)務(wù)生

2023-06-14

突發(fā) 天津一男子用煙花爆竹作案 造成三人死亡多人受傷 房屋嚴重受損

6月13日,晚8時左右天津遠翠中里小區(qū)里傳出一聲巨響,13號樓一戶居民的

2023-06-14

全球熱門:鳳凰不夜城:創(chuàng)新文商旅融合業(yè)態(tài),打造區(qū)域經(jīng)濟增長新引擎!

石家莊市高邑縣作為千年古縣,其縣史最早可追溯至秦朝。而漢光武帝劉秀

2023-06-14

讓更多美好在身邊發(fā)生 靜安寺街道發(fā)布社區(qū)社會工作三年行動計劃

年逾八旬的李老伯患有中度阿爾茲海默病,生活起居均由同齡的老伴照顧。

2023-06-14

cssci期刊是什么意思 sci期刊是什么意思

1、SCI期刊IF值是衡量期刊水平的標(biāo)準(zhǔn)。2、它的計算方法為:出版當(dāng)年之

2023-06-14

全球?qū)崟r:美聯(lián)儲將維持利率不變 美元指數(shù)小幅收跌

今日周三(6月14日),美元指數(shù)開盤報103 30,昨收價103 30,截止發(fā)稿時

2023-06-14

蘇寧易購發(fā)布“618”趨勢家電榜單,中央空調(diào)top5品牌出爐_今日關(guān)注

近日,“618”年中大促火熱進行,趨勢類家電成為最熱門商品之一。6月13日

2023-06-14

環(huán)球時訊:大行評級 | 摩通:LPR利率料下調(diào) 對內(nèi)銀負面影響被存款利率下調(diào)所抵銷

格隆匯6月14日丨摩通發(fā)表報告,預(yù)計本月貸款市場報價利率(LPR)將下降10

2023-06-14

環(huán)球觀察:中央氣象臺發(fā)布暴雨藍色預(yù)警

人民網(wǎng)北京6月14日電(記者楊虞波羅)中央氣象臺預(yù)計,6月14日08時至15日

2023-06-14

武陵飄香酒怎么樣?武陵飄香酒怎么樣值得買嗎? 每日關(guān)注

武陵酒是中國十七大名酒之一,于1953年成立,并在1972年推出自主創(chuàng)新研

2023-06-14

榨干電池 等于榨干自己

榨干電池等于榨干自己

2023-06-14

你覺得蝙蝠俠打得過蜘蛛俠嗎?

綜上所述,蝙蝠俠和蜘蛛俠之間的戰(zhàn)斗比拼,實際上就是一種對于機會把握

2023-06-14

環(huán)球快資訊丨“母嬰級家電認證”已涵蓋近20個品類

北京商報訊(記者陶鳳王柱力)6月13日,中家院(北京)檢測認證有限公

2023-06-14

6月13日基金凈值:廣發(fā)招享混合A最新凈值1.2682,漲0.11%|速訊

6月13日,廣發(fā)招享混合A最新單位凈值為1 2682元,累計凈值為1 2682元,

2023-06-14

唐伯虎一頭扎進廬山

《廬山圖》中展現(xiàn)的那種略帶陰沉的格調(diào),其實也是他自己內(nèi)心的一種真實

2023-06-14

qq分組圖案符號(qq分組符號簡單干凈-當(dāng)前熱訊

QQ分組圖案符號QQ分組圖案符號是一種在QQ聊天軟件中常用的表情符號,可

2023-06-14

霍秀秀是好的還是壞的(霍秀秀結(jié)局)

來為大家解答以下的問題,秀秀是好的還是壞的,霍秀秀結(jié)局這個很多人還

2023-06-14

江蘇大學(xué)教務(wù)處_江蘇大學(xué)視聽說網(wǎng)址

1、密我。2、我告訴你。

2023-06-14

世界觀察:哈薩克斯坦今年前5個月GDP增長4.5%

中新社阿斯塔納6月13日電當(dāng)?shù)貢r間13日,據(jù)哈薩克斯坦總理府網(wǎng)站消息,

2023-06-14

特寫:大山里的足球“超級周末”

新華社貴陽6月13日電(記者羅羽)夜幕降臨、華燈初上,以一片綠茵場為

2023-06-14

IPO門檻實質(zhì)提高還是強化定位?中介、創(chuàng)投這么說 快消息

隨著全面注冊制的實施,今年以來的IPO市場正在發(fā)生著一些變化。第一財

2023-06-13

河南明日調(diào)整油價:92號汽油7.49元/升,95號汽油8元/升_環(huán)球速看

光棍影院特片網(wǎng)_特片網(wǎng)你們能打開嗎

多個保險能一起報銷嗎?

記者:巴薩尚未正式報價京多安,曼城提供1+1合同-世界即時

凌亂美是什么風(fēng)格_凌亂美 環(huán)球新動態(tài)

短訊!“最美江景賽道” 市民跑者盛贊“吉馬”

2023北京安博會,精華隆創(chuàng)新驅(qū)動與行業(yè)一起騰飛

熱點評!2023杭州J2期第十二次小客車指標(biāo)個人階梯搖號的公告

東風(fēng)日產(chǎn)新逍客高速失控 4S店僅做系統(tǒng)升級引車主擔(dān)憂_當(dāng)前訊息

天天快訊:學(xué)剪輯去哪里學(xué)比較好?學(xué)剪輯的方式和優(yōu)缺點

華夏銀行:聘任高波為副行長_環(huán)球觀點

視訊!【新華解讀】職業(yè)教育產(chǎn)教融合重磅政策出臺 將通過“試點、政策、資金”三方面賦能

全球熱文:大富翁哪個版本最好玩最經(jīng)典?_大富翁 游戲哪個版本最好玩

微動態(tài)丨2023年5月鄭州商品交易所硅鐵期貨成交量、成交金額及成交均價統(tǒng)計

世界播報:滴滴貨運上線 快送業(yè)務(wù)已接入達達、閃送、UU跑腿三家公司

全球觀焦點:神探狄仁杰第三部下載觀看_神探狄仁杰第三部下載

“禁止婚外情和出軌,否則辭退”,公司最新回應(yīng) 天天快播

新水滸多少集眾人敬酒_新水滸多少集|世界焦點

天天觀焦點:李斌是時候擔(dān)憂蔚來的未來了

全球報道:吳京帶杰森去外灘吃水餃喝二鍋頭,真牛啊!杰森穿襯衣,更硬漢

胃氣下行的中成藥_天天看點

高質(zhì)量發(fā)展調(diào)研行|唱響海洋牧歌——廣東“藍色經(jīng)濟”發(fā)展駛?cè)肟燔嚨?/h1>

中遠海發(fā):6月12日融資買入1232.06萬元,融資融券余額6.55億元

全球資訊:生成式AI熱潮讓云計算收入猛增,甲骨文股價創(chuàng)歷史新高

環(huán)球滾動:五大早期文明首次“聚首” 二里頭出土文物講述“最早中國”

Copyright @  2015-2022 太平洋家電網(wǎng)版權(quán)所有  備案號: 豫ICP備2022016495號-17   聯(lián)系郵箱:93 96 74 66 9@qq.com