基于Lasso的高維數據線性回歸模型統(tǒng)計推斷方法比較.pdf_第1頁
已閱讀1頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目的:
  本文將介紹五種基于Lasso的高維數據線性回歸模型統(tǒng)計推斷方法:Lasso-懲罰計分檢驗(Lasso Penalized Score Test,Lassoscore),多重樣本拆分(Multiple Sample-Splitting,MS-split)、穩(wěn)定選擇(Stability Selection)、低維投射(Low-Dimensional Projection Estimate,LDPE)、協方差檢驗(Covar

2、iance test,Covtest),并將這五種方法作比較,分析其在不同高維數據情形下的表現。
  方法:
  分別介紹Lasso-懲罰計分檢驗、多重樣本拆分、穩(wěn)定選擇、低維投射、協方差檢驗的基本原理。利用以下四個參數設置模擬數據,分別為:7種樣本量n=50、75、100、150、200、300、400;兩種自變量個數p=100、300;兩種自變量間相關性,一是自變量間相互獨立,二是自變量間相關性為corr(Xi,Xj)=

3、0.5|i-j|;兩種回歸系數大小,一是β1=β2=β3=β4=β5=5,βj=0,j>5。二是β1=β2=β3=β4=β5=0.15,βj=0,j>5。以上四個參數分別構成不同情形的高維數據。采用R軟件模擬數據并用五種方法做統(tǒng)計推斷,最后以期望假陽性率(Expected False Positives,EFP)和檢驗效能(power)為評價指標,比較這五種方法在不同高維數據情形下的表現。
  結果:
  在理想高維數據情形

4、下五種方法除協方差檢驗推斷結果保守外其余方法表現都較好,其中穩(wěn)定選擇的EFP最低而檢驗效能最高,在五種方法中表現最好。低維投射、穩(wěn)定選擇、多重樣本拆分都對βmin條件有要求,其中穩(wěn)定選擇過于其依賴βmin條件,所以在復雜高維數據情形下檢驗效能大幅度降低,表現差。在復雜高維數據情形下低維投射在大樣本和小樣本下表現都較保守,雖然在中等樣本量時檢驗效能很高,但是以引入極高的假陽性為代價的。無論在何種數據情形下協方差檢驗推斷結果都很保守。在復雜

5、高維數據情形下Lasso-懲罰計分檢驗的檢驗效能是五種方法中最高的,其次為多重樣本拆分,而Lasso-懲罰計分檢驗的EFP也是最高的,多重樣本拆分的EFP基本接近0。
  結論:
  在常見復雜高維數據情形下Lasso-懲罰計分檢驗發(fā)現真實非零變量的能力優(yōu)于其余四種方法,且其對βmin的要求低,但期望假陽性率高。多重樣本拆分的發(fā)現真實非零變量的能力雖然依賴于數據對βmin條件的滿足與否,但當條件不滿足時僅次于Lasso-懲罰

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論