一種針對(duì) BERT 模型的多教師蒸餾方案
摘要:在傳統(tǒng)的知識(shí)蒸餾中,若教師、學(xué)生模型的參數(shù)規(guī)模差距過大,則會(huì)出現(xiàn)學(xué)生模型無 法學(xué)習(xí)較大教師模型的負(fù)面結(jié)果。為了獲得在不同任務(wù)上均擁有較好表現(xiàn)的學(xué)生模型,深入研 究了現(xiàn)有的模型蒸餾方法、不同教師模型的優(yōu)缺點(diǎn),提出了一種新型的來自 Transformers 的雙 向編碼器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教 師蒸餾方案,即使 用 BERT、魯棒優(yōu)化 的 BERT 方 法 ( Robustly optimized BERT approach, RoBERTa)、語(yǔ)言理解的廣義自回歸預(yù)訓(xùn)練模型(XLNET)等多個(gè)擁有 BERT 結(jié)構(gòu)的教師模型對(duì) 其進(jìn)行蒸餾,同時(shí)修改了對(duì)教師模型中間層知識(shí)表征的蒸餾方案,加入了對(duì) Transformer 層的 蒸餾。(剩余13352字)
- 基于 BPNN-SVM-ELM...
- 制備條件對(duì)乙烯焦油調(diào)制包覆瀝青...
- 直接法合成棕櫚?;谆;撬徕c...
- 基于羥丙基纖維素制備乙醇凝膠推...
- 有機(jī)胺改性樹脂基球形活性炭對(duì)二...
- 苦參堿-脂肪酸低共熔溶劑的制備...
- 含乙醇胺三元低共熔溶劑吸收 C...
- 脂肪酸低共熔溶劑對(duì)姜黃素的溶解...
- 基于網(wǎng)絡(luò)藥理學(xué)和設(shè)計(jì)空間優(yōu)化黃...
- 三七藥渣中多糖提取工藝優(yōu)化及其...
- 基于自適應(yīng)深度置信網(wǎng)絡(luò)的壓力變...
- 基于注意力機(jī)制多尺度卷積神經(jīng)網(wǎng)...
- 基于動(dòng)態(tài)最小支持度的增量頻繁序...
- 基于卸載策略的物聯(lián)網(wǎng)邊緣計(jì)算任...
- 基于 NOMA 增強(qiáng)的 D2D...
- 基于外部存檔更新及截?cái)嗟?NS...
- 一種針對(duì) BERT 模型的多教...
- 多采樣率雙通道有源噪聲反饋控制...
- 長(zhǎng)石質(zhì)陶瓷磨損研究及有限元數(shù)值...