基于預(yù)訓(xùn)練Transformer語言模型的源代碼剽竊檢測研究
摘要: 為解決源代碼剽竊檢測的問題, 以及針對現(xiàn)有方法需要大量訓(xùn)練數(shù)據(jù)且受限于特定語言的不足, 提出了一種基于預(yù)訓(xùn)練Transformer 語言模型的源代碼剽竊檢測方法, 其結(jié)合了詞嵌入、相似度計算和分類模型。該方法支持多種編程語言, 不需要任何標(biāo)記為剽竊的訓(xùn)練樣本, 即可達(dá)到較好的檢測性能。實驗結(jié)果表明,該方法在多個公開數(shù)據(jù)集上取得了先進(jìn)的檢測效果, F1 值接近。(剩余6625字)
-
-
- 吉林大學(xué)學(xué)報(信息科學(xué)版)
- 2024年04期
目錄
- 基于改進(jìn)殘差網(wǎng)絡(luò)的抽油機(jī)故障診...
- 基于ATMADDPG 算法的多...
- 聯(lián)合學(xué)習(xí)透射圖和去霧圖的條件生...
- 基于提升小波的數(shù)字圖像混合噪聲...
- 基于CSA-INC算法的光伏發(fā)...
- 基于CNN-BiLSTM的油田...
- 基于雙簇頭的油氣物聯(lián)網(wǎng)節(jié)能路由...
- C/S架構(gòu)的新型控壓鉆井計算模...
- 基于互感穩(wěn)定性提升的電動汽車無...
- 基于改進(jìn)蟻群算法的多智能體路徑...
- 基于博弈論的異構(gòu)無人集群協(xié)同編...
- 多終端用戶醫(yī)療信息共享強(qiáng)制訪問...
- 基于改進(jìn)Gabor算法的遮擋人...
- 基于多方向特征和連通性檢測的眼...
- 改進(jìn)多方向Sobel算子的剩余...
- 基于SIR模型的無線網(wǎng)絡(luò)安全威...
- 實時操作系統(tǒng)事件響應(yīng)機(jī)制剖析...
- 基于多相似度模糊C均值聚類的不...
- 移動網(wǎng)絡(luò)隱私信息庫未知訪問源安...
- 物聯(lián)網(wǎng)同頻共用跨域數(shù)據(jù)流動安全...
- 基于預(yù)訓(xùn)練Transforme...
- 基于Docker的計算機(jī)基礎(chǔ)實...
- 基于潛蛟P100的漁網(wǎng)縫補(bǔ)機(jī)械...
- 基于近紅外光譜法的血液酒精濃度...
- 《吉林大學(xué)學(xué)報(信息科學(xué)版)》...