基于Python和Selenium的期刊論文施引側數(shù)據挖掘程序設計
摘 要:為了研究中文科技期刊被國際期刊“施引側”的引用行為,采用Python+Selenium+Chrome組合框架設計了WhoCiteMe程序,提出一種期刊論文施引側引用信息的數(shù)據挖掘方法.文章提出了WhoCiteMe程序的設計思路,并分析了廣東省10種中文科技期刊被國際期刊引用次數(shù)、學科分布、施引期刊的分區(qū)等特征.結果表明:提出的算法和設計的數(shù)據挖掘程序,可以獲取國際期刊施引文獻清單及引用數(shù)據,為評價中文科技期刊的國際影響力提供個性化數(shù)據,為辦刊決策提供數(shù)據支撐.
關鍵詞:科技期刊;施引側;數(shù)據挖掘;Python;Selenium
中圖分類號:G 255.2 文獻標識碼:A 文章編號:1007-6883(2024)06-0094-11
DOI:10.19986/j.cnki.1007-6883.2024.06.013
科技期刊承載著科學研究成果的傳播重任,是學術交流的主流宣傳陣地,在促進學科發(fā)展與社會進步中起到重要作用.如何提升中文科技期刊的學術影響力(特別是國際影響力),已成為期刊界共同關注的熱點.如何采用量化指標定量評價和衡量各類期刊發(fā)展資助項目的投入、實施措施對提升期刊國際影響力的貢獻,一直是辦刊人共同關注的研究熱點.2020年,中國科學技術協(xié)會支持的多家研究機構聯(lián)合攻關項目提出了“科技期刊世界影響力指數(shù)(World Journal Clout Index of Scientific and Technological Periodicals,WJCI)”[1],引入總被引頻次與影響因子雙指標(WAJCI)、量效指數(shù)(JMI)、網絡影響力指標(WI),基于“同類可比”原則,提出一套綜合評價體系,避免了使用“影響因子”單一指數(shù)評價的局限性,使期刊的國際影響力評價更全面、更客觀.胡小洋等[2]基于國際他引影響因子、國際即年指標、可被引文獻量等數(shù)據,提出一種基于改進的DID模型和學術期刊綜合表現(xiàn)力指數(shù),用以構建對學術期刊資助項目實施效果的評價方法,該方法在學術期刊自主項目實施效果評價實踐中具有推廣價值.目前各類科技期刊的評價體系均基于被引數(shù)據,而基于“施引側”的數(shù)據分析較少.2021年,徐琳宏等[3]以自然語言處理領域為例,嘗試在施引文獻視角下研究了正面引用和中性引用論文的影響力差異及其影響因素,以期矯正因引用同一化問題而導致的僅以被引頻次評估帶來的偏差.2023年,F(xiàn)rancis等[4]針對目前包括Web of Science在內的幾乎所有數(shù)據庫都從“被引側”(Cited side)設置文獻計量指標的現(xiàn)狀,首次提出“施引側”(Citing side)文獻計量指標設置的可行性,探討其優(yōu)勢與應用,并建議文獻計量指標由“被引側”轉向“施引側”將提高文獻計量指標的實用性、及時性.
生成式人工智能時代(GenAI Era)的到來為學術研究和出版帶來了機遇與挑戰(zhàn)[5],學術研究過程以及施引行為將變得更加撲朔迷離,單純考察被引次數(shù)的影響因子不足以了解期刊論文的學術價值.Python數(shù)據挖掘與分析可為各行各業(yè)提供決策[6-7].盡管CiteSpace軟件可以分別對中文文獻、英文文獻進行知識圖譜分析,但無法挖掘中文論文被外文期刊施引數(shù)據,不能滿足單篇論文和單本期刊的個性化數(shù)據分析需求。(剩余9067字)