基于機器學習的論文作者名消歧方法研究

作者:鄧可君;華凱;鄧昌明;姜寧;袁玲;彭一明;張治坤; 刊名:四川大學學報(自然科學版) 上傳者:潘平

【摘要】本文提出了一種基于規則匹配和機器學習的論文作者名自動化消歧方法:首先基于人工構建的人名匹配規則確定候選作者,對于存在多個候選人的情況,基于論文的屬性信息(例如合作者、標題、摘要、關鍵詞和出版物名稱等)提取特征,然后選取合適的機器學習算法進行消歧.實驗效果表明K近鄰和Softmax分類器較適合于論文作者名消歧任務;此外,將作者信息與論文的其他信息分開提取特征能夠有效提高作者名消歧的準確性.

全文閱讀

2019年3月 四川大學學報(自然科學版) Mar.2019第56卷 第2期 Journal of Sichuan University(Natural Science Edition) Vol.56 No.2 doi:10.3969/ ji.ssn.0490-6756.2019.02.010 基于機器學習的論文作者名消歧方法研究 鄧可君,華 凱,鄧昌明,姜 寧,袁 玲,彭一明,張治坤 (北京大學計算中心,北京100871) 摘 要:本文提出了一種基于規則匹配和機器學習的論文作者名自動化消歧方法:首先基于人工構建的人名匹配規則確定候選作者,對于存在多個候選人的情況,基于論文的屬性信息(例如合作者、標題、摘要、關鍵詞和出版物名稱等)提取特征,然后選取合適的機器學習算法進行消歧.實驗效果表明 K近鄰和Softmax分類器較適合于論文作者名消歧任務;此外,將作者信息與論文的其他信息分開提取特征能夠有效提高作者名消歧的準確性.關鍵詞:作者名消歧;機器學習;文本特征提取 中圖分類號:TP391.1   文獻標識碼:A   文章編號:0490-6756(2019)02-0241-05 收稿日期:2018-06-28 作者簡介:鄧可君(1986-),女,湖南長沙人,博士生,工程師,研究方向為信息處理.E-mail:kejund@pku.edu.cn通訊作者:張治坤.E-mail:zhangzhikun@pku.edu.cn Research on author name disambiguation method based on machine learning DENG Ke - Jun , HUA Kai , DENG Chang - Ming , JIANG Ning , YUAN Ling , PENG Yi - Ming , ZHANG Zhi - Kun ( Computer Center,Peking University,Beijing 100871,China) Abstract:This paper proposes an automatic article author name disambiguation method based on rule matching and machine learning.For each article,the candidate authors are determined based on artificialconstructed name matching rules firstly.For the cases of multiple candidates,features are extractedfrom the attribute information of the article,such as collaborators,title,abstract,key words and publi-cation name,and then selected machine learning models are applied to author name disambiguating.The experimental results show that the K-nearest neighbor and Softmax classifier are more suitable for theauthor name disambiguation task than other mod

參考文獻

引證文獻

問答

我要提問
ub8优游 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>