日本語タイトル:Gradient Boosting Tree法による中国特許データの発明者識別と発明者の地域間異動(1985-2016)

Inventor Name Disambiguation with Gradient Boosting Decision Tree and Inventor Mobility in China (1985-2016)

執筆者 尹 徳雲 (東京大学)/元橋 一之 (ファカルティフェロー)
発行日/NO. 2018年3月  18-E-018
研究プロジェクト IoTの進展とイノベーションエコシステムに関する実証研究
ダウンロード/関連リンク

概要

本稿は中国特許データ(1985年~2016年)の発明者情報について、機械学習によって同一発明者の識別作業を行った。手作業を作成した教師データを用いて、機械学習の7つの方法(Naïve Bayes, Logistic, LDA and QDA, Random Forest, Ada BoostとGradient Boosting)のパフォーマンスを比較して、Gradient Boost法の精度が最も高いことを示した。また、上記の方法によって求められる異なる特許間の発明者が同一人物である確率マトリックスをベースにDBSCAN法によるクラスタリングを行う中国名称のすべての発明者について識別作業を行った。その結果、F1スコアで93.5%~99.3%という高い精度で発明者識別が行われていることが分かった。また、本稿においては、ここで作成された情報を用いて、発明者間の地域間移転の状況について分析をしており、中国における研究者人材のモビリティの実態を明らかにしている。

概要(英語)

This paper presents the first systematic disambiguation result of all Chinese patent inventors in the State Intellectual Property Office of China (SIPO) patent database from 1985 to 2016. We provide a method of constructing high-qualitative training data from lists of rare names and evidence for the reliability of these generated labels when large-scale and representative hand-labeled data are crucial but expensive, prone to error, and even impossible to obtain. We then compare the performances of seven supervised models, i.e., naive Bayes, logistic, linear discriminant analysis (LDA) and quadratic discriminant analysis (QDA), as well as tree-based methods (random forest, AdaBoost, and gradient boosting decision trees), and found that gradient boosting classifier outperforms all other classifiers with the highest F1-score and stable performance in solving the homonym problem prevailing in Chinese names. In the last step, instead of adopting the more popular hierarchical clustering method, we clustered records with the density-based spatial clustering of applications with noise (DBSCAN) based on the distance matrix predicated by the GBDT classifier. Varying across different testing data and parameters of DBSCAN, our algorithm yielded a F1-score ranging from 93.5%-99.3% with splitting error within the range 0.5%-3% and lumping error between 0.056%-0.37%. Based on our disambiguated result, we provide an overview of Chinese inventors' regional mobility.