ノンテクニカルサマリー

論文・特許のテキストデータを使った科学と技術の連関分析

執筆者 元橋 一之 (ファカルティフェロー)/小柴 等 (NISTEP / AIST)/池内 健太 (研究員(政策エコノミスト))
研究プロジェクト デジタル化とイノベーションエコシステムに関する実証研究
ダウンロード/関連リンク

このノンテクニカルサマリーは、分析結果を踏まえつつ、政策的含意を中心に大胆に記述したもので、DP・PDPの一部分ではありません。分析内容の詳細はDP・PDP本文をお読みください。また、ここに述べられている見解は執筆者個人の責任で発表するものであり、所属する組織および(独)経済産業研究所としての見解を示すものではありません。

イノベーションプログラム(第五期:2020〜2023年度)
「デジタル化とイノベーションエコシステムに関する実証研究」プロジェクト

本稿においては、 1990年以降に出版された日本の著者による学術論文(約230万件)と日本特許庁に対する出願特許(約1200万件)のタイトル・要旨のテキストデータを用いて、科学(論文)と技術(特許)の相互連関関係について分析を行ったものである。作業のプロセスとしては、以下のとおり。

  • 両者の合計1430万件のテキスト情報を数値情報に置き換え(自然言語処理技術の一つである分散表現、あるいはDocument Embeddingの手法を適用)、ここでは300次元のベクトル情報とする。
  • 文書間の内容の近接性をそれぞれの文書のベクトル情報の類似度で測定(ベクトルの内積をベースとしたコサイン類似度を利用。なお、コサイン0度、つまりベクトル情報が一致する場合は1,コサイン180度、ベクトルが正反対を向いている場合は-1から1の間の数値で数が大きいほど類似度が大きい指標となる。
  • 個々の文書についてこのコサイン類似度のトップ200に入るものでかつコサイン類似度が0.9以上のものを近傍文書として抽出。
  • 上記から、特許についてはその近傍論文数、論文についてはその近傍特許数を論文(科学)と特許(技術)の相関関係を示す指標として抽出。

上記の論文(特許)の近傍特許(論文)数に関するトレンドを見ると以下のことが観察された(図参照)。

  • 特許と内容的に類似度の高い論文数の減少:学術論文でカバーされない技術的領域に対して、特許でみた技術分野の広がりが見られる。
  • 論文と内容的に類似度の高い特許数の安定的推移:特許で見た技術領域に対して、学術領域の広がりは限定的である。
図 論文と特許の相関関係に関するトレンド
図 論文と特許の相関関係に関するトレンド

ただし、2000年代以降、2001年の国立試験研究機関の独立行政法人化、2004年の国立大学の法人化など、学術論文の大半を担っている公的研究機関の改革が行われ、産学連携が進んできている。従って、論文で見た科学技術領域の広がりに対して、特許による技術化のキャッチアップスピードが上昇していることが、上記の特許→論文と論文→特許で異なるトレンドとなっていることの原因となっている可能性がある。