企業の名寄せについての一考

特許データの分析時や集計時には企業の名寄せについてはなかなか悩まされる
ことと思う。名寄せが必要な理由は大きくは以下の理由がある。

①企業の変遷によるものー名称変更、合併、吸収 etc.

②表記揺れ　整理標準化データのなかでも表記の揺れは大きい。特に海外出願人はほぼ一筋縄ではいかず、人間が見たら同じに見えてもエクセルやDB上は全く別物となってしまう。

で、ここでは①の解決方法についての提案を一つ。

以前の記事に紹介したNISTEP(科学技術・学術政策研究所）の企業名辞書を使用する方法である。

この中の企業名辞書テーブルを用いる方法である。ありがたいことにMySQLのダンプ(CSV)形式になっているのですぐにインポートして利用することができる。インポートした結果は以下(ツールによってDBテーブルの中身を表示）。

f:id:tomoro_azu:20161121002324p:plain

comp_id : 各企業(comp_name)で表される企業ごとのid

history_id:同一企業の変遷レコードをグループ化して扱うための番号
　　　　（合併、吸収、名称変更などは同じグループ化される）

たとえば「サンリオ」は comp_id: 1008136, history_id: 1008136 で、逆に history_id 1008136 で検索すると以下のような結果となる。つまり以下は１つのグループとなる。

f:id:tomoro_azu:20161121004114p:plain

一応企業HPで確認して正しいことはわかった（あたりまえか）。

で、テーブルからのこの取得方法は上記のような二段階の検索はせずに副問い合わせを使って１回で取得可能。ちなみにテーブル名は1_comp_name_main_TBLなので

select * from 1_comp_name_main_TBL where history_id in
(select history_id from 1_comp_name_main_TBL where comp_name = 'サンリオ')

サンリオの例は企業変遷だが、合併・統合の例でいうとリクシルの情報は以下のとおり

f:id:tomoro_azu:20161121005706p:plain

で、これをどうやって名寄せに利用するかというと、上記のSQLで得られたcomp_nameを使ってさらに出願人名で書誌データ（整理標準化データなど）を検索すれば名寄せを考慮した検索が自動的にできる。もちろんどこまでを名寄せと考えるかは各自の判断があるのでそのあたりの工夫は必要になるだろう。

SQLで考えると副々問い合わせになるので可読性は悪くなりそうだけどほかのやり方を知っている人がいたら教えてもらいたいです。。

さらに、この方法と以前に触れたexcel+pythonの技を使うと縦セルに企業名を並べておいて一気に上記の方法で取得した企業情報や件数集計を埋めることができる。

実際にやってみたので画面を動画キャプチャしてデモにしようかと思ったけど、動画にするのがいまいちうまくいかなかったのあきらめた（笑）。

上記の例はデータベースを構築することが前提となるが、ありがたいことにExcelの形式でも提供されているので何らかの自動化は可能だと思う。私はVBAはできないので具体的なことは言えないけれど、もし手動で利用するにしても有用な情報だと思う。仕様や詳細は是非HPを見てみてほしい。

トモロログ