整理標準化データＩＰＣについての小ネタ

特許・お仕事

特許の検索や集計をする際に筆頭ＩＰＣを利用される方もいるのではないだろうか。役には立たないかもしれないけれどそれに関する小ネタ。整理標準化データではＩＰＣは出願マスタに含まれていて「公開ＩＰＣ(un-examined-ipc)」と「公告ＩＰＣ(examined-ipc…

2016-11-21

企業の名寄せについての一考

プログラム

特許データの分析時や集計時には企業の名寄せについてはなかなか悩まされることと思う。名寄せが必要な理由は大きくは以下の理由がある。 ①企業の変遷によるものー名称変更、合併、吸収 etc. ②表記揺れ整理標準化データのなかでも表記の揺れは大きい。特に…

2016-11-17

python から excel の操作

プログラム

ライブラリ openpyxl を使用すればできた https://openpyxl.readthedocs.io/en/default/index.html# インストールはMac環境では pip install openpyxl 使用例 # coding: utf-8import openpyxl wb = openpyxl.load_workbook(filename = 'sample.xlsx') sheet …

2016-11-16

キーワード検索　≠　全文検索

プログラム

特許の商用データベースを利用していてこんなこと感じたことがあると思う。例えば全文を対象としてキーワード「静電容量センサ」で検索検索キーワードをハイライトして公報をチェックしかしそこにはキーワード「静電容量センサ」がない。これは我々ユー…

2016-10-26

企業名や出願人の名寄せ

特許・お仕事

特許の分析をする際に一番悩ましいのが名寄せではないかと思う。名寄せが必要な理由は ①企業の名称変更、合併、吸収 ②単に表記ミスなどがある。 ①の解決には商用のツールを使うという手があるのかもしれない（使ったことないので知らないけど）。あるいは…

2016-10-23

分類不能

特許・お仕事

整理標準化データを処理していると思いがけないデータにぶつかることがある。たとえば特開平２−１４５９００のIPCは０／００でこれは分類不能の意味らしい。おそらくだけど検索時にはじかれるようにしているのだろう。こういうのいっぱいあるのだろう…

2016-10-11

insert ignore 〜の問題

プログラム

insert ignore 〜の構文でインサートしたときには重複行がある場合にはインサートを実行しないのだがちょっと問題点が。。プライマリキー（たとえば id) をauto_increment で設定していてかつそれ以外のカラムにUNIQUE KEYを設定している場合に問題があ…

2016-10-10

整理標準化データの追加

プログラム特許・お仕事

整理標準化データはデータの更新があったときに該当する公報のマスタデータが配布される形式になっている。たとえばある出願 2000-123XXX にIPCの更新があったときにはそれについてのすべての整理標準化データの出願マスタ１レコード分が配信される。つま…

2016-10-10

mysql 日本語全文検索　入門

プログラム

Oracle 山崎氏作成のこの資料を見ればとりあえず始められた。とってもありがたいです。何度も見ようっと。下記に引用させていただきます。 MySQL 5.7 InnoDB 日本語全文検索 from yoyamasaki www.slideshare.net MySQL 5.7 InnoDB 日本語全文検索（その２）…

2016-10-09

full text search の構文

プログラム

mysql の全文検索の構文 select * from テーブル名 where match(カラム名) against('キーワード' in boolean mode) 'in boolean mode' は論理演算ができるモードらしい。あとこれを入れてないとなんか曖昧な検索結果になってしまう。 boolean mode は上記の…

2016-10-09

全文検索DB

プログラム

先日 mroongaのセミナ Groonga - 「MySQLとPostgreSQLと日本語全文検索3」開催のお知らせに参加。ここで知ったのがmysql5.7からmysqlでもインデックスを使った全文検索が可能ということ。そして google cloud sql の2nd のバージョンが5.7になっていた。 …

2016-10-07

整理標準化データの文字コード

プログラム特許・お仕事

特許庁からもらった xml ファイルの文字コードはeuc-jp、こちらの環境はmac , python(2.7) でうまく処理できない。原因はxml処理ライブラリがeuc-jpを処理しないことにあった。以下の方法で解決。効率よいのかはわからんけど。 import xml.etree.ElementT…