企業名や出願人の名寄せ

特許・お仕事

特許の分析をする際に一番悩ましいのが名寄せではないかと思う。名寄せが必要な理由は ①企業の名称変更、合併、吸収 ②単に表記ミスなどがある。 ①の解決には商用のツールを使うという手があるのかもしれない（使ったことないので知らないけど）。あるいは…

2016-10-23

分類不能

特許・お仕事

整理標準化データを処理していると思いがけないデータにぶつかることがある。たとえば特開平２−１４５９００のIPCは０／００でこれは分類不能の意味らしい。おそらくだけど検索時にはじかれるようにしているのだろう。こういうのいっぱいあるのだろう…

2016-10-11

insert ignore 〜の問題

プログラム

insert ignore 〜の構文でインサートしたときには重複行がある場合にはインサートを実行しないのだがちょっと問題点が。。プライマリキー（たとえば id) をauto_increment で設定していてかつそれ以外のカラムにUNIQUE KEYを設定している場合に問題があ…

2016-10-10

整理標準化データの追加

プログラム特許・お仕事

整理標準化データはデータの更新があったときに該当する公報のマスタデータが配布される形式になっている。たとえばある出願 2000-123XXX にIPCの更新があったときにはそれについてのすべての整理標準化データの出願マスタ１レコード分が配信される。つま…

2016-10-10

mysql 日本語全文検索　入門

プログラム

Oracle 山崎氏作成のこの資料を見ればとりあえず始められた。とってもありがたいです。何度も見ようっと。下記に引用させていただきます。 MySQL 5.7 InnoDB 日本語全文検索 from yoyamasaki www.slideshare.net MySQL 5.7 InnoDB 日本語全文検索（その２）…

2016-10-09

full text search の構文

プログラム

mysql の全文検索の構文 select * from テーブル名 where match(カラム名) against('キーワード' in boolean mode) 'in boolean mode' は論理演算ができるモードらしい。あとこれを入れてないとなんか曖昧な検索結果になってしまう。 boolean mode は上記の…

2016-10-09

全文検索DB

プログラム

先日 mroongaのセミナ Groonga - 「MySQLとPostgreSQLと日本語全文検索3」開催のお知らせに参加。ここで知ったのがmysql5.7からmysqlでもインデックスを使った全文検索が可能ということ。そして google cloud sql の2nd のバージョンが5.7になっていた。 …

2016-10-07

整理標準化データの文字コード

プログラム特許・お仕事

特許庁からもらった xml ファイルの文字コードはeuc-jp、こちらの環境はmac , python(2.7) でうまく処理できない。原因はxml処理ライブラリがeuc-jpを処理しないことにあった。以下の方法で解決。効率よいのかはわからんけど。 import xml.etree.ElementT…