トモロログ

仕事や趣味でのメモや記録など

2016-01-01から1年間の記事一覧

整理標準化データIPCについての小ネタ

特許の検索や集計をする際に筆頭IPCを利用される方もいるのではないだろうか。役には立たないかもしれないけれどそれに関する小ネタ。 整理標準化データではIPCは出願マスタに含まれていて「公開IPC(un-examined-ipc)」と「公告IPC(examined-ipc…

企業の名寄せについての一考

特許データの分析時や集計時には企業の名寄せについてはなかなか悩まされることと思う。名寄せが必要な理由は大きくは以下の理由がある。 ①企業の変遷によるものー名称変更、合併、吸収 etc. ②表記揺れ 整理標準化データのなかでも表記の揺れは大きい。特に…

python から excel の操作

ライブラリ openpyxl を使用すればできた https://openpyxl.readthedocs.io/en/default/index.html# インストールはMac環境では pip install openpyxl 使用例 # coding: utf-8import openpyxl wb = openpyxl.load_workbook(filename = 'sample.xlsx') sheet …

キーワード検索 ≠ 全文検索

特許の商用データベースを利用していてこんなこと感じたことがあると思う。 例えば全文を対象としてキーワード「静電容量センサ」で検索 検索キーワードをハイライトして公報をチェック しかしそこにはキーワード「静電容量センサ」がない。 これは我々ユー…

企業名や出願人の名寄せ

特許の分析をする際に一番悩ましいのが名寄せではないかと思う。 名寄せが必要な理由は ①企業の名称変更、合併、吸収 ②単に表記ミス などがある。 ①の解決には商用のツールを使うという手があるのかもしれない(使ったことないので知らないけど)。あるいは…

分類不能

整理標準化データを処理していると思いがけないデータにぶつかる ことがある。 たとえば 特開平2−145900のIPCは 0/00 でこれは分類不能の意味らしい。 おそらくだけど検索時にはじかれるようにしているのだろう。 こういうのいっぱいあるのだろう…

insert ignore 〜の問題

insert ignore 〜 の構文でインサートしたときには重複行がある場合にはインサートを実行しないのだがちょっと問題点が。。 プライマリキー(たとえば id) をauto_increment で設定していて かつ それ以外のカラムにUNIQUE KEYを設定している場合に問題があ…

整理標準化データの追加

整理標準化データはデータの更新があったときに該当する公報のマスタデータが 配布される形式になっている。 たとえばある出願 2000-123XXX にIPCの更新があったときにはそれについてのすべての整理標準化データの出願マスタ1レコード分が配信される。つま…

mysql 日本語全文検索 入門

Oracle 山崎氏作成のこの資料を見ればとりあえず始められた。 とってもありがたいです。何度も見ようっと。下記に引用させていただきます。 MySQL 5.7 InnoDB 日本語全文検索 from yoyamasaki www.slideshare.net MySQL 5.7 InnoDB 日本語全文検索(その2)…

full text search の構文

mysql の全文検索の構文 select * from テーブル名 where match(カラム名) against('キーワード' in boolean mode) 'in boolean mode' は論理演算ができるモードらしい。あとこれを入れてないとなんか 曖昧な検索結果になってしまう。 boolean mode は上記の…

全文検索DB

先日 mroongaのセミナ Groonga - 「MySQLとPostgreSQLと日本語全文検索3」開催のお知らせ に参加。ここで知ったのがmysql5.7からmysqlでもインデックスを使った全文検索 が可能ということ。そして google cloud sql の2nd のバージョンが5.7になっていた。 …

整理標準化データの文字コード

特許庁からもらった xml ファイルの文字コードはeuc-jp、 こちらの環境はmac , python(2.7) でうまく処理できない。 原因はxml処理ライブラリがeuc-jpを処理しないことにあった。 以下の方法で解決。効率よいのかはわからんけど。 import xml.etree.ElementT…

やってみよう

最近プログラミングを趣味として再開してふと特許データベースを自分で作れないかと思いついた。 フルスケールでできるのか、速度はそもそも完成するのかなど?な点は多いがとりあえずここをメモ代わりにしながら進めてみることに。 だれかの参考になればと…