トモロログ

仕事や趣味でのメモや記録など

2016-10-01から1ヶ月間の記事一覧

企業名や出願人の名寄せ

特許の分析をする際に一番悩ましいのが名寄せではないかと思う。 名寄せが必要な理由は ①企業の名称変更、合併、吸収 ②単に表記ミス などがある。 ①の解決には商用のツールを使うという手があるのかもしれない(使ったことないので知らないけど)。あるいは…

分類不能

整理標準化データを処理していると思いがけないデータにぶつかる ことがある。 たとえば 特開平2−145900のIPCは 0/00 でこれは分類不能の意味らしい。 おそらくだけど検索時にはじかれるようにしているのだろう。 こういうのいっぱいあるのだろう…

insert ignore 〜の問題

insert ignore 〜 の構文でインサートしたときには重複行がある場合にはインサートを実行しないのだがちょっと問題点が。。 プライマリキー(たとえば id) をauto_increment で設定していて かつ それ以外のカラムにUNIQUE KEYを設定している場合に問題があ…

整理標準化データの追加

整理標準化データはデータの更新があったときに該当する公報のマスタデータが 配布される形式になっている。 たとえばある出願 2000-123XXX にIPCの更新があったときにはそれについてのすべての整理標準化データの出願マスタ1レコード分が配信される。つま…

mysql 日本語全文検索 入門

Oracle 山崎氏作成のこの資料を見ればとりあえず始められた。 とってもありがたいです。何度も見ようっと。下記に引用させていただきます。 MySQL 5.7 InnoDB 日本語全文検索 from yoyamasaki www.slideshare.net MySQL 5.7 InnoDB 日本語全文検索(その2)…

full text search の構文

mysql の全文検索の構文 select * from テーブル名 where match(カラム名) against('キーワード' in boolean mode) 'in boolean mode' は論理演算ができるモードらしい。あとこれを入れてないとなんか 曖昧な検索結果になってしまう。 boolean mode は上記の…

全文検索DB

先日 mroongaのセミナ Groonga - 「MySQLとPostgreSQLと日本語全文検索3」開催のお知らせ に参加。ここで知ったのがmysql5.7からmysqlでもインデックスを使った全文検索 が可能ということ。そして google cloud sql の2nd のバージョンが5.7になっていた。 …

整理標準化データの文字コード

特許庁からもらった xml ファイルの文字コードはeuc-jp、 こちらの環境はmac , python(2.7) でうまく処理できない。 原因はxml処理ライブラリがeuc-jpを処理しないことにあった。 以下の方法で解決。効率よいのかはわからんけど。 import xml.etree.ElementT…

やってみよう

最近プログラミングを趣味として再開してふと特許データベースを自分で作れないかと思いついた。 フルスケールでできるのか、速度はそもそも完成するのかなど?な点は多いがとりあえずここをメモ代わりにしながら進めてみることに。 だれかの参考になればと…