python勉強会
なんとか勉強会は希望者が6名集まり開催にこぎつけることができました。
ただ、ほとんどはプログラム自体が初めてという人なのでどう進めるか悩み中。
特になにか書籍を使ったほうがよいかと思うのでどれにしようかと悩む。
結局何かやりたいことがあってプログラムはその手段であるのでそういう意味だとこれかな。 少し基本をさらったらデータベースからダウンロードしたエクセルやcsvを処理して集計とか一気にやるほうが実務に役立つ実感が得られそうですし。
退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング
- 作者: Al Sweigart,相川愛三
- 出版社/メーカー: オライリージャパン
- 発売日: 2017/06/03
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (6件) を見る
ただ、これ600ページもあるんですね。。これ買って持参というのは厳しいしやる気がなくなるのは間違いない。 実物を明日丸善に見に行ってみよう。
特許情報フェアe-patent トークセッション
11/7 特許情報フェア にてe-patentのトークセッションに参加しました。
結構聞いてくださる方がおり大変ありがたかったです。youtubeで見た方からも
連絡いただきました。ありがとうございます。
ライブ配信はありましたが録画はあるかはわかりませんのでe-patentのサイトでチェックしてください。
開始前の様子です
その時のスライドを共有させていただきます。スライドだけではセッション時の
内容がわかりにくいかもしれないので手書きのメモも一緒にアップします。見ずらい
かもしれませんがご参考までに。
ちなみに最後にあるプログラミング入門はセッション時には触れていません(笑)。募集はしておりますのでよろしくお願いいたします。
ーーーー 募集 -----
・数名集まったら開催したい
・python初心者あるいはプログラム初心者
(経験者で教えたいという方も是非)
・費用:無料
・月2回くらい 2019年1月以後開始予定
・目標:ファイル(csv,excel,xml,text)の処理
いずれはクローリングやwebアプリも
python入門
一年以上ぶりの更新でございます。
最近知財関係者の方に向けてpython勉強会をしたいと思うようになりました。
プログラミングは最初のとっつきがハードルが高いのでそこをクリアする
お手伝いができればと思います。上達したら一緒に新しいことを一緒に勉強でき
たらと。
興味のある方は株式会社ライズのお問い合わせからお願いします。
・数名集まったら開催したい
・python初心者あるいはプログラム初心者
(経験者で教えたいという方も是非)
・費用:無料
・月2回くらい 2019年1月以後開始予定
・目標:ファイル(csv,excel,xml,text)の処理
いずれはクローリングやwebアプリも
いつかは機械学習ライブラリが触れるかも・・
mysql@ubunt のリモート接続
my sql をubuntu(16.04)に入れてデータサーバーとして他の端末から接続する
ときにはまってしまいました。。
リモート側で接続しようとすると
ERROR 2002 (HY000) : Can't connect to MySQL server ~~
と出てしまう。
調べてみると /etc/mysql/my.cnf 内の bind-adressの項目をコメントアウト or
サーバー自身のipadress に書き換えればOKとわかる。
しかし。。/etc/mysql/my.cnf の中身は
!include /etc/mysql/conf.d/
!include /etc/mysql/mysql.conf.d/
とあるのみで該当箇所がない! そしてしばらくはまってしまう。
しばらくしてこれを見つけて解決。
mysqlの設定の実体は /etc/mysql/mysql.conf.d/mysqld.cnf でそこにbind-addressの
項目を発見!コメントアウトして問題解決。地味なところではまってしまいました。。
整理標準化データIPCについての小ネタ
特許の検索や集計をする際に筆頭IPCを利用される方もいるのではないだろうか。
役には立たないかもしれないけれどそれに関する小ネタ。
整理標準化データではIPCは出願マスタに含まれていて「公開IPC(un-examined-ipc)」と「公告IPC(examined-ipc)」で分かれて記録されている。これは見たまんま公開時のIPCと登録時のIPCを意味している(公告制度は今はないがこの名称が今も利用されている)。このことは jplat-patでも確認できる(下記は2009年出願案件)。
ここで注目したいのは上記の件で筆頭IPCが変化していることである。ご存じの方も多いと思うが、公開公報のIPCと登録公報のIPCが違うことはたまにある。理由としては
① 補正などによってメインクレームの技術分野が変わってしまう
例)画像処理方法(G06T)が撮像装置(H04N)に変わった
② IPCの分類体系の変化
例)いわゆるビジネスモデル系 G06T17/60 -> G06Q50/~
③ 審査官による再付与
審査官が審査後により適切と思われるIPCに付与し直した
サーチャーでも着手当初の見込みが違うことはありますよね!?
などがある。
たまにあるといっても具体的にどれくらいか気になったので手元にある出願データ(約1400万件)について調べてみた。するとサブクラスレベル( 4桁 例えば G06T)で公開時と登録時で違うものは 約25万5千件。割合にすると約1.8%程度なのでやはり「たまに」という位の頻度。ただし公開と登録の両方にIPCが付与されている文献は約439万件なのでそれを考慮すると 6%位にはなる。
なお、商用データベースNRIサイバーパテントデスク2でいろいろ試してみると「筆頭IPC」では公開、登録の区別なくヒットしたので漏れの心配はなさそうである。いずれかにヒットするようにしているのだろう。
というわけで結論としては公開、登録の区別を気にしなくても特に問題なし!ただしちょっと思ったよりは多めにヒットするということで、結局知らなくても影響はないという話でした。。。
ちなみにFIは出願情報(出願マスタ)とは別にサーチマスタという別のデータで管理されていて、こちらには出願単位でFI,Fタームが記録されるので公開、登録の区別はない。自分の経験や聞いた話で不正確ではあるが、FIは過去の履歴は残したままになるはず。更新前で、もはやパテントマップガイダンスでも参照できないようなものもFIデータには残っていることが多い。
企業の名寄せについての一考
特許データの分析時や集計時には企業の名寄せについてはなかなか悩まされる
ことと思う。名寄せが必要な理由は大きくは以下の理由がある。
①企業の変遷によるものー名称変更、合併、吸収 etc.
②表記揺れ 整理標準化データのなかでも表記の揺れは大きい。特に海外出願人はほぼ一筋縄ではいかず、人間が見たら同じに見えてもエクセルやDB上は全く別物となってしまう。
で、ここでは①の解決方法についての提案を一つ。
以前の記事に紹介したNISTEP(科学技術・学術政策研究所)の企業名辞書を使用する方法である。
産業における研究開発・イノベーションに関するデータ | 科学技術・学術政策研究所 (NISTEP)
この中の企業名辞書テーブルを用いる方法である。ありがたいことにMySQLのダンプ(CSV)形式になっているのですぐにインポートして利用することができる。インポートした結果は以下(ツールによってDBテーブルの中身を表示)。
comp_id : 各企業(comp_name)で表される企業ごとのid
history_id:同一企業の変遷レコードをグループ化して扱うための番号
(合併、吸収、名称変更などは同じグループ化される)
たとえば「サンリオ」は comp_id: 1008136, history_id: 1008136 で、逆に history_id 1008136 で検索すると以下のような結果となる。つまり以下は1つのグループとなる。
一応企業HPで確認して正しいことはわかった(あたりまえか)。
で、テーブルからのこの取得方法は上記のような二段階の検索はせずに副問い合わせを使って1回で取得可能。ちなみにテーブル名は1_comp_name_main_TBLなので
select * from 1_comp_name_main_TBL where history_id in
(select history_id from 1_comp_name_main_TBL where comp_name = 'サンリオ')
サンリオの例は企業変遷だが、合併・統合の例でいうとリクシルの情報は以下のとおり
で、これをどうやって名寄せに利用するかというと、上記のSQLで得られたcomp_nameを使ってさらに出願人名で書誌データ(整理標準化データなど)を検索すれば名寄せを考慮した検索が自動的にできる。もちろんどこまでを名寄せと考えるかは各自の判断があるのでそのあたりの工夫は必要になるだろう。
SQLで考えると副々問い合わせになるので可読性は悪くなりそうだけどほかのやり方を知っている人がいたら教えてもらいたいです。。
さらに、この方法と以前に触れたexcel+pythonの技を使うと縦セルに企業名を並べておいて一気に上記の方法で取得した企業情報や件数集計を埋めることができる。
実際にやってみたので画面を動画キャプチャしてデモにしようかと思ったけど、動画にするのがいまいちうまくいかなかったのあきらめた(笑)。
上記の例はデータベースを構築することが前提となるが、ありがたいことにExcelの形式でも提供されているので何らかの自動化は可能だと思う。私はVBAはできないので具体的なことは言えないけれど、もし手動で利用するにしても有用な情報だと思う。仕様や詳細は是非HPを見てみてほしい。