トモロログ

仕事や趣味でのメモや記録など

やってみよう

最近プログラミングを趣味として再開してふと特許データベースを自分で作れないかと思いついた。
 
フルスケールでできるのか、速度はそもそも完成するのかなど?な点は多いがとりあえずここをメモ代わりにしながら進めてみることに。
だれかの参考になればと思うし、もし協力したいという稀有の方がいらしたら是非連絡ください。
 
ただ数年前から考えると環境は大きく変わり、コスト面やハード・ソフト面からみてもかなり現実的になっているとは思う。
 
■特許データ
 一昔前はDVDを購入してとかなりの費用と手間がかかったのが、現状ではダウンロードサービスにより無償で入手できる。
 
 私は人づてでたどりついたのだが、google で「特許庁 ダウンロード データ」としてもいまいち情報があまりない。。(たどり着けなかった方は
 
 特許庁情報室までお問い合わせください。私に聞いてもらってもよいですが、紹介するだけです・・)
 
 ただし利用についての目的や計画について説明する必要があるのでただほしいだけという人はもらえなさそう。
 
 
 データベース・webサーバーもハードウェアを用意することなくクラウド上に構築できるようになっているので割と気が楽。
 導入コストは格段に下がってはいるがある程度のランニングコストは必要ではある。
 
■構成
 単なる現状での妄想ではあるが以下の構成で進めてみる
 
  データベース: MySQL + 全文検索システム(調査中)
 サーバー: google cloud
 
いまのところの疑問としては 既データベースがあれだけ膨大なデータをどうやってキーワード検索しているのかということ。
多分キーワードインデックスを作成しているとは思うのだが中身を知る由はない。
 
一応今のところ目をつけているのはGroonga, Mroonga
 
まあとにかくコツコツとやってみます。