整理標準化データの文字コード
特許庁からもらった xml ファイルの文字コードはeuc-jp、
こちらの環境はmac , python(2.7) でうまく処理できない。
原因はxml処理ライブラリがeuc-jpを処理しないことにあった。
以下の方法で解決。効率よいのかはわからんけど。
import xml.etree.ElementTree as ET
import codecs
xmlstr = ""
for line in f:
xmlstr += line.encode('utf-8')
xmlstr = xml_string.replace("encoding=\"EUC-JP\"", "encoding=\"utf-8\"")
tree = ET.fromstring(xmlstr)
ファイルを読み込んでラインごとに文字コード変換。それだけではだめで、
xmlのヘッダのエンコーディングの記載を書き換えてやったらうまくいった。
とりあえず最初の一歩はクリア。
やってみよう
最近プログラミングを趣味として再開してふと特許データベースを自分で作れないかと思いついた。
フルスケールでできるのか、速度はそもそも完成するのかなど?な点は多いがとりあえずここをメモ代わりにしながら進めてみることに。
だれかの参考になればと思うし、もし協力したいという稀有の方がいらしたら是非連絡ください。
ただ数年前から考えると環境は大きく変わり、コスト面やハード・ソフト面からみてもかなり現実的になっているとは思う。
■特許データ
一昔前はDVDを購入してとかなりの費用と手間がかかったのが、現状ではダウンロードサービスにより無償で入手できる。
特許庁情報室までお問い合わせください。私に聞いてもらってもよいですが、紹介するだけです・・)
ただし利用についての目的や計画について説明する必要があるのでただほしいだけという人はもらえなさそう。
■クラウド
データベース・webサーバーもハードウェアを用意することなくクラウド上に構築できるようになっているので割と気が楽。
導入コストは格段に下がってはいるがある程度のランニングコストは必要ではある。
■構成
単なる現状での妄想ではあるが以下の構成で進めてみる
サーバー: google cloud
いまのところの疑問としては 既データベースがあれだけ膨大なデータをどうやってキーワード検索しているのかということ。
多分キーワードインデックスを作成しているとは思うのだが中身を知る由はない。
一応今のところ目をつけているのはGroonga, Mroonga
まあとにかくコツコツとやってみます。