整理標準化データの文字コード
特許庁からもらった xml ファイルの文字コードはeuc-jp、
こちらの環境はmac , python(2.7) でうまく処理できない。
原因はxml処理ライブラリがeuc-jpを処理しないことにあった。
以下の方法で解決。効率よいのかはわからんけど。
import xml.etree.ElementTree as ET
import codecs
xmlstr = ""
for line in f:
xmlstr += line.encode('utf-8')
xmlstr = xml_string.replace("encoding=\"EUC-JP\"", "encoding=\"utf-8\"")
tree = ET.fromstring(xmlstr)
ファイルを読み込んでラインごとに文字コード変換。それだけではだめで、
xmlのヘッダのエンコーディングの記載を書き換えてやったらうまくいった。
とりあえず最初の一歩はクリア。