整理標準化データの文字コード

特許庁からもらった　xml ファイルの文字コードはeuc-jp、

こちらの環境はmac , python(2.7) でうまく処理できない。

原因はxml処理ライブラリがeuc-jpを処理しないことにあった。

以下の方法で解決。効率よいのかはわからんけど。

   import xml.etree.ElementTree as ET
   import codecs

   xmlstr = ""
   for line in f:
    xmlstr += line.encode('utf-8')
   xmlstr = xml_string.replace("encoding=\"EUC-JP\"", "encoding=\"utf-8\"")

   tree = ET.fromstring(xmlstr)

ファイルを読み込んでラインごとに文字コード変換。それだけではだめで、

xmlのヘッダのエンコーディングの記載を書き換えてやったらうまくいった。

とりあえず最初の一歩はクリア。

トモロログ

仕事や趣味でのメモや記録など

整理標準化データの文字コード