トモロログ

仕事や趣味でのメモや記録など

整理標準化データの文字コード

特許庁からもらった xml ファイルの文字コードeuc-jp、

こちらの環境はmac , python(2.7) でうまく処理できない。

原因はxml処理ライブラリがeuc-jpを処理しないことにあった。

 

以下の方法で解決。効率よいのかはわからんけど。

 

 
   import xml.etree.ElementTree as ET
   import codecs

   xmlstr = ""
   for line in f:
      xmlstr += line.encode('utf-8')
   xmlstr = xml_string.replace("encoding=\"EUC-JP\"", "encoding=\"utf-8\"")

   tree = ET.fromstring(xmlstr)

 
 ファイルを読み込んでラインごとに文字コード変換。それだけではだめで、

 xmlのヘッダのエンコーディングの記載を書き換えてやったらうまくいった。

 

 とりあえず最初の一歩はクリア。