2014/11/11

Officeのhoge-xファイル形式についてのおそらく役に立たない情報

 Office の新しいファイル形式について、今更ながら内容を教えると言う機会がありましたので、触りだけここにもメモしておきます。

 ワードで文章を保存すると 以前は*.docでしたが、今は *.docx という形式で保存されます。

image

以前の *.doc と言う形式は、officeバイナリ形式 で、全ての情報を16進数に置き換えプログラムでしか読めない形式にまとめて圧縮されています。これをオフィス互換ソフト以外で編集することは事実上不可能でした。

image

 いまの.docx 形式はそのままエディタなどで開いても意味をなしませんが、拡張子を *.zip に書き換え、展開すると*.xml 形式のファイル群に分解されます。文書データの中身がそのまま見えるのです。その気になればほとんど解読可能な文章として姿を現します。

 これが展開直後のあたまのフォルダ。

image

 wordフォルダの document.xml に作成したデータの実体が記録されています。

image

 開くとこんな感じ。html、xml を理解している人には内容は想像出来るでしょう。呪文のような色つきの部分はほとんどがフォントや色、大きさなどの文章スタイルの情報だ。黒い部分だけが意味のあるデータ。

image

 書き込んだデータはこのあたりから姿を表しはじめます。

image

image

 ちなみに、Excel のデータの場合はこんな感じだ。見にくいで改行を入れた。

image

 公開されている情報なので教えましたが、聞いた人がこういうことを知って何に使うのかは知りません。責任が持てないのでこれ以上はここでは書きません。

 読むことが出来る、改変することが出来ると言うことは憶えておいても良いかと思います。

0 件のコメント: