Word(docx)内の画像を抽出する方法
Word(docx)のテキストをLinuxで抽出する方法のところでも紹介したように、拡張子がdocxとなっているWordファイルは解凍することができます。この中にはいろいろな情報が含まれていて、テキストだけを抽出することもできれば、今回ご紹介するように画像ファイルだけを取得することもできます。
では、Wordファイルから画像を簡単に抽出するにはどのようにすれば良いでしょうか。WindowsとLinuxの両方をご紹介したいと思います。
LinuxでWordから画像を取得する方法
まず、拡張子がdocxとなっているWordファイルをLinux上で解凍してみます。
unzipコマンドを使うと、以下のようなディレクトリができあがります。
Topディレクトリ
|--- customXml/
|--- _rels/
|--- [Content_Types].xml
|--- docProps/
|--- word/
|--- document.xml
|--- media
|--- image1.png
|--- image2.png
|--- image3.emf
画像ファイルはword/mediaディレクトリ内にまとめて保存されています。
画像ファイルだけが一か所にまとめて保管されているので、簡単に取得できます。特に大量のWordファイルから画像を取り出したいと思ったときは、プログラム内でunzipコマンドを利用し、生成されたmediaディレクトリ内から画像を抜き出してあげればよいだけなので、とても便利になります。
WindowsでWordから画像を取得する方法
今、Windows上でsample.docxというファイルがあるとします。この場合、まずdocxという拡張子を、zipに変更します。
sample.docx → sample.zip
そして、このsample.zipファイルを解凍します。すると、上記のLinuxの場合と同じように以下のようなフォルダができあがります。
求める画像情報は、wordフォルダ内のmediaフォルダに入っています。
Wordファイルから画像を取り出したいなと思ったときは、この方法を試してみてくださいね。フリーソフトもサードパーティ製のライブラリも用意する必要もありませんので、とてもお手軽です。
関連記事
1.Word(docx)ファイルからテキストを抽出する方法
2.写真のexif情報を一括で削除するフリーソフト
3.exif情報を持つ写真をブログやSNSにアップするときの注意点