PDFやOffice文書からメタデータを抽出する「Apache Tika 1.0」登場 | エンタープライズ | マイナビニュース（情報元のブックマーク数）

Apache Tikaというドキュメントメタ情報を抽出きっとをリリースらしい、ドキュメント内部のパースは既存のライブラリらしい

Apache Tikaの初のメジャーリリースとなる「Apache Tika 1.0」が公開された。Apache TikaはJavaで開発されたドキュメント分析およびメタデータ抽出ツールキット。さまざまなドキュメント形式に対応しており、対象データからメタデータの抽出を実施する。Tikaは以前はApache Luceneのサブプロジェクトだったが、現在ではApacheソフトウェアファウンデーション直下のプロジェクトとして扱われている。
Apache Tikaが対応しているドキュメントはHTML、XHTML、OOXML、ODF、Microsoft Office (OLE 2、OOXML)、OpenDocument (ODF)、PDF、ePUB、RTF、MP3、JPEG、Flash Video、Jar、mboxなど。データのパスそのものは従来から提供されている既存のライブラリを使用する。
PDFやOffice文書からメタデータを抽出する「Apache Tika 1.0」登場 | マイナビニュース