PDFからテキストの抽出

2008/02/22

java 開発

今やってる仕事で、JavaでPDFからテキストの抽出が出来るかしら?と話が出たので、お昼休みに弁当食いながらチャレンジ。

軽く探してみたところ、pdfboxってライブラリの特徴に、

# PDF to text extraction

ってあるので、キタコレと。

試すPDFは、たまたま手元にあったこれ。
『インターネット白書2006』記者発表会

で、久しぶりにコードを書いてみた。

public class PDF2Text {

 private PDDocument pdfDocument = null;

 public String getText(FileInputStream fileInputStream) throws IOException {

  PDFParser pdfParser = new PDFParser(fileInputStream);
  pdfParser.parse();

  pdfDocument = pdfParser.getPDDocument();


  String textInPDF = null;

  PDFTextStripper textStripper = new PDFTextStripper();
  textInPDF = textStripper.getText(pdfDocument);

  return textInPDF;

 }


 public static void main(String[] args) {

  FileInputStream fileInputStream = null;

  try {

     fileInputStream = new FileInputStream("20060607A.pdf");

     PDF2Text test = new PDF2Text();

     String text = test.getText(fileInputStream);

     System.out.println("キタ━━━━━━(゜∀゜)━━━━━━!");
     System.out.println(text);

     以下略…


で、結果はこんな感じ。

キタ━━━━━━(゜∀゜)━━━━━━!
I
NTERNET
W
HITE
P
A
PER
0
『インターネット白書2006』 記者発表会
2006年6月7日
株式会社インプレスR&D
I
NTERNET
W
HITE
P
A
PER
1
『インターネット白書2006』構成
巻頭カラー
第1部 日本のインターネット普及動向
第2部 個人利用動向
第3部 企業利用動向
第4部 通信事業者動向
第5部 ネットビジネス事業者動向
第6部 社会動向
第7部 海外のインターネット普及動向
第8部 インターネット基本指標
第9部 技術動向
付録
I
NTERNET
W
HITE
P
A
PER
2
「第1部 日本のインターネット普及動向」
調査方法
■調査方法 電話調査
( RDD:ランダム・ディジット・ダイヤリング)
■調査対象 一般世帯(回答者は 16歳以上の男女)
■調査期間 2006年 2月
■対象地域 全国 26都市およびその近郊
■サンプリング 95,809世帯( RDD採用のエリアサンプリング)
■総回答数 44,843サンプル
■有効回答数 41,025サンプル
■調査主体 アクセス メディア インターナショナル株式会社
(注)インターネットの世帯内利用者としては対象を 3歳以上の
男女とする。
I
NTERNET
W
HITE
P
A
PER
3
世帯浸透率は85.4%、世帯普及率は57.3%
ブロードバンド世帯普及率は41.4%
■「インターネット世
帯浸透率」は勤務先/
学校から、携帯電話
/PHSからも含め、何ら
かの形でインターネッ
トを利用している人が
いる世帯。
■「インターネット世
帯普及率」は、自宅の
機器(主にPC、ゲーム
機など別の機器もわず
かに含まれる)から接
続している比率。
■「ブロードバンド世
帯普及率」は、4.1%
で、世帯普及率に年々
近づいている。 イン
ターネット利用世帯の
中でのブロードバンド
構成比は初めて 7割を
超えた。昨年 2005年は
65.2% 、 2004 年は
48.1%だった。
第1部 日本のインターネット普及動向
I
NTERNET
W
HITE
P
A
PER
4
インターネット利用人口は 7,361万9千人
前年比105.1%
■内訳は、自宅の機器からの利用者が2,522.6万、自宅の機器と学校や勤務先の機器からの併用が2,537.6万、
勤務先・学校からは1,398.0万、携帯電話/PHSのみは903.8万人。2005年以降、携帯/PHSだけに依存する人は減
少しており、利用場所・利用機器は複数併用型が主流となっている。
第1部 日本のインターネット普及動向
I
NTERNET
W
HITE
P
A
PER
5
家庭のブロードバンド人口は3,756万8千人
前年比116.5%
第1部 日本のインターネット普及動向
■昨年2005年の3,224万4千人から532万4千人の増加。
日本の総世帯数×ブロードバンド世帯普及率×
一世帯当たりの平均利用人数(1.802人)で算出


てなわけで、あっさりと取れたわけだが、
ここら辺とかを覗いてみると、まだまだ、日本語の抽出に関しては難ありなのだろう。

いろいろ試してみないと。

PDF自体の仕様に関しても、今って最新のバージョンっていくつなのだろうか?1.6かしら?

楽天市場でGO

マウスコンピューター期間限定セール

過去の記事はこちら

QooQ