用apache pdfbox來使現(xiàn)。
需要用到兩個(gè)包pdfbox和fontbox.可以從apache網(wǎng)站下載。
讀取PDF,我們只關(guān)心文字內(nèi)容。核心代碼如下:
InputStream in = blobObj.getBinaryStream();
// log.debug(in);
// StringBuilder content = new StringBuilder(10000);
// PDFParser parser = new PDFParser(in);
// parser.parse();
// log.debug(parser);
// COSDocument doc = parser.getDocument();
PDDocument pdDoc = PDDocument.load(in);
// log.debug(pdDoc);
// COSDocument cosDoc = pdDoc.getDocument();
PDFTextStripper stripper = new PDFTextStripper("UTF-8");
// StringWriter wr = new StringWriter();
// stripper.writeText(pdDoc, wr);
String content = stripper.getText(pdDoc);
// log.debug(content);
pdDoc.close();
|----------------------------------------------------------------------------------------|
版權(quán)聲明 版權(quán)所有 @zhyiwww
引用請(qǐng)注明來源 http://m.tkk7.com/zhyiwww
|----------------------------------------------------------------------------------------|
posted on 2010-02-04 13:58
zhyiwww 閱讀(1117)
評(píng)論(0) 編輯 收藏 所屬分類:
j2ee