<rt id="bn8ez"></rt>

<label id="bn8ez"></label>

<span id="bn8ez"></span>

<label id="bn8ez"><meter id="bn8ez"></meter></label>

云自無心水自閑

天平山上白云泉，云自無心水自閑。何必奔沖山下去，更添波浪向人間！

posts - 288, comments - 524, trackbacks - 0, articles - 6

BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理

從pdf文件中提取文本

Posted on 2016-11-28 11:03 云自無心水自閑閱讀(385) 評論(0) 編輯收藏

有好幾個java library都可以實現這個功能，但是從pdf提取文本的一個問題是，提取出來的文本沒有固定的順序，不容易比較好的還原其格式。

我的做法是使用pdfclown來進行這項工作。官方網站是：https://pdfclown.org/ 先下載其最新版本。
參考其示例代碼：https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30

使用這段代碼，我們不僅可以得到文本的字符串，還能得到文本的頁數和相對坐標。
我的思路是先把所有文本的字符串和坐標提取出來。然后排序，排序的順序是縱坐標，然后橫坐標。
這樣排序完畢后，就能比較好的解決文本格式問題。

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

主站蜘蛛池模板：免费国产成人午夜私人影视 | 亚洲精品国产高清在线观看| 99热这里有免费国产精品| 亚洲精品二区国产综合野狼| 亚洲电影在线免费观看| 小说区亚洲自拍另类| 无码中文字幕av免费放dvd| 亚洲va在线va天堂va888www| 无码人妻精品中文字幕免费| 亚洲麻豆精品果冻传媒| 永久免费观看黄网站| 亚洲精品无码99在线观看 | 久久精品亚洲中文字幕无码网站| 黄色网站软件app在线观看免费| 亚洲AV无码乱码在线观看裸奔| 久久99青青精品免费观看| 亚洲国产成人久久精品app| 一本久久A久久免费精品不卡| 亚洲国产精品毛片av不卡在线| 中文字幕乱理片免费完整的| 久久久久亚洲Av片无码v| 91成年人免费视频| 亚洲欧美成人av在线观看| 亚洲av无码乱码在线观看野外| 国产99久久久国产精免费| 四虎永久精品免费观看| 国产精品无码永久免费888| 中文字幕亚洲综合精品一区| 毛片视频免费观看| 亚洲最大av资源站无码av网址| 18级成人毛片免费观看| 亚洲AV乱码一区二区三区林ゆな| 国产精品久久久久久久久免费| 日本亚洲欧美色视频在线播放| 亚洲中文字幕第一页在线| 又粗又长又爽又长黄免费视频| 亚洲AV日韩精品久久久久久久| 嫩草视频在线免费观看| 光棍天堂免费手机观看在线观看| 国产精品亚洲精品观看不卡| 免费毛片a在线观看67194|