Posted on 2016-11-28 11:03
云自無心水自閑 閱讀(385)
評論(0) 編輯 收藏
有好幾個java library都可以實現這個功能,但是從pdf提取文本的一個問題是,提取出來的文本沒有固定的順序,不容易比較好的還原其格式。
我的做法是使用pdfclown來進行這項工作。官方網站是:https://pdfclown.org/ 先下載其最新版本。
參考其示例代碼:https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30
使用這段代碼,我們不僅可以得到文本的字符串,還能得到文本的頁數和相對坐標。
我的思路是先把所有文本的字符串和坐標提取出來。然后排序,排序的順序是縱坐標,然后橫坐標。
這樣排序完畢后,就能比較好的解決文本格式問題。