<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    云自無心水自閑

    天平山上白云泉,云自無心水自閑。何必奔沖山下去,更添波浪向人間!
    posts - 288, comments - 524, trackbacks - 0, articles - 6
      BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

    從pdf文件中提取文本

    Posted on 2016-11-28 11:03 云自無心水自閑 閱讀(385) 評論(0)  編輯  收藏
    有好幾個java library都可以實現這個功能,但是從pdf提取文本的一個問題是,提取出來的文本沒有固定的順序,不容易比較好的還原其格式。

    我的做法是使用pdfclown來進行這項工作。官方網站是:https://pdfclown.org/ 先下載其最新版本。
    參考其示例代碼:https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30

    使用這段代碼,我們不僅可以得到文本的字符串,還能得到文本的頁數和相對坐標。
    我的思路是先把所有文本的字符串和坐標提取出來。然后排序,排序的順序是縱坐標,然后橫坐標。
    這樣排序完畢后,就能比較好的解決文本格式問題。


    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    主站蜘蛛池模板: 免费国产成人午夜私人影视 | 亚洲精品国产高清在线观看| 99热这里有免费国产精品| 亚洲精品二区国产综合野狼| 亚洲电影在线免费观看| 小说区亚洲自拍另类| 无码中文字幕av免费放dvd| 亚洲va在线va天堂va888www| 无码人妻精品中文字幕免费| 亚洲麻豆精品果冻传媒| 永久免费观看黄网站| 亚洲精品无码99在线观看 | 久久精品亚洲中文字幕无码网站| 黄色网站软件app在线观看免费| 亚洲AV无码乱码在线观看裸奔| 久久99青青精品免费观看| 亚洲国产成人久久精品app| 一本久久A久久免费精品不卡| 亚洲国产精品毛片av不卡在线| 中文字幕乱理片免费完整的| 久久久久亚洲Av片无码v| 91成年人免费视频| 亚洲欧美成人av在线观看| 亚洲av无码乱码在线观看野外| 国产99久久久国产精免费| 四虎永久精品免费观看| 国产精品无码永久免费888| 中文字幕亚洲综合精品一区| 毛片视频免费观看| 亚洲最大av资源站无码av网址| 18级成人毛片免费观看| 亚洲AV乱码一区二区三区林ゆな| 国产精品久久久久久久久免费| 日本亚洲欧美色视频在线播放| 亚洲中文字幕第一页在线| 又粗又长又爽又长黄免费视频| 亚洲AV日韩精品久久久久久久| 嫩草视频在线免费观看| 光棍天堂免费手机观看在线观看| 国产精品亚洲精品观看不卡| 免费毛片a在线观看67194|