<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    云自無心水自閑

    天平山上白云泉,云自無心水自閑。何必奔沖山下去,更添波浪向人間!
    posts - 288, comments - 524, trackbacks - 0, articles - 6
      BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

    從pdf文件中提取文本

    Posted on 2016-11-28 11:03 云自無心水自閑 閱讀(386) 評論(0)  編輯  收藏
    有好幾個java library都可以實現這個功能,但是從pdf提取文本的一個問題是,提取出來的文本沒有固定的順序,不容易比較好的還原其格式。

    我的做法是使用pdfclown來進行這項工作。官方網站是:https://pdfclown.org/ 先下載其最新版本。
    參考其示例代碼:https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30

    使用這段代碼,我們不僅可以得到文本的字符串,還能得到文本的頁數和相對坐標。
    我的思路是先把所有文本的字符串和坐標提取出來。然后排序,排序的順序是縱坐標,然后橫坐標。
    這樣排序完畢后,就能比較好的解決文本格式問題。


    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    主站蜘蛛池模板: 国产精品黄页在线播放免费| 精品香蕉在线观看免费| 免费va在线观看| 看免费毛片天天看| 国产免费怕怕免费视频观看| 青娱乐在线视频免费观看| heyzo亚洲精品日韩| gogo免费在线观看| 国产亚洲av片在线观看16女人| 国产成人无码免费看片软件| 亚洲成AV人片在线观看ww| 毛片在线播放免费观看| 亚洲综合小说久久另类区| 真人做人试看60分钟免费视频| 亚洲AV成人无码天堂| 在线观看人成网站深夜免费| 相泽南亚洲一区二区在线播放| 亚洲真人无码永久在线观看| 毛片a级毛片免费播放100| 亚洲AV乱码一区二区三区林ゆな| 国产精品免费大片| 亚洲av日韩av无码av| 韩国欧洲一级毛片免费| 人体大胆做受免费视频| 亚洲国产另类久久久精品| 日韩视频在线精品视频免费观看 | 久久免费精品视频| 亚洲中文久久精品无码1| 国产成人无码区免费A∨视频网站| 男女猛烈激情xx00免费视频| 亚洲AV无码久久精品成人| 免费AA片少妇人AA片直播 | 国产精品亚洲片在线va| 亚洲成av人片一区二区三区| 国产偷伦视频免费观看| 狠狠色香婷婷久久亚洲精品| 久久久久亚洲爆乳少妇无| 4虎1515hh永久免费| 免费一级全黄少妇性色生活片 | 国产午夜亚洲精品午夜鲁丝片| 8x8×在线永久免费视频|