Subject: H2P倡議——一種新的互聯網應用模式(帶附件和示例圖片)
各網站管理員:
我是javaei網站的管理員,近段時間,我站提出h2p概念,并推出h2p應用。h2p是html to pdf的意思,具體地說是根據批量URL生成一個有書簽的pdf文檔的解決方案,該方案是一個完整的解決方案。我覺得h2p是互聯網應用的一種創新,值得推廣,經過調查,得到不少人的認可。但是javaei網站的影響力有限,推廣力度不夠,為了能讓h2p被大家認可并得到推廣,特向各位發起倡議,一起來完善并推廣這種應用,當然首先要得到各位的認可。H2p在技術上微不足道,重要意義體現在應用模式上。就像Rss一樣,rss本身技術上沒什么可說的,但應用模式上意義重大,rss從提出到被接受,也是經過了曲折的歷程。我私下里希望,h2p也能像rss那樣,被廣為接受,最終成為一種大家接受的應用模式而確立下來,更重要的是,這是中國的程序員發起并推廣的,這絕對是零的突破。
下面從三個方面來展開:h2p具體介紹,為什么要推廣h2p,h2p完善和推廣
一、H2P具體介紹
H2P是javaei網站發展的結果。H2P包括兩個部分:h2p-file和h2p-tool。h2p-file其實是xml文件,用來描述批量的URL,主要描述兩個信息,url的先后順序和層次結構(用于處理書簽)。h2p-tool是一個客戶端工具,用途目前主要有三個,根據dtd校驗h2p-file的合法性、編輯h2p-file和根據h2p-file生成有書簽的pdf文檔。
(1)h2p-file
在目前的方案中h2p-file包括兩個xml文件,href.h2p.xml和outline.h2p.xml。
href.h2p.xml示例如下
1 <href-info>
2 <href id="KxgYaRxG">
3 <value><![CDATA[http;//www.163.com]]></value>
4 </href>
5 <href id="53Bw5A32">
6 <value><![CDATA[http://www.sohu.com]]></value>
7 </href>
8 <href id="eyEis6ra">
9 <value><![CDATA[http;//news.163.com]]></value>
10 </href>
11 <href id="DMQoSN2t">
12 <value><![CDATA[http;//sports.163.com]]></value>
13 </href>
14 <href id="5vaf3LN7">
15 <value><![CDATA[http://news.sohu.com]]></value>
16 </href>
17 </href-info>
18
這個xml很簡單,之所以這樣描述,是因為URL通常會有&而這個符號不能出現在xml里,而且作為屬性的值,還不能用<![CDATA[]]>,所以就作為一個節點了。
h2p-tool根據這個xml生成的每個pdf文件,pdf文件的名字取id的值,后綴為pdf。
outline.h2p.xml示例如下
1 <book name="我的PDF書">
2 <chapter name="163" href="KxgYaRxG">
3 <chapter name="163新聞" href="eyEis6ra" />
4 <chapter name="163體育" href="DMQoSN2t" />
5 </chapter>
6 <chapter name="sohu" href="53Bw5A32">
7 <chapter name="sohu新聞" href="5vaf3LN7" />
8 </chapter>
9 </book>
10
這個xml描述了每個pdf合并的順序,href的值和上一個xml的id值對應,chapter標簽嵌套的層次就是書簽的層次,name的值就是書簽的名稱。H2p-tool根據這個xml把每個pdf合并成一個pdf,并生成書簽。
考慮到h2p的發展,完全有理由把這兩個xml文件合并成一個xml文件,可以定義成如下格式:
1 <book name="我的PDF書">
2 <chapter name="163">
3 <href><![CDATA[http://www.163.com]]></href>
4 <chapter name="163新聞">
5 <href><![CDATA[http://news.163.com]]></href>
6 </chapter>
7 <chapter name="163體育">
8 <href><![CDATA[http://sports.163.com]]></href>
9 </chapter>
10 </chapter>
11 <chapter name="sohu">
12 <href><![CDATA[http://www.sohu.com]]></href>
13 <chapter name="sohu新聞">
14 <href><![CDATA[http://news.sohu.com]]></href>
15 </chapter>
16 </chapter>
17 </book>
18
對應的dtd可以定義如下
1 <!ELEMENT book (chapter+)>
2 <!ATTLIST book name CDATA #REQUIRED>
3 <!ELEMENT chapter (chapter*)>
4 <!ATTLIST chapter name CDATA #REQUIRED>
5 <!ATTLIST chapter href CDATA #IMPLIED>
6
在這個方案當中,h2p-file具有十分重要的意義,它作為一種資源被提供下載,也可以在線使用,h2p-file的格式作為一種協議,可以被各大網站支持,
(2)h2p-tool
h2p-tool是處理h2p-file的客戶端工具,目前h2p-tool的功能主要有以下三個方面
根據dtd校驗h2p-file的合法性,
編輯h2p-file編輯功能包括新建、修改、保存,
根據h2p-file生成有書簽的pdf文檔,先根據。
目前h2p-tool一部分是用C#開發的,一部分是用Java開發的。不管h2p-tool用什么開發,通過什么方式使用(在線或離線的),只要能處理h2p-file即可。
h2p-tool的功能還可以有如下擴充:
合并h2p-file,解析h2p-file在線閱讀(這一點類似于google reader),也可以不需要h2p-tool,直接用xsl展示h2p-file。
下圖是h2p生成pdf的一個示例。
二、為什么要推廣H2P
其實就是要回答h2p有什么價值。自從有了h2p構想以來,我一直在思考這個問題。
從以下幾個方面說明我的思考:
(1)各大網站已經積累了豐富的資料,隨著pdf的風行,導出pdf是很多用戶的需求,提供pdf導出功能的網站還不多,實際上技術已很成熟,原因在于沒有很好的模式。導出pdf是個性需求,網站無法知道用戶需要把哪些導出成pdf,而且在服務器端生成pdf,不僅會增加服務器端壓力。而且會增加管理員工作量。而如果網站只是提供h2p-file下載,由用戶利用第三方工具(也即h2p-tool)自行編輯h2p-file,自行生成pdf,上面的問題就解決了,服務器端壓力沒有了,只需生成h2p-file,用戶可以根據自己的需要對h2p-file進行編輯,生成pdf既滿足了個性需求,同時把生成pdf的壓力轉移了用戶,這點小壓力對單個用戶是可以接受的。
(2)如果網站想支持pdf導出的話,那么只需提供h2p-file,就像rss一樣,網站要提供訂閱功能,只需提供rss就行
(3)網站可以根據用戶的請求動態的生成h2p-file,從而間接的實現根據請求動態生成pdf的功能,這一點意義非凡。
(4)網站提供h2p-file,會導致對網站內容的整理和挖掘,從而促進站內智能搜索的應用。
(5)滿足了用戶的便捷,就是贏利的開始。關于盈利,在網站廣告投放這方面一點都不會受影響,pdf超強的表現力足可以完美的表現廣告效果,在h2p-file里可以適當放一些廣告鏈接,同時,h2p-tool上也可以投放廣告,h2p-tool在生成pdf的時候也能再適當位置加入廣告。把廣告固化到pdf文件里,這種方式比在瀏覽器里顯示的廣告生命周期要長得多,因為pdf是只讀的。
(6)最后一點,是意義上的而非價值上的,那就是如果h2p推廣開了,被人們接受了,那么這將是第一個由中國的程序員發起并推廣的一個協議,一個互聯網應用模式。Bbs、blog、wiki、twitter、rss等等,耳熟能詳的東西,有技術含量嗎?真正有價值的是這些應用模式,正是這些應用模式推動著互聯網的飛速發展。而搜索引擎卻集優秀的應用模式和先進的理論思想與技術于一身。
(7)有可能帶來其他方面的影響,比如網站內容的提煉和聚合。
三、H2P完善和推廣
H2P剛剛產生,是個雛兒,盡管核心思想已經體現出來了,但在形式上和應用上還有需要大幅度的完善。可從以下幾個方面展開:
(1)齊心協力共同制定和完善h2p-file的格式,使h2p應用更加便捷和豐富。h2p-file可以分成兩個文件獨立描述,也可以合為一個,前面已經闡述了。
(2)確定了h2p-file的格式,進一步完善和重新開發h2p-tool,h2p-tool可以有三個方向,一個方向就是目前的方向,開發一個客戶端工具,并且使用瀏覽器的內核,把瀏覽器的功能集成進來,在java開發方面已經有了JDIC這么一個框架了;第二個方向就是類似google reader的方向,在線解析h2p-file,以樹形結構顯示連接,提供在線的便捷閱讀;第三個方向采取最簡單的方式,直接用xsl顯示h2p-file。
(3)博克文章、論壇帖子一般至少有三分之一的內容是廣告或圖片,直接根據URL生成的pdf就顯得很臃腫,這是這個方案的缺陷,解決這個問題最簡單的思路就是網站針對h2p應用再提供一個URL,根據這個URL得到的內容主要是文字形式的內容,之所以說它簡單,是因為現在的界面的輸出大多采用的模板技術,在模板上稍作變動,就可以輸出沒有太多廣告和圖片的內容。但考慮到網站需要投放廣告,可以允許有少量廣告,從而就產生了h2p-file質量這個概念,圖片越少廣告越少,那么生成的pdf就越干凈體積就越小,h2p-file質量就越高;反之,生成的pdf就像現在的報紙一樣,實質內容淹沒在廣告里而且體積還很大,h2p-file質量就越低。
(4)如果上面的思路得到了采納,那么根據一條URL生成單個pdf 的技術就能很好的解決。目前的h2p-tool在這一部分的開發用的是一個C#組件(生成的pdf有水印,我估計這個組件是調用了IE瀏覽器的功能)。之所以采用這個組件,是因為要保證生成的pdf展現效果和瀏覽器里的效果完全相同,這無異于做一個瀏覽器,難度可想而知。如果專門為h2p應用再提供一個URL,根據這個URL得到的內容主要是文字形式的內容,沒有復雜的標簽和樣式,這種情況下,使用iText等框架生成pdf是可行的。Javaeye網站提供的pdf下載和電字書制作得到的pdf就是這種情況,提取博克文章的主體內容生成pdf。
(5)各網站對h2p的支持很簡單,只需發布網站內容的h2p-file即可,h2p-file從此就以協議或資源的身份出現在互聯網中。
以上三方面的內容分別闡述了h2p應用模式、h2p的意義和價值和h2p完善和發展的方向,回答了為什么要發起這個h2p倡議。敬請各網站管理員考慮我的意見,推動這個新的h2p應用,不僅會各網站帶來新的贏利,而且這將是我們這些中國程序員的集體榮耀。
2009-8-7
Javaei網站
相關介紹:
投票——你認為h2p實用嗎
H2P介紹
根據批量URL生成有書簽的PDF文檔的解決方案
pdf生成的解決方案(H2p)之H2P技術細節
pdf生成的解決方案(H2p)之H2P展望