2010年12月19日
#
摘要: 簡單log,一些commons-logging和log4j的東西
閱讀全文
摘要: 分享一個ThreadMonitor,來自commons-io的一段小程序,感覺會有用,拿來分享一下
閱讀全文
摘要: 框架介紹:
主要分為幾個部分,核心httpClient部分,認證相關的token部分和api調用部分。
Weibo這個類是一個主體核心,調用的入口。
當用戶完成上面介紹的授權后,通過weibo這個類來調用api實現功能。
閱讀全文
摘要: 數據類型選擇方面的幾個原則:
1,更小通常更好,選擇能正確表示數據的最小類型。
2,簡單就好,用簡單類型優于用復雜類型。
3,避免NULL,盡量定義字段為not null。性能提升很小。
閱讀全文
摘要: 這個工具是一個可定制的圖像抓取工具
我希望這個小工具的功能點有以下幾項:1.給定頁面抓取頁面的圖片;2.給定頁面和過濾規則,抓取頁面的圖片并存到本地磁盤或內存;
主要的技術點不多:1.圖片鏈接的獲取(htmlparser搞定);2.圖片的讀寫(imageIo搞定);3.規則的制定(來源于需求)
介于方法的多樣,第一個版本的spider只是很簡單的功能實現,未來希望加入的就是可擴展的規則對象
少廢話,上代碼:
閱讀全文
摘要: htmlStat主要想做什么,就是統計頁面的信息,我一直認為頁面的結構設計是設計人員按照思維套路來進行的。數字往往反映了一個設計的一個很重要的方面,比如它使用的各個tag的比例,文字的數量,圖片的數量和大小等等。而想學習理解出這一套思路,先統計頁面信息是最重要的。
當然先說下開發環境:jdk1.6.11,maven2,git
主要的依賴目前只在pom中更新了一部分,有加入的會慢慢加入,具體可以看github上的項目信息
有愿意一起玩代碼的,可以留言我,
閱讀全文
摘要: 沒有過多的技術含量,只是拿來分享一下LCS算法的實現
閱讀全文
摘要: Object pool就是一個管理對象的池子。新版本利用jdk 1.5以后的特性,結合泛型,而不是利用Object來實現了。
閱讀全文
摘要: 調試技巧(隨時總結):
F5單步進入(在需要進入某步方法時)
F6單步調試(一般用于單步執行)
F7單步跳出(跳出該調試區段方法)
F8調試恢復
閱讀全文
摘要: 今天看了一下JTidy的使用,目的就是為了格式化一個不標準的html到標準的xhtml。
JTidy是一個用java寫的HTML語法檢查器,用JTidy可以檢查并修正語法不正確的html,同時還可以對html的DOM進行分析。Xhtml和html有很多不同,其中幾個主要的區別是
閱讀全文
摘要: 雜七雜八的看了一些velocity的資料,把所見所得做個簡單不系統的筆記寫下來,算是增強記憶。
閱讀全文
摘要: Commons-lang記錄:
一個最常用的工具,作為jdk的補充,有必要看一下源碼~~
閱讀全文
摘要: 聚類可以見我以前寫過的聚類分析的文章。
回歸是一個統計中非常重要的概念了。在Commons Math庫中有一個regression的子包轉么實現了線性回歸的一些基本類型。在regression包中,有個基本接口就是MultipleLinearRegression,這個接口表達y=X*b+u這樣的基本線性回歸式。線性回歸是利用稱為線性回歸方程的最小二乘函數對一個或多個自變量和因變量之間關系進行建模的一種回歸分析。簡單看這個公式,y代表了一個n維的列向量(回歸子),X代表了[n,k]大小的觀測值矩陣(回歸量),b是k維的回歸參數,u是一個n維的剩余誤差?;貧w分析干什么用的?具體講就是預測。我們在數據挖掘中定義,定性的分析叫做分類,而定量的分析叫做回歸?;貧w就是根據已有的觀察值去預測未來的一個定量的指標。記得前一段阿里云到學院來做技術交流,講到阿里和淘寶通過數據分析對中國商品交易(還是具體什么貿易,忘記了,尷尬)的預測就是工程師做的一個簡單的線性回歸分析,模型雖然簡單,但是后來與實際數據一比較,預測值與實際值的曲線基本吻合。
閱讀全文
摘要: 概率統計最基本的前提就是有數據,而我們做模擬或者測試時總會用到大量的隨機數據。我們知道絕對的隨機是做不到的,但是可以利用算法來實現偽隨機數的生成。Commons Math庫提供了一個random的包,其中定義實現了很多可以用來生成隨機數的類和接口。random包中定義了5個接口,分別是EmpiricalDistribution、NormalizedRandomGenerator、RandomData、RandomGenerator和RandomVectorGenerator。
閱讀全文
摘要: 我們講到數學的計算,難免會遇到分數形式,因為實數的定義就是可以表示為一個分數的形式的數,而加入虛數的復數也是偶爾會遇到的。Commons Math包中的fraction和complex包就分別提供了方法來表示這兩種數。
閱讀全文
摘要: 概率分布是概率論的一個基礎。
在Commons Math包中也專門有一個子包對概率分布進行了封裝實現。在distribution包中,定義了一個基本接口Distribution。該接口只有兩個方法,一個是double cumulativeProbability(double x),一個是double cumulativeProbability(double x0, double x1)。前者對于服從某種分布的隨機變量X,返回P(X<=x);后者則返回P(x0<=X<=x1)。正如其名所示,這樣也就得到了概率。
閱讀全文
摘要: 函數方程求解,其實是函數的零點問題,也就是說函數的曲線與X軸的交點。對于線性方程,我們可以輕易的求解,對于線性方程組,利用前面講過的的矩陣分解方法也可以求解。那么對于函數表達的很多非線性方程的求解。我們要依賴數值算法。Commons Math包中專門有一個analysis.solver包來解決這個問題。
閱讀全文
摘要: 積分可以說是最常見的了,在函數的一節中我們講過函數的微分和給定變量求值,這里我們講講通過函數求積分,具體的數值積分方法和應用。什么是數值積分?在數值分析中,數值積分是計算定積分數值的方法和理論。在數學分析中,給定函數的定積分的計算不總是可行的。許多定積分不能用已知的積分公式得到精確值。數值積分是利用黎曼積分等數學定義,用數值逼近的方法近似計算給定的定積分值。借助于電子計算設備,數值積分可以快速而有效地計算復雜的積分。Commons Math中的積分包analysis.integration提供了幾種數值積分的實現,UnivariateRealIntegrator接口是積分包中的基礎接口,該接口繼承了math包中的ConvergingAlgorithm接口。具體定義了一系列方法,其中比較主要的有double integrate(UnivariateRealFunction f, double min, double max)方法,這個方法就是通過min和max設定積分區間,通過f設定被積函數,最后返回定積分值的方法??梢钥吹竭@個接口的實現是針對單變量實函數的。多元積分的實現,目前還沒有看
閱讀全文