国产性爱在线观看亚洲黄色一级片 ,一本色道久久88亚洲精品综合 ,亚洲人成国产精品无码

自录pentaho视频教程

人在江湖 — Mon, 28 Nov 2011 13:58:00 GMT

Pentaho是一个开源的BI套�g。这�D�|��间自己学习了一下，录了个视频demo它的用法�Q�demo了ETL工具�Q�action sequence, Metadata的管理，report designer, weka。也提到了一点儿warehousing的理论，一�?0分钟�?/p>

youku地址�Q?br />

http://v.youku.com/v_show/id_XNDQwOTYyNDY0.html?from=s1.8-1-1.2

如果链接失效了，可以�l�我发邮�?a href="mailto:vcycyv@163.com">vcycyv@163.com

书的下蝲地址�Q?a title="http://115.com/file/aqv7r05e#" >http://115.com/file/aqv7r05e#

人在江湖 2011-11-28 21:58 发表评论

��经�|�络

人在江湖 — Sun, 25 Sep 2011 15:29:00 GMT

��经�|�络模型特点�Q?/p>

训练模型的时间比较长�Q�对于训�l�数据没�늛�到的数据�Q�也有比较好的预��能力。相对于决策树，它处理连�l�型的输入输��力比较好。神�l�网�l�模型不�Ҏ��解释�?/p>

��经�|�络分三层，input layer, hidden layer和output layer. 理论上hidden layer可以有�Q意多层，在实际中�Q�往往只有一层被使用�?/p>

对输入数据的每个属性进行标准化可以提高训练速度。对于连�l�型的属性，往往每个domain value一个input unit. 如果是classification,对于二值型的output, 可以用一个output unit�Q?�Q?�Q�表�C�。如果有多个class, 每种class可以用一个output unit.

hidden layer里放多少unit往往是慢慢尝试出来的�?/p>

贴书上的图，看文字叙�q�很难懂�Q�但是看一个具体的例子是怎么��的数就比较�Ҏ��Q?/p>

其中�Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/51c0b7431acb_E358/image_4.png"> 是算某一个节点输入值的. Wij是权重��|��每个节点的初始权重值是随机的，往往�?1�?或�?0.5�?.5�Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/51c0b7431acb_E358/image_16.png"> 是Bias.

��某个节点的output�Q�是�q�样��的�Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/51c0b7431acb_E358/image_6.png"> �Q?�q�样可以得到一�?�?之间的数�Q�range比较��?/p>

��经�|�络的大致思�\是，如果�l�过��经�|�络后预��的��g��对，��p��回来调整hidden layer units的权重，做错了事��回头反思一下，直到��d��对事为止�?/p>

计算误差的方式，output layer�Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/51c0b7431acb_E358/image_8.png">

hidden layer: ,其中Wjk是从j��C��一层的k节点的权重。所以这个过�E�叫backpropagate.

backpropagate是�ؓ了修�Ҏ��重和bias�?/p>

修改权重�Q?/p>

其中l叫learning rate, 通常�?�?之间的数�?/p>

修改bias:

��经�|�络�l�束调节可以有多�U�，比如 ��_��，或者misclassification��_��或者已�l�走�q�了预先讑֮�那么多次的epochs

例子�Q?/p>

��经�|�络往往被批评可解释性不好，一�U�解释的方式是sensitivity analysis.��是x如果�?%�Q�y会增�?%�q�种风格�?/p>

人在江湖 2011-09-25 23:29 发表评论

人在江湖 — Sun, 18 Sep 2011 15:27:00 GMT

分类问题使用决策树有一些好处，比如不需要太多domain知识。Learning和分�cȝ��q�程也比较快�?/p>

决策树的��法需要三个参敎ͼ�被分�cȝ��对象�Q?对象的属性列表，属性的选择��法(attribute_selection_method)�Q�学习决�{�树�Q�主要是学习属性选择��法�?/p>

Data Mining Concepts and Techniques书里对决�{�树的构��E�阐�q�的很清晎ͼ�书可以在之前的博客找刎ͼ� http://m.tkk7.com/vcycyv/archive/2011/09/05/357967.html

(1)    create a node N;
(2)    if tuples in D are all of the same class, C then
(3) return N as a leaf node labeled with the class C;
(4)    if attribute list is empty then
(5) return N as a leaf node labeled with the majority class in D; // majority voting
(6)    apply Attribute selection method(D, attribute list) to �H�nd the “best�?splitting criterion;
(7)    label node N with splitting criterion;
(8)    if splitting attribute is discrete-valued and
multiway splits allowed then // not restricted to binary trees
(9) attribute list = attribute list - splitting attribute; // remove splitting attribute
(10) for each outcome j of splitting criterion
// partition the tuples and grow subtrees for each partition
(11)         let D j be the set of data tuples in D satisfying outcome j; // a partition
(12)         if D j is empty then
(13) attach a leaf labeled with the majority class in D to node N;
(14)         else attach the node returned by Generate decision tree(D j , attribute list) to node N;
endfor
(15) return N;

生成的树是否是binary的主要取决于属性的选择��法(attribute_selection_method)�Q�比如gini index��法生成的tree��是binary的，information gain生成的没有这��L��限制�?

关于��法�Q?/strong>

information gain:

�l�对象集合D的某一个对象分�l�所需要的information可以�q�样��：

其中Pi代表��M��对象属于�c�d��Ci的概�?

如果用某个属性A来分D,�l�过A把D分成几组之后�Q�给某一个对象分�l�所需要的information表述如下�Q�看不懂没关�p�，下面有例子）

information gain��可以这��L��Q?

例子�Q?

The class label attribute, buys computer, has two distinct values (namely, {yes, no}); therefore, there are two distinct
classes (that is, m = 2). Let class C1 correspond to yes and class C2 correspond to no.There are nine tuples of class yes and �H�ve tuples of class no. A (root) node N is createdfor the tuples in D. To �H�nd the splitting criterion for these tuples, we must compute the information gain of each attribute. We �H�rst compute the expected information needed to classify a tuple in D:

Next, we need to compute the expected information requirement for each attribute. Let’s start with the attribute age. We need to look at the distribution of yes and no tuples for each category of age. For the age category youth, there are two yes tuples and three no tuples. For the category middle aged, there are four yes tuples and zero no tuples. For the category senior, there are three yes tuples and two no tuples.

Similarly, we can compute Gain(income) = 0.029 bits, Gain(student) = 0.151 bits, and Gain(credit rating) = 0.048 bits. Because age has the highest information gain among the attributes, it is selected as the splitting attribute.

Gain ratio��q�ͼ�
information gain在处理多值属性的时候效果不好，比如如果有一个属性是product_id,那么�l�过他分所有对象之后，每个对象自成一�l�，也就是说每个�l�都是pure的，所以分�l�后的info�Q�D�Q�就�?�Q�所以用product_id分组自然gain的值最大，但是昄��q�样分组没意义。Gain ratio相当于调整了information gain, 它用比值来计算而不是减法。具体在书里有例子，不详�q��?
Gini index:
Gini index是用来算impurity of D的。上面说�q�，�q�种��法是binary split的。�D个binary split的例子：
if income has three possible values, namely {low,
medium, high}, then the possible subsets are {low, medium, high}, {low, medium}, {low,high}, {medium, high}, {low}, {medium}, {high}, and {}. We exclude the power set,{low, medium, high}, and the empty set from consideration since, conceptually, they do not represent a split.

�C�Z��Q?/p>
there are nine tuples belonging to the class buys computer = yes and the remaining �H�ve tuples belong to the class buys computer = no.

To �H�nd the splitting criterion for the tuples in D, we need to compute the gini index for each attribute. Let’s start with the attribute income and consider each of the possible splitting subsets. Consider the subset {low, medium}. This would result in 10 tuples in partition D1 satisfying the condition “income 属于{low, medium}.�?The remaining four tuples of D would be assigned to partition D2 . The Gini index value computed based on this partitioning is

�c�M��地可以算出来其他Income的subset, 在扩展到可以�c�M��age 之类的attribute�?/p>

关于Prune�Q?/font>

��Z��L��噪音和outlier,需要修�?prune) tree.有两�U�修剪方法：preprune和postprune.

preprune��是一边split tree�Q�一边算着�l�计量，比如information gain, 或者gini index之类的，一旦算出来的值够不到threshold,��停下来变成叶子节点�?/font>

postprune��是把tree grow完了之后�Q�再从底向上剪掉一些分支。剪掉分支的��法叫cost complexity, 它主要基于Leaf的个数和error rate. ��是��一个node如果prune它和保留它之间哪个cost complexisty更大�Q�如果prune之后cost complexity更小了，��prune它。注意算cost complexity要基于一个单独的data set, 不用training dataset, 也不用validation data set.

往往认�ؓpostprune可靠性更好一些�?实际中，preprune和postprune可以�l�合在一起��用�?/font>

Data Mining techniques for Marketing Sales and Customer Relationship Management�q�本书提��Z��两个需要注意的地方�Q?/p>
1. �l�过某次split之后的生成两个leaf节点�Q�他们可能是同一个category的。只是概率不一��P��但是都过了threshold.

2. binary tree可以分target是多个category的。反�q�来�Q�多值tree也可以给binary target的分�c�R�?/p>

人在江湖 2011-09-18 23:27 发表评论

cluster聚类分析

人在江湖 — Fri, 16 Sep 2011 04:55:00 GMT

聚类分析被称之�ؓunsupervised分析�Q�一个跟它相似的概念是分�c?classification)模型�Q�不同的是，分类模型预先知道一共有几个�c�d��Q�每个类别的定义是什么，所以叫做supervised。聚�c�d��析预先不知道目标分成哪几�c�R��往往在实际中�Q�先用cluster分成一些类�Q�然后有了这些类之后�Q�可以再可以做classification分析�Q�就是所谓的two steps analytisis.

聚类分析的算法主要基�?#8220;距离”的计��。聚�c�M��后的�l�果要尽量保证每个segment内部的对象之间距��要短， segment之间的距��要�ѝ��这��博客的内容�ȝ��自Han Jiawei的书�Q�这本书可以在这��博客里扑ֈ��Q?分��n��M��W�记Data Mining Concepts and Techniques

关于距离�Q?/strong>

如果有n个对象，每个对象有p个属性，那么可以得到�q�样一个矩阵：

距离通常是用另一个变形后的矩阉|��做的�Q?/p>

其中d(2,1)表示�W�二个对象和�W�一个对象之间的距离�?/p>
对于�q�箋型变�?interval)�?/strong>�Q�通常要对数据预先做标准化“standardiz”�Q�方式如下：

1. ��mean absolute deviation.

2. 得出标准度量(不知道怎么��译�Q�standardized measurement)

3.最后结果：

对于二值型(binary)�? 有两�U�，一�U�是均衡型的�Q�symmetric�Q�，另一�U�是非均衡型�?asymmetric),均衡指的是yes or no两种状态权重一栗��比如如果你没有性别歧视的话�Q�性别是均衡的二值变量。如果通过一�p�d��症状诊断一个�h是否生病了，yes比no的权重要大的多�?/p>
两种形式都通过下面�q�个2x2的表来算距离�Q?/p>

对于均衡型的�Q?/p>

对于非均衡型�?/p>

对于�c�d��型（categorical�Q�的变量�Q�比较简�?/p>

where m is the number of matches (i.e., the number of variables for which i and j are
in the same state), and p is the total number of variables.

对于��序型（ordinal�Q�的变量�Q�要先把��序map成[0.0�Q?.0]之间的数�Q�然后按interval的方式来��。直接上截图�Q�因为太多数学符号了

书上�Ҏ��U�计��基本都有例子�?/p>

关于聚类�Ҏ��Q?/p>
有partitioning, hierarchical, density-based, grid-based, model-based, clustering High-Dimensional, Constraint-Based.

Partitioning�Ҏ��Q?/p>
代表�Ҏ��是K-means:

它的大致��法是，选定K��|��最后要分成多少�l�）后，任选K个object作�ؓcluster的中心，然后�Ҏ��个其他的对象计算��d��个中心最�q�，��归到哪个cluster里，最后从每个cluster中找到新的中心，然后�q�样重复计算�Q�直到聚�c�L��有变化�ؓ止�?/p>

Hierarchical�Ҏ��Q?/p>
分agglomerative和Divisive两种�Q�前者是自底向上的，��是一个一个object merge��Z��个segment,后者相反，自顶向下的�?上面说的K-means�Ҏ��有时候和hierarchical联在一��L��Q�因为K-means需要k作�ؓ参数�Q�这个参数还挺重要的�Q�极大媄响了聚类的结果，可以先用hierarchical看看大致分几�c�d��理，然后再用K-means�?/p>

Density-based�Ҏ��Q?/p>
��Z��距离的算法segment都是�cȝ��形的�Q�density-based克服了这个问题。他的理念基本上是，一个对象�ؓ中心��M��圆，看看圈近来的对象�q�没�q�threshold.

Grid-Based:

它是从上往下分层，底层grid�_�度更细。它的特�Ҏ��是scalability比较好。没�l�看理论�Q�但是看图能感觉个大概�?/p>

Constraint-Based:

有的时候用��h��楚应用的需求，惌��指引聚类的过�E�，比如每个cluster size的range, 不同对象不用的权重等�{�。这��q��到constraint-based聚类分析。这个也没细看，�q�有另外的clustering high-dimensional data, model based clustering都没怎么看，也许以后再写一��?#8220;再访聚类分析”。下一��会关于决策树�?/p>

人在江湖 2011-09-16 12:55 发表评论

人在江湖 — Sun, 11 Sep 2011 14:24:00 GMT

�U�性回归主要用最��二乘法得到直线�q�进行预��。线性回归真正复杂的地方在于��验，�q�篇博客主要�ȝ��U�性回归的��验�?/p>
�q�篇文字涉及到的��验主要包括拟合优度检验，标准差检验，整体自变量显著性检�?F��验，单个�p�L��显著性检�?t��验�?/p>
�U�性回归有一元线性回归和多元�U�性回归，先说一元的�?/p>

拟合优度��?/strong>�Q?/font>
�Ҏ��本回归直�U�与��h��观测��g��间拟合程度的��验。用判定�p�L��Q�可决系敎ͼ��验，R2
对于

如果Yi=Ŷi 卛_��际观��D��在样本回归“线”上�Q�则拟合最好�?
可认为，“离差”全部来自回归线�Q�而与“残差”无兟�?
对于所有样本点�Q�则需考虑�q�些点与��h��均值离差的�q�x��?可以证明�Q?

Tss = ESS + RSS
Y的观��值围�l�其均值的�ȝ��?total variation)可分解�ؓ两部分：一部分来自回归�U?ESS)�Q�另一部分则来自随机势�?RSS)�?
在给定样本中�Q�TSS不变�Q?
如果实际观测点离��h��回归�U�越�q�，则ESS在TSS中占的比重越大，因此
拟合优度�Q�回归��^方和ESS/Y的�ȝ��差TSS

标准差检验：

估计标准误差主要是�ؓ了估计��M��方差�?/p>
所谓估计标准误差是指估计��g��观察值的�q�_��差异�E�度, �? S) 表示。�?S 2是��M��方差( σ 2 ) 的无偏估计量, ��\�^ 2 =S 2 =Σe i的��^�?/(n- 2)。该指标的意义是: S ��小表明实际观测点与所拟和的样本回归线的离差程度越��?   卛_��归线��h��较强的代表�? 反之, S ��大表明实际�?��?�?�?所拟和的样本回归线的离差程度越�?   卛_��归线的代表性较差�?

　　式中�Q?
y_t——因变量�W�t期的观察��|��
——因变量�W�t期的估计��|��
　　n——观察期的个敎ͼ�
　　k——自由度�Q��ؓ变量的个�?包括因变量和自变�?�?
　　判断回归标准差能否通过��验，仍用以下公式�Q�式中：

　　s——回归标准差�Q?
——因变量观察值的�q�_��倹{�?
　　当依此式计算出的值小�?5%�Q�说明预��模型通过了回归标准差��验�?

一元相关系数检验：
　　�?a >回归分析预测�?/a>中，需要对�Q�、Ｙ之间相关�E�度作出判断�Q�这��p��计算相关�p�L��Q�，其公式如下：

　　相关�p�L��r的特征有�Q?
　　①相关系数取��D��围�ؓ�Q?1≤r�? �?
　　②r与b�W�合相同。当r>0�Q�称正线性相养I��X_i上升�Q?i>Y_i呈线性增加。当r<0�Q�称负线性相养I��X_i上升�Q?i>Y_i呈线性减��?
　　③|r|=0�Q�X与Y无线性相兛_��p�；|r|=1�Q�完全确定的�U�性相兛_��p�；0<|r|<1�Q�X与Y存在一定的�U�性相兛_��p�；|r|>0.7�Q��ؓ高度�U�性相养I��0.3<|r|�?.7�Q��ؓ中度�U�性相养I��|r|�?.3�Q��ؓ低度�U�性相兟�?

整体自变量显著性检�?F��?& 单个�p�L��显著性检�?t��?/font>
�q�两�U�检验方式在一元中意义是一致的�Q�回归分析中的假设检验包括变量之间的�U�性关�p�L��验和参数的显著性检验两个内宏V��前者检验的是解释变�?与被解释变量能否用一个线性模型来表示�Q�后者检验的是回归模型中的每一个解释变量对被解释变量的影响�E�度。这两种��验在��序上是不能颠倒的�?
F��验：
�Ҏ��C��U�性回归模型可以看刎ͼ�如果变量X和Y之间的线性关�p�L��显著的，那么解释变量X的变化必然引赯��解释变量Y的显著变化，此时�Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/2d646dfe4bb2_FAD9/image_4.png"> 一定不�?。否则被解释变量Y的变化将不依赖于解释变量X的变化，而仅仅依赖于随机误差��V��因此，变量之间�U�性关�pȝ��验问题可以�{化�ؓ��?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/2d646dfe4bb2_FAD9/image_6.png"> 是否�?。由此我们可以给��Z��下假设：
原假�?: =0    备择假设 : �?
如果原假设成立，那么�l�计�?

服从自由度�ؓ(k , n-k-1)的F分布
如果计算出的F值大于在�l�定的显著性水�q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/2d646dfe4bb2_FAD9/image_8.png"> 下的临界�?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/2d646dfe4bb2_FAD9/image_10.png"> �Q�则拒绝接受备择假设�Q�说明解释变量对被解释变量有显著影响�Q�即两者线性关�p�L��著�?

t��验：
构造出了一个比较复杂的t函数�Q�没理解�Q�参考中�Q�多元线性回归分析预��法和多元线性回归模型拟合优度假设检验都写了具体公式�Q�与F��验类��|��也是t值大于��界值时�Q�解释变量有显著影响�?

另外�Q�多元线性回归分析预��法也提��C��另外两种预测�Q�粗略地看了一下：
多重��q��性判�?
若某个回归系数的t��验通不�q�，可能是这个系数相对应的自变量对因变量的媄�q�不显著所��_��此时�Q�应从回归模型中剔除�q�个自变量，重新建立更�ؓ��单的回归模型或更换自变量。也可能是自变量之间有共�U�性所��_��此时应设法降低共�U�性的影响�?

当回归模型是�Ҏ��动态数据徏立的�Q�则误差��e也是一�?a >旉��序列�Q�若误差序列诔R��之间�怺�独立�Q�则误差序列各项之间没有相关关系�Q�若误差序列之间存在密切的相兛_��p�，则徏立的回归模型��׃��能表�q�自变量与因变量之间的真实变动关�p�R��D.W��验就是误差序列的自相��x��验。检验的�Ҏ��与一元线性回归相同�?
参考：

一元线性回归预��法:

http://wiki.mbalib.com/wiki/%E4%B8%80%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E9%A2%84%E6%B5%8B%E6%B3%95

[ppt]一元线性回归模型的�l�计��? http://wenku.baidu.com/view/ca151ff6f61fb7360b4c65d0.html?from=related

二元�U�性回归分析预��法�Q?/h3>
http://wiki.mbalib.com/wiki/%E4%BA%8C%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90%E9%A2%84%E6%B5%8B%E6%B3%95

多元�U�性回归模型拟合优度假设检验：http://wenku.baidu.com/view/32b4bcea6294dd88d0d26b6d.html

回归估计标准误差与可决系数的比较�Q?a >http://wendang.baidu.com/view/110fc16548d7c1c708a1456b.html?from=related

【doc】第三章一元线性回�?http://wenku.baidu.com/view/3b3bdbbdc77da26925c5b0fa.html

多元�U�性回归分析预��法�Q?a >http://wiki.mbalib.com/wiki/%E5%A4%9A%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90%E9%A2%84%E6%B5%8B%E6%B3%95

人在江湖 2011-09-11 22:24 发表评论

矩阵与SAS IML��尝辄止

人在江湖 — Thu, 08 Sep 2011 23:54:00 GMT

基本概念�Q?/font>

转置矩阵�Q?/p>
如果�?i>mn阶矩�?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/SASIML_6F9E/clip_image002_2.gif">的第i行改为第i列，�W?i>j列改为第j行，��可得到一个新�?i>nm矩阵�Q�记�?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/SASIML_6F9E/clip_image003_2.gif">�Q�称�?i>A�?b>转置(矩阵)�Q�具体表�C�如�?/p>
�?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/SASIML_6F9E/clip_image004_2.jpg">�Q�则
昄��Q?i>n阶方�늚�转置仍是n阶方阵，而且对�Q何矩�?i>A�Q�有

矩阵的乘法：
�?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/SASIML_6F9E/clip_image001%5B6%5D.gif">分别�?i>m×n, n×p矩阵,则矩�?i>A�?i>B的乘�U�是一m×p矩阵�Q�记�?
,
其中乘积矩阵C中第i行第k列处元素�?
,

�q��M��两个矩阵都可以进�? 一个基本的条�g是A的列数必��M��B的行数相�?
矩阵的乘法是不可交换的，或者说�Q�交换之后结果通常不同�?

单位矩阵�Q?/strong>

它是个方�?除左上角到右下角的对角线(�U�Cؓ��d��角线)上的元素均�ؓ1以外全都�?,�?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/SASIML_6F9E/clip_image001%5B8%5D.gif">.

逆矩阵：

�?i>A�?i>n阶方�?若存�?i>n阶矩�?i>B使得AB=BA=I_n,则称A是可逆的,或说A是可逆矩�?�?i>B�U�CؓA的逆矩�?可以证明,�q�样的逆矩阉|��唯一�?因此可记�?i>A^-¹�Q�而且只需�?i>B满��一个方�E?i>AB=I_n�?i>BA=I_n��是A的逆了�Q?

基本语法�Q?/font>
The following statement assigns a 3 × 2 matrix literal to the matrix Z:
z={1 2, 3 4, 5 6};
Here is the resulting matrix:
Z
1 2
3 4
5 6
The following statement creates a matrix W that is three times the matrix Z:
w=3#z;
Here is the resulting matrix:
W
3 6
9 12
15 18
A repetition factor can be placed in brackets before a literal element to have the
element repeated. For example, the following two statements are equivalent:
answer={[2]    ’Yes�? [2]    ’No’};
answer={’Yes�?nbsp; ’Yes�? ’No�?nbsp; ’No’};
J function: J( nrow<,ncol<,value> > );
I function: I( dimension );
Index vector:
>    r=1:5;
R
1 row 5 cols        (numeric)
1 2 3 4 5
>    s=10:6;
S
1 row 5 cols        (numeric)
10 9 8 7 6
>    t=’abc1�?’abc5�?
T
1 row 5 cols        (character, size 4)
abc1 abc2 abc3 abc4 abc5

解方�E�组�Q?/font>
3x1 �?x2 + 2x3    =   8
2x1 �?2x2 + 3x3    =   2
4x1 + x2 �?4x3    =   9
proc iml;
reset print;
   a={3 -1 2,
2 -2 3,
4 1 -4};
   c={8,2,9};
   x=inv(a)*c;
quit;
解�ؓ3�Q?�Q?

人在江湖 2011-09-09 07:54 发表评论

旉��序列

人在江湖 — Wed, 07 Sep 2011 01:44:00 GMT

相关概念�Q?/strong>
相对误差�Q�Relative Error�Q�：�l�对误差与真值的比�?
所谓残差（residual error�Q�，应该是在回归�Ӟ��实际y��g��回归曲线得到的理论y��g��间的差倹{�?标准�D�差�Q�就是各�D�差的标准方差�?
异方差性（heteroscedasticity �Q�是��Z��保证回归参数估计量具有良好的�l�计性质�Q�经典线性回归模型的一个重要假定是�Q��M��回归函数中的随机误差��Ҏ��_��方差性，卛_��们都有相同的方差。如果这一假定不满��I��则称�U�性回归模型存在异方差性�?
条�g方差�Q�Conditional variance�Q�：只要把原来求方差时的概率密度函数换成条�g密度函数��p��了意义就是当X发生�Ӟ��Y发生的方�?
自相兛_��敎ͼ�Autocorrelation function�Q�羃写ACF�Q�：
��一个有序的随机变量�p�d��与其自��n相比较，�q�就是自相关函数在统计学中的定义。每个不存在�怽�差的�p�d��Q�都与其自��n�怼��Q�即在此情况下，自相兛_��数值最大。如果系列中的组成部分相互之间存在相��x��（不再是随机的�Q�，则由以下相关值方�E�所计算的��g��再�ؓ�Ӟ��q�样的组成部分�ؓ自相兟�?

E ......... 期望倹{�?
X_i ........ 在t(i)时的随机变量倹{�?
μ_i ........ 在t(i)时的预期倹{�?
X_{i + k} .... 在t(i+k)时的随机变量倹{�?
μ_{i + k} .... 在t(i+k)时的预期倹{�?
σ² ......... 为方差�?/dd>

所得的自相兛_��R的取��D��围�ؓ[-1,1],1为最大相兛_��|��-1则�ؓ最大不相关倹{�?
白噪声序列：
随机变量X�Q�t�Q�（t=1�Q?�Q?……�Q�，如果是由一个不相关的随机变量的序列构成的，卛_��于所有S不等于T�Q�随机变量Xt和Xs的协方差均�ؓ�Ӟ��则称其�ؓ�U�随��E�。对于一个纯随机�q�程来说�Q�若其期望和方差均�ؓ常数�Q�则�U�C��为白噪声�q�程。白噪声�q�程的样本实�U�成为白噪声序列�Q�简�U�白噪声。之所以称为白噪声�Q�是因�ؓ他和白光的特性类��|��白光的光谱在各个频率上有相同的强度，白噪声的谱密度在各个频率上的值相同�?
差分�Q�差分有前向差分和后向差分。前向差分：函数的前向差分通常��U�Cؓ函数的差分。对于函敎ͼ�如果�Q?

�Q?/dd>

则称为的一阶前向差分。只所以称为前向差分是因�ؓ以x为参考点�Q�x+1在x的前面。逆向差分�Q�对于函数f(x)�Q�如果：

则称为的一阉��向差分�?
旉��序列的特�?/strong>
非��^�E�x��（nonstationarity�Q�也译作不��^�E�x��，非稳定性）�Q�即旉��序列变量无法呈现��Z��个长期趋势�ƈ最�l�趋于一个常数或是一个线性函�?
波动�q�度随时间变化（Time�Q�varying Volatility�Q�：即一个时间序列变量的方差随时间的变化而变�?
虽然单独看不同的旉��序列变量可能��h��非稳定性，但按一定结构组合后的新的时间序列变量却可能是稳定的�Q�即�q�个新的旉��序列变量长期来看�Q�会��向于一个常数或是一个线性函数。例如，旉��序列变量X(t)非稳定，但其二阶差分却可能是�E�_��的；旉��序列变量X(t)和Y(t)非稳定，但线性组合X(t)-bY(t)却可能是�E�_��的�?
旉��序列分析通常是把各种可能发生作用的因素进行分�c�，传统的分�c�L��法是按各�U�因素的特点或媄响效果分为四大类�Q?1)长期��势�Q?2)季节变动�Q?3)循环变动�Q?4)不规则变动�?
旉��序列预测法种�c?/strong>�Q?
1. ��单序时��^均数�?a>��术�q�_��?/font>
2. �U�d��q�_��法：�U�d��q�_��法是一�U�简单��^滑预��技术，它的基本思想是：�Ҏ��旉��序列资料�?strong>逐项推移�Q�依�ơ计��包含一定项数的序时�q�_��|��以反映长期趋势的�Ҏ��?
分�ؓ��单移动��^均法�Q�加权移动��^均法�?一般而言�Q�最�q�期的数据最能预�C�未来的情况�Q�因而权重应大些�?
�U�d��q�_��法的优缺�?/h4>
　　使用�U�d��q�_��法进行预��能�q�x��掉需求的�H�然波动寚w��结果的影响。但�U�d��q�_��法运用时也存在着如下问题�Q?
　　1�?加大�U�d��q�_��法的期数�Q�即加大n��|��会��q�x��波动效果更好�Q�但会��预测值对数据实际变动更不敏感�Q?
　　2�?�U�d��q�_��值�ƈ不能��L��很好地反映出��势。由于是�q�_��|��预测值��L��停留在过�ȝ��水��^上而无法预计会��D��来更高或更低的波动�Q?
　　3�?�U�d��q�_��法要由大量的�q�去数据的记录�?
使用�U�d��q�_��法时�Q�主要是要定下来N�Q�用几个时期预测下个时期�Q�是多少�Q�实际中可以取多个N然后比相对误差�?
3. 指数�q�x��法：所有预��方法中�Q�指数��^滑是用得最多的一�U�。简单的全期�q�_��法是�?a>旉��数列的过��L��据一个不漏地全部加以同等利用�Q�移动��^均法则不考虑较远期的数据�Q��ƈ�?a>加权�U�d��q�_��?/font>中给予近期资料更大的权重�Q�而指数��^滑法则兼容了全期�q�_��和移动��^均所长，不舍弃过�ȝ��数据�Q�但是仅�l�予逐渐减弱的媄响程度，即随着数据的远��，赋予逐渐收敛为零的权数。也��是说指数��^滑法是在�U�d��q�_��?/font>基础上发展�v来的一�U?a>旉��序列分析预测�?/font>�Q�它是通过计算指数�q�x��|��配合一定的旉��序列预测模型对现象的未来�q�行预测。其原理是�Q一期的指数�q�x��值都是本期实际观察��g��前一期指数��^滑值的加权�q�_��?
指数�q�x��法的基本公式是：式中�Q?/p>

S_t--旉��t的��^滑��|��
y_t--旉��t的实际��|��
S_{t − 1}--旉��t-1的��^滑��|��
a--�q�x��常数�Q�其取��D��围�ؓ[0,1]�Q?/li>

指数�q�x��常数取��D��关重要。��^滑常数决定了�q�x��水��^以及寚w��g��实际�l�果之间差异的响应速度。��^滑常数a��接�q�于1�Q�远期实际值对本期�q�x��值媄响程度的下降��迅速；�q�x��常数a��接�q�于 0�Q�远期实际值对本期�q�x��值媄响程度的下降��缓慢。由此，当时间数列相对��^�E�x��Q�可取较大的a�Q�当旉��数列波动较大�Ӟ��应取较小的a�Q�以不忽略远期实际值的影响�?
据��^滑次��C��同，指数�q�x��法分为：一�ơ指数��^滑法�?a>二次指数�q�x��?/font>和三�ơ指数��^滑法�{�。当旉��数列无明昄��势变化�Q�可用一�ơ指数��^滑预��?
�Q�一�Q?一�ơ指数��^滑预��?/h5>
　　�?a>旉��数列无明昄��势变化�Q�可用一�ơ指数��^滑预��。其预测公式为：
　　yt+1'=ayt+(1-a)yt' 式中�Q?

yt+1'--t+1期的预测��|��x��期（t期）的��^滑值St �Q?
yt--t期的实际��|��
yt'--t期的预测��|��即上期的�q�x��值St-1 �?/li>

　　该公式又可以写作�Q�yt+1'=yt'+a(yt- yt')。可见，下期预测值又是本期预��g��以a为折扣的本期实际��g��预测��D��差之和�?
�Q�二�Q?二次指数�q�x��预测

　　二次指数�q�x��是对一�ơ指数��^滑的再��^滑。它适用于具�U�性趋势的旉��数列。其预测公式为：
　　yt+m=(2+am/(1-a))yt'-(1+am/(1-a))yt=(2yt'-yt)+m(yt'-yt) a/(1-a)
　　式中�Q�yt= ayt-1'+(1-a)yt-1
　　昄��Q�二�ơ指数��^滑是一直线方程�Q�其截距为：(2yt'-yt)�Q�斜率�ؓ�Q?yt'-yt) a/(1-a),自变量�ؓ预测天数�?
�Q�三�Q?三次指数�q�x��预测

　　三次指数�q�x��预测是二�ơ��^滑基��上的再��^滑。其预测公式是：
　　yt+m=(3yt'-3yt+yt)+[(6-5a)yt'-(10-8a)yt+(4-3a)yt]*am/2(1-a)2+ (yt'-2yt+yt')*a2m2/2(1-a)2
　　式中�Q�yt=ayt-1+(1-a)yt-1
　　它们的基本思想都是�Q�预��值是以前观测值的加权和，且对不同的数据给予不同的权，新数据给较大的权�Q�旧数据�l�较��的权�?

案例:指数�q�x��法在销售预��中的应�?/h5>
　　某��Y件公司A��Z��。给�?000-2005�q�的历史销售资料，��数据代入指数��^滑模型。预��?006�q�的销售额�Q�作为销售预��编制的基础�?
　　由散点图�C�可知。根据经验判断法。A公司2000-2005�q�销售额旉��序列波动很大�?a>长期��势变化�q�度较大�Q�呈现明显且�q�速的上升��势�Q�宜选择较大�?#945;��|��可在05-O.8间选��|��以��预测模型灉|��度高些，�l�合试算法取0.5�Q?.6,0.8分别��试。经�q�第一�ơ指数��^滑后�Q�数列呈现直�U�趋势，故选用二次指数�q�x��法即可�?
试算�l�果见下表。根据偏差��^方的均�?MSE)最��，卛_��期实际��g��预测值差的��^方和除以��L��敎ͼ�以最��值来��定理的取值的标准�Q�经��算�?#945; = 0.6�Ӟ��MSE₁ = l445.4�Q�当α = 0.8�Ӟ��MSE₂=10783.7�Q�当α = 0.5�Ӟ��MSE₃ = 1906.1。因此选择α = 0.6来预��?006�q?个季度的销售额�?

　　2005�q�第四季�?img alt="S_t^{(1)}" src="http://wiki.mbalib.com/w/images/math/5/c/2/5c2f495ad0869994a3e7dcaf10908650.png" />=736.8;=679.5;�Q�可以求�?img alt="\alpha_{2005}=2S_t^{(1)}-S_t^{(2)}=2\times736.8-679.5=794.1" src="http://wiki.mbalib.com/w/images/math/d/e/d/dede04dad842e2eb7ce9a89c6b8f63de.png" />�Q?img alt="b_{2005}=\alpha(s_t^{(1)}-S_t^{(2)})/(1-\alpha)=0.6" src="http://wiki.mbalib.com/w/images/math/c/0/b/c0b30f4b04c44a8befadab7fbe8e9604.png" />=(736.8-679.5)/0.4=85.9则预��方Y_{2005 + T} = 794.1 + 85.9T,因此�Q?006�q�第一、二、三、四季度的预��值分别�ؓ�Q?

Y₁ = 794.1 + 85.9 = 800(万元)
(万元)
(万元)
(万元)
　　�l�g��所�q�ͼ�本案例首先根据销售历史资料，�l�出数列散点图。再�Ҏ��散点囄��特征选择二次指数�q�x��法，通过�?#945;的试��，��定�W�合预测需要的α��|��最后根据指数��^滑模型计��出2006�q?4季度的销售预��|��作�ؓ销售预��的基础�?

典型模型包括arch模型�Q�arima模型�{?
arch模型�Q?
ARCH模型的基本思想是指在以前信息集下，某一时刻一个噪声的发生是服从正态分布。该正态分布的均��gؓ�Ӟ��方差是一个随旉��变化的量(即�ؓ条�g异方�?。�ƈ且这个随旉��变化的方差是�q�去有限��噪声值��^方的�U�性组�?即�ؓ自回�?。这样就构成了自回归条�g异方差模型�?
　　�׃��需要��用到条�g方差�Q�我们这里不采用恩格��的比较严�}的复杂的数学表达式，而是采取下面的表达方式，以便于我们把握模型的�_�N��。见如下数学表达�Q?
　　Yt = βXt�Q?#949;t (1)其中�Q?

Yt��解释变量�Q?
Xt��释变量，
εt��差项�?/li>

　　如果误差��的�q�x��服从AR(q)�q�程�Q�即εt2 =a0�Q�a1εt�Q?2 �Q�a2εt�Q?2 �Q?…… �Q?aqεt�Q�q2 �Q?#951;t t =1,2,3…… (2)其中�Q?
　　ηt独立同分布，�q�满��E�Q?#951;t�Q? 0, D(ηt)= λ2 ,则称上述模型是自回归条�g异方差模型。简��CؓARCH模型。称序列εt 服从q阶的ARCH的过�E�，��C��εt �Q�ARCH(q)。�ؓ了保�?#949;t2 为正��|��要求a0 >0 ,ai ≥0 i=2,3,4… �?
　　上面�Q?�Q�和�Q?�Q�式构成的模型被�U�Cؓ回归�Q�ARCH模型。ARCH模型通常对主体模型的随机扰动��进行徏模分析。以便充分的提取�D�差中的信息�Q��得最�l�的模型�D�差ηt成�ؓ白噪声序列�?
　　从上面的模型中可以看出，�׃��现在时刻噪声的方差是�q�去有限��噪声值��^方的回归�Q�也��是说噪声的波动��h��一定的记忆性，因此�Q�如果在以前时刻噪声的方差变大，那么在此��d��声的方差往往也跟着变大�Q�如果在以前时刻噪声的方差变��，那么在此��d��声的方差往往也跟着变小。体现到期货市场�Q�那��是如果前一阶段期货合约��h��波动变大�Q�那么在此刻市场��h��波动也往往较大
GARCH模型是一个专门针寚w��融数据所量体订做的回归模�?
arima模型�Q?/strong>
Autoregressive Integrated Moving Average Model�?ARIMA�Q�p�Q�d�Q�q�Q�称为差分自回归�U�d��q�_��模型�Q�AR是自回归, p��回归��? MA为移动��^均，q为移动��^均项敎ͼ�d为时间序列成为��^�E�x��所做的差分�ơ数�?
ARIMA模型预测的基本程�?
    �Q�一�Q�根据时间序列的散点�?/font>、自相关函数和偏自相兛_��数图以ADF单位�Ҏ��?/font>�?a>方差、趋势及其季节性变化规律，对序列的�q�稳性进行识别。一般来�Ԍ��l�济�q�行的时间序列都不是�q�稳序列�?
　　�Q�二�Q�对非��^�E�_��列进行��^�E�_��处理。如果数据序列是非��^�E�的�Q��ƈ存在一定的增长或下降趋势，则需要对数据�q�行差分处理�Q�如果数据存在异方差�Q�则需�Ҏ��据进行技术处理，直到处理后的数据的自相关函数值和偏相兛_��数值无显著地异于零�?
　　�Q�三�Q�根据时间序列模型的识别规则�Q�徏立相应的模型。若�q�稳序列的偏相关函数是截��Q�而自相关函数是拖��Q�可断定序列适合AR模型�Q�若�q�稳序列的偏相关函数是拖��Q�而自相关函数是截��Q�则可断定序列适合MA模型�Q�若�q�稳序列的偏相关函数和自相关函数均是拖尾的，则序列适合ARMA模型�?
　　�Q�四�Q�进�?a>参数估计�Q�检验是否具有统计意义�?
　　�Q�五�Q�进�?a>假设��?/font>�Q�诊断残差序列是否�ؓ白噪声�?
　　�Q�六�Q�利用已通过��验的模型�q�行预测分析�?
取对数可以消除数据�L动变大趋势，�Ҏ��列进行一阶差分，可以消除数据增长��势性和季节性�?
一个例子：
备�g消耗预��ARIMA(p,d,q)模型实质是先寚w��q�稳的备件消耗历史数据Yt�q�行d�Q�d�Q?,1,dots,n�Q�次差分处理得到新的�q�稳的数据序列Xt�Q�将Xt拟合ARMA(p,q)模型�Q�然后再��原d�ơ差分还原，便可以得到Y_t的预��数据。其中，ARMA(p,q)的一般表辑ּ�为：
　　(1)
　　式中�Q�前半部分�ؓ自回归部分，非负整数p��回归阶数�Q?img alt="\varphi_1,\ldots,\varphi_p" src="http://wiki.mbalib.com/w/images/math/a/3/4/a34ff7b33cb6b9dee064215437f52349.png" />��回归�p�L��Q�后半部分�ؓ滑动�q�_��部分�Q�非负整数q为滑动��^均阶敎ͼ�为滑动��^均系敎ͼ�X_t为备件消耗数据相兛_��列，ε_t为WN(0,σ²)�?
　　当q=0�Ӟ��该模型成为AR(p)模型�Q?img alt="X_t=\varphi_1X_{t-1}+\ldots+\varphi_pX_{t-p}+\epsilon_t,t\in Z" src="http://wiki.mbalib.com/w/images/math/5/6/e/56e25e893374d05ee58655362dd1e65e.png" />　　(2)
　　当p�Q?�Ӟ��该模型成为MA(q)模型�Q?img alt="X_t=\epsilon_t-\theta_1\epsilon_t-1-\ldots-\theta_q\epsilon_{t-q},t\in Z" src="http://wiki.mbalib.com/w/images/math/2/1/b/21b22616803ec48d24a4d5f1ea8d7440.png" />　　(3)

所谓零均值化处理��是取前N�l�（或全部）数据作�ؓ观测数据�Q�进行零均值化处理�Q�即�Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/eb155942bb65_8972/Image(7)_2.png">�Q�得��C��l�预处理后的新序�?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/eb155942bb65_8972/Image(8)_2.png">�?
SAS与arima�Q?/strong>
sas 有proc arima. 分�ؓ三个阶段�Q?
identification: 识别候选arima模型�?
estimation and diagnositic checking: 为模型估计参敎ͼ��q�提供诊断统计信息帮助判断模型是否好�?
forcasting: 预测未来倹{�?

�q�里有一个proc arima的例子： http://www.docin.com/p-46241714.html
贴一下代码，生成data set的部分略有改动，copy&paste pdf的数据到txt中，然后扚w��输入data set. 方便生成data set
filename input "c:\temp\sun.txt";
data exp1;
   infile input;
   input a1 @@;
   year=intnx('year','1jan1742'd,_n_-1);
   format year year4.;
run;
proc gplot data=exp1;
symbol i=spline v=star h=2 c=green;
plot a1*year;
run;
proc arima data=exp1;
identify var=a1 nlag=24;
run;
estimate p=3;
run;
forecast lead=6 interval=year id=year out=out;
run;
proc print data=out;
run;
vcycyv:
1. nlag�?4�Q�在图上看是一个w型�?
2. 书上做identification步骤之后�Q�得出结论：“观察输出�l�果。初步识别序列�ؓ AR(3)模型�?#8221; 不确定这个结论是怎么得出来的�Q?. 怎么��截��，怎么��拖��？2. AR�Q?�Q�里那个3是怎么出来的？对第二个问题瞎猜一下，是看ACF图观察出来三个��D��推出来第四个��g��Q?

问了学统计的同事�Q�解�{�了上面两个问题�Q�还是需要��l�理解：
截尾�Q�是指在ACF�?/span>PACF图中自相关系数和偏自相关�p�L��在滞后的前几期内处于�|�信区间之外�Q�而滞后的�p�L��基本上都落入�|�信区间内，且逐渐��于0.
拖尾�Q�是指在ACF�?/span>PACF图中自相关系数和偏自相关�p�L��有指数型、正弦型或震荡型衰减的�L动。且都不会落入置信区间内�?br />至于那个3�Q?/span>因�ؓPACF图上可以看出当�ؓ3�Ӟ��不在�|�信区间�?/span>

��是那时开始不在蓝框内�?/span>

�q�且ACF图此时�ؓ拖尾
参考：
http://wiki.mbalib.com/wiki/%E6%97%B6%E9%97%B4%E5%BA%8F%E5%88%97%E9%A2%84%E6%B5%8B%E6%B3%95
http://wiki.mbalib.com/wiki/%E7%A7%BB%E5%8A%A8%E5%B9%B3%E5%9D%87%E6%B3%95
http://wiki.mbalib.com/wiki/%E6%8C%87%E6%95%B0%E5%B9%B3%E6%BB%91%E6%B3%95
http://zh.wikipedia.org/wiki/%E6%97%B6%E9%97%B4%E5%BA%8F%E5%88%97
http://zh.wikipedia.org/wiki/%E8%87%AA%E7%9B%B8%E5%85%B3%E5%87%BD%E6%95%B0
http://wiki.mbalib.com/wiki/ARIMA%E6%A8%A1%E5%9E%8B
http://www.docin.com/p-46241714.html
SAS help

人在江湖 2011-09-07 09:44 发表评论

分��n��M��W�记 Data Mining Concepts and Techniques

人在江湖 — Mon, 05 Sep 2011 00:40:00 GMT

Data Mining�늛�的内定w��常多�Q�学着学着��p��q��ؕ石阵�Q�看不到大的picture了，Data Mining Concepts and Techniques是本�l�典的好书，虽然有些�l�节�q�不详尽�Q�（如果详尽��变成圣�l�了�Q�可以用它来把data mining的知识点�l�成一张网。它包括数据的预处理�Q�frequent patterns,decision tree, netural network, regression, clustering, time series�{�等很多斚w��。用XMind做了��M��W�记�Q�XMind是思维导图软�g�Q?在之前的博客中略有介�l�：工作中用到的一些免费��Y�?/font> 先上一个羃略图�Q?/p>

�q�本书可以在�q�里扑ֈ��Q?/p>
http://storage.live.com/items/D8B11F9BF86FECFA!1358 �Q�下载之后把文�g后缀名改�?pdf卛_��Q?skydrive换成html5之后�Q�外铑־�不方便！�Q?/p>

�W�记可以在这里找刎ͼ�

http://storage.live.com/items/D8B11F9BF86FECFA!1374 �Q�下载之后把文�g后缀名改�?xmind卛_��Q�用XMind软�g打开�Q��Y件可以在�q�里下蝲�Q?a >http://www.xmind.net/�Q?/p>

人在江湖 2011-09-05 08:40 发表评论

Basel2模型验证二：Kendall tau

人在江湖 — Sun, 28 Aug 2011 07:11:00 GMT

Kendall tau是用来度量关联关�pȝ��?/p>
(引自wikipedia:http://en.wikipedia.org/wiki/Kendall_tau_rank_correlation_coefficient)

==============================================

Let (x₁, y₁), (x₂, y₂), �? (x_n, y_n) be a set of joint observations from two random variables X and Y respectively, such that all the values of (x_i) and (y_i) are unique. Any pair of observations (x_i, y_i) and (x_j, y_j) are said to be concordant if the ranks for both elements agree: that is, if both x_i > x_j and y_i > y_j or if both x_i < x_j and y_i < y_j. They are said to be discordant, if x_i > x_j and y_i < y_j or if x_i < x_j and y_i > y_j. If x_i = x_j or y_i = y_j, the pair is neither concordant nor discordant.
The Kendall τ coefficient is defined as:

^{=========================================================}

同一��文章��l�引用关于ties:

^{=========================================================}

A pair {(x_i, y_i), (x_j, y_j)} is said to be tied if x_i = x_j or y_i = y_j; a tied pair is neither concordant nor discordant. When tied pairs arise in the data, the coefficient may be modified in a number of ways to keep it in the range [-1, 1]:
Tau-b statistic, unlike tau-a, makes adjustments for ties and is suitable for square tables. Values of tau-b range from �? (100% negative association, or perfect inversion) to +1 (100% positive association, or perfect agreement). A value of zero indicates the absence of association.
The Kendall tau-b coefficient is defined as:

where

================================================

靠，搞了半天才理解，上面公式中所谓nc, nd里面的c和d�Q�指的是concordant和discordant.

在sas中计��Kendall tau-2比较��单，直接用proc freq��p��Q�原来proc freq如此强大啊�?/font>

sas�E�序举例�Q?/font>

data color;
   input Region Eyes $ Hair $ Count @@;
   label Eyes ='Eye Color'
         Hair ='Hair Color'
         Region='Geographic Region';
   datalines;
1 blue fair   23 1 blue red     7 1 blue medium 24
1 blue dark   11 1 green fair   19 1 green red     7
1 green medium 18 1 green dark   14 1 brown fair   34
1 brown red     5 1 brown medium 41 1 brown dark   40
1 brown black   3 2 blue fair   46 2 blue red    21
2 blue medium 44 2 blue dark   40 2 blue black   6
2 green fair   50 2 green red    31 2 green medium 37
2 green dark   23 2 brown fair   56 2 brown red    42
2 brown medium 53 2 brown dark   54 2 brown black 13
;
proc freq data = color noprint ;
tables eyes*hair / measures noprint ;
weight count;
output out=output KENTB;
test KENTB;
run;

另外跟Kendall tau有点儿关联的是Somer’s D�Q�但是搜索了一下没看到公式�Q�反正Somer’s D也可以用sas proc freq直接��，�Ҏ��c�M��?/font>

Somers' D(C|R) and Somers' D(R|C) are asymmetric modifications of tau-b.Somers' D differs from tau-b in that it uses a correction only for pairs that are tied on the independent variable.

人在江湖 2011-08-28 15:11 发表评论

Basel2模型验证一�Q�Hosmer–Lemeshow test

人在江湖 — Sat, 20 Aug 2011 23:37:00 GMT

一�Q�基��概念�Q?/p>
Probability of default(PD)�Q�PD是巴塞尔协议中一个重要的参数�Q�它用来计算某个客户或某批具有相似特征的客户��h��不还的概率�?/p>

Hosmer–Lemeshow test�Q�PD中众多统计检验的其中一�U�，评估预测��g��实际值在各个分组�Q�subgroup, pool, bin�Q�中拟合�E�度�?/p>

自由度：自由度是指随机变量中所含独立随机变量的个数n�Q�如果这些独立随机变量受�?i>k个约束条件的限制�Q�那么自由度��变�?i>n-k�Q?/p>

概率密度函数�Q�是一个描�q�这个随机变量的输出值在某一个确定的取值点附近的可能性的函数�?/p>

卡方�Q?i>χ²�Q�分布：

�?i>X₁, X₂,…,X_n是相互独立的随机变量且均服从标准正态分�?i>N(0�Q?)�Q�则随机变量
                    χ²= X₁²+X₂²+…+X_n
的分布称为服从自由度�?i>n�?b>χ²分布�Q�记�?i>χ²�?i>χ²(n)
卡方分布的密度函数图为：

二， Hosmer–Lemeshow test的��用方�?/p>
Hosmer–Lemeshow test 的统计量�?

�q�里 O_g, E_g, N_g, and π_g �C��察到的事�Ӟ��预期的事�Ӟ��观察�? 预测的第g^th�l�的风险�Q�在PD模型中，�Q�， n是组�? �q�个�l�计量符合自由度为n-2或n的卡方分布�?

其他�l�计量都很直白，解释一�?i>E_g的计��：实际应用中，可以用当前分�l�的�q�约概率 x 当前分组的观��值数目�?/p>
有了�l�计量的��g��后，下一步计��就要依�?#8220;�q�个�l�计量符合自由度为n-2或n的卡方分�?#8221;了。那么什么时候用自由度�ؓn�Q�什么时候用自由度�ؓn-2呢。在书Basel2 risk parameters里有�q�样一�D�解释在321��c��这本书可以在我的skydrive里找�?a >https://skydrive.live.com/?cid=D8B11F9BF86FECFA&id=D8B11F9BF86FECFA%211346&sc=documents#�Q?/p>
“When using the HSLS statistic as a measure of fit in the process of model finding, then
we say “in-sample”, because the model estimation sample and the sample on which the
measure of fit is computed are identically. In this case the distribution is F2 with G 2
degrees of freedom. When using the HSLS statistic for backtesting, we say “out-of-
sample”, because there is no observation coexistent in the estimation sample and the
validation sample. ”
如果理解没错的话�Q�在建模验证阶段�Q�自由度是n-2, 模型建好之后�Q�自由度都是n�?
卡方��验P值的计算方式�? - 特定自由度下卡方的的CDF�Q�详见wikipedia�Q?a title="http://en.wikipedia.org/wiki/Chi-square_distribution" >http://en.wikipedia.org/wiki/Chi-square_distribution中Table of χ² value vs P value部分

CDF指的是Cumulative distribution function�Q�就是分布函敎ͼ�详见wikipedia: http://en.wikipedia.org/wiki/Cumulative_distribution_function

人在江湖 2011-08-21 07:37 发表评论

人在江湖 — Mon, 18 Jul 2011 00:00:00 GMT

喜欢敏捷的很多想法，喜欢它务实的态度。我说“敏捷不能当饭吃”，当然不是说敏��h��用，相反�Q�我倒是挺推崇敏��L��。之前有两篇文字都涉及到一些对敏捷的看法。一��是与神对话�Q�另一��是 �Ҏ��L��一些想�?/font>。只是看到很多�h好像敏捷是他��L��写的一��P��龟孙子似地迷信和�q�捧敏捷�Q�把工作一条一条跟书上描述的对照，一旦工作中实际操作跟书上有不一��_��口诛�W�伐�Q�吐沫拳头无��p��׃��齐上来了�Q�那��太�q�了。敏捯��太极拳一��P��是一�U�思想�_�N��Q�它的一招一式体现在实际工作中灵�z�运用敏捷原则，敏捷�q�无特定套�\。Scrum�{�流�E�是敏捷的一�U�成功案例，�q�个案例在特定环境下工作得非常好�Q�但那只是特定环境而已。敏捷大师们自己也��L��醒，很多��目采用敏捷开发，仍然一塌糊涂，是因为应用敏捷�ƈ不简单�?
Kent Beck是敏��L��发�v者之一�Q�很多敏��L��发�v者后来都写了关于敏捷的书�Q�但Kent Beck的书是最有媄响力的，它的Extreme programming explained �?embrace change可以�?a href="http://m.tkk7.com/vcycyv/archive/2011/02/14/344298.html">�q�篇博客中找到。这本书主要阐述敏捷的一�p�d��理念�Q�对实践描述的�ƈ不具体。scrum之类讲敏��h��E�的书，对实跉|��作的环节��׃��讲的很具体�?strong>先了解�ƈ接受敏捷的理念，再去看敏��h��E�的话，比较�Ҏ��理解��程背后的用意是什�?/strong>�Q�只有深�ȝ��解了敏捷�_��Q�才能比较好的实跉|��捗��而现实情况很多时候不是这��P��直接学习��程��L��比较省事儿，于是scrum��p��当成圣经直接拿来��q��了，人家mc hotdog早就说过�Q�“照单全收的盲从�Q�就像在吃屎”。我�怿�通常情况下，scrum的实践在一个项目组�Q�只有一��部分能用得上，当然�Q�这已经是�g很伟大的事情了。在一些常见的工作环境中，有些scrum的想法�ƈ不适用�?
一个方面是�Q�scrum��“全功能团队”，每个��Z��解��品的每一个feature�Q�团队�h数在敏捷中是有限制的。但如果一个负责某个��品的团队��是�?2�Q?个�h�Q�那么怎么办？再拆成两个敏捷团队以适应敏捷对�h数的要求�Q�垂直划分feature提供了细化团队的��Z��Q�但产品不总能清晰��C��刀切成两半�Q�尤其还要考虑各个�E�序员有不同的专长，甚至�Ҏ��用的不是同一�U�编�E�语�a��Q�如果团队只有一个c�E�序员，一个js�E�序员，一个pl/sql�E�序员，其他做java�Q�那么切分项目组的方式是跟c有关的一�l�，跟js有关的另一�l�？底层架构和公共模块都不容易竖切。如果��品比较大�q�且不易�l�分�Q�大安��了解每个feature是很隑ց�到的。如果��品��用的技术比较繁杂，pl/sql, js, java, c��h��都用�Q�全功能团队怎么实现�Q�js的程序员跟c�E�序员也讲不��C��块儿��d��。我可以理解scrum的想法，也认同它的道理，但是在实际工作中�Q�如果确实�h数对不上敏捷的要求，或者程序员的技术特长分散在不同层面�Q�这很难照搬scrum的实��c��h多开会费旉��Q�效果又不好�Q�鸡同鸭�Ԍ��各说各的。写c的�h才不兛_��js有什么技术瓶颈呢�?
�q�有�Q�scrum想了个招儿，用打扑克的方式沟通需求和帮助定schedule。这是徏立在全功能团队的基础上的�Q�上面已�l�论�q�过了，如果产品比较大，�E�序员没法兼��所有story�Q�那成本太大了，打扑克也只能��于形式�Q�尤其术业有专攻�Q�唯一的c�E�序员的工作只有他自�׃��计才有意义。更实际的问题是�Q�当你知道story具体需求的时候，�q�不��以估计出时��_��E�序员必��ȝ��道“怎么做”才能估出来比较靠谱的时间�?strong>很多时候需要做一些research的工作以及一点儿prototype才好估时�?/strong>�Q�在�q�样的情况下�Q�你非逼我出张牌，我只能出“问号”�?有时候，虽然我不需要做prototype, 但我��实也不能在5分钟之内理清思�\, 知道用什么approach更合理，那么我怎么办，告诉大家�Ҏ��x��Q�等我一会儿�Q�技术问题本来也不应该规定在5分钟之内��Z��计划�Q�非逼我��划倒也没问题，但是随后我就得重做计划。还有一个问题，大家一��h��牌，A知道�q�工作十有八九落在B头上�Q�A可能��Z��好心多估旉��Q�B可能��Z��面子��估旉��Q�这些�h为因素如何排除掉�Q?
敏捷��单元��试�Q�这肯定是没错的。问题是�Q�各个团队之间容易开始攀比覆盖率�Q�其实程序员心里都明白，覆盖率的�ƺ骗性很强，单元��试的有效性更重要。如果单元测试又没�A献于驱动开发，也没贡献于质量保证（��单的api�Q�诸如getter/setter之类的api��是�q�样�Q�不用测试驱动直接就知道怎么写了�Q�写了手动测试一遍就知道写的没错�Q�code以后也不可能改）�Q�那么就没必要写�q�种单元��试�Q�写�q�种单元��试的唯一好处是，成本低，比较�Ҏ��贡献覆盖率。麻烦在于，太多弱智�q�么��_��׃��敏捷了，单元��试覆盖率应该向某某弱智team看齐�Q�于是�h在江湖，�w�不由己�Q�开始对付覆盖率。好吧，scrum其实也没说具体百分比�Q�这不是scrum的错�?
我绝对不��x��L��h��者scrum�Q�我觉得�q�都是很��的想法。只是听了太多“这不是敏捷”这�U�话�Q?strong>是不是敏��h��本不重要�Q�能优化��程�Q�让工作更有效才重要。我喜欢敏捷的地方在于，敏捷��以�h为本�Q�尊重程序员的各�U�诉求。正视design不能一�y�而就的现实。承认长期计划不靠谱。强调优先��Q�决定优先��的时候从性�h比的角度考虑。scrum的很多实践也很实用，比如backlog应该包含的内容等�{�不一一�|�列。敏捷不是一门玄奥难懂的技术，不需要花钱找培训机构受教肌Ӏ�敏��L��出发点就是务实，用务实的态度拥抱敏捷��p��够好。套用二八原则，scrum的实践在实际中也许只需要吸�?0%�Q�却能取�?0%的效果，剩下�?0%要靠��Z��敏捷�_��的创造力�?/p>

人在江湖 2011-07-18 08:00 发表评论

人在江湖 — Mon, 11 Jul 2011 00:46:00 GMT

    Java用来解决业务问题�Q�实现商业�h倹{��我们工作的�q�程�Q��M��接触�q�接受一些领域知识。领域知识往往很复杂，有时真要学好一门领域知识比��N��一�U�编�E�语�a�要花更多�_�֊�。这��是��Z��么业务专家��L��w��h很高�Q�掌握领域知识的门槛本来��׃��低。深�ȝ��解领域知识有利于设计�q�实现程序。这个道理很��?—�?我们通过java抽象领域对象�Q�如果没有对领域的深�ȝ��解，怎么能分得清应该有哪些domain object�Q�它们的behaviour应该是什么？写程序时��量做简单又灉|��的设计。“简单”和“灵�z�Z��本来就有一定程度的矛盾�Q�不理解领域知识��没法预见潜在的扩展点，�Ҏ��设计不��Q?处处盲目预留各种各样的扩展点实际上就是过度设计。所以好的程序设计不光需要懂得分�? ooad�Q�pattern, strategy, bo,vo,dto…还必然要基于对业务知识的深�ȝ��解。Domain Driven Design的思想也非常强调程序员寚w��域知识的学习。一个不可回避的问题是，新学一门领域知识，很难一下把握清楚，1月䆾�Ҏ��个概忉|��了一定理解，5月䆾时发现当初自以�ؓ理解清楚了，其实有偏差，那么�q�四个月里写的程序可能根本就��Z��错误的assumption, 很多设计和实现又要推倒重做。所以比较理想的情况是，�E�序员就专门深入研究某一个领域，从此��؜�q�这一个领域。表面上�q�样限制了程序员混饭吃的门�\�Q�实际上只有�q�样才有利于在技术上有更深层的修为。当然一些技术天才走的是另一条�\�Q�Rod Johnson�Q�Gavin King他们能做出来影响��p��的framework�Q�万人景从ͼ�那靠的是�U��a的对技术的深刻理解�Q�还要耐得住性子strive for the goal把想法实现出来。有�q�种天赋的�h��L��物理�Q�生物，化学也能很成功，�q�能得诺贝尔奖呢�?/p>
    那么接下来要要解决的问题是，怎么选择一个好的方向去学习领域知识。gartner之类的时常搞一些这斚w��的调研，比如十大有前景IT技术之�cȝ��。他们预��的未必准，但是��M��读这斚w��的资料你自己也能感受��C��么方向至��能长期混口饭吃。我直到最�q�才开始投入学习领域知识，商业��是个很合适的方向�?/p>
    商业��是Business Intelligence, ��U�BI�Q�只是这个羃写容易被当作关键词给�q��o掉，所以这��文字的标题仍然写全�U��?/p>
    信息爆炸会越来越严重�Q�以后必然是数据的社会，BI可以从�v量数据中获取价��|��q�会是一个相对常青的行业。更现实的是�Q�我正好在做BI的公司工作，可以很方便地接触到相兌��Y�Ӟ��w�边也有�q�方面的高手可以提供指导。看��C�h家如何分析问题，建立模型解决问题�Q�就有种强烈的感觉：�q�才是能赚钱的本领�?/p>
    BI的基��是统计和数学分析�Q�公叔R��不少人是学统计出�w�的�Q�连CEO也是。咱�E�序员多数在学校里学的是计算机，�q�方面比不上�l�计专业的�h�Q?��是先天不��。但是我��单地��了一下帐�Q�发现这�U�不��不隑֐�天补齐。如果初�U�目标是赶上�l�计专业的本�U�生�Q�据推断�Q�统计专业的人第一�q�不可能学上�l�计学，因�ؓ高等数学是统计学的基��Q�统计学中讲分布函数和分布密度需要用到微�U�分�Q�极大似然函��C��要用到微�U�分�Q�所以计��机专业的和�l�计专业的第一�q�没啥差距。而我们在学校也学�q�统计课�Q�那么我们和�l�计专业的差距主要集中在大二下学期之后的旉��Q�大四通常没啥重要的课可以�Ԍ��׃��跟统计专业的也就差一�q�多的学习课�E�，�q�里�q�包括很大一部分马克思主义哲学之�c�L��关的课，所以如果咱们勤奋一点，�q�齐�l�计专业的本�U�生只需要大�U�一�q�的旉��Q�也许还可以更短�?/p>
    大学学的微积分，�U�性代数和�l�计学早��p��l�老师了，首先要复习一下这斚w��的东�ѝ��前�D�|��间刚复习完微�U�分�Q�统计学和一半儿�U�性代数。分享一下资源：

微积分之倚天�?屠龙刀�Q?http://ishare.iask.sina.com.cn/f/6933932.html

�U�性代数和概率�l�计�Q?http://202.113.29.3/~gdsxjxb/wlkj/windows/artsmath/main/index2.htm

�l�计�Q?http://ishare.iask.sina.com.cn/f/5773491.html

    接下来还要掌握data mining的过�E�和�Ҏ��Q�这个可以沿着SAS的semma理论学习�Q�sample, explore, modify, model, assess。每个方面都大有学问。还需要学会��用相关的工具�Q�比如enterprise miner. 正在学习SAS�~�程。最后要跟定某个金钱无数的行业��l�深入学习，比如银行业�?/p>
    学这些不是�ؓ了�{行抢业务专家的饭��，那太难了�Q�毕竟没有合适的环境。已�l�在Java上投入很多精力和旉��Q�好不容易积累一些技术实力，Java仍然是闯荡江湖的一��资本，目标是做BI斚w��产品的架构师�Q�遇到合适的位置�Q�就无可替代。与各位同行共勉�Q?/p>

人在江湖 2011-07-11 08:46 发表评论

人在江湖 — Tue, 07 Jun 2011 01:25:00 GMT

转蝲�?a title="http://www.bihuman.com/bbs/viewthread.php?tid=2584" >http://www.bihuman.com/bbs/viewthread.php?tid=2584

信用卡是指客户可以进行先透支消费�Q�后�q�款的金融工兗��目前国内许多��用信用卡的客户往往��储蓄卡和信用卡的含义相互�؜淆了�Q�因此在信用卡公司的后台数据记录上往往会出现许多余额�ؓ负的客户�Q�余额�ؓ正说明是有欠�ƾ）�Q�而这�U�情况在国外几乎是不可能的�?　　信用卡公�怸�般来说是通过循环透支产生的利息和特约商户的折扣来获得收益。这也就是说�Q�一个消贚w��额多但是每月都按时还�Ƅ��客户对信用卡公司来说往往不一定是一个“好”的客户�Q�真正“好”客��h��那些持箋使用循环透支�q��生利息收益的客户。由于信用卡公司的“先消费�Q�后�q�款”特点，卡公�怸�般都是风险厌恶型的企业，客户每欠��?块钱�Q�则卡公司就会��?块钱的风险暴霌Ӏ�因此，信用卡公司的目的往往是希望在保持一个可接受的整体资产损��q��前提下，��L��更多的优质客��P��创造更多的实际收益。每个信用卡公司的风险管控策略往往是不一��L��Q�像招商银行在信审方面比较宽松，授信额度也较高，但是它在催收斚w��的力度较大；而类似广发银行在信审斚w��比较严格�Q�而在催收斚w��则显��好的耐心�Q�表现出比较�E�_��的作风�?
　　在了解信用卡公司的经营状况之后，接下来谈谈信用卡公司涉及的数据挖掘模型。一个新客户与信用卡公司建立起客户关�pȝ��程大约是这��L��Q?
　　甌��-〉审�?〉发�?〉交�?〉出�?〉还��?〉催�?〉核销-〉被动（��d��Q�流�?
　　相对应的�Q�在甌��到发卡这个阶�D�可以徏立�v“申误��分”模型，�q�也是最为常见的信用卡模型。在构造申误��分模型过�E�中�Q�往往会遇到“拒�l�推断”的问题�Q�解决问题的�Ҏ��是多��L��Q�与信用卡公司的风险�{�略往往是紧密联�p�d��一��L��?
　　在客户交易阶�D�，可以建立“客户分��模型”对客户�q�行�l�分�Q�徏立“关联分析”模型来分析客户在��品消�Ҏ��面的兌��规则�Q�徏立“客��h��Ҏ��型”来对客户在��来的一个时间内的消贚w��额进行预��，从而设计相关的额度调整、利率调整策略�?
　　在出账到催收阶段�Q�可以徏立�v“拖�Ơ模型”来预测客户在将来的拖欠概率�Q�徏立“催收模型”预��客��L��q�款概率�Q�徏立“收益分析模型”对公司的整体收益情况进行评估�?
　　在最后的部分�Q�也��是说客户关�p�走向衰亡的阶段�Q�可以徏立“客��h��失模型”预��客��h��q��概率�Q�徏立“欺诈模型”找出客��h��诈的行�ؓ模式�Q�徏立“违�U�的风险暴露”分析模型，分析在由于风险暴露对卡公叔R��成的损失�?/p>

人在江湖 2011-06-07 09:25 发表评论

国产性爱在线观看亚洲黄色一级片 ,一本色道久久88亚洲精品综合 ,亚洲人成国产精品无码

自录pentaho视频教程

���经�|�络

cluster聚类分析

一元线性回归预���法:

二元�U�性回归分析预���法�Q?/h3> http://wiki.mbalib.com/wiki/%E4%BA%8C%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90%E9%A2%84%E6%B5%8B%E6%B3%95

多元�U�性回归模型拟合优度假设检验：http://wenku.baidu.com/view/32b4bcea6294dd88d0d26b6d.html

回归估计标准误差与可决系数的比较�Q?a >http://wendang.baidu.com/view/110fc16548d7c1c708a1456b.html?from=related

矩阵与SAS IML���尝辄止

旉���序列

�Q�二�Q?二次指数�q�x��预测

�Q�三�Q?三次指数�q�x��预测

分��n��M���W�记 Data Mining Concepts and Techniques

Basel2模型验证二：Kendall tau

Basel2模型验证一�Q�Hosmer–Lemeshow test

��经�|�络

一元线性回归预��法:

二元�U�性回归分析预��法�Q?/h3>
http://wiki.mbalib.com/wiki/%E4%BA%8C%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90%E9%A2%84%E6%B5%8B%E6%B3%95

矩阵与SAS IML��尝辄止

旉��序列

分��n��M��W�记 Data Mining Concepts and Techniques