??xml version="1.0" encoding="utf-8" standalone="yes"?> youku地址Q?br /> 书的下蝲地址Q?a title="http://115.com/file/aqv7r05e#" >http://115.com/file/aqv7r05e#
训练模型的时间比较长Q对于训l数据没늛到的数据Q也有比较好的预能力。相对于决策树,它处理连l型的输入输力比较好。神l网l模型不Ҏ解释?/p> 经|络分三层,input layer, hidden layer和output layer. 理论上hidden layer可以有Q意多层,在实际中Q往往只有一层被使用?/p> 对输入数据的每个属性进行标准化可以提高训练速度。对于连l型的属性,往往每个domain value一个input unit. 如果是classification,对于二值型的output, 可以用一个output unitQ?Q?Q表C。如果有多个class, 每种class可以用一个output unit. hidden layer里放多少unit往往是慢慢尝试出来的?/p> 贴书上的图,看文字叙q很难懂Q但是看一个具体的例子是怎么的数就比较ҎQ?/p> 其中Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/51c0b7431acb_E358/image_4.png"> 某个节点的outputQ是q样的Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/51c0b7431acb_E358/image_6.png"> 经|络的大致思\是,如果l过经|络后预的g对,p回来调整hidden layer units的权重,做错了事回头反思一下,直到d对事为止?/p> 计算误差的方式,output layerQ?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/51c0b7431acb_E358/image_8.png"> hidden layer: backpropagate是ؓ了修Ҏ重和bias?/p> 修改权重Q?/p> 其中l叫learning rate, 通常??之间的数?/p> 修改bias: 经|络l束调节可以有多U,比如 例子Q?/p> 经|络往往被批评可解释性不好,一U解释的方式是sensitivity analysis.是x如果?%Qy会增?%q种风格?/p> 决策树的法需要三个参敎ͼ被分cȝ对象Q?对象的属性列表, 属性的选择法(attribute_selection_method)Q学习决{树Q主要是学习属性选择法?/p> Data Mining Concepts and Techniques书里对决{树的构E阐q的很清晎ͼ书可以在之前的博客找刎ͼ http://m.tkk7.com/vcycyv/archive/2011/09/05/357967.html (1) create a node N; 生成的树是否是binary的主要取决于属性的选择法(attribute_selection_method)Q比如gini index法生成的tree是binary的,information gain生成的没有这L限制? 关于法Q?/strong> information gain: l对象集合D的某一个对象分l所需要的information可以q样: 其中Pi代表M对象属于cdCi的概? 如果用某个属性A来分D,l过A把D分成几组之后Q给某一个对象分l所需要的information表述如下Q看不懂没关p,下面有例子) information gain可以这LQ? 例子Q? The class label attribute, buys computer, has two distinct values (namely, {yes, no}); therefore, there are two distinct Next, we need to compute the expected information requirement for each attribute. Let’s start with the attribute age. We need to look at the distribution of yes and no tuples for each category of age. For the age category youth, there are two yes tuples and three no tuples. For the category middle aged, there are four yes tuples and zero no tuples. For the category senior, there are three yes tuples and two no tuples. Similarly, we can compute Gain(income) = 0.029 bits, Gain(student) = 0.151 bits, and Gain(credit rating) = 0.048 bits. Because age has the highest information gain among the attributes, it is selected as the splitting attribute. Gain ratioqͼ information gain在处理多值属性的时候效果不好,比如如果有一个属性是product_id,那么l过他分所有对象之后,每个对象自成一l,也就是说每个l都是pure的,所以分l后的infoQDQ就?Q所以用product_id分组自然gain的值最大,但是昄q样分组没意义。Gain ratio相当于调整了information gain, 它用比值来计算而不是减法。具体在书里有例子,不详q? Gini index: Gini index是用来算impurity of D的。上面说q,q种法是binary split的。D个binary split的例子: if income has three possible values, namely {low, CZQ?/p> there are nine tuples belonging to the class buys computer = yes and the remaining Hve tuples belong to the class buys computer = no. To Hnd the splitting criterion for the tuples in D, we need to compute the gini index for each attribute. Let’s start with the attribute income and consider each of the possible splitting subsets. Consider the subset {low, medium}. This would result in 10 tuples in partition D1 satisfying the condition “income 属于{low, medium}.?The remaining four tuples of D would be assigned to partition D2 . The Gini index value computed based on this partitioning is cM地可以算出来其他Income的subset, 在扩展到可以cMage 之类的attribute?/p> 关于PruneQ?/font> ZL噪音和outlier,需要修?prune) tree.有两U修剪方法:preprune和postprune. preprune是一边split treeQ一边算着l计量,比如information gain, 或者gini index之类的,一旦算出来的值够不到threshold,停下来变成叶子节点?/font> postprune是把tree grow完了之后Q再从底向上剪掉一些分支。剪掉分支的法叫cost complexity, 它主要基于Leaf的个数和error rate. 是一个node如果prune它和保留它之间哪个cost complexisty更大Q如果prune之后cost complexity更小了,prune它。注意算cost complexity要基于一个单独的data set, 不用training dataset, 也不用validation data set. 往往认ؓpostprune可靠性更好一些?实际中,preprune和postprune可以l合在一起用?/font> Data Mining techniques for Marketing Sales and Customer Relationship Managementq本书提Z两个需要注意的地方Q?/p> 1. l过某次split之后的生成两个leaf节点Q他们可能是同一个category的。只是概率不一P但是都过了threshold. 2. binary tree可以分target是多个category的。反q来Q多值tree也可以给binary target的分cR?/p>
]]> 是算某一个节点输入值的. Wij是权重|每个节点的初始权重值是随机的,往往?1?或?0.5?.5Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/51c0b7431acb_E358/image_16.png">
是Bias.
Q?q样可以得到一??之间的数Qrange比较?/p>
,其中Wjk是从jC一层的k节点的权重。所以这个过E叫backpropagate.
_,或者misclassification_或者已l走q了预先讑֮那么多次的epochs
(2) if tuples in D are all of the same class, C then
(3) return N as a leaf node labeled with the class C;
(4) if attribute list is empty then
(5) return N as a leaf node labeled with the majority class in D; // majority voting
(6) apply Attribute selection method(D, attribute list) to Hnd the “best?splitting criterion;
(7) label node N with splitting criterion;
(8) if splitting attribute is discrete-valued and
multiway splits allowed then // not restricted to binary trees
(9) attribute list = attribute list - splitting attribute; // remove splitting attribute
(10) for each outcome j of splitting criterion
// partition the tuples and grow subtrees for each partition
(11) let D j be the set of data tuples in D satisfying outcome j; // a partition
(12) if D j is empty then
(13) attach a leaf labeled with the majority class in D to node N;
(14) else attach the node returned by Generate decision tree(D j , attribute list) to node N;
endfor
(15) return N;
classes (that is, m = 2). Let class C1 correspond to yes and class C2 correspond to no.There are nine tuples of class yes and Hve tuples of class no. A (root) node N is createdfor the tuples in D. To Hnd the splitting criterion for these tuples, we must compute the information gain of each attribute. We Hrst compute the expected information needed to classify a tuple in D:
medium, high}, then the possible subsets are {low, medium, high}, {low, medium}, {low,high}, {medium, high}, {low}, {medium}, {high}, and {}. We exclude the power set,{low, medium, high}, and the empty set from consideration since, conceptually, they do not represent a split.
]]>
聚类分析的算法主要基?#8220;距离”的计。聚cM后的l果要尽量保证每个segment内部的对象之间距要短, segment之间的距要ѝ这博客的内容ȝ自Han Jiawei的书Q这本书可以在这博客里扑ֈQ?分nMW记Data Mining Concepts and Techniques
关于距离Q?/strong>
如果有n个对象,每个对象有p个属性,那么可以得到q样一个矩阵:
距离通常是用另一个变形后的矩阉|做的Q?/p>
其中d(2,1)表示W二个对象和W一个对象之间的距离?/p>
对于q箋型变?interval)?/strong>Q通常要对数据预先做标准化“standardiz”Q方式如下:
1. mean absolute deviation.
2. 得出标准度量(不知道怎么译Qstandardized measurement)
3.最后结果:
对于二值型(binary)? 有两U,一U是均衡型的QsymmetricQ,另一U是非均衡型?asymmetric),均衡指的是yes or no两种状态权重一栗比如如果你没有性别歧视的话Q性别是均衡的二值变量。如果通过一pd症状诊断一个h是否生病了,yes比no的权重要大的多?/p>
两种形式都通过下面q个2x2的表来算距离Q?/p>
对于均衡型的Q?/p>
对于非均衡型?/p>
对于cd型(categoricalQ的变量Q比较简?/p>
where m is the number of matches (i.e., the number of variables for which i and j are
in the same state), and p is the total number of variables.
对于序型(ordinalQ的变量Q要先把序map成[0.0Q?.0]之间的数Q然后按interval的方式来。直接上截图Q因为太多数学符号了
书上ҎU计基本都有例子?/p>
关于聚类ҎQ?/p>
有partitioning, hierarchical, density-based, grid-based, model-based, clustering High-Dimensional, Constraint-Based.
PartitioningҎQ?/p>
代表Ҏ是K-means:
它的大致法是,选定K|最后要分成多少l)后,任选K个object作ؓcluster的中心,然后Ҏ个其他的对象计算d个中心最q,归到哪个cluster里,最后从每个cluster中找到新的中心,然后q样重复计算Q直到聚cL有变化ؓ止?/p>
HierarchicalҎQ?/p>
分agglomerative和Divisive两种Q前者是自底向上的,是一个一个object mergeZ个segment,后者相反,自顶向下的?上面说的K-meansҎ有时候和hierarchical联在一LQ因为K-means需要k作ؓ参数Q这个参数还挺重要的Q极大媄响了聚类的结果,可以先用hierarchical看看大致分几cd理,然后再用K-means?/p>
Density-basedҎQ?/p>
Z距离的算法segment都是cȝ形的Qdensity-based克服了这个问题。他的理念基本上是,一个对象ؓ中心M圆,看看圈近来的对象q没qthreshold.
Grid-Based:
它是从上往下分层,底层grid_度更细。它的特Ҏ是scalability比较好。没l看理论Q但是看图能感觉个大概?/p>
Constraint-Based:
有的时候用h楚应用的需求,惌指引聚类的过E,比如每个cluster size的range, 不同对象不用的权重等{。这q到constraint-based聚类分析。这个也没细看,q有另外的clustering high-dimensional data, model based clustering都没怎么看,也许以后再写一?#8220;再访聚类分析”。下一会关于决策树?/p>
q篇文字涉及到的验主要包括拟合优度检验,标准差检验,整体自变量显著性检?F验,单个pL显著性检?t验?/p>
U性回归有一元线性回归和多元U性回归,先说一元的?/p>
拟合优度?/strong>Q?/font> Ҏ本回归直U与h观测g间拟合程度的验。用判定pLQ可决系敎ͼ验,R2 对于 如果Yi=Ŷi 卛_际观D在样本回归“线”上Q则拟合最好? 可认为,“离差”全部来自回归线Q而与“残差”无兟? 对于所有样本点Q则需考虑q些点与h均值离差的qx?可以证明Q? Tss = ESS + RSS Y的观值围l其均值的ȝ?total variation)可分解ؓ两部分:一部分来自回归U?ESS)Q另一部分则来自随机势?RSS)? 在给定样本中QTSS不变Q? 如果实际观测点离h回归U越q,则ESS在TSS中占的比重越大,因此 拟合优度Q回归^方和ESS/Y的ȝ差TSS 标准差检验: 估计标准误差主要是ؓ了估计M方差?/p> 所谓估计标准误差是指估计g观察值的q_差异E度, ? S) 表示。?S 2是M方差( σ 2 ) 的无偏估计量, \^ 2 =S 2 =Σe i的^?/(n- 2)。该指标的意义是: S 小表明实际观测点与所拟和的样本回归线的离差程度越? 卛_归线h较强的代表? 反之, S 大表明实际????所 拟和的样本回归线的离差程度越? 卛_归线的代表性较差? 式中Q? yt——因变量Wt期的观察| n——观察期的个敎ͼ k——自由度Qؓ变量的个?包括因变量和自变?? 判断回归标准差能否通过验,仍用以下公式Q式中: s——回归标准差Q? 当依此式计算出的值小?5%Q说明预模型通过了回归标准差验? 一元相关系数检验: ?a >回归分析预测?/a>中,需要对Q、Y之间相关E度作出判断Q这p计算相关pLQ,其公式如下: 相关pLr的特征有Q? ①相关系数取D围ؓQ?1≤r? ? ②r与bW合相同。当r>0Q称正线性相养IXi上升Q?i>Yi呈线性增加。当r<0Q称负线性相养IXi上升Q?i>Yi呈线性减? ③|r|=0QX与Y无线性相兛_p;|r|=1Q完全确定的U性相兛_p;0<|r|<1QX与Y存在一定的U性相兛_p;|r|>0.7Qؓ高度U性相养I0.3<|r|?.7Qؓ中度U性相养I|r|?.3Qؓ低度U性相兟? 整体自变量显著性检?F?& 单个pL显著性检?t?/font> q两U检验方式在一元中意义是一致的Q回归分析中的假设检验包括变量之间的U性关pL验和参数的显著性检验两个内宏V前者检验的是解释变?与被解释变量 能否用一个线性模型来表示Q后者检验的是回归模型中的每一个解释变量对被解释变量的影响E度。这两种验在序上是不能颠倒的? F验: ҎCU性回归模型可以看刎ͼ如果变量X和Y之间的线性关pL显著的,那么解释变量X的变化必然引赯解释变量Y的显著变化,此时Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/2d646dfe4bb2_FAD9/image_4.png"> 如果原假设成立,那么l计? 服从自由度ؓ(k , n-k-1)的F分布 如果计算出的F值大于在l定的显著性水q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/2d646dfe4bb2_FAD9/image_8.png"> t验: 构造出了一个比较复杂的t函数Q没理解Q参考中Q多元线性回归分析预法和多元线性回归模型拟合优度假设检验都写了具体公式Q与F验类|也是t值大于界值时Q解释变量有显著影响? 另外Q多元线性回归分析预法也提C另外两种预测Q粗略地看了一下: 多重q性判? 若某个回归系数的t验通不q,可能是这个系数相对应的自变量对因变量的媄q不显著所_此时Q应从回归模型中剔除q个自变量,重新建立更ؓ单的回归模型或更换自变量。也可能是自变量之间有共U性所_此时应设法降低共U性的影响? 当回归模型是Ҏ动态数据徏立的Q则误差e也是一?a >旉序列Q若误差序列诔R之间怺独立Q则误差序列各项之间没有相关关系Q若误差序列之间存在密切的相兛_p,则徏立的回归模型׃能表q自变量与因变量之间的真实变动关pRD.W验就是误差序列的自相x验。检验的Ҏ与一元线性回归相同? 参考: [ppt]一元线性回归模型的l计? http://wenku.baidu.com/view/ca151ff6f61fb7360b4c65d0.html?from=related 【doc】第三章 一元线性回?http://wenku.baidu.com/view/3b3bdbbdc77da26925c5b0fa.html 多元U性回归分析预法Q?a >http://wiki.mbalib.com/wiki/%E5%A4%9A%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90%E9%A2%84%E6%B5%8B%E6%B3%95
——因变量Wt期的估计|
——因变量观察值的q_倹{?
一定不?。否则被解释变量Y的变化将不依赖于解释变量X的变化,而仅仅依赖于随机误差V因此,变量之间U性关pȝ验问题可以{化ؓ?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/2d646dfe4bb2_FAD9/image_6.png">
是否?。由此我们可以给Z下假设:
下的临界?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/2d646dfe4bb2_FAD9/image_10.png">
Q则拒绝接受备择假设Q说明解释变量对被解释变量有显著影响Q即两者线性关pL著?
一元线性回归预法:
二元U性回归分析预法Q?/h3>
多元U性回归模型拟合优度假设检验:http://wenku.baidu.com/view/32b4bcea6294dd88d0d26b6d.html
回归估计标准误差与可决系数的比较Q?a >http://wendang.baidu.com/view/110fc16548d7c1c708a1456b.html?from=related
]]>
基本概念Q?/font>
转置矩阵Q?/p>
如果?i>mn阶矩?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/SASIML_6F9E/clip_image002_2.gif">
的第i行改为第i列,W?i>j列改为第j行,可得到一个新?i>n
m矩阵Q记?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/SASIML_6F9E/clip_image003_2.gif">
Q称?i>A?b>转置(矩阵)Q具体表C如?/p>
?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/SASIML_6F9E/clip_image004_2.jpg">Q则
昄Q?i>n阶方늚转置仍是n阶方阵,而且对Q何矩?i>AQ有
矩阵的乘法:
?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/SASIML_6F9E/clip_image001%5B6%5D.gif">分别?i>m×n, n×p矩阵,则矩?i>A?i>B的乘U是一m×p矩阵Q记?
其中乘积矩阵C中第i行第k列处元素?
qM两个矩阵都可以进? 一个基本的条g是A的列数必MB的行数相?
矩阵的乘法是不可交换的,或者说Q交换之后结果通常不同?
单位矩阵Q?/strong>
它是个方?除左上角到右下角的对角线(UCؓd角线)上的元素均ؓ1以外全都?,?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/SASIML_6F9E/clip_image001%5B8%5D.gif">.
逆矩阵:
?i>A?i>n阶方?若存?i>n阶矩?i>B使得AB=BA=In,则称A是可逆的,或说A是可逆矩??i>BUCؓA的逆矩?可以证明,q样的逆矩阉|唯一?因此可记?i>A-1Q而且只需?i>B满一个方E?i>AB=In?i>BA=In是A的逆了Q?
基本语法Q?/font>
The following statement assigns a 3 × 2 matrix literal to the matrix Z:
z={1 2, 3 4, 5 6};
Here is the resulting matrix:
Z
1 2
3 4
5 6
The following statement creates a matrix W that is three times the matrix Z:
w=3#z;
Here is the resulting matrix:
W
3 6
9 12
15 18
A repetition factor can be placed in brackets before a literal element to have the
element repeated. For example, the following two statements are equivalent:
answer={[2] ’Yes? [2] ’No’};
answer={’Yes?nbsp; ’Yes? ’No?nbsp; ’No’};
J function: J( nrow<,ncol<,value> > );
I function: I( dimension );
Index vector:
> r=1:5;
R
1 row 5 cols (numeric)
1 2 3 4 5
> s=10:6;
S
1 row 5 cols (numeric)
10 9 8 7 6
> t=’abc1?’abc5?
T
1 row 5 cols (character, size 4)
abc1 abc2 abc3 abc4 abc5
解方E组Q?/font>
3x1 ?x2 + 2x3 = 8
2x1 ?2x2 + 3x3 = 2
4x1 + x2 ?4x3 = 9
proc iml;
reset print;
a={3 -1 2,
2 -2 3,
4 1 -4};
c={8,2,9};
x=inv(a)*c;
quit;
解ؓ3Q?Q?
相对误差QRelative ErrorQ:l对误差与真值的比?
所谓残差(residual errorQ,应该是在回归Ӟ实际yg回归曲线得到的理论yg间的差倹{?标准D差Q就是各D差的标准方差?
异方差性(heteroscedasticity Q是Z保证回归参数估计量具有良好的l计性质Q经典线性回归模型的一个重要假定是QM回归函数中的随机误差Ҏ_方差性,卛_们都有相同的方差。如果这一假定不满I则称U性回归模型存在异方差性?
条g方差QConditional varianceQ:只要把原来求方差时的概率密度函数换成条g密度函数p了意义就是当X发生ӞY发生的方?
自相兛_敎ͼAutocorrelation functionQ羃写ACFQ:
一个有序的随机变量pd与其自n相比较,q就是自相关函数在统计学中的定义。每个不存在怽差的pdQ都与其自n怼Q即在此情况下,自相兛_数值最大。如果系列中的组成部分相互之间存在相x(不再是随机的Q,则由以下相关值方E所计算的g再ؓӞq样的组成部分ؓ自相兟?
所得的自相兛_R的取D围ؓ[-1,1],1为最大相兛_|-1则ؓ最大不相关倹{?
白噪声序列:
随机变量XQtQ(t=1Q?Q?……Q,如果是由一个不相关的随机变量的序列构成的,卛_于所有S不等于TQ随机变量Xt和Xs的协方差均ؓӞ则称其ؓU随E。对于一个纯随机q程来说Q若其期望和方差均ؓ常数Q则UC为白噪声q程。白噪声q程的样本实U成为白噪声序列Q简U白噪声。之所以称为白噪声Q是因ؓ他和白光的特性类|白光的光谱在各个频率上有相同的强度,白噪声的谱密度在各个频率上的值相同?
差分Q差分有前向差分和后向差分。前向差分:函数的前向差分通常UCؓ函数的差分。对于函敎ͼ如果Q?
则称为的一阶前向差分。只所以称为前向差分是因ؓ以x为参考点Qx+1在x的前面。逆向差分Q对于函数f(x)Q如果:
旉序列的特?/strong>
非^Ex(nonstationarityQ也译作不^Ex,非稳定性)Q即旉序列变量无法呈现Z个长期趋势ƈ最l趋于一个常数或是一个线性函?
波动q度随时间变化(TimeQvarying VolatilityQ:即一个时间序列变量的方差随时间的变化而变?
虽然单独看不同的旉序列变量可能h非稳定性,但按一定结构组合后的新的时间序列变量却可能是稳定的Q即q个新的旉序列变量长期来看Q会向于一个常数或是一个线性函数。例如,旉序列变量X(t)非稳定,但其二阶差分却可能是E_的;旉序列变量X(t)和Y(t)非稳定,但线性组合X(t)-bY(t)却可能是E_的?
旉序列分析通常是把各种可能发生作用的因素进行分c,传统的分cL法是按各U因素的特点或媄响效果分为四大类Q?1)长期势Q?2)季节变动Q?3)循环变动Q?4)不规则变动?
旉序列预测法种c?/strong>Q?
1. 单序时^均数?a>术q_?/font>
2. Udq_法:Udq_法是一U简单^滑预技术,它的基本思想是:Ҏ旉序列资料?strong>逐项推移
Q依ơ计包含一定项数的序时q_|以反映长期趋势的Ҏ?分ؓ单移动^均法Q加权移动^均法?一般而言Q最q期的数据最能预C未来的情况Q因而权重应大些?
使用Udq_法进行预能qx掉需求的H然波动寚w结果的影响。但Udq_法运用时也存在着如下问题Q?
1?加大Udq_法的期数Q即加大n|会qx波动效果更好Q但会预测值对数据实际变动更不敏感Q?
2?Udq_值ƈ不能L很好地反映出势。由于是q_|预测值L停留在过ȝ水^上而无法预计会D来更高或更低的波动Q?
3?Udq_法要由大量的q去数据的记录?
使用Udq_法时Q主要是要定下来NQ用几个时期预测下个时期Q是多少Q实际中可以取多个N然后比相对误差?
3. 指数qx法:所有预方法中Q指数^滑是用得最多的一U。简单的全期q_法是?a>旉数列的过L据一个不漏地全部加以同等利用Q移动^均法则不考虑较远期的数据Qƈ?a>加权Udq_?/font>中给予近期资料更大的权重Q而指数^滑法则兼容了全期q_和移动^均所长,不舍弃过ȝ数据Q但是仅l予逐渐减弱的媄响程度,即随着数据的远,赋予逐渐收敛为零的权数。也是说指数^滑法是在Udq_?/font>基础上发展v来的一U?a>旉序列分析预测?/font>Q它是通过计算指数qx|配合一定的旉序列预测模型对现象的未来q行预测。其原理是Q一期的指数qx值都是本期实际观察g前一期指数^滑值的加权q_?
指数qx常数取D关重要。^滑常数决定了qx水^以及寚wg实际l果之间差异的响应速度。^滑常数a接q于1Q远期实际值对本期qx值媄响程度的下降迅速;qx常数a接q于 0Q远期实际值对本期qx值媄响程度的下降缓慢。由此,当时间数列相对^ExQ可取较大的aQ当旉数列波动较大Ӟ应取较小的aQ以不忽略远期实际值的影响?
据^滑次C同,指数qx法分为:一ơ指数^滑法?a>二次指数qx?/font>和三ơ指数^滑法{。当旉数列无明昄势变化Q可用一ơ指数^滑预?
?a>旉数列无明昄势变化Q可用一ơ指数^滑预。其预测公式为:
yt+1'=ayt+(1-a)yt' 式中Q?
该公式又可以写作Qyt+1'=yt'+a(yt- yt')。可见,下期预测值又是本期预g以a为折扣的本期实际g预测D差之和?
二次指数qx是对一ơ指数^滑的再^滑。它适用于具U性趋势的旉数列。其预测公式为:
yt+m=(2+am/(1-a))yt'-(1+am/(1-a))yt=(2yt'-yt)+m(yt'-yt) a/(1-a)
式中Qyt= ayt-1'+(1-a)yt-1
昄Q二ơ指数^滑是一直线方程Q其截距为:(2yt'-yt)Q斜率ؓQ?yt'-yt) a/(1-a),自变量ؓ预测天数?
三次指数qx预测是二ơ^滑基上的再^滑。其预测公式是:
yt+m=(3yt'-3yt+yt)+[(6-5a)yt'-(10-8a)yt+(4-3a)yt]*am/2(1-a)2+ (yt'-2yt+yt')*a2m2/2(1-a)2
式中Qyt=ayt-1+(1-a)yt-1
它们的基本思想都是Q预值是以前观测值的加权和,且对不同的数据给予不同的权,新数据给较大的权Q旧数据l较的权?
某Y件公司AZ。给?000-2005q的历史销售资料,数据代入指数^滑模型。预?006q的销售额Q作为销售预编制的基础?
由散点图C可知。根据经验判断法。A公司2000-2005q销售额旉序列波动很大?a>长期势变化q度较大Q呈现明显且q速的上升势Q宜选择较大?#945;|可在05-O.8间选|以预测模型灉|度高些,l合试算法取0.5Q?.6,0.8分别试。经q第一ơ指数^滑后Q数列呈现直U趋势,故选用二次指数qx法即可?
试算l果见下表。根据偏差^方的均?MSE)最,卛_期实际g预测值差的^方和除以L敎ͼ以最值来定理的取值的标准Q经算?#945; = 0.6ӞMSE1 = l445.4Q当α = 0.8ӞMSE2=10783.7Q当α = 0.5ӞMSE3 = 1906.1。因此选择α = 0.6来预?006q?个季度的销售额?
2005q第四季?img alt="S_t^{(1)}" src="http://wiki.mbalib.com/w/images/math/5/c/2/5c2f495ad0869994a3e7dcaf10908650.png" />=736.8;=679.5;Q可以求?img alt="\alpha_{2005}=2S_t^{(1)}-S_t^{(2)}=2\times736.8-679.5=794.1" src="http://wiki.mbalib.com/w/images/math/d/e/d/dede04dad842e2eb7ce9a89c6b8f63de.png" />Q?img alt="b_{2005}=\alpha(s_t^{(1)}-S_t^{(2)})/(1-\alpha)=0.6" src="http://wiki.mbalib.com/w/images/math/c/0/b/c0b30f4b04c44a8befadab7fbe8e9604.png" />=(736.8-679.5)/0.4=85.9则预方Y2005 + T = 794.1 + 85.9T,因此Q?006q第一、二、三、四季度的预值分别ؓQ?
Y1 = 794.1 + 85.9 = 800(万元)
(万元)
(万元)
(万元)
lg所qͼ本案例首先根据销售历史资料,l出数列散点图。再Ҏ散点囄特征选择二次指数qx法,通过?#945;的试,定W合预测需要的α|最后根据指数^滑模型计出2006q?4季度的销售预|作ؓ销售预的基础?
典型模型包括arch模型Qarima模型{?
arch模型Q?
ARCH模型的基本思想是指在以前信息集下,某一时刻一个噪声的发生是服从正态分布。该正态分布的均gؓӞ方差是一个随旉变化的量(即ؓ条g异方?。ƈ且这个随旉变化的方差是q去有限噪声值^方的U性组?即ؓ自回?。这样就构成了自回归条g异方差模型?
׃需要用到条g方差Q我们这里不采用恩格的比较严}的复杂的数学表达式,而是采取下面的表达方式,以便于我们把握模型的_N。见如下数学表达Q?
Yt = βXtQ?#949;t (1)其中Q?
如果误差的qx服从AR(q)q程Q即εt2 =a0Qa1εtQ?2 Qa2εtQ?2 Q?…… Q?aqεtQq2 Q?#951;t t =1,2,3…… (2)其中Q?
ηt独立同分布,q满EQ?#951;tQ? 0, D(ηt)= λ2 ,则称上述模型是自回归条g异方差模型。简CؓARCH模型。称序列εt 服从q阶的ARCH的过E,Cεt QARCH(q)。ؓ了保?#949;t2 为正|要求a0 >0 ,ai ≥0 i=2,3,4… ?
上面Q?Q和Q?Q式构成的模型被UCؓ回归QARCH模型。ARCH模型通常对主体模型的随机扰动进行徏模分析。以便充分的提取D差中的信息Q得最l的模型D差ηt成ؓ白噪声序列?
从上面的模型中可以看出,׃现在时刻噪声的方差是q去有限噪声值^方的回归Q也是说噪声的波动h一定的记忆性,因此Q如果在以前时刻噪声的方差变大,那么在此d声的方差往往也跟着变大Q如果在以前时刻噪声的方差变,那么在此d声的方差往往也跟着变小。体现到期货市场Q那是如果前一阶段期货合约h波动变大Q那么在此刻市场h波动也往往较大
GARCH模型是一个专门针寚w融数据所量体订做的回归模?
arima模型Q?/strong>
Autoregressive Integrated Moving Average Model?ARIMAQpQdQqQ称为差分自回归Udq_模型QAR是自回归, p回归? MA为移动^均,q为移动^均项敎ͼd为时间序列成为^Ex所做的差分ơ数?
ARIMA模型预测的基本程?
Q一Q根据时间序列的散点?/font>、自相关函数和偏自相兛_数图以ADF单位Ҏ?/font>?a>方差、趋势及其季节性变化规律,对序列的q稳性进行识别。一般来Ԍl济q行的时间序列都不是q稳序列?
Q二Q对非^E_列进行^E_处理。如果数据序列是非^E的Qƈ存在一定的增长或下降趋势,则需要对数据q行差分处理Q如果数据存在异方差Q则需Ҏ据进行技术处理,直到处理后的数据的自相关函数值和偏相兛_数值无显著地异于零?
Q三Q根据时间序列模型的识别规则Q徏立相应的模型。若q稳序列的偏相关函数是截Q而自相关函数是拖Q可断定序列适合AR模型Q若q稳序列的偏相关函数是拖Q而自相关函数是截Q则可断定序列适合MA模型Q若q稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型?
Q四Q进?a>参数估计Q检验是否具有统计意义?
Q五Q进?a>假设?/font>Q诊断残差序列是否ؓ白噪声?
Q六Q利用已通过验的模型q行预测分析?
取对数可以消除数据L动变大趋势,Ҏ列进行一阶差分,可以消除数据增长势性和季节性?
一个例子:
备g消耗预ARIMA(p,d,q)模型实质是先寚wq稳的备件消耗历史数据Ytq行dQdQ?,1,dots,nQ次差分处理得到新的q稳的数据序列XtQ将Xt拟合ARMA(p,q)模型Q然后再原dơ差分还原,便可以得到Y_t的预数据。其中,ARMA(p,q)的一般表辑ּ为:
(1)
式中Q前半部分ؓ自回归部分,非负整数p回归阶数Q?img alt="\varphi_1,\ldots,\varphi_p" src="http://wiki.mbalib.com/w/images/math/a/3/4/a34ff7b33cb6b9dee064215437f52349.png" />回归pLQ后半部分ؓ滑动q_部分Q非负整数q为滑动^均阶敎ͼ为滑动^均系敎ͼXt为备件消耗数据相兛_列,εt为WN(0,σ2)?
当q=0Ӟ该模型成为AR(p)模型Q?img alt="X_t=\varphi_1X_{t-1}+\ldots+\varphi_pX_{t-p}+\epsilon_t,t\in Z" src="http://wiki.mbalib.com/w/images/math/5/6/e/56e25e893374d05ee58655362dd1e65e.png" /> (2)
当pQ?Ӟ该模型成为MA(q)模型Q?img alt="X_t=\epsilon_t-\theta_1\epsilon_t-1-\ldots-\theta_q\epsilon_{t-q},t\in Z" src="http://wiki.mbalib.com/w/images/math/2/1/b/21b22616803ec48d24a4d5f1ea8d7440.png" /> (3)
所谓零均值化处理是取前Nl(或全部)数据作ؓ观测数据Q进行零均值化处理Q即Q?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/eb155942bb65_8972/Image(7)_2.png">Q得Cl预处理后的新序?a href="http://m.tkk7.com/images/blogjava_net/vcycyv/WindowsLiveWriter/eb155942bb65_8972/Image(8)_2.png">
?
SAS与arimaQ?/strong>
sas 有proc arima. 分ؓ三个阶段Q?
identification: 识别候选arima模型?
estimation and diagnositic checking: 为模型估计参敎ͼq提供诊断统计信息帮助判断模型是否好?
forcasting: 预测未来倹{?
q里有一个proc arima的例子: http://www.docin.com/p-46241714.html
贴一下代码,生成data set的部分略有改动,copy&paste pdf的数据到txt中,然后扚w输入data set. 方便生成data set
filename input "c:\temp\sun.txt";
data exp1;
infile input;
input a1 @@;
year=intnx('year','1jan1742'd,_n_-1);
format year year4.;
run;
proc gplot data=exp1;
symbol i=spline v=star h=2 c=green;
plot a1*year;
run;
proc arima data=exp1;
identify var=a1 nlag=24;
run;
estimate p=3;
run;
forecast lead=6 interval=year id=year out=out;
run;
proc print data=out;
run;
vcycyv:
1. nlag?4Q在图上看是一个w型?
2. 书上做identification步骤之后Q得出结论:“观察输出l果。初步识别序列ؓ AR(3)模型?#8221; 不确定这个结论是怎么得出来的Q?. 怎么截,怎么拖?2. ARQ?Q里那个3是怎么出来的?对第二个问题瞎猜一下,是看ACF图观察出来三个D推出来第四个gQ?
是那时开始不在蓝框内?/span>
q且ACF图此时ؓ拖尾
参考:
http://wiki.mbalib.com/wiki/%E6%97%B6%E9%97%B4%E5%BA%8F%E5%88%97%E9%A2%84%E6%B5%8B%E6%B3%95
http://wiki.mbalib.com/wiki/%E7%A7%BB%E5%8A%A8%E5%B9%B3%E5%9D%87%E6%B3%95
http://wiki.mbalib.com/wiki/%E6%8C%87%E6%95%B0%E5%B9%B3%E6%BB%91%E6%B3%95
http://zh.wikipedia.org/wiki/%E6%97%B6%E9%97%B4%E5%BA%8F%E5%88%97
http://zh.wikipedia.org/wiki/%E8%87%AA%E7%9B%B8%E5%85%B3%E5%87%BD%E6%95%B0
http://wiki.mbalib.com/wiki/ARIMA%E6%A8%A1%E5%9E%8B
http://www.docin.com/p-46241714.html
SAS help
q本书可以在q里扑ֈQ?/p>
http://storage.live.com/items/D8B11F9BF86FECFA!1358 Q下载之后把文g后缀名改?pdf卛_Q?skydrive换成html5之后Q外铑־不方便!Q?/p>
W记可以在这里找刎ͼ
http://storage.live.com/items/D8B11F9BF86FECFA!1374 Q下载之后把文g后缀名改?xmind卛_Q用XMind软g打开QY件可以在q里下蝲Q?a >http://www.xmind.net/Q?/p>
(引自wikipedia:http://en.wikipedia.org/wiki/Kendall_tau_rank_correlation_coefficient)
==============================================
Let (x1, y1), (x2, y2), ? (xn, yn) be a set of joint observations from two random variables X and Y respectively, such that all the values of (xi) and (yi) are unique. Any pair of observations (xi, yi) and (xj, yj) are said to be concordant if the ranks for both elements agree: that is, if both xi > xj and yi > yj or if both xi < xj and yi < yj. They are said to be discordant, if xi > xj and yi < yj or if xi < xj and yi > yj. If xi = xj or yi = yj, the pair is neither concordant nor discordant.
The Kendall τ coefficient is defined as:
=========================================================
同一文章l引用关于ties:
=========================================================
A pair {(xi, yi), (xj, yj)} is said to be tied if xi = xj or yi = yj; a tied pair is neither concordant nor discordant. When tied pairs arise in the data, the coefficient may be modified in a number of ways to keep it in the range [-1, 1]:
Tau-b statistic, unlike tau-a, makes adjustments for ties and is suitable for square tables. Values of tau-b range from ? (100% negative association, or perfect inversion) to +1 (100% positive association, or perfect agreement). A value of zero indicates the absence of association.
The Kendall tau-b coefficient is defined as:
where
================================================
靠,搞了半天才理解,上面公式中所谓nc, nd里面的c和dQ指的是concordant和discordant.
在sas中计Kendall tau-2比较单,直接用proc freqpQ原来proc freq如此强大啊?/font>
sasE序举例Q?/font>
data color;
input Region Eyes $ Hair $ Count @@;
label Eyes ='Eye Color'
Hair ='Hair Color'
Region='Geographic Region';
datalines;
1 blue fair 23 1 blue red 7 1 blue medium 24
1 blue dark 11 1 green fair 19 1 green red 7
1 green medium 18 1 green dark 14 1 brown fair 34
1 brown red 5 1 brown medium 41 1 brown dark 40
1 brown black 3 2 blue fair 46 2 blue red 21
2 blue medium 44 2 blue dark 40 2 blue black 6
2 green fair 50 2 green red 31 2 green medium 37
2 green dark 23 2 brown fair 56 2 brown red 42
2 brown medium 53 2 brown dark 54 2 brown black 13
;
proc freq data = color noprint ;
tables eyes*hair / measures noprint ;
weight count;
output out=output KENTB;
test KENTB;
run;
另外跟Kendall tau有点儿关联的是Somer’s DQ但是搜索了一下没看到公式Q反正Somer’s D也可以用sas proc freq直接,ҎcM?/font>
Somers' D(C|R) and Somers' D(R|C) are asymmetric modifications of tau-b.Somers' D differs from tau-b in that it uses a correction only for pairs that are tied on the independent variable.
Probability of default(PD)QPD是巴塞尔协议中一个重要的参数Q它用来计算某个客户或某批具有相似特征的客户h不还的概率?/p>
Hosmer–Lemeshow testQPD中众多统计检验的其中一U,评估预测g实际值在各个分组Qsubgroup, pool, binQ中拟合E度?/p>
自由度:自由度是指随机变量中所含独立随机变量的个数nQ如果这些独立随机变量受?i>k个约束条件的限制Q那么自由度变?i>n-kQ?/p>
概率密度函数Q是一个描q这个随机变量的输出值在某一个确定的取值点附近的可能性的函数?/p>
卡方Q?i>χ2Q分布:
?i>X1, X2,…,Xn是相互独立的随机变量且均服从标准正态分?i>N(0Q?)Q则随机变量
χ2= X12+X22+…+Xn
的分布称为服从自由度?i>n?b>χ2分布Q记?i>χ2?i>χ2(n)
卡方分布的密度函数图为:
二, Hosmer–Lemeshow test的用方?/p>
Hosmer–Lemeshow test 的统计量?
q里 Og, Eg, Ng, and πg C察到的事Ӟ预期的事Ӟ观察? 预测的第gthl的风险Q在PD模型中,Q, n是组? q个l计量符合自由度为n-2或n的卡方分布?
其他l计量都很直白,解释一?i>Eg的计:实际应用中,可以用当前分l的q约概率 x 当前分组的观值数目?/p>
有了l计量的g后,下一步计就要依?#8220;q个l计量符合自由度为n-2或n的卡方分?#8221;了。那么什么时候用自由度ؓnQ什么时候用自由度ؓn-2呢。在书Basel2 risk parameters里有q样一D解释在321c这本书可以在我的skydrive里找?a >https://skydrive.live.com/?cid=D8B11F9BF86FECFA&id=D8B11F9BF86FECFA%211346&sc=documents#Q?/p>
“When using the HSLS statistic as a measure of fit in the process of model finding, then
we say “in-sample”, because the model estimation sample and the sample on which the
measure of fit is computed are identically. In this case the distribution is F2 with G 2
degrees of freedom. When using the HSLS statistic for backtesting, we say “out-of-
sample”, because there is no observation coexistent in the estimation sample and the
validation sample. ”
如果理解没错的话Q在建模验证阶段Q自由度是n-2, 模型建好之后Q自由度都是n?
卡方验P值的计算方式? - 特定自由度下卡方的的CDFQ详见wikipediaQ?a title="http://en.wikipedia.org/wiki/Chi-square_distribution" >http://en.wikipedia.org/wiki/Chi-square_distribution中Table of χ2 value vs P value部分
CDF指的是Cumulative distribution functionQ就是分布函敎ͼ详见wikipedia: http://en.wikipedia.org/wiki/Cumulative_distribution_function
Kent Beck是敏L发v者之一Q很多敏L发v者后来都写了关于敏捷的书Q但Kent Beck的书是最有媄响力的,它的Extreme programming explained ?embrace change可以?a href="http://m.tkk7.com/vcycyv/archive/2011/02/14/344298.html">q篇博客中找到。这本书主要阐述敏捷的一pd理念Q对实践描述的ƈ不具体。scrum之类讲敏hE的书,对实跉|作的环节׃讲的很具体?strong>先了解ƈ接受敏捷的理念,再去看敏hE的话,比较Ҏ理解程背后的用意是什?/strong>Q只有深ȝ解了敏捷_Q才能比较好的实跉|捗而现实情况很多时候不是这P直接学习程L比较省事儿,于是scrump当成圣经直接拿来q了,人家mc hotdog早就说过Q“照单全收的盲从Q就像在吃屎”。我怿通常情况下,scrum的实践在一个项目组Q只有一部分能用得上,当然Q这已经是g很伟大的事情了。在一些常见的工作环境中,有些scrum的想法ƈ不适用?
一个方面是Qscrum“全功能团队”,每个Z解品的每一个featureQ团队h数在敏捷中是有限制的。但如果一个负责某个品的团队是?2Q?个hQ那么怎么办? 再拆成两个敏捷团队以适应敏捷对h数的要求Q垂直划分feature提供了细化团队的ZQ但产品不总能清晰C刀切成两半Q尤其还要考虑各个E序员有不同的专长,甚至Ҏ用的不是同一U编E语aQ如果团队只有一个cE序员,一个jsE序员,一个pl/sqlE序员,其他做javaQ那么切分项目组的方式是跟c有关的一l,跟js有关的另一l?底层架构和公共模块都不容易竖切。如果品比较大q且不易l分Q大安了解每个feature是很隑ց到的。如果品用的技术比较繁杂,pl/sql, js, java, ch都用Q全功能团队怎么实现Qjs的程序员跟cE序员也讲不C块儿d。我可以理解scrum的想法,也认同它的道理,但是在实际工作中Q如果确实h数对不上敏捷的要求,或者程序员的技术特长分散在不同层面Q这很难照搬scrum的实ch多开会费旉Q效果又不好Q鸡同鸭Ԍ各说各的。写c的h才不兛_js有什么技术瓶颈呢?
q有Qscrum想了个招儿,用打扑克的方式沟通需求和帮助定schedule。这是徏立在全功能团队的基础上的Q上面已l论q过了,如果产品比较大,E序员没法兼所有storyQ那成本太大了,打扑克也只能于形式Q尤其术业有专攻Q唯一的cE序员的工作只有他自׃计才有意义。更实际的问题是Q当你知道story具体需求的时候,q不以估计出时_E序员必ȝ道“怎么做”才能估出来比较靠谱的时间?strong>很多时候需要做一些research的工作以及一点儿prototype才好估时?/strong>Q在q样的情况下Q你非逼我出张牌,我只能出“问号”?有时候,虽然我不需要做prototype, 但我实也不能在5分钟之内理清思\, 知道用什么approach更合理,那么我怎么办,告诉大家ҎxQ等我一会儿Q技术问题本来也不应该规定在5分钟之内Z计划Q非逼我划倒也没问题,但是随后我就得重做计划。还有一个问题,大家一h牌,A知道q工作十有八九落在B头上QA可能Z好心多估旉QB可能Z面子估旉Q这些h为因素如何排除掉Q?
敏捷单元试Q这肯定是没错的。问题是Q各个团队之间容易开始攀比覆盖率Q其实程序员心里都明白,覆盖率的ƺ骗性很强,单元试的有效性更重要。如果单元测试又没A献于驱动开发,也没贡献于质量保证(单的apiQ诸如getter/setter之类的api是q样Q不用测试驱动直接就知道怎么写了Q写了手动测试一遍就知道写的没错Qcode以后也不可能改)Q那么就没必要写q种单元试Q写q种单元试的唯一好处是,成本低,比较Ҏ贡献覆盖率。麻烦在于,太多弱智q么_׃敏捷了,单元试覆盖率应该向某某弱智team看齐Q于是h在江湖,w不由己Q开始对付覆盖率。好吧,scrum其实也没说具体百分比Q这不是scrum的错?
我绝对不xLh者scrumQ我觉得q都是很的想法。只是听了太多“这不是敏捷”这U话Q?strong>是不是敏h本不重要Q能优化程Q让工作更有效才重要。我喜欢敏捷的地方在于,敏捷以h为本Q尊重程序员的各U诉求。正视design不能一y而就的现实。承认长期计划不靠谱。强调优先Q决定优先的时候从性h比的角度考虑。scrum的很多实践也很实用,比如backlog应该包含的内容等{不一一|列。敏捷不是一门玄奥难懂的技术,不需要花钱找培训机构受教肌Ӏ敏L出发点就是务实,用务实的态度拥抱敏捷p够好。套用二八原则,scrum的实践在实际中也许只需要吸?0%Q却能取?0%的效果,剩下?0%要靠Z敏捷_的创造力?/p>
那么接下来要要解决的问题是,怎么选择一个好的方向去学习领域知识。gartner之类的时常搞一些这斚w的调研,比如十大有前景IT技术之cȝ。他们预的未必准,但是M读这斚w的资料你自己也能感受C么方向至能长期混口饭吃。我直到最q才开始投入学习领域知识,商业是个很合适的方向?/p>
商业是Business Intelligence, UBIQ只是这个羃写容易被当作关键词给qo掉,所以这文字的标题仍然写全U?/p>
信息爆炸会越来越严重Q以后必然是数据的社会,BI可以从v量数据中获取价|q会是一个相对常青的行业。更现实的是Q我正好在做BI的公司工作,可以很方便地接触到相兌YӞw边也有q方面的高手可以提供指导。看Ch家如何分析问题,建立模型解决问题Q就有种强烈的感觉:q才是能赚钱的本领?/p>
BI的基是统计和数学分析Q公叔R不少人是学统计出w的Q连CEO也是。咱E序员多数在学校里学的是计算机,q方面比不上l计专业的hQ?是先天不。但是我单地了一下帐Q发现这U不不隑天补齐。如果初U目标是赶上l计专业的本U生Q据推断Q统计专业的人第一q不可能学上l计学,因ؓ高等数学是统计学的基Q统计学中讲分布函数和分布密度需要用到微U分Q极大似然函C要用到微U分Q所以计机专业的和l计专业的第一q没啥差距。而我们在学校也学q统计课Q那么我们和l计专业的差距主要集中在大二下学期之后的旉Q大四通常没啥重要的课可以Ԍ׃跟统计专业的也就差一q多的学习课E,q里q包括很大一部分马克思主义哲学之cL关的课,所以如果咱们勤奋一点,q齐l计专业的本U生只需要大U一q的旉Q也许还可以更短?/p>
大学学的微积分,U性代数和l计学早pl老师了,首先要复习一下这斚w的东ѝ前D|间刚复习完微U分Q统计学和一半儿U性代数。分享一下资源:
微积分之倚天?屠龙刀Q?http://ishare.iask.sina.com.cn/f/6933932.html
U性代数和概率l计Q?http://202.113.29.3/~gdsxjxb/wlkj/windows/artsmath/main/index2.htm
接下来还要掌握data mining的过E和ҎQ这个可以沿着SAS的semma理论学习Qsample, explore, modify, model, assess。每个方面都大有学问。还需要学会用相关的工具Q比如enterprise miner. 正在学习SAS~程。最后要跟定某个金钱无数的行业l深入学习,比如银行业?/p>
学这些不是ؓ了{行抢业务专家的饭,那太难了Q毕竟没有合适的环境。已l在Java上投入很多精力和旉Q好不容易积累一些技术实力,Java仍然是闯荡江湖的一资本,目标是做BI斚w产品的架构师Q遇到合适的位置Q就无可替代。与各位同行共勉Q?/p>
信用卡是指客户可以进行先透支消费Q后q款的金融工兗目前国内许多用信用卡的客户往往储蓄卡和信用卡的含义相互淆了Q因此在信用卡公司的后台数据记录上往往会出现许多余额ؓ负的客户Q余额ؓ正说明是有欠ƾ)Q而这U情况在国外几乎是不可能的? 信用卡公怸般来说是通过循环透支产生的利息和特约商户的折扣来获得收益。这也就是说Q一个消贚w额多但是每月都按时还Ƅ客户对信用卡公司来说往往不一定是一个“好”的客户Q真正“好”客h那些持箋使用循环透支q生利息收益的客户。由于信用卡公司的“先消费Q后q款”特点,卡公怸般都是风险厌恶型的企业,客户每欠?块钱Q则卡公司就会?块钱的风险暴霌Ӏ因此,信用卡公司的目的往往是希望在保持一个可接受的整体资产损q前提下,L更多的优质客P创造更多的实际收益。每个信用卡公司的风险管控策略往往是不一LQ像招商银行在信审方面比较宽松,授信额度也较高,但是它在催收斚w的力度较大;而类似广发银行在信审斚w比较严格Q而在催收斚w则显好的耐心Q表现出比较E_的作风?
在了解信用卡公司的经营状况之后,接下来谈谈信用卡公司涉及的数据挖掘模型。一个新客户与信用卡公司建立起客户关pȝ程大约是这LQ?
甌-〉审?〉发?〉交?〉出?〉还?〉催?〉核销-〉被动(dQ流?
相对应的Q在甌到发卡这个阶D可以徏立v“申误分”模型,q也是最为常见的信用卡模型。在构造申误分模型过E中Q往往会遇到“拒l推断”的问题Q解决问题的Ҏ是多LQ与信用卡公司的风险{略往往是紧密联pd一L?
在客户交易阶D,可以建立“客户分模型”对客户q行l分Q徏立“关联分析”模型来分析客户在品消Ҏ面的兌规则Q徏立“客hҎ型”来对客户在来的一个时间内的消贚w额进行预,从而设计相关的额度调整、利率调整策略?
在出账到催收阶段Q可以徏立v“拖Ơ模型”来预测客户在将来的拖欠概率Q徏立“催收模型”预客Lq款概率Q徏立“收益分析模型”对公司的整体收益情况进行评估?
在最后的部分Q也是说客户关p走向衰亡的阶段Q可以徏立“客h失模型”预客hq概率Q徏立“欺诈模型”找出客h诈的行ؓ模式Q徏立“违U的风险暴露”分析模型,分析在由于风险暴露对卡公叔R成的损失?/p>