??xml version="1.0" encoding="utf-8" standalone="yes"?>在线电影你懂的亚洲,久久精品国产亚洲av麻豆,337p日本欧洲亚洲大胆精品555588 http://m.tkk7.com/dongwq/archive/2009/12/14/305826.html强摩羯?/dc:creator>强摩羯?/author>Sun, 13 Dec 2009 16:17:00 GMThttp://m.tkk7.com/dongwq/archive/2009/12/14/305826.htmlhttp://m.tkk7.com/dongwq/comments/305826.htmlhttp://m.tkk7.com/dongwq/archive/2009/12/14/305826.html#Feedback0http://m.tkk7.com/dongwq/comments/commentRss/305826.htmlhttp://m.tkk7.com/dongwq/services/trackbacks/305826.html很不错的文章Q?br /> 漫谈高数http://blog.chinaunix.net/u2/88035/showart.php?id=1929192

]]>
zz20世纪十大法http://m.tkk7.com/dongwq/archive/2008/11/13/240361.html强摩羯?/dc:creator>强摩羯?/author>Thu, 13 Nov 2008 09:36:00 GMThttp://m.tkk7.com/dongwq/archive/2008/11/13/240361.htmlhttp://m.tkk7.com/dongwq/comments/240361.htmlhttp://m.tkk7.com/dongwq/archive/2008/11/13/240361.html#Feedback0http://m.tkk7.com/dongwq/comments/commentRss/240361.htmlhttp://m.tkk7.com/dongwq/services/trackbacks/240361.html[转帖] 二十世纪十大法
2008-10-12 11:03

二十世纪七大法Q?br /> 1946q 蒙特卡洛ҎQ?br /> 1951q 矩阵计算的分解方法;
1959~1961q 计算矩阵特征值的QR法Q?br /> 1962q 快速排序算法;
1965q 快速傅利叶变换法Q?br /> 1977q 整数关系探测法Q?br /> 1987q 快速多极算法?/p>

下面是二十世U最好的十大法Q?/p>

20世纪最好的法Q计机时代的挑选标准是对科学和工程的研I和实践影响最大。下面就是按q代ơ序排列?0世纪最好的10个算法?/p>

1. Monte CarloҎ
1946q_在洛斯阿拉莫斯科学实验室工作的John von NeumannQStan Ulam和Nick Metropolis~制了Metropolis法Q也UCؓMonte CarloҎ。Metropolis法旨在通过模仿随机q程Q来得到h难以控制的大量的自由度的数值问题和h阶乘规模的组合问题的q似解法。数字计机是确定性问题的计算的强有力工具Q但是对于随机性(不确定性)问题如何当时q不知晓QMetropolis法可以说是最早的用来生成随机敎ͼ解决不确定性问题的法之一?/p>

2. U性规划的单纯形方?br /> 1947q_兰d公司的Grorge Dantzig创造了U性规划的单纯形方法。就其广泛的应用而言QDantzig法一直是最成功的算法之一。线性规划对于那些要惛_l济上站住脚Q同时又有赖于是否具有在预算和其他约束条件下辑ֈ最优化的能力的工业界,有着军_性的影响(当然Q工业中?#8220;实际”问题往往是非U性的Q用线性规划有时候是׃估计的预,从而简化了模型而促成的)。单UŞ法是一U能辑ֈ最优解的精l的Ҏ。尽理Z讲其效果是指数衰减的Q但在实践中该算法是高度有效的——它本n说明了有兌的本质的一些有的事情?/p>

3. Krylov子空间叠代法
1950q_来自国国家标准局的数值分析研I所的Magnus Hestenes, Eduard Stiefel和Cornelius Lanczos开创了Krylov子空间叠代法的研制。这些算法处理看似简单的求解形ؓAx=b的方E的问题。当焉藏的困难在于A是一个巨型的n*n 矩阵Q致使代数解x=b/A是不Ҏ计算?实Q矩늚“盔R”不是一个实际上有用的概?。叠代法——诸如求解Ş为Kx(k+1)=Kx(k)+b-Ax(k)的方E,其中K 是一个理惛_“接近”A 的较为简单的矩阵——导致了Krylov子空间的研究。以俄罗斯数学家Nikolai Krylov命名的Krylov子空间由作用在初?#8220;余量”向量 r(0)=b-Ax(0)上的矩阵q张成的。当 A是对U矩阉|QLanczos扑ֈ了一U生成这U子I间的正交基的极好的Ҏ。对于对U正定的方程l,Hestenes 和Stiefel提出了称为共轭梯度法的甚x妙的Ҏ。过ȝ50q中Q许多研Ih员改qƈ扩展了这些算法。当前的一套方法包括非对称方程l的求解技巧,像字首羃D为GMRES和Bi-CGSTAB那样的算法?GMRES和Bi-CGSTAB分别首次出现?986?992 SIAM journal on Scientific and Statistical computing(国工业与应用数学学会的U学和统计计杂??/p>

4. 矩阵计算的分解方?br /> 1951q_树岭国家实验室的A1ston Householderpȝ阐述了矩阵计的分解Ҏ。研I证明能把矩阵因子分解ؓ三角、对角、正交和其他Ҏ形式的矩阉|极其有用的。这U分解方法软g研究人员能生产出灉|有效的矩阵Y件包。这也促q了数值线性代C反复出现的大问题之一的舍入误差分析问题?(1961qu敦国家物理实验室的James WilkinsonZ把矩阵分解ؓ下和上三角矩阵因子的U的LU分解Q在国计算机协?ACM)的杂志上发表了一题?#8220;矩阵逆的直接Ҏ的误差分?#8221;的重要文章?

5. Fortran最优编译程?/p>

1957q_John Backus在IBM领导一个小l研制Fortran最优编译程序。Fortran的创造可能是计算机编E历史上独一无二的最重要的事ӞU学?和其他h)l于可以无需依靠像地狱那样可怕的机器代码Q就可告诉计机他们惌做什么。虽然现代编译程序的标准q不q分――Fortran I只包?3Q?00条汇~语a指o――早期的~译E序仍然能完成o人吃惊的复杂计算。就像Backus本h?998q在IEEE annals of the History of computing 发表的有关Fortran IQII, III的近代历史的文章中回忆道Q编译程?#8220;所产生的如此有效的代码Q得其输出令研I它的编Eh员都感到吓了一跟?#8221;

6. 矩阵本征D的QR法
1959?1q_伦敦Ferranti Ltd.的J.G. F. Francis扑ֈ了一U称为QR法的计本征值的E_的方法。本征值大概是和矩늛q在—v的最重要的数了,而且计算它们可能是最需要技巧的。把—个斚w变换Z?#8220;几乎?#8221;上三角的矩阵――意卛_紧挨着矩阵d角线下面的一斜列上可能有非零元素――是相对Ҏ的,但要想不产生大量的误差就把这些非零元素消去,׃是^凡的事了。QR 法正好是能辑ֈq一目的的方法,ZQR 分解Q?A可以写成正交矩阵Q 和一个三角矩阵R 的乘U,q种Ҏ叠代地把 A=Q(k)R(k) 变成 A(k+1)==Q(k)R(k) 加速收敛到上三角矩阵而言多少有点不能指望?0世纪60q代中期QR 法把一度难以对付的本征值问题变成了例行E序的计?/p>

7. 快速分cL
1962Qu敦Elliott Brothers, Ltd.的Tony Hoare提出了快?按大?分类?把n个事物按数或字母的次序排列v来,在心Z是不会有什么触动的单调q_的事。智力的挑战在于发明一U快速完成排序的Ҏ。Hoare的算法利用了古老的分割开和控制的递归{略来解决问题:挑一个元素作?#8220;d”、把其余的元素分?#8220;大的”?#8220;的”两堆(当和d比较?、再在每一堆中重复q一q程。尽可能要做受C厉责备的做完全部N(N-1)/2 ơ的比较(特别是,如果你把d作ؓ早已按大分cd的表列的W一个元素的话!)Q快速分cLq行的^均次数具有O(Nlog(N)) 的有效性,其优的z性之成复杂性的著名的例子?/p>

8. 快速Fourier变换
1965q_IBM的T. J. Watson研究中心的James Cooley以及普林斯顿大学和ATQT贝尔实验室的John Tukey向公众透露了快速Fourier变换(Ҏ)(FFT)。应用数学中意义最p的算法,无疑是信号处理实现H破性进展的FFT。其基本思想要追溯到Gauss(他需要计小行星的轨?Q但是Cooley—Tukey的论文弄清楚了Fourier变换计算h有多Ҏ。就像快速分cL一PFFT有赖于用分割开和控制的{略Q把表面上o厌的O(N*N) 降到令h满意的O(Nlog(N)) 。但是不像快速分cLQ其执行(初一?是非直观的而且不那么直接。其本nq计算机科学一U推动力ȝI计问题和法的固有复杂性?/p>

9. 整数关系侦查法
1977q_BrighamYoung大学的Helaman Ferguson 和Rodney Forcade提出了整数关pM查算法。这是一个古老的问题Q给定—组实数Q例如说x(1),x(2),…,x(n) Q是否存在整数a(1),a(2),..,a(n) Q不全ؓӞQ?br /> a(1)x(1)+a(2)x(2)+…+a(n)x(n)=0
对于n=2 Q历史悠久的Ƨ几里得法能做q项工作、计x(1)/x(2) 的连分数展开中的各项。如果x(1)/x(2) 是有理数Q展开会终止,在适当展开后就l出?#8220;最的”整数a(1)和a(2) 。欧几里得算法不l止——或者如果你只是单地׃厌倦计——那么展开的过E至提供了最整数关pȝ大小的下界。Ferguson和Forcade的推q更有威力,管q种推广更难于执?和理?。例如,他们的侦查算法被用来求得逻辑斯谛(logistic)映射的第三和W四个分歧点Qb(3)=3.544090 ?b(4)=3.564407所满的多式的精系数?后者是120 阶的多项式;它的最大的pL?57^30 ?已证明该法在简化量子场Z的Feynman囄计算中是有用的?/p>

10. 快速多极算?br /> 1987q_耉大学的Leslie Greengard 和Vladimir Rokhlin发明了快速多极算法。该法克服了N体模拟中最令h头疼的困难之一Q经由引力或静电力相互作用的N个粒子运动的_计算(惌一下银河系中的星体Q或者蛋白质中的原于)看来需要O(N*N) 的计量——比较每一对质炚w要一ơ计。该法利用多极展开(净电荷或质量、偶极矩、四矩,{等)来近似遥q的一l质点对当地一l质点的影响。空间的层次分解用来定当距d大时Q比以往M时候都更大的质点组。快速多极算法的一个明显优Ҏh严格的误差估计,q是许多法所~少的性质?/p>

三、结束语
2l世纪会带来什么样的新的洞察和法Q对于又一个一癑ֹ完整的回{显然是不知道的。然而,有一点似乎是肯定的。正?0世纪能够产生最好的l0个算法一PCU对我们来说既不会是很宁静的Q也不会是弱智的?/p>



[转]http://alpswy.spaces.live.com/
By Barry A. Cipra

Algos is the Greek word for pain. Algor is Latin, to be cold. Neither is the root for algorithm, which stems instead from al-Khwarizmi, the name of the ninth-century Arab scholar whose book al-jabrwa’l muqabalah devolved into today’s high school algebra textbooks. Al-Khwarizmi stressed the importance of methodical procedures for solving problems. Were he around today, he’d no doubt be impressed by the advances in his eponymous approach.
Some of the very best algorithms of the computer age are highlighted in the January/February 2000 issue of Computing in Science & Engineering, a joint publication of the American Institute of Physics and the IEEE Computer Society. Guest editors Jack Don-garra of the University of Tennessee and Oak Ridge National Laboratory and Fran-cis Sullivan of the Center for Comput-ing Sciences at the Institute for Defense Analyses put togeth-er a list they call the “Top Ten Algorithms of the Century.”
“We tried to assemble the 10 al-gorithms with the greatest influence on the development and practice of science and engineering in the 20th century,” Dongarra and Sullivan write. As with any top-10 list, their selections—and non-selections—are bound to be controversial, they acknowledge. When it comes to picking the algorithmic best, there seems to be no best algorithm. Without further ado, here’s the CiSE top-10 list, in chronological order. (Dates and names associated with the algorithms should be read as first-order approximations. Most algorithms take shape over time, with many contributors.)

1.蒙特卡洛法
1946: John von Neumann, Stan Ulam, and Nick Metropolis, all at the Los Alamos Scientific Laboratory, cook up the Metropolis algorithm, also known as the Monte Carlo method. The Metropolis algorithm aims to obtain approximate solutions to numerical problems with unmanageably many degrees of freedom and to combinatorial problems of factorial size, by mimicking a random process. Given the digital computer’s reputation for deterministic calculation, it’s fitting that one of its earliest applications was the generation of random numbers.

2.单纯形法
1947: George Dantzig, at the RAND Corporation, creates the simplex method for linear programming. In terms of widespread application, Dantzig’s algorithm is one of the most successful of all time: Linear programming dominates the world of industry, where economic survival depends on the ability to optimize within budgetary and other constraints. (Of course, the “real” problems of industry are often nonlinear; the use of linear programming is sometimes dictated by the computational budget.) The simplex method is an elegant way of arriving at optimal answers. Although theoretically susceptible to exponential delays, the algorithm in practice is highly efficient—which in itself says something interesting about the nature of computation. In terms of widespread use, George Dantzig’s simplex method is among the most successful algorithms of all time.

3.Krylov子空间P代法
1950: Magnus Hestenes, Eduard Stiefel, and Cornelius Lanczos, all from the Institute for Numerical Analysis at the National Bureau of Standards, initiate the development of Krylov subspace iteration methods. These algorithms address the seemingly simple task of solving equations of the form Ax = b. The catch, of course, is that A is a huge n x n matrix, so that the algebraic answer x = b/A is not so easy to compute. (Indeed, matrix “division” is not a particularly useful concept.) Iterative methods—such as solving equations of the form Kxi + 1 = Kxi + b – Axi with a simpler matrix K that’s ideally “close” to A—lead to the study of Krylov subspaces. Named for the Russian mathematician Nikolai Krylov, Krylov subspaces are spanned by powers of a matrix applied to an initial“remainder” vector r0 = b – Ax0. Lanczos found a nifty way to generate an orthogonal basis for such a subspace when the matrix is symmetric. Hestenes and Stiefel proposed an even niftier method, known as the conjugate gradient method, for systems that are both symmetric and positive definite. Over the last 50 years, numerous researchers have improved and extended these algorithms. The current suite includes techniques for non-symmetric systems, with acronyms like GMRES and Bi-CGSTAB. (GMRES and Bi-CGSTAB premiered in SIAM Journal on Scientific and Statistical Computing, in 1986 and 1992, respectively.)

4.矩阵计算的分解方?
1951: Alston Householder of Oak Ridge National Laboratory formalizes the decompositional approach to matrix computations. The ability to factor matrices into triangular, diagonal, orthogonal, and other special forms has turned
out to be extremely useful. The decompositional approach has enabled software developers to produce flexible and efficient matrix packages. It also facilitates the analysis of rounding errors, one of the big bugbears of numerical linear algebra. (In 1961, James Wilkinson of the National Physical Laboratory in London published a seminal paper in the Journal of the ACM, titled “ Error Analysis of Direct Methods of Matrix Inversion,” based on the LU decomposition of a matrix as a product of lower and upper triangular factors.)

5.优化的Fortan~译?
1957: John Backus leads a team at IBM in developing the Fortran optimizing compiler. The creation of Fortran may rank as the single most important event in the history of computer programming: Finally, scientists (and others) could tell the computer what they wanted it to do, without having to descend into the netherworld of machine code. Although modest by modern compiler standards—Fortran I consisted of a mere 23,500 assembly-language instructions—the early compiler was nonetheless capable of surprisingly sophisticated computations. As Backus himself recalls in a recent history of Fortran I, II, and III, published in 1998 in the IEEE Annals of the History of Computing, the compiler “produced code of such efficiency that its output would startle the programmers who studied it.”

6.计算矩阵特征值的QR法
1959–61: J.G.F. Francis of Ferranti Ltd., London, finds a stable method for computing eigenvalues, known as the QR algorithm. Eigenvalues are arguably the most important numbers associated with matrices—and they can be the trickiest to compute. It’s relatively easy to transform a square matrix into a matrix that’s “ almost” upper triangular, meaning one with a single extra set of nonzero entries just below the main diagonal. But chipping away those final nonzeros, without launching an avalanche of error, is nontrivial. The QR algorithm is just the ticket. Based on the QR decomposition, which writes A as the product of an orthogonal matrix Q and an upper triangular matrix R, this approach iteratively changes Ai = QR into Ai + 1 = RQ, with a few bells and whistles for accelerating convergence to upper triangular form. By the mid-1960s, the QR algorithm had turned once-formidable eigenvalue problems into routine calculations.

7.快速排序算?br /> 1962: Tony Hoare of Elliott Brothers, Ltd., London, presents Quicksort. Putting N things in numerical or alphabetical order is mind-numbingly mundane. The intellectual challenge lies in devising ways of doing so quickly. Hoare’s algorithm uses the age-old recursive strategy of divide and conquer to solve the problem: Pick one element as a “pivot, ” separate the rest into piles of “big” and “small” elements (as compared with the pivot), and then repeat this procedure on each pile. Although it’s possible to get stuck doing all N(N – 1)/2 comparisons (especially if you use as your pivot the first item on a list that’s already sorted!), Quicksort runs on average with O(N log N) efficiency. Its elegant simplicity has made Quicksort the pos-terchild of computational complexity.

8.快速傅立叶变换
1965: James Cooley of the IBM T.J. Watson Research Center and John Tukey of Princeton University and AT&T Bell Laboratories unveil the fast Fourier transform. Easily the most far-reaching algo-rithm in applied mathematics, the
FFT revolutionized signal processing. The underlying idea goes back to Gauss (who needed to calculate orbits of asteroids), but it was the Cooley–Tukey paper that made it clear how easily Fourier transforms can be computed. Like Quicksort, the FFT relies on a divide-and-conquer strategy to reduce an ostensibly O(N2) chore to an O(N log N) frolic. But unlike Quick- sort, the implementation is (at first sight) nonintuitive and less than straightforward. This in itself gave computer science an impetus to investigate the inherent complexity of computational problems and algorithms.

9.整数关系探测法
1977: Helaman Ferguson and Rodney Forcade of Brigham Young University advance an integer relation detection algorithm. The problem is an old one: Given a bunch of real numbers, say x1, x2, . . . , xn, are there integers a1, a2, . . . , an (not all 0) for which a1x1 + a2x2 + . . . + anxn = 0? For n = 2, the venerable Euclidean algorithm does the job, computing terms in the continued-fraction expansion of x1/x2. If x1/x2 is rational, the expansion terminates and, with proper unraveling, gives the “smallest” integers a1 and a2. If the Euclidean algorithm doesn’t terminate—or if you simply get tired of computing it—then the unraveling procedure at least provides lower bounds on the size of the smallest integer relation. Ferguson and Forcade’s generalization, although much more difficult to implement (and to understand), is also more powerful. Their detection algorithm, for example, has been used to find the precise coefficients of the polynomials satisfied by the third and fourth bifurcation points, B3 = 3.544090 and B4 = 3.564407, of the logistic map. (The latter polynomial is of degree 120; its largest coefficient is 25730.) It has also proved useful in simplifying calculations with Feynman diagrams in quantum field theory.

10.快速多极算?
1987: Leslie Greengard and Vladimir Rokhlin of Yale University invent the fast multipole algorithm. This algorithm overcomes one of the biggest headaches of N-body simulations: the fact that accurate calculations of the motions of N particles interacting via gravitational or electrostatic forces (think stars in a galaxy, or atoms in a protein) would seem to require O(N2) computations—one for each pair of particles. The fast multipole algorithm gets by with O(N) computations. It does so by using multipole expansions (net charge or mass, dipole moment, quadrupole, and so forth) to approximate the effects of a distant group of particles on a local group. A hierarchical decomposition of space is used to define ever-larger groups as distances increase. One of the distinct advantages of the fast multipole algorithm is that it comes equipped with rigorous error estimates, a feature that many methods lack.

20世纪10大算?/h2>
1、蒙特卡|算法?946: John von Neumann, Stan Ulam, and Nick Metropolis
2、单UŞҎ?947: George Dantzig,学过q筹学的人都知道Q)
3、Krylov 子空间P代算法?950: Magnus Hestenes, Eduard Stiefel, and Cornelius Lanczos。在联想实习的期间看q?Krylov subspace:span{S,A*S,A^2*S,...,A^(k-1)*S}.
4、矩阵分解算法?951: Alston Householder?br /> 5、Fotran 最优化~译器?957: John Backus。不知道q个Z么也作法里面。Fotran在科学计中的确是具有里E碑性质的?br /> 6、QR法?959–61: J.G.F. Francis
7、快速排序算法?962: Tony Hoare。看了关于计机排序的研I还不是很早?br /> 8、FFT法?965: James Cooley
9、整数关pȝ定算法(Integer Relation Detecting AlgorithmsQ?977: Helaman Ferguson and Rodney Forcade。一个曾让我辗{反测的算法?br /> 10、快速多极算?Fast Multipole Algorithms )?987: Leslie Greengard and Vladimir Rokhlin。N体问题仿真的Q不太清楚?/font>


]]>zz:SVM相关理论http://m.tkk7.com/dongwq/archive/2008/06/21/209634.html强摩羯?/dc:creator>强摩羯?/author>Fri, 20 Jun 2008 17:12:00 GMThttp://m.tkk7.com/dongwq/archive/2008/06/21/209634.htmlhttp://m.tkk7.com/dongwq/comments/209634.htmlhttp://m.tkk7.com/dongwq/archive/2008/06/21/209634.html#Feedback0http://m.tkk7.com/dongwq/comments/commentRss/209634.htmlhttp://m.tkk7.com/dongwq/services/trackbacks/209634.htmlSVM相关理论
2007-11-30 12:35

Z数据的机器学习是C技术中的重要方面,研究从观数据(hQ出发寻找规律,利用q些规律Ҏ来数据或无法观测的数据进行预。迄今ؓ止,关于机器学习q没有一U被共同接受的理论框Ӟ关于其实现方法大致可以分ZU[3]Q?/p>

W一U是l典的(参数Q统计估计方?/span>。包括模式识别、神l网l等在内Q现有机器学习方法共同的重要理论基础之一是统计学。参数方法正是基于传l统计学的,在这U方法中Q参数的相关形式是已知的Q训l样本用来估计参数的倹{这U方法有很大的局限?
首先Q它需要已知样本分布Ş式,q需要花费很大代Pq有Q传l统计学研究的是h数目于无穷大时的渐q理论,现有学习Ҏ也多是基于此假设。但在实际问题中Q样本数往往是有限的Q因此一些理Z很优U的学习方法实际中表现却可能不h意?/p>

W二U方法是l验非线性方?/span>Q如人工经|络QANNQ。这U方法利用已知样本徏立非U性模型,克服了传l参C计方法的困难。但是,q种Ҏ~Z一U统一的数学理论。与传统l计学相比,l计学习理论QStatistical Learning Theory或SLTQ是一U专门研I小h情况下机器学习规律的理论。该理论针对样本统计问题徏立了一套新的理Zp,在这U体pM的统计推理规则不仅考虑了对渐近性能的要求,而且q求在现有有限信息的条g下得到最优结果。V. Vapnik{h从六、七十年代开始致力于此方面研IӞC十年代中期,随着其理论的不断发展和成熟,也由于神l网l等学习Ҏ在理Z~Z实质性进展,l计学习理论开始受到越来越q泛的重视?br /> l计学习理论的一个核心概念就是VCl?VC Dimension)概念Q它是描q函数集或学习机器的复杂性或者说是学习能?Capacity of the machine)的一个重要指标,在此概念基础上发展出了一pd关于l计学习的一致?Consistency)、收敛速度、推q性能(Generalization Performance){的重要l论?br /> l计学习理论是徏立在一套较坚实的理论基之上的,x限样本学习问题提供了一个统一的框架。它能将很多现有ҎU_其中Q有望帮助解册多原来难以解决的问题Q比如神l网l结构选择问题、局部极点问题{)Q?br /> 同时Q这一理论基础上发展了一U新的通用学习Ҏ──支持向量?/span>QSupport Vector Machine或SVMQ,已初步表现出很多优于已有Ҏ的性能。一些学者认为,SLT和SVM正在成ؓl神l网l研I之后新的研I热点,q将推动机器学习理论和技术有重大的发展?/p>

支持向量机方?/span>是徏立在l计学习理论的VCl理论和l构风险最原理基上的Q根据有限的h信息在模型的复杂?卛_特定训练h的学习精度,Accuracy)和学习能?x错误地识别Q意样本的能力)之间L最xP以期获得最好的推广能力(Generalizatin Ability)。支持向量机Ҏ的几个主要优ҎQ?br /> 1. 它是专门针对有限h情况的,其目标是得到现有信息下的最优解而不仅仅是样本数于无穷大时的最优|
2. 法最l将转化成ؓ一个二ơ型M问题Q从理论上说Q得到的是全局最优点Q解决了在神l网l方法中无法避免的局部极值问题;
3. 法实际问题通过非线性变换{换到高维的特征空?Feature Space)Q在高维I间中构造线性判别函数来实现原空间中的非U性判别函敎ͼҎ性质能保证机器有较好的推q能力,同时它y妙地解决了维数问题,其算法复杂度与样本维数无养I

在SVMҎ中,只要定义不同的内U函敎ͼ可以实现多式D、贝叶斯分类器、径向基函数(Radial Basic Function或RBF)Ҏ、多层感知器|络{许多现有学习算法?br /> l计学习理论从七十年代末诞生Q到九十q代之前都处在初U研I和理论准备阶段Q近几年才逐渐得到重视Q其本n也趋向完善,q生了支持向量一这U理Z诸实现的有效的机器学习方法?br /> 目前QSVM法在模式识别、回归估计、概率密度函C计等斚w都有应用?br /> 例如Q在模式识别斚wQ对于手写数字识别、语韌别、h脸图像识别、文章分cȝ问题QSVM法在精度上已经过传统的学习算法或与之不相上下?br /> 目前Q国际上对这一理论的讨论和q一步研I渐q泛Q而我国国内尚未在此领域开展研IӞ因此我们需要及时学习掌握有关理论,开展有效的研究工作Q我们在这一有着重要意义的领域中能够快赶上国际先进水^。由于SLT理论和SVMҎ处在发展阶D,很多斚w不完善Q比如:许多理论目前q只有理Z的意义,不能在实际法中实玎ͼ而有关SVM法某些理论解释也ƈ非完(J.C.Burges在[2]中就曾提到结构风险最原理ƈ不能严格证明SVMZ么有好的推广能力Q;此外Q对于一个实际的学习机器的VCl的分析没有通用的方法;SVMҎ中如何根据具体问题选择适当的内U函C没有理论依据。因此,在这斚w我们可做的事情是很多的?/p>

上文引自 水母bbs AI?/p>

相关资源

SVM的英文主站,
http://www.kernel-machines.org/

Support Vector Machine 作者的站点
http://www.support-vector.net

piaip ?(lib)SVM 易入門
http://ntu.csie.org/~piaip/svm/svm_tutorial.html

林智?cjlin)老師?libsvm for matlab
LIBSVM ?A Library for Support Vector Machines
Chih-Chung Chang and Chih-Jen Lin
http://www.csie.ntu.edu.tw/~cjlin/libsvm/



]]>
zz:SVM学习之四——从机器学习到支持向量机http://m.tkk7.com/dongwq/archive/2008/06/21/209633.html强摩羯?/dc:creator>强摩羯?/author>Fri, 20 Jun 2008 17:01:00 GMThttp://m.tkk7.com/dongwq/archive/2008/06/21/209633.htmlhttp://m.tkk7.com/dongwq/comments/209633.htmlhttp://m.tkk7.com/dongwq/archive/2008/06/21/209633.html#Feedback0http://m.tkk7.com/dongwq/comments/commentRss/209633.htmlhttp://m.tkk7.com/dongwq/services/trackbacks/209633.htmlSVM学习之四——从机器学习到支持向量机

上一?/a> / 下一?/a>  2007-09-27 10:41:06 / 个h分类Q?a >svm

?/strong>器学?Machine Learning, ML)的目的是Ҏl定的训l样本求Ҏpȝ输入输出之间依赖关系的估计,使它Q这U关p)能够Ҏ知输出做出尽可能准确地预。机器学习至今没有一个精的公认?a onclick="javascript:tagshow(event, '%B6%A8%D2%E5');" href="javascript:;" target="_self">定义。作Zh工智?Artificial Intelligence, AI)的一个重?a onclick="javascript:tagshow(event, '%D1%D0%BE%BF');" href="javascript:;" target="_self">研究领域QML的研I工作主要围l学习机理、学习方法和面向dq三个基本方面进行研I?strong>模式识别、函数D和概率密度估计是三类基本的ML问题?/strong>

 

从数学的角度来考虑Q?strong>机器学习问题是已知n个独立同分布的观样本,在同一l预函C求一个最优的函数对依赖关p进行估计,使期望风险R[f]最?font color="#ff0000">损失函数是评价预准程度的一U度量,它与预测函数f(x)密切相关。而f(x)的期望风险依赖于概率分布和损失函敎ͼ前者是客观存在的,后者是Ҏ具体问题选定的,带有Q主观的Qh为的或偏好色彩?strong>期望风险的大?/font>直观上可以理解ؓQ当我们用f(x)q行预测Ӟ“q_”的损q度,?#8220;q_”犯错误的E度?/p>

 

但是Q?strong>只有h却无法计期望风?/strong>Q因此,传统的学习方法用h定义l验风险Remp[f]作ؓҎ望风险的估计Qƈ设计学习法使之最化?/strong>x谓的l验风险最化(Empirical Risk Minimization, ERM)归纳原则?strong>l验风险是用损失函数来计的?/strong>对于模式识别问题的损失函数来_l验风险是训练h错误率;对于函数D问题的损失函数来_是qx训练误差Q而对于概率密度估计问题的损失函数来说QERM准则q价于最大似然法。事实上Q用ERM准则代替期望风险最化q没有经q充分的理论Q只是直观上合理的想当然做法。也是_l验风险最不一定意味着期望风险最?/strong>其实Q只有样本数目趋q于无穷大时Q经验风险才有可能趋q于期望风险。但是很多问题中h数目LI大很远Q那么在有限h下ERM准则׃一定能使真实风险较啦。ERM准则不成功的一个例子就是神l网l的q学习问?/font>Q某些情况下Q训l误差过反而导致推q能力下降,或者说是训l误差过导致了预测错误率的增加Q即真实风险的增加)?/p>

 

l计学习理论(Statistical Learning Theory, SLT)和支持向量机(Support Vector Machine, SVM)建立了一套较好的有限训练h下机器学习的理论框架和通用ҎQ既有严格的理论基础Q又能较好地解决样本、非U性、高l数和局部极点{实际问题,?strong>核心思想是学习机器Q又叫预函敎ͼ或学习函敎ͼ或学习模型)F要与有限的训l样本相适应?/strong>在学习算法中需要选择恰当的FQ这里的关键因素是F的大,或者F的丰富程度,或者说F?#8220;表达能力”QVCl?Vapnik-Chervonenkis Dimension)是对这U?#8220;表达能力”的一U描q?/p>

 

VCl的定义如下Q对于一个指C函数集Q如果存在h个样本能够被函数集中的函数按所有可能的2的hơ幂UŞ式分开Q则U函数集能够把h个样本都打散Qh的最大值就是函数集的VCl。VCl是SLT中的一个重要概念,它是函数集学习性能的重要指标?strong>目前没有通用的关于Q意函数集VCl计的理论Q只知道一些特D的函数集的VCl?/strong>比如Q在nl空间中U性分cd和线性实函数的VCl是 n+1Q?f(x,a) = sin(ax) 的VCl则为无I大?strong>对于l定的学习函数集Q如何(用理论或实验的方法)计算其VCl是当前l计学习理论中有待研I的一个问题?/strong>

 

׃文可知,在有限样本情况下Q仅仅用ERM来近似期望风险是行不通的。统计学习理论给Z期望风险 R[f] 与经验风?Remp[f] 之间关系QR[f] <= ( Remp[f] + e )。其?e = g(h/n) 为置信区_e 是VCl?h 的增函数Q也是样本数n的减函数。右端称?strong>l构风险Q它是期望风?R[f] 的一个上界?strong>l验风险的最依赖较大的 F Q样本数较多的函数集Q中某个 f 的选择Q但?F 较大Q则VCl较大,导致置信区?e 变大Q所以要想期望风险 R[f] 最,必须选择合适的 h ?n 来不等式右边的l构风险最,q就?font color="#ff0000">l构风险最化(Structural Risk Minimization, SRM)归纳原则?/strong>实现SRM的思\之一是设计函数集的某种l构使每个子集中都能取得最的l验风险Q如使训l误差ؓ0Q,然后只需选择适当的子集ɾ|信范围最,则这个子集中使经验风险最的函数是最优函数。SVMҎ实际上就是这U思想的具体实现?/p>

 

SVM是一U基于统计的学习ҎQ它是对SRM的近伹{概括地_SVM是首先通过用内U函数定义的非线性变换将输入I间变换C个高l空_然后再在q个I间中求Q广义)最优分c面的分cL法?/strong>



]]>
zz:机器学习http://m.tkk7.com/dongwq/archive/2008/06/21/209630.html强摩羯?/dc:creator>强摩羯?/author>Fri, 20 Jun 2008 16:55:00 GMThttp://m.tkk7.com/dongwq/archive/2008/06/21/209630.htmlhttp://m.tkk7.com/dongwq/comments/209630.htmlhttp://m.tkk7.com/dongwq/archive/2008/06/21/209630.html#Feedback0http://m.tkk7.com/dongwq/comments/commentRss/209630.htmlhttp://m.tkk7.com/dongwq/services/trackbacks/209630.html2008-06-17 21:22

      忙于目Q看了一些理Zc,L觉雾里看花,Z能有点动力,我准备写一些ȝ?img style="width: 21px; height: 22px" height="22" src="http://img.baidu.com/hi/face/i_f01.gif" width="17" alt="" />
1 机器学习问题表示
变量y与输入x之间存在一定的关系Q即存在二维联合概率密度FQxQyQ?br /> 机器学习Ҏm个独立,同分布观样本求Z个最优函数y=fQxQaQ,佉K的期望风险最?/font>
RQaQ? |QQyQfQxQaQ)dFQxQyQ,其中QQyQfQxQaQ)是fQxQaQ与y之间的损失函?br />
2 l验风险最化
׃q不知道FQxQyQ,所以无法利用期望风险来求fQxQaQ,但根据大数定理的思想Q可以用术q_代替数学期望     RempQaQ? 1/mQQQyiQfQxiQaQ)+......Q,使样本均值最求出fQxQaQ中参数a

3 最均值方?/font>
求经验风险最可以看做是最x合问题,E = Qyi-fQxiQaQ)**2+ ..........
在调整权值时需要这样一个算法:在有了新的训l样本时可以在原来的基础上进一步精化权倹{对于每一个训l样例,它把权值向减少误差的方向略整。这个算法可以看做对可能的假设权值空间进行随机的梯度下降搜烦。权值w更新方式为:w<--w+lQyi - fQxiQaQ)xi

4函数集的vcl?/font>
函数集QQzQaQvcl等于能够用该函数集以所有可能的2**kU方式分成不同两cȝ向量z1Qz2....最大数目。越复杂的函数vcl越高?br /> 期望风险RQa Q?= l验风险RempQaQ?sqrQh/mQ,可见vcl增加会D期望风险增加?/p>

5l构风险最化
minQ经验风险RempQaQ?sqrQh/mQ)

6支持向量?/font>
svm的基本思想是通过事先选择的线性或非线性的映射输入向量映到高维特征I间中,在这个空间中利用了最优化理论和泛化性理论,同时引入了超q面的概念(减少vcl_Q来构造最优决{函敎ͼqy妙地利用核函数来代替高维特征I间的点U运,从而避免了复杂的计?/p>

7贝叶斯决{?/font>
设要识别的对象有d中特征测量值x1Qx2.....xdQ每U特征都是一个随机变量?br /> ?font color="#ff0000">giQxQؓ对应icȝ风险函数Q利用先验概?/font>Q相应的分类规则为:
如果giQxQ?gt;gjQxQ,iQj = 1Q?Q?..cQ?j!= iQ则x属于Wic,决策面方Eؓ giQxQ? gjQxQ?/p>

8分类与聚c?/font>
分类Q样本已知所属类别,求出分类函数Q对新的hq行识别
聚类Q样本无cdQ根据其分布距离q行分类

9U性分cd
定义一?font color="#ff0000">准则函数
JQwQxQ,w是分cd参数Q它?font color="#ff0000">最?/font>对应着最优解。得到梯度法q代公式Q?br /> wQk+1Q? wQkQ?pQ△JQ?br /> 因ؓ判别函数gQxQ满I
g(x)>0 x∈w
g(x)<0 x!∈w

准则函数有最^方误差,最错分类{?/p>

10聚类
怼性测度:Ƨ式距离Q马氏距,明氏距离Q夹角余?br /> 散布准则Q类内散布,c间散布QL?br /> 求解q程是聚cM心点q代

11特征抽取和选择
选择Q选取要用的特征
抽取Q利用选择出来的特征进行降l变?br /> 抽取Ҏ有线性变换,L分分析的最佳矩阵变换,



]]>
zz:MIT一牛hҎ学在机器学习中的作用l的评述http://m.tkk7.com/dongwq/archive/2008/06/21/209628.html强摩羯?/dc:creator>强摩羯?/author>Fri, 20 Jun 2008 16:53:00 GMThttp://m.tkk7.com/dongwq/archive/2008/06/21/209628.htmlhttp://m.tkk7.com/dongwq/comments/209628.htmlhttp://m.tkk7.com/dongwq/archive/2008/06/21/209628.html#Feedback0http://m.tkk7.com/dongwq/comments/commentRss/209628.htmlhttp://m.tkk7.com/dongwq/services/trackbacks/209628.html感觉数学gL不够的。这些日子ؓ了解决research中的一些问题,又在图书馆捧起了数学的教U书?/p>

?大学到现在,译֠上学的和自学的数学其实不少了,可是在研I的q程中L发现需要补充新的数学知识。Learning和Vision都是很多U数学的?汇场。看着不同的理Zpȝ交汇Q对于一个researcher来说Q往往是非常exciting的enjoyable的事情。不q,q也代表着要充分了 解这个领域ƈ且取得有意义的进展是很艰苦的?/p>

记得在两q前的一ơblog里面Q提到过和learning有关的数学。今天看来,我对于数学在q个领域的作用有了新的思考?/p>

对于Learning的研IӞ

Linear Algebra (U性代? ?Statistics (l计? 是最重要和不可缺的。这代表了Machine Learning中最L的两大类Ҏ的基。一U是以研I函数和变换为重点的代数ҎQ比如Dimension reductionQfeature extractionQKernel{,一U是以研I统计模型和h分布为重点的l计ҎQ比如Graphical model, Information theoretical models{。它们侧重虽有不同,但是常常是共同用的Q对于代数方法,往往需要统计上的解释,对于l计模型Q其具体计算则需要代数的帮助?/p>

以代数和l计为出发点Ql往深处赎ͼ我们会发现需要更多的数学?/p>

Calculus (微积?Q只是数学分析体pȝ基础。其基础性作用不a而喻。Learning研究的大部分问题是在q箋的度量空间进行的Q无Z数还是统计,在研I优?问题的时候,对一个映的微分或者梯度的分析L不可避免。而在l计学中QMarginalization和积分更是密不可分——不q,以解析Ş式把U分 导出来的情况则不多见?/p>

Partial Differential Equation Q偏微分方程)Q这主要用于描述动态过E,或者仿动态过E。这个学U在Vision中用得比Learning多,主要用于描述q箋场的q动或者扩散过E?比如Level set, Optical flow都是q方面的典型例子?/p>

Functional Analysis (泛函分析)Q?通俗圎ͼ可以理解为微U分从有限维I间到无限维I间的拓展——当然了Q它实际上远不止于此。在q个地方Q函C及其所作用的对象之间存在的对偶关系扮演?非常重要的角艌ӀLearning发展至今Q也在向无限lg伸——从研究有限l向量的问题C无限l的函数为研I对象。Kernel Learning ?Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。很多做Learning的h把Kernel单理解ؓKernel trick的运用,q就把kernel的意义严重弱化了。在泛函里面QKernel (Inner Product) 是徏立整个博大的代数体系的根本,从metric, transform到spectrum都根源于此?/p>

Measure Theory (度理论)Q这是和实分析关p非常密切的学科。但是测度理论ƈ不限于此。从某种意义上说QReal Analysis可以从Lebesgue MeasureQ勒贝格度Q推演,不过其实q有很多别的度体系——概率本w就是一U测度。测度理论对于Learning的意义是Ҏ的,Cl计学整 个就是徏立在度理论的基之上——虽然初U的概率论教U书一般不q样引入。在看一些统计方面的文章的时候,你可能会发现Q它们会把统计的公式改用度?表达Q这样做有两个好处:所有的推导和结Z用分别给q箋分布和离散分布各自写一遍了Q这两种东西都可以用同一的测度Ş式表达:q箋分布的积分基?Lebesgue度Q离散分布的求和Z计数度Q而且q能推广到那U既不连l又不离散的分布中去Q这U东西不是数学家的游戏,而是已经在实用的东西Q?在Dirchlet Process或者Pitman-Yor Process里面会经常看?。而且Q即使是q箋U分Q如果不是在Ƨ氏I间q行Q而是在更一般的拓扑I间Q比如微分流形或者变换群Q,那么传统的黎曼积 分(是大学一q在微U分译֭的那U)׃work了,你可能需要它们的一些推q,比如Haar Measure或者Lebesgue-StieltjesU分?/p>

TopologyQ拓扑学)Q这是学术中很基的学U。它一般不直接?供方法,但是它的很多概念和定理是其它数学分支的基矟뀂看很多别的数学的时候,你会l常接触q样一些概念:Open set / Closed setQset basisQHausdauf, continuous functionQmetric space, Cauchy sequence, neighborhood, compactness, connectivity。很多这些也许在大学一q񔞮学习过一些,当时是基于极限的概念获得的。如果,看过拓扑学之后,对这些概늚认识会有Ҏ性的?展。比如,q箋函数Q当时是由epison法定义的Q就是无论取多小的正数epsilonQ都存在xxxQ得xxx。这是需要一Umetricd量距 ȝQ在general topology里面Q对于连l函数的定义q坐标和距离都不需要——如果一个映得开集的原像是开集,它就是连l的——至于开集是Z集合论定义的Q不 是通常的开区间的意思。这只是最单的例子。当Ӟ我们研究learning也许不需要深I这些数学概念背后的公理体系Q但是,打破原来定义的概늚局?在很多问题上是必ȝ——尤其是当你研究的东西它不是在欧氏空间里面的时候——正交矩阵,变换,ŞQ概率分布的I间Q都属于此?/p>

Differential Manifold (微分Ş)Q?通俗地说它研I的是^滑的曲面。一个直接的印象是它是不是可以用来fitting一个surface什么的——当然这是一U应用,但是q是非常初步的?本质上说Q微分流形研I的是^滑的拓扑l构。一个空间构成微分流形的基本要素是局部^滑:从拓扑学来理解,是它的L局部都同胚于欧氏空_从解析的?度来看,是相容的局部坐标系l。当Ӟ在全局上,它不要求和欧氏空间同胚。它除了可以用于ȝ集合上的qx曲面外,更重要的意义在于Q它可以用于研究?多重要的集合。一个n-l线性空间的全部k-l子I间(k < n)构成了一个微分流形——著名的Grassman Manifold。所有的标准正交阵也构成一个流形。一个变换群作用于一个空间Ş成的轨迹(Orbit) 也是通常会Ş成流形。在Ş上,各种的分析方法,比如映射Q微分,U分都被ULq来了。前一两年在Learning里面火了好长旉的Manifold Learning其实只是研究了这个分支的其中一个概늚应用: embedding。其实,它还有很多可以发掘的I间?/p>

Lie Group Theory (李群?Q一般意义的论在Learning中被q用的不是很多,论在Learning中用得较多的是它的一个重要方向Lie group。定义在qx行上的,q且其群q算是^滑的话,那么q就叫李。因为Learning和编码不同,更多x的是q箋I间Q因为Lie group在各U群中对于Learning特别重要。各U子I间Q线性变换,非奇异矩阵都Z通常意义的矩阵乘法构成李。在李群中的映射Q变换,度量Q?划分{等都对于Learning中代数方法的研究有重要指导意义?/p>

Graph TheoryQ图?Q图Q由于它在表q各U关pȝ强大能力以及优雅的理论,高效的算法,来受到Learning领域的欢q。经典图论,?Learning中的一个最重要应用是graphical models了,它被成功q用于分析统计网l的l构和规划统计推断的程。Graphical model所取得的成功,图论可谓功不可没。在Vision里面Qmaxflow (graphcut)法在图像分ԌStereoq有各种能量优化中也q受应用。另外一个重要的图论分支是Algebraic graph theory (代数图论)Q主要运用于囄谱分析,著名的应用包括Normalized Cut和Spectral Clustering。近q来在semi-supervised learning中受到特别关注?/p>

]]>
վ֩ģ壺 999þþѾƷ| Ʒާѡ벥鶹| avɫ| AVƷɫ | ۺɫ鶹| ޸Դ߹ۿ| ޸Ӱһ?| ˳Ƭ߹ۿ| ޹Ʒһ߹ۿ| ձ߲| ɫվwwwþþ | ޹˾þþƷ | ĻӰԺ4hu| ޹˾Ʒþþþþۺ | Ļavѷ| ҹѸӰԺ| ҹavƵ| ұͨӰƬ߲ | 㶮߹ۿ| 91ѽ| Ӱѹۿ| ŷ͵ҹɫ| 쾫Ʒ߹ۿ| ˾Ʒ˳| 97Ʒѹۿ| Ƶֻ߹ۿַ| ܻƺɫܴ̼Ƶ| ȾþþƷƵ| av뾫Ʒվ | Ƶ| һѹۿ| Ƶѹۿ| 99ѹƷ| ѱ̬Ƶַվ| Av츾߳30p| ѹݮƵ߹ۿ| Ļ2019| ޳avƬ߹ۿ | ձһ| ޾ƷþþþAPP| òݸԴվ|