在线电影你懂的亚洲,久久精品国产亚洲av麻豆,337p日本欧洲亚洲大胆精品555588

zz20世纪十大��法

Thu, 13 Nov 2008 09:36:00 GMT

[转帖] 二十世纪十大��法

2008-10-12 11:03

二十世纪七大��法�Q?br /> 1946�q�　蒙特卡洛�Ҏ��Q?br /> 1951�q�　矩阵计算的分解方法；
1959~1961�q�　计算矩阵特征值的QR��法�Q?br /> 1962�q�　快速排序算法；
1965�q�　快速傅利叶变换��法�Q?br /> 1977�q�　整数关系探测��法�Q?br /> 1987�q�　快速多极算法�?/p>

下面是二十世�U�最好的十大��法�Q?/p>

20世纪最好的��法�Q�计��机时代的挑选标准是对科学和工程的研�I�和实践影响最大。下面就是按�q�代�ơ序排列�?0世纪最好的10个算法�?/p>

1. Monte Carlo�Ҏ��
1946�q�_��在洛斯阿拉莫斯科学实验室工作的John von Neumann�Q�Stan Ulam和Nick Metropolis�~�制了Metropolis��法�Q�也�U�CؓMonte Carlo�Ҏ��。Metropolis��法旨在通过模仿随机�q�程�Q�来得到��h��难以控制的大量的自由度的数值问题和��h��阶乘规模的组合问题的�q�似解法。数字计��机是确定性问题的计算的强有力工具�Q�但是对于随机性（不确定性）问题如何当时�q�不知晓�Q�Metropolis��法可以说是最早的用来生成随机敎ͼ�解决不确定性问题的��法之一�?/p>

2. �U�性规划的单纯形方�?br /> 1947�q�_��兰�d公司的Grorge Dantzig创造了�U�性规划的单纯形方法。就其广泛的应用而言�Q�Dantzig��法一直是最成功的算法之一。线性规划对于那些要惛_��l�济上站住脚�Q�同时又有赖于是否具有在预算和其他约束条件下辑ֈ�最优化的能力的工业界，有着军_��性的影响(当然�Q�工业中�?#8220;实际”问题往往是非�U�性的�Q��用线性规划有时候是�׃��估计的预��，从而简化了模型而促成的)。单�U��Ş法是一�U�能辑ֈ�最优解的精�l�的�Ҏ��。尽��理��Z��讲其效果是指数衰减的�Q�但在实践中该算法是高度有效的——它本��n说明了有兌��的本质的一些有��的事情�?/p>

3. Krylov子空间叠代法
1950�q�_��来自��国国家标准局的数值分析研�I�所的Magnus Hestenes, Eduard Stiefel和Cornelius Lanczos开创了Krylov子空间叠代法的研制。这些算法处理看似简单的求解形�ؓAx=b的方�E�的问题。当焉��藏的困难在于A是一个巨型的n*n 矩阵�Q�致使代数解x=b/A是不�Ҏ��计算�?��实�Q�矩�늚�“盔R��”不是一个实际上有用的概�?。叠代法——诸如求解�Ş为Kx(k+1)=Kx(k)+b-Ax(k)的方�E�，其中K 是一个理惛_��“接近”A 的较为简单的矩阵——导致了Krylov子空间的研究。以俄罗斯数学家Nikolai Krylov命名的Krylov子空间由作用在初�?#8220;余量”向量 r(0)=b-Ax(0)上的矩阵�q�张成的。当 A是对�U�矩阉|��Q�Lanczos扑ֈ�了一�U�生成这�U�子�I�间的正交基的极好的�Ҏ��。对于对�U�正定的方程�l�，Hestenes 和Stiefel提出了称为共轭梯度法的甚��x��妙的�Ҏ��。过�ȝ��50�q�中�Q�许多研�I��h员改�q��ƈ扩展了这些算法。当前的一套方法包括非对称方程�l�的求解技巧，像字首羃��D��为GMRES和Bi-CGSTAB那样的算法�?GMRES和Bi-CGSTAB分别首次出现�?986�?992 SIAM journal on Scientific and Statistical computing(��国工业与应用数学学会的�U�学和统计计��杂�?�?/p>

4. 矩阵计算的分解方�?br /> 1951�q�_��树岭国家实验室的A1ston Householder�pȝ��阐述了矩阵计��的分解�Ҏ��。研�I�证明能把矩阵因子分解�ؓ三角、对角、正交和其他�Ҏ��形式的矩阉|��极其有用的。这�U�分解方法��软�g研究人员能生产出灉|��有效的矩阵��Y件包。这也促�q�了数值线性代��C��反复出现的大问题之一的舍入误差分析问题�?(1961�q��u敦国家物理实验室的James Wilkinson��Z��把矩阵分解�ؓ下和上三角矩阵因子的�U�的LU分解�Q�在��国计算机协�?ACM)的杂志上发表了一��题�?#8220;矩阵逆的直接�Ҏ��的误差分�?#8221;的重要文章�?

5. Fortran最优编译程�?/p>

1957�q�_��John Backus在IBM领导一个小�l�研制Fortran最优编译程序。Fortran的创造可能是计算机编�E�历史上独一无二的最重要的事�Ӟ��U�学�?和其他�h)�l�于可以无需依靠像地狱那样可怕的机器代码�Q�就可告诉计��机他们惌��做什么。虽然现代编译程序的标准�q�不�q�分――Fortran I只包�?3�Q?00条汇�~�语�a�指��o――早期的�~�译�E�序仍然能完成��o人吃惊的复杂计算。就像Backus本�h�?998�q�在IEEE annals of the History of computing 发表的有关Fortran I�Q�II, III的近代历史的文章中回忆道�Q�编译程�?#8220;所产生的如此有效的代码�Q��得其输出令研�I�它的编�E��h员都感到吓了一跟�?#8221;

6. 矩阵本征��D��的QR��法
1959�?1�q�_��伦敦Ferranti Ltd.的J.G. F. Francis扑ֈ�了一�U�称为QR��法的计��本征值的�E�_��的方法。本征值大概是和矩�늛��q�在—�v的最重要的数了，而且计算它们可能是最需要技巧的。把—个斚w��变换��Z��?#8220;几乎�?#8221;上三角的矩阵――意卛_��紧挨着矩阵��d��角线下面的一斜列上可能有非零元素――是相对�Ҏ��的，但要想不产生大量的误差就把这些非零元素消去，��׃��是��^凡的事了。QR ��法正好是能辑ֈ��q�一目的的方法，��Z��QR 分解�Q?A可以写成正交矩阵Q 和一个三角矩阵R 的乘�U�，�q�种�Ҏ��叠代地把 A=Q(k)R(k) 变成 A(k+1)==Q(k)R(k) ��加速收敛到上三角矩阵而言多少有点不能指望�?0世纪60�q�代中期QR ��法把一度难以对付的本征值问题变成了例行�E�序的计��?/p>

7. 快速分�c�L��
1962�Q��u敦Elliott Brothers, Ltd.的Tony Hoare提出了快�?按大��?分类�?把n个事物按数或字母的次序排列�v来，在心��Z��是不会有什么触动的单调�q�_��的事。智力的挑战在于发明一�U�快速完成排序的�Ҏ��。Hoare的算法利用了古老的分割开和控制的递归�{�略来解决问题：挑一个元素作�?#8220;��d��”、把其余的元素分�?#8220;大的”�?#8220;��的”两堆(当和��d��比较�?、再在每一堆中重复�q�一�q�程。尽��可能要做受��C��厉责备的做完全部N(N-1)/2 �ơ的比较(特别是，如果你把��d��作�ؓ早已按大��分�c�d��的表列的�W�一个元素的话！)�Q�快速分�c�L��q�行的��^均次数具有O(Nlog(N)) 的有效性，其优��的��z�性��之成��复杂性的著名的例子�?/p>

8. 快速Fourier变换
1965�q�_��IBM的T. J. Watson研究中心的James Cooley以及普林斯顿大学和AT�Q�T贝尔实验室的John Tukey向公众透露了快速Fourier变换(�Ҏ��)(FFT)。应用数学中意义最��p��的算法，无疑是��信号处理实现�H�破性进展的FFT。其基本思想要追溯到Gauss(他需要计��小行星的轨�?�Q�但是Cooley—Tukey的论文弄清楚了Fourier变换计算��h��有多�Ҏ��。就像快速分�c�L��一��P��FFT有赖于用分割开和控制的�{�略�Q�把表面上��o��厌的O(N*N) 降到令�h满意的O(Nlog(N)) 。但是不像快速分�c�L��Q�其执行(初一�?是非直观的而且不那么直接。其本��n��q��计算机科学一�U�推动力�ȝ��I�计��问题和��法的固有复杂性�?/p>

9. 整数关系侦查��法
1977�q�_��BrighamYoung大学的Helaman Ferguson 和Rodney Forcade提出了整数关�p�M��查算法。这是一个古老的问题�Q�给定—组实数�Q�例如说x(1),x(2),…,x(n) �Q�是否存在整数a(1),a(2),..,a(n) �Q�不全�ؓ�Ӟ��Q��?br /> a(1)x(1)+a(2)x(2)+…+a(n)x(n)=0
对于n=2 �Q�历史悠久的�Ƨ几里得��法能做�q�项工作、计��x(1)/x(2) 的连分数展开中的各项。如果x(1)/x(2) 是有理数�Q�展开会终止，在适当展开后就�l�出�?#8220;最��的”整数a(1)和a(2) 。欧几里得算法不�l�止——或者如果你只是��单地�׃��厌倦计��——那么展开的过�E�至��提供了最��整数关�pȝ��大小的下界。Ferguson和Forcade的推�q�更有威力，��管�q�种推广更难于执�?和理�?。例如，他们的侦查算法被用来求得逻辑斯谛(logistic)映射的第三和�W�四个分歧点�Q�b(3)=3.544090 �?b(4)=3.564407所满��的多��式的精��系数�?后者是120 阶的多项式；它的最大的�p�L��?57^30 �?已证明该��法在简化量子场��Z��的Feynman囄��计算中是有用的�?/p>

10. 快速多极算�?br /> 1987�q�_��耉��大学的Leslie Greengard 和Vladimir Rokhlin发明了快速多极算法。该��法克服了N体模拟中最令�h头疼的困难之一�Q�经由引力或静电力相互作用的N个粒子运动的�_��计算(惌��一下银河系中的星体�Q�或者蛋白质中的原于)看来需要O(N*N) 的计��量——比较每一对质炚w��要一�ơ计��。该��法利用多极展开(净电荷或质量、偶极矩、四矩，�{�等)来近似遥�q�的一�l�质点对当地一�l�质点的影响。空间的层次分解用来��定当距��d��大时�Q�比以往��M��时候都更大的质点组。快速多极算法的一个明显优�Ҏ��h��严格的误差估计，�q�是许多��法所�~�少的性质�?/p>

三、结束语
2l世纪��会带来什么样的新的洞察和��法�Q�对于又一个一癑ֹ�完整的回�{�显然是不知道的。然而，有一点似乎是肯定的。正�?0世纪能够产生最好的l0个算法一��P��C��U�对我们来说既不会是很宁静的�Q�也不会是弱智的�?/p>

[转]http://alpswy.spaces.live.com/
By Barry A. Cipra

Algos is the Greek word for pain. Algor is Latin, to be cold. Neither is the root for algorithm, which stems instead from al-Khwarizmi, the name of the ninth-century Arab scholar whose book al-jabrwa’l muqabalah devolved into today’s high school algebra textbooks. Al-Khwarizmi stressed the importance of methodical procedures for solving problems. Were he around today, he’d no doubt be impressed by the advances in his eponymous approach.
Some of the very best algorithms of the computer age are highlighted in the January/February 2000 issue of Computing in Science & Engineering, a joint publication of the American Institute of Physics and the IEEE Computer Society. Guest editors Jack Don-garra of the University of Tennessee and Oak Ridge National Laboratory and Fran-cis Sullivan of the Center for Comput-ing Sciences at the Institute for Defense Analyses put togeth-er a list they call the “Top Ten Algorithms of the Century.”
“We tried to assemble the 10 al-gorithms with the greatest influence on the development and practice of science and engineering in the 20th century,” Dongarra and Sullivan write. As with any top-10 list, their selections—and non-selections—are bound to be controversial, they acknowledge. When it comes to picking the algorithmic best, there seems to be no best algorithm. Without further ado, here’s the CiSE top-10 list, in chronological order. (Dates and names associated with the algorithms should be read as first-order approximations. Most algorithms take shape over time, with many contributors.)

1.蒙特卡洛��法
1946: John von Neumann, Stan Ulam, and Nick Metropolis, all at the Los Alamos Scientific Laboratory, cook up the Metropolis algorithm, also known as the Monte Carlo method. The Metropolis algorithm aims to obtain approximate solutions to numerical problems with unmanageably many degrees of freedom and to combinatorial problems of factorial size, by mimicking a random process. Given the digital computer’s reputation for deterministic calculation, it’s fitting that one of its earliest applications was the generation of random numbers.

2.单纯形法
1947: George Dantzig, at the RAND Corporation, creates the simplex method for linear programming. In terms of widespread application, Dantzig’s algorithm is one of the most successful of all time: Linear programming dominates the world of industry, where economic survival depends on the ability to optimize within budgetary and other constraints. (Of course, the “real” problems of industry are often nonlinear; the use of linear programming is sometimes dictated by the computational budget.) The simplex method is an elegant way of arriving at optimal answers. Although theoretically susceptible to exponential delays, the algorithm in practice is highly efficient—which in itself says something interesting about the nature of computation. In terms of widespread use, George Dantzig’s simplex method is among the most successful algorithms of all time.

3.Krylov子空间�P代法
1950: Magnus Hestenes, Eduard Stiefel, and Cornelius Lanczos, all from the Institute for Numerical Analysis at the National Bureau of Standards, initiate the development of Krylov subspace iteration methods. These algorithms address the seemingly simple task of solving equations of the form Ax = b. The catch, of course, is that A is a huge n x n matrix, so that the algebraic answer x = b/A is not so easy to compute. (Indeed, matrix “division” is not a particularly useful concept.) Iterative methods—such as solving equations of the form Kxi + 1 = Kxi + b – Axi with a simpler matrix K that’s ideally “close” to A—lead to the study of Krylov subspaces. Named for the Russian mathematician Nikolai Krylov, Krylov subspaces are spanned by powers of a matrix applied to an initial“remainder” vector r0 = b – Ax0. Lanczos found a nifty way to generate an orthogonal basis for such a subspace when the matrix is symmetric. Hestenes and Stiefel proposed an even niftier method, known as the conjugate gradient method, for systems that are both symmetric and positive definite. Over the last 50 years, numerous researchers have improved and extended these algorithms. The current suite includes techniques for non-symmetric systems, with acronyms like GMRES and Bi-CGSTAB. (GMRES and Bi-CGSTAB premiered in SIAM Journal on Scientific and Statistical Computing, in 1986 and 1992, respectively.)

4.矩阵计算的分解方�?
1951: Alston Householder of Oak Ridge National Laboratory formalizes the decompositional approach to matrix computations. The ability to factor matrices into triangular, diagonal, orthogonal, and other special forms has turned
out to be extremely useful. The decompositional approach has enabled software developers to produce flexible and efficient matrix packages. It also facilitates the analysis of rounding errors, one of the big bugbears of numerical linear algebra. (In 1961, James Wilkinson of the National Physical Laboratory in London published a seminal paper in the Journal of the ACM, titled “ Error Analysis of Direct Methods of Matrix Inversion,” based on the LU decomposition of a matrix as a product of lower and upper triangular factors.)

5.优化的Fortan�~�译�?
1957: John Backus leads a team at IBM in developing the Fortran optimizing compiler. The creation of Fortran may rank as the single most important event in the history of computer programming: Finally, scientists (and others) could tell the computer what they wanted it to do, without having to descend into the netherworld of machine code. Although modest by modern compiler standards—Fortran I consisted of a mere 23,500 assembly-language instructions—the early compiler was nonetheless capable of surprisingly sophisticated computations. As Backus himself recalls in a recent history of Fortran I, II, and III, published in 1998 in the IEEE Annals of the History of Computing, the compiler “produced code of such efficiency that its output would startle the programmers who studied it.”

6.计算矩阵特征值的QR��法
1959–61: J.G.F. Francis of Ferranti Ltd., London, finds a stable method for computing eigenvalues, known as the QR algorithm. Eigenvalues are arguably the most important numbers associated with matrices—and they can be the trickiest to compute. It’s relatively easy to transform a square matrix into a matrix that’s “ almost” upper triangular, meaning one with a single extra set of nonzero entries just below the main diagonal. But chipping away those final nonzeros, without launching an avalanche of error, is nontrivial. The QR algorithm is just the ticket. Based on the QR decomposition, which writes A as the product of an orthogonal matrix Q and an upper triangular matrix R, this approach iteratively changes Ai = QR into Ai + 1 = RQ, with a few bells and whistles for accelerating convergence to upper triangular form. By the mid-1960s, the QR algorithm had turned once-formidable eigenvalue problems into routine calculations.

7.快速排序算�?br /> 1962: Tony Hoare of Elliott Brothers, Ltd., London, presents Quicksort. Putting N things in numerical or alphabetical order is mind-numbingly mundane. The intellectual challenge lies in devising ways of doing so quickly. Hoare’s algorithm uses the age-old recursive strategy of divide and conquer to solve the problem: Pick one element as a “pivot, ” separate the rest into piles of “big” and “small” elements (as compared with the pivot), and then repeat this procedure on each pile. Although it’s possible to get stuck doing all N(N – 1)/2 comparisons (especially if you use as your pivot the first item on a list that’s already sorted!), Quicksort runs on average with O(N log N) efficiency. Its elegant simplicity has made Quicksort the pos-terchild of computational complexity.

8.快速傅立叶变换
1965: James Cooley of the IBM T.J. Watson Research Center and John Tukey of Princeton University and AT&T Bell Laboratories unveil the fast Fourier transform. Easily the most far-reaching algo-rithm in applied mathematics, the
FFT revolutionized signal processing. The underlying idea goes back to Gauss (who needed to calculate orbits of asteroids), but it was the Cooley–Tukey paper that made it clear how easily Fourier transforms can be computed. Like Quicksort, the FFT relies on a divide-and-conquer strategy to reduce an ostensibly O(N2) chore to an O(N log N) frolic. But unlike Quick- sort, the implementation is (at first sight) nonintuitive and less than straightforward. This in itself gave computer science an impetus to investigate the inherent complexity of computational problems and algorithms.

9.整数关系探测��法
1977: Helaman Ferguson and Rodney Forcade of Brigham Young University advance an integer relation detection algorithm. The problem is an old one: Given a bunch of real numbers, say x1, x2, . . . , xn, are there integers a1, a2, . . . , an (not all 0) for which a1x1 + a2x2 + . . . + anxn = 0? For n = 2, the venerable Euclidean algorithm does the job, computing terms in the continued-fraction expansion of x1/x2. If x1/x2 is rational, the expansion terminates and, with proper unraveling, gives the “smallest” integers a1 and a2. If the Euclidean algorithm doesn’t terminate—or if you simply get tired of computing it—then the unraveling procedure at least provides lower bounds on the size of the smallest integer relation. Ferguson and Forcade’s generalization, although much more difficult to implement (and to understand), is also more powerful. Their detection algorithm, for example, has been used to find the precise coefficients of the polynomials satisfied by the third and fourth bifurcation points, B3 = 3.544090 and B4 = 3.564407, of the logistic map. (The latter polynomial is of degree 120; its largest coefficient is 25730.) It has also proved useful in simplifying calculations with Feynman diagrams in quantum field theory.

10.快速多极算�?
1987: Leslie Greengard and Vladimir Rokhlin of Yale University invent the fast multipole algorithm. This algorithm overcomes one of the biggest headaches of N-body simulations: the fact that accurate calculations of the motions of N particles interacting via gravitational or electrostatic forces (think stars in a galaxy, or atoms in a protein) would seem to require O(N2) computations—one for each pair of particles. The fast multipole algorithm gets by with O(N) computations. It does so by using multipole expansions (net charge or mass, dipole moment, quadrupole, and so forth) to approximate the effects of a distant group of particles on a local group. A hierarchical decomposition of space is used to define ever-larger groups as distances increase. One of the distinct advantages of the fast multipole algorithm is that it comes equipped with rigorous error estimates, a feature that many methods lack.

20世纪10大算�?/h2>
1、蒙特卡�|�算法�?946: John von Neumann, Stan Ulam, and Nick Metropolis
2、单�U��Ş�Ҏ��?947: George Dantzig,学过�q�筹学的人都知道�Q�）
3、Krylov 子空间�P代算法�?950: Magnus Hestenes, Eduard Stiefel, and Cornelius Lanczos。在联想实习的期间看�q?Krylov subspace:span{S,AS,A^2S,...,A^(k-1)*S}.
4、矩阵分解算法�?951: Alston Householder�?br /> 5、Fotran 最优化�~�译器�?957: John Backus。不知道�q�个��Z��么也��作��法里面。Fotran在科学计��中的确是具有里�E�碑性质的�?br /> 6、QR��法�?959–61: J.G.F. Francis
7、快速排序算法�?962: Tony Hoare。看了关于计��机排序的研�I�还不是很早�?br /> 8、FFT��法�?965: James Cooley
9、整数关�pȝ��定算法（Integer Relation Detecting Algorithms�Q��?977: Helaman Ferguson and Rodney Forcade。一个曾让我辗�{反测的算法�?br /> 10、快速多极算�?Fast Multipole Algorithms )�?987: Leslie Greengard and Vladimir Rokhlin。N体问题仿真的�Q�不太清楚�?/font>

��强摩羯�?/a> 2008-11-13 17:36 发表评论

zz:SVM相关理论

Fri, 20 Jun 2008 17:12:00 GMT

SVM相关理论

2007-11-30 12:35

��Z��数据的机器学习是��C��技术中的重要方面，研究从观��数据（��h��Q�出发寻找规律，利用�q�些规律�Ҏ��来数据或无法观测的数据进行预��。迄今�ؓ止，关于机器学习�q�没有一�U�被共同接受的理论框�Ӟ��关于其实现方法大致可以分��Z��U�[3]�Q?/p>

�W�一�U�是�l�典的（参数�Q�统计估计方�?/span>。包括模式识别、神�l�网�l�等在内�Q�现有机器学习方法共同的重要理论基础之一是统计学。参数方法正是基于传�l�统计学的，在这�U�方法中�Q�参数的相关形式是已知的�Q�训�l�样本用来估计参数的倹{��这�U�方法有很大的局限�?
首先�Q�它需要已知样本分布�Ş式，�q�需要花费很大代��P��q�有�Q�传�l�统计学研究的是��h��数目��于无穷大时的渐�q�理论，现有学习�Ҏ��也多是基于此假设。但在实际问题中�Q�样本数往往是有限的�Q�因此一些理��Z��很优�U�的学习方法实际中表现却可能不��h意�?/p>

�W�二�U�方法是�l�验非线性方�?/span>�Q�如人工��经�|�络�Q�ANN�Q�。这�U�方法利用已知样本徏立非�U�性模型，克服了传�l�参��C��计方法的困难。但是，�q�种�Ҏ��~�Z��一�U�统一的数学理论。与传统�l�计学相比，�l�计学习理论�Q�Statistical Learning Theory或SLT�Q�是一�U�专门研�I�小��h��情况下机器学习规律的理论。该理论针对��样本统计问题徏立了一套新的理��Z��p�，在这�U�体�p�M��的统计推理规则不仅考虑了对渐近性能的要求，而且�q�求在现有有限信息的条�g下得到最优结果。V. Vapnik�{��h从六、七十年代开始致力于此方面研�IӞ��C��十年代中期，随着其理论的不断发展和成熟，也由于神�l�网�l�等学习�Ҏ��在理��Z��~�Z��实质性进展，�l�计学习理论开始受到越来越�q�泛的重视�?br /> �l�计学习理论的一个核心概念就是VC�l?VC Dimension)概念�Q�它是描�q�函数集或学习机器的复杂性或者说是学习能�?Capacity of the machine)的一个重要指标，在此概念基础上发展出了一�p�d��关于�l�计学习的一致�?Consistency)、收敛速度、推�q�性能(Generalization Performance)�{�的重要�l�论�?br /> �l�计学习理论是徏立在一套较坚实的理论基��之上的，��x��限样本学习问题提供了一个统一的框架。它能将很多现有�Ҏ��U�_��其中�Q�有望帮助解册��多原来难以解决的问题�Q�比如神�l�网�l�结构选择问题、局部极��点问题�{�）�Q?br /> 同时�Q�这一理论基础上发展了一�U�新的通用学习�Ҏ��──支持向量�?/span>�Q�Support Vector Machine或SVM�Q�，已初步表现出很多优于已有�Ҏ��的性能。一些学者认为，SLT和SVM正在成�ؓ�l�神�l�网�l�研�I�之后新的研�I�热点，�q�将推动机器学习理论和技术有重大的发展�?/p>

支持向量机方�?/span>是徏立在�l�计学习理论的VC�l�理论和�l�构风险最��原理基��上的�Q�根据有限的��h��信息在模型的复杂�?卛_��特定训练��h��的学习精度，Accuracy)和学习能�?��x��错误地识别�Q意样本的能力)之间��L��最��x��P��以期获得最好的推广能力(Generalizatin Ability)。支持向量机�Ҏ��的几个主要优�Ҏ��Q?br /> 1. 它是专门针对有限��h��情况的，其目标是得到现有信息下的最优解而不仅仅是样本数��于无穷大时的最优��|��
2. ��法最�l�将转化成�ؓ一个二�ơ型��M��问题�Q�从理论上说�Q�得到的��是全局最优点�Q�解决了在神�l�网�l�方法中无法避免的局部极值问题；
3. ��法��实际问题通过非线性变换�{换到高维的特征空�?Feature Space)�Q�在高维�I�间中构造线性判别函数来实现原空间中的非�U�性判别函敎ͼ��Ҏ��性质能保证机器有较好的推�q�能力，同时它��y妙地解决了维数问题，其算法复杂度与样本维数无养I��

在SVM�Ҏ��中，只要定义不同的内�U�函敎ͼ��可以实现多��式��D��、贝叶斯分类器、径向基函数(Radial Basic Function或RBF)�Ҏ��、多层感知器�|�络�{�许多现有学习算法�?br /> �l�计学习理论从七十年代末诞生�Q�到九十�q�代之前都处在初�U�研�I�和理论准备阶段�Q�近几年才逐渐得到重视�Q�其本��n也趋向完善，�q��生了支持向量��一��这�U�理��Z��诸实现的有效的机器学习方法�?br /> 目前�Q�SVM��法在模式识别、回归估计、概率密度函��C��计等斚w��都有应用�?br /> 例如�Q�在模式识别斚w��Q�对于手写数字识别、语韌��别、�h脸图像识别、文章分�cȝ��问题�Q�SVM��法在精度上已经��过传统的学习算法或与之不相上下�?br /> 目前�Q�国际上对这一理论的讨论和�q�一步研�I��渐�q�泛�Q�而我国国内尚未在此领域开展研�IӞ��因此我们需要及时学习掌握有关理论，开展有效的研究工作�Q��我们在这一有着重要意义的领域中能够��快赶上国际先进水��^。由于SLT理论和SVM�Ҏ��处在发展阶�D�，很多斚w��不完善�Q�比如：许多理论目前�q�只有理��Z��的意义，��不能在实际��法中实玎ͼ�而有关SVM��法某些理论解释也�ƈ非完��（J.C.Burges在[2]中就曾提到结构风险最��原理�ƈ不能严格证明SVM��Z��么有好的推广能力�Q�；此外�Q�对于一个实际的学习机器的VC�l�的分析��没有通用的方法；SVM�Ҏ��中如何根据具体问题选择适当的内�U�函��C��没有理论依据。因此，在这斚w��我们可做的事情是很多的�?/p>

上文引自水母bbs AI�?/p>

zz:SVM学习之四——从机器学习到支持向量机

Fri, 20 Jun 2008 17:01:00 GMT

SVM学习之四——从机器学习到支持向量机

上一��?/a> / 下一��?/a> 2007-09-27 10:41:06 / 个�h分类�Q?a >svm

查看( 319 ) / 评论( 7 ) / 评分( 13 / 0 )

�?/strong>器学�?Machine Learning, ML)的目的是�Ҏ��l�定的训�l�样本求�Ҏ��pȝ��输入输出之间依赖关系的估计，使它�Q�这�U�关�p�）能够�Ҏ��知输出做出尽可能准确地预��。机器学习至今没有一个精��的公认�?a onclick="javascript:tagshow(event, '%B6%A8%D2%E5');" href="javascript:;" target="_self">定义。作��Z�h工智�?Artificial Intelligence, AI)的一个重�?a onclick="javascript:tagshow(event, '%D1%D0%BE%BF');" href="javascript:;" target="_self">研究领域�Q�ML的研�I�工作主要围�l�学习机理、学习方法和面向��d��q�三个基本方面进行研�I��?strong>模式识别、函数��D��和概率密度估计是三类基本的ML问题�?/strong>

从数学的角度来考虑�Q?strong>机器学习问题��是已知n个独立同分布的观��样本，在同一�l�预��函��C��求一个最优的函数对依赖关�p�进行估计，使期望风险R[f]最��?font color="#ff0000">损失函数是评价预��准��程度的一�U�度量，它与预测函数f(x)密切相关。而f(x)的期望风险依赖于概率分布和损失函敎ͼ�前者是客观存在的，后者是�Ҏ��具体问题选定的，带有�Q�主观的�Q��h为的或偏好色彩�?strong>期望风险的大��?/font>直观上可以理解�ؓ�Q�当我们用f(x)�q�行预测�Ӟ��“�q�_��”的损��q��度，�?#8220;�q�_��”犯错误的�E�度�?/p>

但是�Q?strong>只有��h��却无法计��期望风�?/strong>�Q�因此，传统的学习方法用��h��定义�l�验风险Remp[f]作�ؓ�Ҏ��望风险的估计�Q��ƈ设计学习��法使之最��化�?/strong>��x��谓的�l�验风险最��化(Empirical Risk Minimization, ERM)归纳原则�?strong>�l�验风险是用损失函数来计��的�?/strong>对于模式识别问题的损失函数来��_��l�验风险��是训练��h��错误率；对于函数��D��问题的损失函数来��_��是�q�x��训练误差�Q�而对于概率密度估计问题的损失函数来说�Q�ERM准则��q��价于最大似然法。事实上�Q�用ERM准则代替期望风险最��化�q�没有经�q�充分的理论��Q�只是直观上合理的想当然做法。也��是��_��l�验风险最��不一定意味着期望风险最��?/strong>其实�Q�只有样本数目趋�q�于无穷大时�Q�经验风险才有可能趋�q�于期望风险。但是很多问题中��h��数目��L��I�大很远�Q�那么在有限��h��下ERM准则��׃��一定能使真实风险较��啦。ERM准则不成功的一个例子就是神�l�网�l�的�q�学习问�?/font>�Q�某些情况下�Q�训�l�误差过��反而导致推�q�能力下降，或者说是训�l�误差过��导致了预测错误率的增加�Q�即真实风险的增加）�?/p>

�l�计学习理论(Statistical Learning Theory, SLT)和支持向量机(Support Vector Machine, SVM)建立了一套较好的有限训练��h��下机器学习的理论框架和通用�Ҏ��Q�既有严格的理论基础�Q�又能较好地解决��样本、非�U�性、高�l�数和局部极��点�{�实际问题，�?strong>核心思想��是学习机器�Q�又叫预��函敎ͼ�或学习函敎ͼ�或学习模型）F要与有限的训�l�样本相适应�?/strong>在学习算法中需要选择恰当的F�Q�这里的关键因素是F的大��，或者F的丰富程度，或者说F�?#8220;表达能力”�Q�VC�l?Vapnik-Chervonenkis Dimension)��是对这�U?#8220;表达能力”的一�U�描�q��?/p>

VC�l�的定义如下�Q�对于一个指�C�函数集�Q�如果存在h个样本能够被函数集中的函数按所有可能的2的h�ơ幂�U��Ş式分开�Q�则�U�函数集能够把h个样本都打散�Q�h的最大值就是函数集的VC�l�。VC�l�是SLT中的一个重要概念，它是函数集学习性能的重要指标�?strong>目前��没有通用的关于�Q意函数集VC�l�计��的理论�Q�只知道一些特�D�的函数集的VC�l��?/strong>比如�Q�在n�l�空间中�U�性分�c�d��和线性实函数的VC�l�是 n+1�Q��?f(x,a) = sin(ax) 的VC�l�则为无�I�大�?strong>对于�l�定的学习函数集�Q�如何（用理论或实验的方法）计算其VC�l�是当前�l�计学习理论中有待研�I�的一个问题�?/strong>

�׃��文可知，在有限样本情况下�Q�仅仅用ERM来近似期望风险是行不通的。统计学习理论给��Z��期望风险 R[f] 与经验风�?Remp[f] 之间关系�Q�R[f] <= ( Remp[f] + e )。其�?e = g(h/n) 为置信区��_��e 是VC�l?h 的增函数�Q�也是样本数n的减函数。右端称�?strong>�l�构风险�Q�它是期望风�?R[f] 的一个上界�?strong>�l�验风险的最��依赖较大的 F �Q�样本数较多的函数集�Q�中某个 f 的选择�Q�但�?F 较大�Q�则VC�l�较大，��导致置信区�?e 变大�Q�所以要想��期望风险 R[f] 最��，必须选择合适的 h �?n 来��不等式右边的�l�构风险最��，�q�就�?font color="#ff0000">�l�构风险最��化(Structural Risk Minimization, SRM)归纳原则�?/strong>实现SRM的思�\之一��是设计函数集的某种�l�构使每个子集中都能取得最��的�l�验风险�Q�如使训�l�误差�ؓ0�Q�，然后只需选择适当的子集�ɾ|�信范围最��，则这个子集中使经验风险最��的函数��是最优函数。SVM�Ҏ��实际上就是这�U�思想的具体实现�?/p>

SVM是一�U�基于统计的学习�Ҏ��Q�它是对SRM的近伹{��概括地��_��SVM��是首先通过用内�U�函数定义的非线性变换将输入�I�间变换��C��个高�l�空��_��然后再在�q�个�I�间中求�Q�广义）最优分�c�面的分�c�L��法�?/strong>

��强摩羯�?/a> 2008-06-21 01:01 发表评论

zz:机器学习

Fri, 20 Jun 2008 16:55:00 GMT

2008-06-17 21:22

忙于��目�Q�看了一些理��Z��c�，��L��觉雾里看花，��Z��能有点动力，我准备写一些�ȝ��?img style="width: 21px; height: 22px" height="22" src="http://img.baidu.com/hi/face/i_f01.gif" width="17" alt="" />
1 机器学习问题表示
变量y与输入x之间存在一定的关系�Q�即存在二维联合概率密度F�Q�x�Q�y�Q?br /> 机器学习�Ҏ��m个独立，同分布观��样本求��Z��个最优函数y=f�Q�x�Q�a�Q�，佉K��的期望风险最��?/font>
R�Q�a�Q? |Q�Q�y�Q�f�Q�x�Q�a�Q�）dF�Q�x�Q�y�Q�，其中Q�Q�y�Q�f�Q�x�Q�a�Q�）是f�Q�x�Q�a�Q�与y之间的损失函�?br />
2 �l�验风险最��化
�׃��q�不知道F�Q�x�Q�y�Q�，所以无法利用期望风险来求f�Q�x�Q�a�Q�，但根据大数定理的思想�Q�可以用��术�q�_��代替数学期望 Remp�Q�a�Q? 1/m�Q�Q�Q�yi�Q�f�Q�xi�Q�a�Q�）+......�Q�，使样本均值最��求出f�Q�x�Q�a�Q�中参数a

3 最��均值方�?/font>
求经验风险最��可以看做是最��x��合问题，E = �Q�yi-f�Q�xi�Q�a�Q�）**2+ ..........
在调整权值时需要这样一个算法：在有了新的训�l�样本时可以在原来的基础上进一步精化权倹{��对于每一个训�l�样例，它把权值向减少误差的方向略��整。这个算法可以看做对可能的假设权值空间进行随机的梯度下降搜烦。权值w更新方式为：w<--w+l�Q�yi - f�Q�xi�Q�a�Q�）xi

4函数集的vc�l?/font>
函数集Q�Q�z�Q�a�Q�vc�l�等于能够用该函数集以所有可能的2**k�U�方式分成不同两�cȝ��向量z1�Q�z2....最大数目。越复杂的函数vc�l�越高�?br /> 期望风险R�Q�a �Q?= �l�验风险Remp�Q�a�Q?sqr�Q�h/m�Q�，可见vc�l�增加会��D��期望风险增加�?/p>
5�l�构风险最��化
min�Q�经验风险Remp�Q�a�Q?sqr�Q�h/m�Q�）

6支持向量�?/font>
svm的基本思想是通过事先选择的线性或非线性的映射��输入向量映��到高维特征�I�间中，在这个空间中利用了最优化理论和泛化性理论，同时引入了超�q�面的概念（减少vc�l�_��Q�来构造最优决�{�函敎ͼ��q��y妙地利用核函数来代替高维特征�I�间的点�U�运��，从而避免了复杂的计��?/p>
7贝叶斯决�{?/font>
设要识别的对象有d中特征测量值x1�Q�x2.....xd�Q�每�U�特征都是一个随机变量�?br /> �?font color="#ff0000">gi�Q�x�Q��ؓ对应i�cȝ��风险函数�Q�利用先验概�?/font>�Q�相应的分类规则为：
如果gi�Q�x�Q?gt;gj�Q�x�Q�，i�Q�j = 1�Q?�Q?..c�Q?j!= i�Q�则x属于�W�i�c�，决策面方�E��ؓ gi�Q�x�Q? gj�Q�x�Q?/p>
8分类与聚�c?/font>
分类�Q�样本已知所属类别，求出分类函数�Q�对新的��h��q�行识别
聚类�Q�样本无�c�d��Q�根据其分布距离�q�行分类

9�U�性分�c�d��
定义一�?font color="#ff0000">准则函数J�Q�w�Q�x�Q�，w是分�c�d��参数�Q�它�?font color="#ff0000">最��?/font>对应着最优解。得到梯度法�q�代公式�Q?br /> w�Q�k+1�Q? w�Q�k�Q?p�Q�△J�Q?br /> 因�ؓ判别函数g�Q�x�Q�满��I��
g(x)>0 x∈w
g(x)<0 x!∈w

准则函数有最��^方误差，最��错分类�{��?/p>
10聚类
�怼�性测度：�Ƨ式距离�Q�马氏距��，明氏距离�Q�夹角余�?br /> 散布准则�Q�类内散布，�c�间散布�Q��L��?br /> 求解�q�程是聚�c�M��心点�q�代

11特征抽取和选择
选择�Q�选取要��用的特征
抽取�Q�利用选择出来的特征进行降�l�变�?br /> 抽取�Ҏ��有线性变换，��L��分分析的最佳矩阵变换，

��强摩羯�?/a> 2008-06-21 00:55 发表评论

zz:MIT一牛�h�Ҏ��学在机器学习中的作用�l�的评述

Fri, 20 Jun 2008 16:53:00 GMT

感觉数学��g��L��不够的。这些日子�ؓ了解决research中的一些问题，又在图书馆捧起了数学的教�U�书�?/p>
�?大学到现在，译֠�上学的和自学的数学其实不��少了，可是在研�I�的�q�程中��L��发现需要补充新的数学知识。Learning和Vision都是很多�U�数学的�?汇场。看着不同的理��Z��pȝ��交汇�Q�对于一个researcher来说�Q�往往是非常exciting的enjoyable的事情。不�q�，�q�也代表着要充分了解这个领域�ƈ且取得有意义的进展是很艰苦的�?/p>
记得在两�q�前的一�ơblog里面�Q�提到过和learning有关的数学。今天看来，我对于数学在�q�个领域的作用有了新的思考�?/p>
对于Learning的研�IӞ��

Linear Algebra (�U�性代�? �?Statistics (�l�计�? 是最重要和不可缺��的。这代表了Machine Learning中最��L��的两大类�Ҏ��的基��。一�U�是以研�I�函数和变换为重点的代数�Ҏ��Q�比如Dimension reduction�Q�feature extraction�Q�Kernel�{�，一�U�是以研�I�统计模型和��h��分布为重点的�l�计�Ҏ��Q�比如Graphical model, Information theoretical models�{�。它们侧重虽有不同，但是常常是共同��用的�Q�对于代数方法，往往需要统计上的解释，对于�l�计模型�Q�其具体计算则需要代数的帮助�?/p>
以代数和�l�计为出发点�Q��l�往深处赎ͼ�我们会发现需要更多的数学�?/p>
Calculus (微积�?�Q�只是数学分析体�pȝ��基础。其基础性作用不�a�而喻。Learning研究的大部分问题是在�q�箋的度量空间进行的�Q�无��Z��数还是统计，在研�I�优�?问题的时候，对一个映��的微分或者梯度的分析��L��不可避免。而在�l�计学中�Q�Marginalization和积分更是密不可分——不�q�，以解析�Ş式把�U�分导出来的情况则不多见�?/p>
Partial Differential Equation �Q�偏微分方程)�Q�这主要用于描述动态过�E�，或者仿动态过�E�。这个学�U�在Vision中用得比Learning多，主要用于描述�q�箋场的�q�动或者扩散过�E��?比如Level set, Optical flow都是�q�方面的典型例子�?/p>
Functional Analysis (泛函分析)�Q?通俗圎ͼ�可以理解为微�U�分从有限维�I�间到无限维�I�间的拓展——当然了�Q�它实际上远不止于此。在�q�个地方�Q�函��C��及其所作用的对象之间存在的对偶关系扮演�?非常重要的角艌Ӏ�Learning发展至今�Q�也在向无限�l��g伸——从研究有限�l�向量的问题��C��无限�l�的函数为研�I�对象。Kernel Learning �?Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。很多做Learning的�h把Kernel��单理解�ؓKernel trick的运用，�q�就把kernel的意义严重弱化了。在泛函里面�Q�Kernel (Inner Product) 是徏立整个博大的代数体系的根本，从metric, transform到spectrum都根源于此�?/p>
Measure Theory (��度理论)�Q�这是和实分析关�p�非常密切的学科。但是测度理论�ƈ不限于此。从某种意义上说�Q�Real Analysis可以从Lebesgue Measure�Q�勒贝格��度�Q�推演，不过其实�q�有很多别的��度体系——概率本�w�就是一�U�测度。测度理论对于Learning的意义是�Ҏ��的，��C��l�计学整个就是徏立在��度理论的基��之上——虽然初�U�的概率论教�U�书一般不�q�样引入。在看一些统计方面的文章的时候，你可能会发现�Q�它们会把统计的公式改用��度�?表达�Q�这样做有两个好处：所有的推导和结��Z��用分别给�q�箋分布和离散分布各自写一遍了�Q�这两种东西都可以用同一的测度�Ş式表达：�q�箋分布的积分基�?Lebesgue��度�Q�离散分布的求和��Z��计数��度�Q�而且�q�能推广到那�U�既不连�l�又不离散的分布中去�Q�这�U�东西不是数学家的游戏，而是已经在实用的东西�Q?在Dirchlet Process或者Pitman-Yor Process里面会经常看�?。而且�Q�即使是�q�箋�U�分�Q�如果不是在�Ƨ氏�I�间�q�行�Q�而是在更一般的拓扑�I�间�Q�比如微分流形或者变换群�Q�，那么传统的黎曼积分（��是大学一�q��在微�U�分译֭�的那�U�）��׃��work了，你可能需要它们的一些推�q�，比如Haar Measure或者Lebesgue-Stieltjes�U�分�?/p>
Topology�Q�拓扑学)�Q�这是学术中很基��的学�U�。它一般不直接�?供方法，但是它的很多概念和定理是其它数学分支的基矟뀂看很多别的数学的时候，你会�l�常接触�q�样一些概念：Open set / Closed set�Q�set basis�Q�Hausdauf, continuous function�Q�metric space, Cauchy sequence, neighborhood, compactness, connectivity。很多这些也许在大学一�q��񔞮�学习过一些，当时是基于极限的概念获得的。如果，看过拓扑学之后，对这些概�늚�认识会有�Ҏ��性的�?展。比如，�q�箋函数�Q�当时是由epison法定义的�Q�就是无论取多小的正数epsilon�Q�都存在xxx�Q��得xxx。这是需要一�U�metric��d��量距 ��ȝ��Q�在general topology里面�Q�对于连�l�函数的定义�q�坐标和距离都不需要——如果一个映��得开集的原像是开集，它就是连�l�的——至于开集是��Z��集合论定义的�Q�不是通常的开区间的意思。这只是最��单的例子。当�Ӟ��我们研究learning也许不需要深�I�这些数学概念背后的公理体系�Q�但是，打破原来定义的概�늚�局�?在很多问题上是必��ȝ��——尤其是当你研究的东西它不是在欧氏空间里面的时候——正交矩阵，变换��，��Ş�Q�概率分布的�I�间�Q�都属于此�?/p>
Differential Manifold (微分��Ş)�Q?通俗地说它研�I�的是��^滑的曲面。一个直接的印象是它是不是可以用来fitting一个surface什么的——当然这��是一�U�应用，但是�q�是非常初步的�?本质上说�Q�微分流形研�I�的是��^滑的拓扑�l�构。一个空间构成微分流形的基本要素是局部��^滑：从拓扑学来理解，��是它的��L��局部都同胚于欧氏空��_��从解析的�?度来看，��是相容的局部坐标系�l�。当�Ӟ��在全局上，它不要求和欧氏空间同胚。它除了可以用于�ȝ��集合上的�q�x��曲面外，更重要的意义在于�Q�它可以用于研究�?多重要的集合。一个n-�l�线性空间的全部k-�l�子�I�间(k < n)��构成了一个微分流形——著名的Grassman Manifold。所有的标准正交阵也构成一个流形。一个变换群作用于一个空间�Ş成的轨迹(Orbit) 也是通常会�Ş成流形。在��Ş上，各种的分析方法，比如映射�Q�微分，�U�分都被�U�L��q�来了。前一两年在Learning里面火了好长旉��的Manifold Learning其实只是研究了这个分支的其中一个概�늚�应用: embedding。其实，它还有很多可以发掘的�I�间�?/p>
Lie Group Theory (李群�?�Q�一般意义的��论在Learning中被�q�用的不是很多，��论在Learning中用得较多的是它的一个重要方向Lie group。定义在�q�x��行上的��，�q�且其群�q�算是��^滑的话，那么�q�就叫李��。因为Learning和编码不同，更多��x��的是�q�箋�I�间�Q�因为Lie group在各�U�群中对于Learning特别重要。各�U�子�I�间�Q�线性变换，非奇异矩阵都��Z��通常意义的矩阵乘法构成李��。在李群中的映射�Q�变换，度量�Q?划分�{�等都对于Learning中代数方法的研究有重要指导意义�?/p>
Graph Theory�Q�图�?�Q�图�Q�由于它在表�q�各�U�关�pȝ��强大能力以及优雅的理论，高效的算法，��来��受到Learning领域的欢�q�。经典图论，�?Learning中的一个最重要应用��是graphical models了，它被成功�q�用于分析统计网�l�的�l�构和规划统计推断的��程。Graphical model所取得的成功，图论可谓功不可没。在Vision里面�Q�maxflow (graphcut)��法在图像分�Ԍ��Stereo�q�有各种能量优化中也�q�受应用。另外一个重要的图论分支��是Algebraic graph theory (代数图论)�Q�主要运用于囄��谱分析，著名的应用包括Normalized Cut和Spectral Clustering。近�q�来在semi-supervised learning中受到特别关注�?/p>

��强摩羯�?/a> 2008-06-21 00:53 发表评论

在线电影你懂的亚洲,久久精品国产亚洲av麻豆,337p日本欧洲亚洲大胆精品555588

zz20世纪十大���法

zz:SVM相关理论

zz:SVM学习之四——从机器学习到支持向量机

SVM学习之四——从机器学习到支持向量机

zz:机器学习

zz:MIT一牛�h�Ҏ��学在机器学习中的作用�l�的评述

zz20世纪十大��法