国产精品亚洲二区在线观看,亚洲欧美日韩综合久久久久,亚洲国产精品无码中文lv

Office 2010 �l�验�ȝ��

zYx.Tom — Fri, 20 Sep 2019 01:41:00 GMT

1. 如何讄��蓝底白字�Q?/p>

�{�：点击菜单��上的“页面布局”→“页面颜艜y��，��可以选择喜欢的页面颜�Ԍ��字体颜色也会跟着发生改变�?/p>

补充�Q�如果不喜欢相应的页面颜色中�pȝ��自动讄��的字体颜�Ԍ��可以点击菜单��上的“开始”→“样式”→“正文”，讄��“字体颜艜y��就可以了�?/p>

2. 如何输入数学公式�Q?/p>

�{�：使用Latex输入公式�Q�不�q�语法与Latex�E�有区别。Latex的“｛｝”功能��用“（�Q�”替代了。熟悉Latex后，使用�q�个公式�~�辑器会觉得非常方便。对于数学公式的输入�Ҏ��下蝲一个PDF文�g《LATEX Mathematical Symbols》，里面都可以查到�?/p>

❶开始输入公式：按住"Alt"再按"="�Q�会出现了一个公式输入框�Q�上方的工具栏也变成了公式编辑器栏�?/p>

❷命令结构：命��o是由反斜�?\"开始的�Q�紧跟着一串字�W�，以空格结束。例如：\alpha��׃��输入��?/p>

❸常见运��符�Q?/p>

偏微分算子：“\partial�?/li>
极限�Q�“\limit�?/li>
�U�分�Q�“\int�?/li>
求和�Q�“\Sigma�?/li>
梯度��子�Q�也��是倒三角）�Q�“\nabla �?/li>
点乘�Q�如内积�Q�：“\bullet”、“\cdot�?/li>
叉乘�Q�如外积、旋度）�Q�“\times�?/li>
字母上方的向量箭��_��"\hvec "。如果a是一个向量，那么"a\hvec "��p��在a上方昄��那个��头�Q�注意是两个�I�格�Q?/li>
- 字母上方的其他符��P��\bar, \check, \dot, \hat, \hvec, \vec, \tilde, etc…）
根号�Q?\sqrt "

❹分式：��是普通的"/"�Q�打完后按下�I�格��变上下格式了。�ؓ了保证将分母和分子都正确得框入，可以使用“（�Q�”，括号打多了，�pȝ��会自动帮你去掉�?

如果输入(ab+c)/(d)。分子与分母的括号都会被自动去除�?/li>
如果输入ab+c/d�Q�那么得到的��是ab+(c/d)�Q�括��h��我添加�ؓ了区分含义的�?/li>

��Z��下标�Q��用括号“（�Q�”将需要上下标的内容包括�v来�?/p>

上标�Q�“^”�?/li>
下标�Q�“_”�?/li>

�ȝ��可��打：

�U�分�W�号上下限，可以直接�q�着�?\int_a^b "。其中a��Z��限，b��Z��限�?/p>

�q�箋两个命��o�Q�或后面一个是�q�算�W�）�Q�可以直接连着打“\sqrt\pi”�?

❼对齐公式数�l�：可以使用@�?strong>&来实玎ͼ��?code>\eqarray(x+1&=2@1+2+3+y&=z@3/x&=6)

❽数学公式�{化成�U�文本：选中数学公式�Q�选择拯��后，在记事本中粘��_��可以得到公式的原始输入文本�Q�就可以�q�行文本�U�别的数学公式修改了�?

MathML�Q�数学标记语�a��Q�是一�U�基于XML�Q�标准通用标记语言的子集）的标准，用来在互联网上书写数学符号和公式的置标语�a��?/li>
�U�性格式：�c�M��于Latex的文本，方便�~�辑�?/li>
专业格式�Q�显�C�成数学公式的方式，方便阅读�?/li>

自定义设�|�：点击菜单��中的“设计”→“公式”→“工具”就可以讄��?/p>

自动��表辑ּ�转换��C��业格式。缺点就是输入错误后不好再修改编辑，但是如果不自动更斎ͼ��需要自己写VBA�Ҏ��有的数学公式�q�行全部更新�?/li>

zYx.Tom 2019-09-20 09:41 发表评论

《统计学习方法》的��M��W�记

zYx.Tom — Tue, 17 Sep 2019 01:39:00 GMT

全书总评

书本印刷质量�Q? 星。印��h��楚，排版合适，错误很少�?
著作�~�写质量�Q? 星。自学机器学习的必备�?
- 优点
  - 全书一直围�l�着�l�计学习中的有监督学习描�q�ͼ�内容不深�Q�基本算法都有所介绍�Q?
  - 内容的组�l�是从抽象到具体的思维模式�Q�比国外的教材易于理解；
  - 是自学统计学习和机器学习的推荐用书�?
- �~�点
  - 基础部分讲解�~�少理论�Q�学完后无法理解�Q�不利用学以致用。例如：感知器的损失函数�Q�应该是�l�计学习的核心思想�Q�那么损失函数在整个��法中的位置�Q�以及如何选择损失函数都需要说明清楚，才能够指导后面各�U�其他机器学习方法的理解�?
  - 使用的方法没有导入的原因和出处，学习�q�程中会产生比较大的跌��感，延箋性不��뀂例如：随机梯度下降法，只是说明用于��经�|�络的优化需要用随机梯度下降�Q�而实际上随机梯度下降是�ؓ了满��_��U�学习的需要，如果是批量学习可以直接��用梯度学习算法实现�?
- �ȝ��Q�瑕不掩瑜，��l�合 “西瓜书�?[周志华，2018] 一��L��?
�W�记目的�Q�记录重点，方便回忆�?

C01. �l�计学习�Ҏ��概论

�q�一章都是概念和�l�论�Q�如果读者能够透过概念��明白里面实际操作的内容�Q�那��可以快速浏览此书，否则准备�U�和�W�认真精��L��能收莗��?
后面的各章内容相对独立，读者既可以�q�箋学习�Q�也可以仅选择自己感兴��的内容�?

�l�计学习

�l�计学习��D��

�l�计学习 (statistical learning): 计算机基于数据构建概率统计模型，�q�运用模型对数据�q�行预测与分析的一门学�U��?
- 因此�l�计学习也称为统计机器学�?(statistical machine learning).
�l�计学习的主要特�?
- 理论基础
  - 数学基础�Q�微�U�分、线性代数、概率论、统计学、计��理论、最优化理论
  - 其他基础�Q�信息论、计��机�U�学及应用相关的�U�学�{�多个领域的交叉学科
  - 在发展中形成自己独立的理��Z��p�M��Ҏ��论�?
- 应用基础�Q�计��机及网�l�；
- 研究对象�Q�数据，是数据驱动的学科�Q?
- 研究目的�Q�对数据�q�行分类和预��；
- 研究手段�Q�通过�l�计学习�Ҏ��构徏模型�Q��ƈ应用模型�q�行分类和预��；

�l�计学习的目�?/h3>

模型�Q�学习什么样的模�?
�{�略�Q�如何学习模�?�?使模型能够对数据�q�行准确地分�c�d��预测
��法�Q�如何提高模型的学习效率

�l�计学习的研�I?/h3>

�l�计学习�Ҏ�� (statistical learning method): 开发新的学习方法；
�l�计学习理论 (statistical learning theory): 探求�l�计学习�Ҏ��的有效性与效率�Q�以及统计学习的基本理论问题�Q?
�l�计学习应用 (application of statistical learning): ��统计学习方法应用到实际问题中去�Q�解军_��际问题�?

监督学习

监督学习的�Q务：是学习一个模型，使模型能够对��L��l�定的输入，及其相应的输出做��Z��个好的预��?

基本概念

输入�I�间�Q�输入数据所有可能取值的集合�Q�集合中元素的个数可以有限，也可以是整个�I�间�Q?
输出�I�间�Q�输出数据所有可能取值的集合�Q�集合中元素的个数可以有限，也可以是整个�I�间�Q?
假设�I�间�Q�由输入�I�间到输出空间的映射的集合，卛_��供选择的模型构成的�I�间�Q?
特征�I�间�Q�所有特征向量存在的�I�间�?
- 每个具体的输入是一个实�?(instance), 通常��q��征向�?(feature vector) 表示�?
�l�计学习中的有监督学习根�?“输入变量�?�?“输出变量�?的不同主要包�?
- 分类问题�Q�输出变量�ؓ有限个离散变量的预测问题�Q?
- 回归问题�Q�输入变量与输出变量均�ؓ�q�箋变量�Q?
- 标注问题�Q�输入变量与输出变量均�ؓ变量序列的预��问题；
联合概率分布�Q�输入变量与输出变量遵��@联合分布�Q?

问题的�Ş式化描述

在学习过�E�中�Q�学习系�l�（也就是学习算法）试图通过�l�定的训�l�数据集合中的样本带来的信息来学习得到模型�?

�l�计学习三个要素

�l�计学习�Ҏ�� = 模型 + �{�略 + ��法

模型

主要问题�Q�学习什么样的模型？
模型的假讄��_��包含所有可能的条�g概率分布或决�{�函敎ͼ�即由一个参数向量决定的函数族，也称为参数空�?(parameter space)�?
模型分类
- 非概率模型：由决�{�函数表�C�的模型�Q?
- 概率模型�Q�由条�g概率表示的模型；

�{�略

主要问题�Q�按照什么样的准则，学习得到最优的模型�Q�或者从假设�I�间中选择最优的模型�?
基本概念
- 损失函数 (loss function) 或代价函�?(cost function): 度量模型一�ơ预��的好坏�Q?
- 风险函数 (risk function) 或期望损�?(expected loss): 度量�q�_��意义下模型预��的好坏�?
- �l�验风险 (empirical risk) 或经验损�?(empirical loss): 表示模型与训�l�数据的破例�E�度�Q�即模型训练��h��集的�q�_��损失�Q�当��h��定w��于无穷�Ӟ��l�验风险��D��期望风险�Q?
- �l�构风险 (structural risk): 表示模型先验知识�Q�例如：模型复杂度的正则化项 (regularizer) 或惩�|�项 (penalty term)�?
常用的损失函�?
- 0-1 损失函数
- �q�x��损失函数
- �l�对值损失函�?
- �Ҏ��损失函数或对��C��然损失函�?
学习目标
- 理想状态：��是选择期望风险或期望损失最��的模型�Q�希望可以提供无限的数据训练�Q?
- 现实状态：��是选择�l�验风险或经验损失最��的模型�Q�因为只能提供有限的数据训练�Q?
�l�验风险矫正�Q�当��h��定w��q�小�Ӟ��Ҏ��出现 “过拟合�?问题�Q�所以需要对�l�验风险�q�行矫正�Q�经验风险最��化 + �l�构风险最��化
- �l�验风险最��化 (empirical risk minimization, ERM): 极大似然估计
- �l�构风险最��化 (structural risk minimization, SRM): 最大后验估�?

��法

�l�计学习是基于训�l�数据集�Q�根据学习策略，从假讄��间中选择最优模型，最后需要考虑用什么样的计��方法求解最优模型�?
��法 卌��方法。统计学习的��法��p�{化�ؓ求解最优化问题的算法�?
- 有显式的解析解的最优化问题�Q?
- 无显式的解析解的最优化问题�Q�需要用数��D��的�Ҏ��求解�?
  - 如何保证扑ֈ�全局最优解�Q?
  - 如何保证求解的过�E�高效�?

模型的评��C��选择

1.4~1.7, 与模型选择有关的问题�?
1.8~1.10, 与模型应用有关的问题�?

模型评估

学习�Ҏ��评估的标�?
- ��Z��损失函数的模型的训练误差 (training error): 用来评估一个学习问题是否容易学�?
- ��Z��损失函数的模型的��试误差 (test error): 用来评估一个模型是否具备更有效的预��?
泛化能力 (generalization ability): 学习�Ҏ��Ҏ��知数据的预测能力

模型选择

�q�拟�?(over-fitting): 学习旉��择的模型所包含的参数过多，以至于模型对已知数据预测较好�Q�未知数据预��较差的问题
模型选择的常用方�?
- 正则�?
- 交叉验证

正则化与交叉验证

交叉验证

交叉验证 (cross validation)
- 在数据充��x��Q�随机地��数据切分成三个部分�Q�训�l�集、验证集和测试集�?
  - 选择寚w��证集有最��预��误差的模型�?
- 训练�?(training set): 用来训练模型�Q?
- 验证�?(validation set): 用来选择模型�Q?
- ��试�?(test set): 用来评估模型�?
交叉验证的常用方�?
- ��单交叉验证：随机地将数据分成两个部分�Q?0% 的数据�ؓ训练集，30% 的数据�ؓ��试集，选择��试误差最��的模型�Q?
- S 折交叉验�?
  - 随机地将数据分成 S 个互不相交的大小相同的部�?
  - 然后利用 S-1 个部分的数据训练�Q? 个子集测试模型，
  - 再将�q�一个过�E�对所有可能的选择重复�q�行�Q?
  - 最后选择 S �ơ评��中�q�_��试误差最��的模型�?
- 留一交叉验证�Q�当 S=N 旉��用的 S 折交叉验证，适用于数据极度缺乏的情况下�?N 为给定数据集的容量）

泛化能力

泛化误差

泛化能力 (generalization ability): 是指学习�Ҏ��学习到的模型�Ҏ��知数据的预测能力
泛化误差 (generalization error): 是指学到的模型对未知数据预测产生的误差，反映了学习方法的泛化能力�?

生成模型与判别模�?/h2>

生成模型 (generative model): 模型表示了给定输�?X 产生输出 Y 的生成关�p�R�?

特点

�q�原��合概率分布；
学习收敛速度快；
��h��定w��增加�Ӟ��能够更好地��D��真实模型�Q?
存在隐变量时�Q�仍然可以��用�?

应用�Q�朴�?Bayes �Ҏ��和隐马尔可夫模型 (Hidden Markov Model, HMM);
注：生成模型是比较难理解的概念，HMM 是理解生成模型比较好的途径�Q�如果对 HMM 感兴��可以参�?

��单了解：[周志华，2018] P320
深入理解�Q�[Rabiner, 1989]

判别模型 (discriminative model): 由数据直接学习决�{�函数或者条件概率分布作为预��的模型

特点

直接学习得到条�g概率分布或者决�{�函敎ͼ�
直接面对预测�Q�学习的准确率更高；
��Z��参数是直接学习得到的�Q�因此可以对数据�q�行各种�E�度上的抽象、定义和使用特征�Q�简化学习问题�?

应用�Q�k �q�邻法、感知机、决�{�树、Logistic 回归模型、最大熵模型、支持向量机、提升方法和条�g随机场等

分类问题

分类�?(classifier): 监督学习从数据中学习得到的分�c�L��型或分类决策函数�?
分类 (classification): 利用分类器对新输入的数据�q�行输出的预��?
解决分类问题的两个过�E?
- 学习�q�程�Q�根据已知的训练数据集利用有效的“学习方法”得��C��个分�c�d��Q?
- 分类�q�程�Q�利用学习得到的分类器对新输入的实例�q�行分类�?
评�h分类器性能的指标：分类准确�?(accuracy), 卛_��于给定的��试数据集，分类器正��分�cȝ��h��C��L��本数之比�?
- 二类分类问题常用的评��h��标：�_��?(precision) 与召回率 (recall)�?
解决分类问题的常用方法：k �q�邻法、感知机、朴�?Bayes 法，决策树、决�{�列表、Logistc 回归模型、支持向量机、提升方法等

标注问题

标注问题�Q�是分类问题的推�q�，也是更复杂的�l�构预测问题的简单�Ş式�?
- 输入是一个观��序列；
- 输出是一个标记序列或状态序列�?
- 目标是通过学习得到能够对观��序列给出标记序列作为预��的模型�?
解决标注问题的两个过�E�：学习�q�程 �?标注�q�程
评�h标注问题的指标：准确率、精��率和召回率�?
解决标注问题的常用方法：�?Markov 模型和条仉��机场�?

回归问题

回归 (regression): 用于预测输入变量�Q�自变量�Q�和输出变量�Q�因变量�Q�之间的关系�?
回归模型�Q�表�C�Z��输入变量到输出变量之间的映射关系的函数�?
- �{��h于：函数拟合�?
解决回归问题的两个过�E�：学习�q�程和预��过�E��?
回归问题的分�c?
- 按输入变量的个数�Q�一元回归和多元回归�Q?
- 按输入变量和输出变量之间的关�p�：�U�性回归和非线性回归�?
回归学习最常用的损失函敎ͼ��q�x��损失函数�Q�求解��^�Ҏ��失函数可以用最��二乘法�?

C03. k �q�邻�?/em>

k �q�邻�?(k-nearest neighbor, k-NN) 是一个基本且��单的�Ҏ��Q�用于分�c�M��回归�?

输入为实例的特征向量�Q�对应于特征�I�间的点�Q?
输出为实例的�c�d��Q�可以取多个�c�R�?

基本思想

假设�l�定一个训�l�数据集�Q�其中的实例�c�d��已经��定�Q?
�Ҏ��输入的实例分�c�L��Q�根据其 k 个最�q�邻的训�l�实例的�c�d��Q�通过多数表决�{�方式进行预��?
不具有显式的学习�q�程�?
实际上利用训�l�数据集对特征向量空间进行切分，�q�作为其分类�?“模型”�?

k �q�邻的模�?

对应于基于训�l�数据集对特征空间的一个划分�?
当训�l�集、距��d��量、k 值及分类决策规则��定后，输入实例所属类别也唯一��定�?

k �q�邻法的三个要素

学习准则�Q�距��d��量，常用�Ƨ氏距离�Q�（距离定义�Q�[Duda, 2003]
k 值的选择�Q�反映了�q�似误差与估计误差之间的权衡�?

k ��D��大时�Q�近��D��差会增大�Q�估计误差会减小�Q�模型也��简单；
k ��D��时�Q�近��D��差会减少�Q�估计误差会增大�Q�模型也��复杂�?
可以用交叉验证的方式选择最�?k 倹{�?

分类决策规则�Q�多数表册��?(marjority voting rule), �{��h�?�l�验风险最��化�?

k �q�邻法的实现��Z�� kd �?/em>。（了解卛_��Q�实际应用中大多使用的是已经成熟的��Y件包�Q?

kd 树是一�U�便于对 k �l�空间中的数据进行快速检索的数据�l�构�Q?
kd 树是二叉树，表示�?k �l�空间的一个划分；
kd 树的每个圣战对应�?k �l�空间划分中的一个超矩�Ş区域�Q?
利用 kd 树可以省��d��大部分数据点的搜索，从而减��搜索的计算量�?

学习�ȝ��

了解卛_��Q�因为面寚w��l�问题效果很差，需要考虑降维操作。[周志华，2018] P225

C05. 决策�?(decision tree)

决策树模�?/strong>

决策树是一�U�基本方法，用于分类与回归�?

本章主要讨论的是分类决策树�?

分类决策树模�?

定义�Q�是��Z��特征对实例进行分�cȝ��树�Ş�l�构�?
模型的组成结�?

�l�点 (node)

内部�l�点 (internal node)
叶结�?(leaf node)

有向�?(directed edge)

分类决策树可以�{换成一�?if-then 规则的集合；

决策树的根结点到叶结点的每一条�\径构��Z��条规则；
路径上内部结点的特征对应着规则的条�Ӟ��而叶�l�点的类对应着规则的结论�?
重要的性质�Q�互斥�ƈ且完备，卛_��覆盖�?

覆盖是指实例的特征与路径上的特征一致或实例满��规则的条件�?

也可以看作是定义在特征空间与�cȝ��间上的条件概率分布�?

�q�个条�g概率分布定义在特征空间的一个划分上�Q?
��特征空间划分�ؓ互不�怺�的单元或区域�Q?
�q�在每个单元定义一个类的概率分布就构成了一个条件概率分布�?
决策树分�c�L��Q�将�l�点的实例分到条件概率大的类中�?

主要优点�Q�可��L��强�Q�分�c�速度快�?

决策树学�?

学习目的

�Ҏ��l�定的训�l�数据集�Q�构��Z��个与训练数据拟合很好�Q��ƈ且复杂度��的决策树，使之能够对实例进行正��的分类�?
决策树与训练数据的矛盾较��，同时�q�具有较好的泛化能力�?
也可以看作由训练数据集估计条件概率模�?

模型对训�l�数据拟合的效果很好�Q?
模型�Ҏ��知数据有很好的预��?

从所有可能的决策树中选取最优决�{�树�?NP 完全问题�Q?

现实中采用启发式�Ҏ��学习�ơ优的决�{�树�?

学习准则�Q�损失函数最��化�?

损失函数是一�U�正则化的极大似然函�?

学习��法

递归地选择最优特征，�q�根据该特征对训�l�数据进行分�Ԍ��使之对各个数据集有一个最好的分类的过�E��?

决策树的学习��法包括 3 个部�?

特征选择

特征选择的目的在于选取对训�l�数据能够分�cȝ��特征�Q�提高决�{�树学习的效率；
特征选择的关键是其准�?

��h��集合 D 对特�?A �?strong>信息增益 最�?

信息增益定义为集�?D 的经验熵与特�?A 在给定条件下 D 的经验条件熵之差�?

熵：表示随机变量不确定性的度量。也�U�Cؓ�l�验��c�?
条�g熵：定义�?X �l�定条�g�?Y 的条件概率分布的熵对 X 的数学期望。也�U�Cؓ�l�验条�g��c�?

信息增益表示得知特征 X 的信息而��得类 Y 的信息的不确定性减��的�E�度�?
信息增益�{��h于训�l�数据集中类与特征的互信息�?
信息增益依赖于特征，信息增益大的特征��h��更强的分�c�能力�?

��h��集合 D 对特�?A �?strong>信息增益�?/strong> 最�?

��Z��避免信息增益对取��D��多的特征的偏重，使用信息增益比来代替�Q?
信息增益比：特征 A 对训�l�数据集 D 的信息增益与训练数据�?D 关于特征 A 的值的熵之比�?

��h��集合 D �?strong>基尼指数最��?

树的生成

计算指标�Q�再�Ҏ��准则选取最优切分点�Q�从根结点开发，递归��C�生决�{�树�?
通过不断地选择局部最优的特征�Q�得到可能是全局�ơ优的结果�?

树的剪枝�Q�将已经生成的树�q�行��化的�q�程�?

目的�Q�由于生成的决策树存在过拟合问题�Q�需要对它进行剪枝，以简化学到的决策树�?
剪枝的准则：极小化决�{�树整体的损失函数或代�h函数�Q�等价于正则化的极大似然估计�?
剪枝的分�c?

预剪枝：也叫分支停止准则。在决策树生成过�E�中�Q�对每个�l�点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升�Q�则停止划分�q�将当前�l�点标记为叶�l�点�Q?
后剪枝：先从训练集生成一��完整的决策树，然后自底向上地对非叶�l�点�q�行考察�Q�若��该�l�点对应的子树替换�ؓ叶结点能带来决策树泛化性能提升�Q�则��该子树替换为叶�l�点�?

常用的学习算�?

ID3: 在决�{�树的各个结点上应用信息增益准则选择特征�Q�递归地构建决�{�树。相当于用极大似然法�q�行概率模型的选择�?
C4.5: 在决�{�树的各个结点上应用信息增益比准则选择特征�Q�递归地构建决�{�树�?
CART: 既可用于分类�Q�也可用于回归�?

�{��h于递归��C��分每个特征，��输入空间即特征�I�间划分为有限个单元�Q��ƈ在这些单元上��定预测的概率分布，也就是在输入�l�定的条件下输出的条件概率分布�?
CART ��法的两个过�E?

决策树生成：��Z��训练数据集生成决�{�树�Q�要��量大；

回归树生�?

用��^方误差最��准则求解每个单元上的最优输出倹{�?
回归树通常�U�Cؓ最��二乘回归树�?

分类树生�?

用基��指数选择最优特征，�q�决定该特征的最优二值切分点�?
��法停止计算的条�?

�l�点中的��h��个数��于预定阈��|��
��h��集的基尼��于预定阈��|��

决策树剪�?

用验证数据集对已�l�生成的树进行剪枝，剪枝的标准�ؓ损失函数最��，��Z��标准选择最优子树�?
可以通过交叉验证法对用于验证的独立数据集上的子树序列�q�行��试�Q�从中选择最优子树�?

[Duda, 2003] P320, CART 作�ؓ通用的框�Ӟ��定义�?6 个问�?

决策树的预测

�Ҏ��的数据，利用决策树模型进行分�c�R�?

学习�ȝ��

��法 (5.1, 5.2, 5.6) + 例题 ( 5.1, 5.2, 5.3, 5.4 ) 通过��法和例题可以增强理解；
损失函数的定义可以进一步参�?“不�U�度�?指标 [Duda, 2003] P320, �?“纯度�?指标 [周志华，2018] P75

“不�U�度�?指标是求极小��|��可以跟梯度下降法�{�最优化理论�l�合�?

C06. Logistic 回归与最大熵模型

模型

Logistic 回归模型�Q�也�U�Cؓ�Ҏ��几率回归模型�Q�输入是的线性函敎ͼ�输出的是�Ҏ��几率模型

��Z�� Logistic 分布建立的，表示条�g概率的分�c�L��?

Logistic 分布�?Sigmoid 函数�Q?strong>定义 6.1

�Ҏ��几率 (log odds) �?logit 函数

一个事件的几率 (odds) 是指该事件发生的概率与该事�g不发生的概率的比倹{�?

二项 Logistic 回归模型是二�c�d��c�L��型，定义 6.2
多项 Logistic 回归模型是多�c�d��c�L��?
模型参数估计

极大似然估计�?

最大熵模型

��Z��最大熵原理推导的，表示条�g概率分布的分�c�L��型，可以用于二类或多�c�d��c�R�?

最大熵原理认�ؓ�Q�在所有可能的概率模型�Q�分布）的集合中�Q�熵最大的模型是最好的模型�?
准则�Q�最大熵原理是概率模型学习或估计的一个准则�?

最大熵模型的学�?

最大熵模型的学习过�E�就是求解最大熵模型的过�E?
最大熵模型的学习可以�Ş式化为有�U�束的最优化问题�Q�对偉��题）

拉格朗日乘子参考附�?C

�?6.1, 6.2 方便理解最大熵模型的算法原理�?

��法

学习采用极大似然估计或者正则化极大似然估计

形式化�ؓ无约束最优化问题

求解无约束最优化问题的算�?

�q�代��度�?
梯度下降�?
拟牛��法

学习�ȝ��

Logistic 模型与最大熵模型都属于对数线性模型。[周志华，2018] C03
极大似然估计�Q�书里写的比较简单，没有原理性的说明�Q�推荐（[周志华，2018] P149, [Duda, 2003] P67�Q?
模型学习的最优化��法�Q�书里写的不太好理解。各�U�机器学习和模式识别的书里面都有介绍�Q�推荐（[周志华，2018] P403, [Hagan, 2006] C09�Q?

C08. 提升�Ҏ��Q�集成学习）

提升�Ҏ��是一�U�统计学习方法，也是一�U�提升模型学习能力和泛化能力的方法，�q�是一�U�组合学习（集成学习�Q�的�Ҏ��Q�是�l�计学习中最有效的方法之一�?/p>

��Z��么要��各�U�学习方法组合�v来？

强可学习�Ҏ��与弱可学习方法的�{��h性；
��各�U�弱可学习方法组合�v来就可以提升 (boost) 为强可学习方�?

如何��各�U�学习方法组合�v来？

AdaBoost ��法

是一�U�通用的组合算法，可以��各�U�分�cȝ��法进行组合�?

提升�?

以分�c�L��或回归树为基本分�c�d��的提升方法（�l�合��法�Q?
提升树是�l�计学习中性能最好的�Ҏ��之一

Bagging ��法�Q�本章无介绍�Q�了解请参考[周志华，2018] C8.3�Q?

随机��林

AdaBoost ��法

模型�Q�加法模�?

如何改变训练数据的权值和概率分布�Q�采�?“分而治之�?的方法。提高那些被前一轮弱分类器错误分�cȝ��h��的权��|��从而保证后一轮的弱分�c�d��在学习过�E�中能够更多��x��它们�?
如何��弱分类器组合成一个强分类器：采用 “加权多数表决�?的方法。加大分�c�误差率��的弱分�c�d��的权��|��从而保证它们在表决中�v较大的作用�?

�{�略�Q�指数损失函数极��化�Q�即�l�验风险极小化�?
��法�Q�前向分步算法来优化分步优化指数损失函数的极��化问题�?
��法的训�l�误差分�?

AdaBoost 能够在学习过�E�中不断减少训练误差�Q�即减少训练数据集上的分�c�误差率�?

AdaBoost 的训�l�误差是以指数速率下降的�?em>定理与证明徏议蟩�q?/em>

��法的优化过�E�分�?

因�ؓ学习的是加法模型�Q�所以能够从前向后，每一步只学习一个基函数及基�p�L��Q�逐步��D��优化目标函数�Q�简化优化的复杂度�?
前向分步��法�?AdaBoost 的关�p�：定理与证明徏议蟩�q��?/em>

提升树模�?

模型�Q�加法模型，以决�{�树为基函数
�{�略�Q�损失函�?

分类问题�Q�指数损失函�?
回归问题�Q��^方误差函�?
一般决�{�问题：一般损失函�?

��法�Q�前向分步算�?

梯度提升��法�Q�GBDT�Q�：解决��L��数据的优化问题，原理参考、[Friedman, 2001]

学习�ȝ��

学习基础

熟悉重要的分�cȝ��法：��经�|�络和支持向量机
熟悉常用的分�cȝ��法：k �q�邻法和决策�?

学习目标

�l�合各种分类��法�Q�从而��生质量更好的学习能力和泛化能力模�?

胡思�ؕ�?

全连接的深度��经�|�络��是理论上最完美的组合模型，问题在于�l�度��N��带来的计��复杂度问题�?
��Z��解决计算复杂度问题，��需要了解其他分�c�L��型，因�ؓ其他分类模型��是具备了先验知识的��经�|�络模型�Q�将那些分类模型转化为神�l�网�l�模型后��可以大�q�减��连接的数量�?
概率�q�似正确 (probably approximately correct, PAC) 来自计算学习理论�Q�可参考[周志华，2018] C12, [Mitchell, 2003] C07
集成学习 (ensemble learning) 也被�U�Cؓ多分�c�d��pȝ��、基于委员会的学习等�Q�可参考[周志华，2018] C08

C10. �?Markov 模型�Q�HMM�Q�的��法及推�q?/strong>

学习基础

随机�q�程�Q�用于理�?Markov 铄��数学含义
EM ��法�Q�用于计��?HMM 的学习问�?

Markov 铄��定义

随机�q�程

研究对象是随旉��演变的随机现象。[盛骤�Q?015] C12
�?T 是一无限实数集，对依赖于参数 t�Q�t 属于 T�Q�的一族（无限多个�Q�随机变量称为随��E��?
我的理解

随机�q�程在�Q一个时�?t, 被观��到的状态是随机的，但是�q�个随机状态是�׃��个确定的函数控制的�?
例如�Q�有 3 块金属放在箱子里面，��M��个时�?t 取出的金属是随机的，但是每块金属衰退的速度是由�q�块金属自��n的函数控制的�?
随机变量�ȝ��的是数值的随机性（某个数出现的概率�Q�，随机�q�程�ȝ��的是函数的随机性（某个函数出现的概率）

Markov �q�程

Markov 性或无后效性：�q�程�Q�或�pȝ��Q�在时刻 t_0 所处的状态�ؓ已知的条件下�Q�过�E�在时刻 t>t_0 所处状态的条�g分布与过�E�在时刻 t_0 之前所处的状态无兟뀂即在已�l�知道过�E�“现在”的条�g下，其“将来”不依赖于“过厠Z��。[盛骤�Q?015] C13
Markov �q�程�Q�具�?Markov 性的随机�q�程�Q�称�?Markov �q�程�?

Markov �?

旉��和状态都是离散的 Markov �q�程�U�Cؓ Markov 链，��U�马氏链�?
深入理解可参�?[Rabiner, 1989]

HMM

关于时序的概率模�?
用于描述一个被观测到的随机序列�Q�这个随机序列是�׃��可观��的状态随机序列生成的�Q�这个状态随机序列是由隐藏的 Markov ��N��机生成的�?

状态序�?Q�Q�隐藏的 Markov ��N��机生成的状态序列；
观测序列 O�Q�每个状态生成一个观��，一个状态序列就会生成一个观��序列�?
序列的每一个位�|�都可以看作一个时刅R�?

HMM 的基本假�?

齐次 Markov 假设�Q�即假设隐藏�?Markov 铑֜��L��时刻 t 的状态只依赖于前一个时�ȝ��状态，而与其他时刻的状态及观测无关�Q�也与时�?t 无关�Q?
观测独立性假设，卛_��设�Q意时�?t 的观��只依赖于该时刻�?Markov 铄��状态，与其他观��与状态无兟�?

HMM 的基本元�?

N�Q�模型的状态数�Q?
M�Q�每个状态生成的可观��的标志敎ͼ�
A�Q��{�U�L��率矩阵，a_{ij} 表示从状�?i 转移到状�?j 的概率；
B�Q�观��概率矩阵，b_{j} (k) 表示状�?j 产生标志 k 的概率；
π�Q�初始状态分布，π_i 表示一开始系�l�在状�?i 的概率�?
HMM 参数的数学表�C�：λ=(A, B, π)

HMM 的三个基本问�?

概率计算问题

�l�定观测序列 O 和模型参�?λ�Q�计��基于这个模型下观测序列出现的概�?P(O|λ) �Q?

预测问题

�l�定观测序列 O 和模型参�?λ�Q�寻找能够解释这个观��序列的状态序列，�q�个状态序列的可能性最大；
除非是退化的模型�Q�否则不会有“正��”的状态序列，因�ؓ每个状态序列都有可以生成观��序列；
只可能是依据某个优化准则�Q��扑ֈ�的状态序列尽可能的��D��真实的状态序列�?

学习问题

�l�定观测序列 O�Q�寻找能够解释这个观��序列的模型参数 λ�Q��?P(O|λ) 最大�?
评测哪个模型能最好地解释观测序列�?

HMM 的三个基本问题的解决�Ҏ��

概率计算问题�Q�前向算法；

先了解直接计��法�Q�理�?HMM 需要计��的概率的方法和目的�Q�同时明白直接计��法存在的问题；
再了解前向算法，如果利用栅格�Ҏ��叠加前面计算的成果，从而降低直接计��法的庞大计��量�?

预测问题�Q�Viterbi ��法�Q?
学习问题�Q�前�?+ 后向��法 +EM ��法�?

利用前向 + 后向��法计算转移概率矩阵�Q?
再基�?MLE 理论构�?P(O|λ) 函数�Q?
因�ؓ函数中有三个参数不可知，无法直接计算得到�Q�因为采�?EM ��法�q�代求解�?

HMM 的基本类�?

基本�?HMM �c�d��

4 状态遍�?HMM�Q�其他类型都是遍�?HMM 的特例�?
4 状态从左到�?HMM�Q?
6 状态从左到叛_ƈ行�\�?HMM�?

观测序列的密度是�q�箋函数�?HMM�Q�增加了混合高斯作�ؓ�U�束�Q?
自回归的 HMM�Q�很适合语音处理�Q?
无输出的 HMM�Q�即某些状态�{�U�L��无观��输出，主要用于语音识别�Q?
一�l�状态到另一�l�状态�{换：�l�内状态无转移�Q?
优化准则�Q�利用概率理论（ML�Q�或信息理论�Q�MMI�Q�MDI�Q�刻画；
比较 HMM 模型�Q�用于模型的��度和选择�Q�常用的��度�Q�交叉熵或散度或判别信息�Q?

HMM ��法的具体实现方�?

观测数据的尺度化�Q�方便计��机处理�Q�防止溢出；
HMM 模型的训�l�：通过多个观测序列�q�行训练�Q�估计模型的参数�Q?
HMM 模型参数的初始��D��定，没有形式化方法，只能凭借经验；
观测数据数量�q�少�Q�或者观��数据不完整

扩大用于训练的观��集的大��（现实不可操作�Q�；
减少 HMM 模型的参��C��敎ͼ�卛_��?HMM 模型的规模；
利用插值的�Ҏ��补齐或者增加数据�?

HMM 模型的选择

��定 HMM 模型的状态（模型状态数�Q�模型�\径数�Q?
��定 HMM 观测的标志（�q�箋�q�是��L��Q�单个还是�؜合）
无�Ş式化�Ҏ��Q�依赖于具体的应用�?

学习�ȝ��

随机�q�程�?HMM ��法的基本概�늚�理解�Q�特别是语音识别和语�a�处理方向的研�I�极为重要；
HMM ��法的计��过�E�的了解�Q�虽然可以调用成熟的模块�Q�但是了解这个计��过�E�对�?HMM 计算的调优可能会有帮助；
HMM ��法的学习极力推�?[Rabiner, 1989]�Q�本章的框架��是��Z��q�篇文章写的�?

C11. 条�g随机场（CRF�Q�的��法及推�q?/h1>

条�g随机场（Conditional Random Field, CRF�Q�的基本概念

概率模型

提供了一�U�描�q�框�Ӟ��学习�Q务归�l�于计算变量的概率分布�?
推断�Q�利用已知变量推��未知变量的分布�Q�核心是如何��Z��可观��变量推��出未知变量的条件分布�?

生成模型与判别模�?

生成 (generative) 模型

考虑联合分布�Q�是所有变量的全概率模型；
��q��态序列决定观��序列，因此可以模拟�Q�“生成”）所有变量的倹{�?
��h��严格的独立性假设；
特征是事先给定的�Q��ƈ且特征之间的关系直接体现在公式中�?
优点

处理单类问题比较灉|��Q?
模型变量之间的关�p�L��较清楚；
模型可以通过增量学习获得�Q?
可以应用于数据不完整的情��c�?

�~�点�Q�模型的推导和学习比较复杂�?
应用

n 元语法模�?
HMM
Markov 随机�?
Naive Bayes 分类�?
概率上下文无��x��?

判别 (discriminative) 模型

考虑条�g分布�Q�认为由观测序列军_��状态序列，直接对后验概率徏模；
从状态序列中提取特征�Q�学习模型参敎ͼ�使得条�g概率�W�合一定�Ş式的最优�?
特征可以��L��l�定�Q�一般利用函数进行表�C��?
优点�Q�模型简单，�Ҏ��建立与学习；
�~�点�Q�描�q�能力有限，变量之间的关�p�M��清晰�Q�只能应用于有监督学习�?
应用

最大熵模型
条�g随机�?
最大熵 Markov 模型 (maximum-entropy Markov model, MEMM)
感知�?

概率图模型：是一�cȝ��图来表达变量相关关系的概率模型，

有向图模型（Bayes �|�）�Q��用有向无环图表示变量间的依赖关系�Q�如�Q�推导关�p?

静�?Bayes �|�络
动�?Bayes �|�络�Q�适合处理一般图问题

�?Markov 模型�Q�结构最��单的动�?Bayes �|�，适合处理�U�性序列问题，可用于时序数据徏模，主要应用领域��韌��别、自然语�a�处理�{��?

无向图模型（Markov �|�）�Q��用无向图表示变量间的依赖关系�Q�如�Q��@环关�p?

Markov 随机场：典型�?Makrov �|?
Boltzman �?
通用条�g随机场：适合处理一般图问题

�U�性链式条仉��机场�Q�适合处理�U�性序列问�?

随机场：

概率图模�?

在概率模型的基础上，使用了基于图的方法来表示概率分布�Q�或者概率密度、密度函敎ͼ��Q�是一�U�通用化的不确定性知识表�C�和处理的方法�?
图是表示工具

�l�点表示一个或者一�l�随机变�?
�l�点之间的边表示变量间的概率依赖关系�Q�即“变量关�p�d��”�?

Bayes �|�络�Q�信�늽��Q�信度网�Q�置信网�Q?

目的�Q�通过概率推理处理不确定性和不完整性问�?
构�?Bayes �|�络的主要问�?

表示�Q�在某一随机变量的集合上�l�出其联合概率分布�?
推断�Q�因为模型完整描�q�C��变量及其关系�Q�可以推断变量的各种问题�?

�_��推理�Ҏ��Q�变量消除法和团树法
�q�似推理�Ҏ��Q�重要性抽��h��、MCMC 模拟法、��@环信念传播法和泛化信念传播法�{?

学习�Q�决定变量之间相互关联的量化关系�Q�即储存强度估计�?

参数学习常用�Ҏ��Q�MLE、MAP、EM �?Bayes 估计法�?
�l�构学习�Q?

Markov 随机�?(Markov Random Field, MRF)

定义

是一�l�有 Markov 性质的随机变量的联合概率分布模型�Q?
联合概率分布满��成对、局部和全局 Markov 性�?
�׃��个无向图 G 和定�?G 上的势函数组成�?

基本概念

�?(clique)�Q�是图中�l�点的一个子集，团内��L��两个�l�点都有边相�q�。也�U�Cؓ完全子图 (complete subgraph)�?
极大�?(maximal clique)�Q�若在一个团 C 中加入�Q何一个结炚w��不再形成团，��p��那个�?C 是最大团。极大团��是不能被其他团所包含的团�?
因子分解 (factorization)�Q�将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作�?
分离�?(separating set)�Q�若从结炚w�� A 中的�l�点到结炚w�� B 中的�l�点都必��ȝ��q�结炚w�� C 中的�l�点�Q�则�U�结炚w�� A �?B 被结炚w�� C 所分离�?
全局 Markov 性：�l�定两个变量子集的分��集�Q�则�q�两个变量子集条件独�?

局�?Markov 性：�l�定某变量的��L��变量�Q�则该变量独立于其他变量
成对 Markov 性：�l�定所有其他变量，两个非邻接变量条件独�?�?

势函�?

用于��模型进行参数化的参数化因子�Q�称为团势能或者团势能函数�Q�简�U�势函数�?
定义在变量子集上的非负实函数�Q�主要用于定义概率分布函敎ͼ�亦称“因子”�?
多个变量之间的联合概率可以基于团分解为多个因子的乘积�?
指数函数�l�常被用于定义势函数�?

条�g随机�?(Conditional Random Field, CRF)

用来处理标注和划分序列结构数据的概率化结构模型�?
是给定一�l�输入随机变量条件下另一�l�输出随机变量的条�g概率分布模型

假设输出随机变量构成 Makrov 随机场�?

�U�性链条�g随机�?

输入序列对输出序列预��的判别模型
形式为对数线性模�?

构�?CRF 的主要问�?

特征的选取
参数训练
解码

优点�Q�相比于 HMM 没有独立性要求，相比于条�?Markov 模型没有标识偏置问题�?

学习�ȝ��

本书的描�q�概忉|��内容过��，不利于理解，��阅读 [周志华，2018] C14
以概率图模型为基��来理解条仉��机场会更加容易，也能够保证知识相互之间的联系�Q�还可以加深�?HMM 的理解�?
CRF 的主要应用是自然语言处理�Q�因此结合自然语�a�处理来理解概念也会更加深刅R�?[宗成庆，2018] C06
虽然国内几本书都写的不错�Q�但�?CRF 都不是他们书中的重点�Q�若��x��入学�?CRF �q�是请参�?[Sutton, 2012]

C12. �l�计学习�Ҏ��ȝ��

10 �U�统计学习方法特点的概括�ȝ��

�Ҏ�� 适用问题 模型特点 模型�c�d�� 学习�{�略 学习的损失函�?/strong> 学习��法

感知�?/td> 二类分类分离��^�?/td> 判别模型极小化误分点到超�q�面距离误分点到��^面距��?/td> 随机梯度下降

K �q�邻�?/td> 多类分类�Q�回�?/td> 特征�I�间�Q�样本点判别模型 ____ ____ ____

朴素贝叶�?/td> 多类分类特征与类别的联合概率分布区，条�g独立假设生成模型极大似然估计�Q�极大后验概率估�?/td> �Ҏ��似然损失概率计算公式�Q�EM ��法

决策�?/td> 多类分类�Q�回�?/td> 分类树，回归�?/td> 判别模型正则化的极大似然估计 �Ҏ��似然损失特征选择�Q�生成，剪枝

逻辑斯蒂回归与最大熵模型多类分类特征条�g下类别的条�g概率分布�Q�对数线性模�?/td> 判别模型极大似然估计�Q�正则化的极大似然估�?/td> 逻辑斯蒂损失改进的�P代尺度算法，梯度下降�Q�拟牛顿�?/td>

支持向量�?/td> 二类分类分离��^面，核技�?/td> 判别模型极小化正则化的合��|��失，软间隔最大化合页损失序列最��最优化��法 (SMO)

提升�Ҏ�� 二类分类弱分�c�d��的线形组�?/td> 判别模型极小化加法模型的指数损失指数损失前向分布加法��法

EM ��法概率模型参数估计含隐变量概率模型 ____ 极大似然估计�Q�极大后验概率估�?/td> �Ҏ��似然损失 �q�代��法

隐马��可夫模�?/td> 标注观测序列与状态序列的联合概率分布模型生成模型极大似然估计�Q�极大后验概率估�?/td> �Ҏ��似然损失概率计算公式�Q�EM ��法

条�g随机�?/td> 标注状态序列条件下观测序列的条件概率分布，�Ҏ��U�性模�?/td> 判别模型极大似然估计�Q�正则化极大似然估计 �Ҏ��似然损失改进的�P代尺度算法，梯度下降�Q�拟牛顿�?/td>

�W�号说明

Pxx�Q�代表第 xx ��；
Cxx�Q�代表第 xx 章；
[M]�Q�代表图书；
[J]�Q�代表杂志；

�Ҏ��	适用问题	模型特点	模型�c�d��	学习�{�略	学习的损失函�?/strong>	学习��法
感知�?/td>	二类分类	分离��^�?/td>	判别模型	极小化误分点到超�q�面距离	误分点到��^面距��?/td>	随机梯度下降
K �q�邻�?/td>	多类分类�Q�回�?/td>	特征�I�间�Q�样本点	判别模型	____	____	____
朴素贝叶�?/td>	多类分类	特征与类别的联合概率分布区，条�g独立假设	生成模型	极大似然估计�Q�极大后验概率估�?/td>	�Ҏ��似然损失	概率计算公式�Q�EM ��法
决策�?/td>	多类分类�Q�回�?/td>	分类树，回归�?/td>	判别模型	正则化的极大似然估计	�Ҏ��似然损失	特征选择�Q�生成，剪枝
逻辑斯蒂回归与最大熵模型	多类分类	特征条�g下类别的条�g概率分布�Q�对数线性模�?/td>	判别模型	极大似然估计�Q�正则化的极大似然估�?/td>	逻辑斯蒂损失	改进的�P代尺度算法，梯度下降�Q�拟牛顿�?/td>
支持向量�?/td>	二类分类	分离��^面，核技�?/td>	判别模型	极小化正则化的合��\|��失，软间隔最大化	合页损失	序列最��最优化��法 (SMO)
提升�Ҏ��	二类分类	弱分�c�d��的线形组�?/td>	判别模型	极小化加法模型的指数损失	指数损失	前向分布加法��法
EM ��法	概率模型参数估计	含隐变量概率模型	____	极大似然估计�Q�极大后验概率估�?/td>	�Ҏ��似然损失	�q�代��法
隐马��可夫模�?/td>	标注	观测序列与状态序列的联合概率分布模型	生成模型	极大似然估计�Q�极大后验概率估�?/td>	�Ҏ��似然损失	概率计算公式�Q�EM ��法
条�g随机�?/td>	标注	状态序列条件下观测序列的条件概率分布，�Ҏ��U�性模�?/td>	判别模型	极大似然估计�Q�正则化极大似然估计	�Ҏ��似然损失	改进的�P代尺度算法，梯度下降�Q�拟牛顿�?/td>

zYx.Tom 2019-09-17 09:39 发表评论

zYx.Tom — Tue, 19 Mar 2019 04:51:00 GMT

文章提纲

全书总评
C01.Python 介绍

Python 版本
Python 之禅

C02.Python 基础知识

基础知识
��程控制�Q?/a>
函数�Q?/a>
异常

获取键盘输入�Q?/a>
字符串操�?/a>
C05. 容器�Q�Container�Q�与集合�Q�Collections�Q?/a>

元组�Q�Tuple�Q?/a>
列表�Q�List�Q?/a>
字典�Q�Dictionary�Q?/a>
集合�Q�Collections�Q?/a>

数学模块�Q�math
旉��模块�Q�time�Q�datetime�Q�calendar
随机数模块：random
取样�Q?/a>
文�g处理�Q�glob �?fileinput
压羃�Q�bz2 �?gzip
漂亮打印�Q�pprint 模块
跟踪异常日志�Q�traceback 模块
�|�络数据传输�Q�JSON

C07. �?Python ��d��外部数据

CSV�Q�csv 模块
Excel�Q�pandas 模块�Q�参�?C10�Q?/a>
MySQL�Q�MySQLdb 模块�Q�torndb 模块
PostgreSQL�Q�psycopg2 模块
MongoDB�Q�pymongo 模块
ElasticSearch�Q�elasticsearch 模块

C08. �?Python 解决�l�计问题

数据可视�?/a>

C09. 爬虫入门

request 模块
Xpath 模块

Numpy 模块

从这里开始，先弃了，�q�本书适合了解了以后，再来�Ҏ��作者的实践角度查遗补缺�?/a>

Pandas 模块
Scikit-Learn 模块
图论基础
NetworkX 模块
C12. 大数据工�?/a>

Hadoop
Spark

全书总评

书本印刷质量�Q? 星。印��h��楚，排版合适，错误很少�?
著作�~�写质量�Q? 星。Python 入门和与数据处理相关的各�U�模块的入门�Q�以及数据处理的入门。作者是原著�Q�写的确实是自己的东西，不是东抄西抄。只是实践部分的内容实在太浅薄了些�?
代码质量�Q?星。Python入门�q�本书的IT功底不够�Q�中间可能会��到一些坑�Q�最好有点Python基础以后�Q�用�q�本书查遗补�~��?a >下蝲地址
阅读�W�记�Q�记录需要记住的重点�Q�方便快速回忆�?

C01.Python 介绍

Python 版本

Python 2.x�Q?001 �q�发布，有许多资料和库基于这个版本编写；
Python 3.x�Q?009 �q�发布，与旧版本不兼容；

Python 之禅

import this

C02.Python 基础知识

基础知识

基础数据�c�d��Q�在 Python 中，所有的元素都是“对象”�?

None�Q�表�C�Z��么都没有的类型；
int�Q�表�C�整数的�c�d��Q?
float�Q�表�C��Q�Ҏ��的类型；
bool�Q�表�C�布��数值的�c�d��Q?
str�Q�表�C�字�W�串的类型；

变量与赋��|��Python 的书写规范（PEP8�Q?

序列解包

操作�W�与表达式：

��术操作�W�：
位操作符�Q?
比较操作�W�：
逻辑操作�W�：and�Q�or�Q�not

文本�~�辑器：

文�g�~�码�Q�UTF-8

��程控制�Q?/h2>

条�g判断�Q�if…elif…else…）�Q?
循环�Q?

while�Q?
for…in…：

�~�进�Q�空白与注释

�~�进�Q�分割代码块�Q?
�I�白�Q�没有�Q何意义，只�ؓ��观�Q?
注释�Q?

单行注释�Q��?�?
多行注释�Q��?”…””�?

函数�Q?/h3>

函数定义�Q�def func_name()
参数定义�Q?

实参�Q?
形参�Q?
位置参数�Q�参数绑定）�Q�根据定义和调用函数时参数的位置�q�行参数的赋��|��
关键字参敎ͼ�非关键字参数不能定义在关键字参数后面�?
可变数量的参敎ͼ�def func(*args, **kwargs)

*args�Q�位�|��Ş参，表示��L��数量的位�|�参数都会合�q�成一个元�l�，�l�定�?args 上；
**kwargs�Q�关键字形参�Q�表�C�Z�Q意数量的关键字参数都会合�q�成一个元�l�，�l�定�?kwargs 上；

递归�Q?
闭包�Q�closure�Q�：又称词法闭包�Q�Lexical Closure�Q�或函数闭包�Q�Function Closure�Q�，是引用了自由变量的函数。这个被引用的自由变量将和这个函��C��同存在，即��已经��d��了创建它的环境也不例外�?

异常

异常�Q�（try…except…finally…）

获取键盘输入�Q?/h3>

input(str)�Q?

字符串操�?/h3>

基本操作�Q?

strip()�Q�移除字�W�串两侧的所有空白符�Q?
capitalize()�Q��字符串的首字母大写；
title()�Q��字符串中每个单词的首字母大写�Q?
lower()�Q��字符串的所有字母小写；
upper()�Q��字符串的所有字母大写；
isalnum()�Q�字�W�串中包含字母或者数字时�?True�Q?
isdigit()�Q�字�W�串中只包含数字时�ؓ True�Q?

分割�Q?

split(delimiter)�Q�将字符串按指定分隔�W�分�Ԍ��
rsplit(delimiter)�Q�将字符串从双��开始按指定分隔�W�分�Ԍ��

格式化：

%�Q�print(�?s�?%name)
format()�Q�print(‘{one} and {two}�?format(one=�?�?two=�?�?)

C05. 容器�Q�Container�Q�与集合�Q�Collections�Q?/h1>
元组�Q�Tuple�Q?/h2>

元组�Q�与字符串一��P��是有序的序列�Q�不可以改变内容
基本操作�Q�连接、切片都与字�W�串保持一��_��
序列解包�Q�也�U�多重赋��|��
支持�q�代器协议，支持 for 循环

列表�Q�List�Q?/h2>

列表�Q�也是序列类型的对象�Q�但是可以改变列表中的内容；
基本操作�Q�连接、切片都与字�W�串保持一��_��
更改操作�Q?

pop()�Q�删除列表中的数据，�q�将删除的数据返回；
insert()�Q�插入数据；
append()�Q�追加数据；
extend()�Q�拼接列表；

引用传递：所有的赋值都只是引用的传递，�q�没有创建新的数据；

list[:]�Q�浅拯��Q�只拯��W�一层引用的数据�Q?
deepcopy()�Q�深拯��Q�拷贝所有引用的数据�Q?

列表解析式：构造列表的方式�Q�将一个函��C��用到整个列表中每个元素的方式�Q�[x for x in range(1,3)]

字典�Q�Dictionary�Q?/h2>

字典在其他语�a�中被�U�Cؓ散列表，�?key:value 寚w��过｛｝�l�成的无序结构�?
常用的函敎ͼ�

get(key)�Q�通过 key 取得对应�?value�Q�还可以通过铑ּ�调用取��|��
dict(list)�Q�构建新的字典；
dict.keys()�Q�获取字典的 keys �q�代�Q?
dict.values()�Q�获取字典的 values �q�代�Q?
dict.items()�Q�获取字典的 key:value 对的�q�代�Q?
dict.pop(key)�Q�取出指定关键字的��|��
dict.update(key)�Q�更新字�怸�对应�?key 中的 value�Q?

集合�Q�Collections�Q?/h2>

namedtuple()�Q�具名元�l��?
Counter()�Q�篏加器�Q�可以用来做�l�典�?word count�Q?
defaultdict()�Q��ؓ字典讑֮�一个默认��|��
OrderedDict()�Q��字典有序�Q?

数学模块�Q�math

常见帔R��Q�默认精度�ؓ 15 位，最多可以取�?48 �?

math.pi
math.e

无穷大与无效数字�Q?

math.inf�Q�表�C�“无�I�大”，�?infinite 的羃写。math.inf*math.inf==math.inf
math.nan�Q�表�C�“无效数字”，�?Not a number 的羃写。math.inf/math.inf==math.nan
int 的范��_��?3.5 �?int 长度理论上是无限�?
float 的范��_��1e-309~1e+309

��点数�{换�ؓ整数�Q?

math.trunc(f)�Q�截掉��Q点型��数点后面的数字�Q?
math.floor(f)�Q�取最接近��点型数字的整数�Q?
math.ceil(f)�Q�取比当前��Q点型数字大的整数�Q?

�l�对值和�W�号�Q?

math.fabs(f)�Q��Q�Ҏ��的绝对��|��
math.copysign(x,y)�Q�符号函敎ͼ��?y 的符号传递给 x�Q?

常用计算�Q?

math.fsum(values)�Q�解�?sum(values) 不能�_��计算的问题；
math.factorial(x)�Q�阶乘计��函数�?

指数和对敎ͼ�

math.pow(x,y)�Q�x �?y �ơ幂�Q?
math.log(x)�Q�x �?e 为底的对敎ͼ�
math.log10(x)�Q�x �?10 为底的对敎ͼ�

旉��模块�Q�time�Q�datetime�Q�calendar

time 模块�Q�基��的时间处理模块；

time.time()�Q�表�C�Zؓ数字旉��戻I��即从格林威治旉��Q?970-1-1�Q?�Q?�Q?�Q�北京时��_��1970-1-1�Q?�Q?�Q?�Q�以来所�l�历�q�的�U�数�Q?
time.ctime(x)�Q�没�?x 则返回当前时间的字符串版本，�?x 则返回从旉��戛_��始经�q�了 x �U�后的时间的字符丌Ӏ?
struct_time�Q�具名元�l�，可以分别获得�q?(tm_year)、月 (tm_mon)、当月第几日 (tm_mday)、时 (tm_hour)、分 (tm_min)、秒 (tm_sec)�Q�星期几 (tm_way�Q�星期一�?0)�Q�当�q�第几天 (tm_yday)�Q�是否夏令时 (tm_isdst�Q�没有�ؓ 0)�Q?

time.gmtime()�Q�格林威��M��?struct_time�Q?
time.localtime()�Q�当前电脑所在时区的 struct_time�Q?
time.mktime(struct_time)�Q�还原成数字旉��戳的方式�Q?
time.strptime(string,format)�Q�将字符串格式的旉��按照格式转换�?struct_time 格式�Q?
time.strftime(format,struct_time)�Q�将 struct_time 格式的时间元�l��{换成字符串格式；

datetime 模块�Q�针对年月日和时分秒分别�q�行处理�Q?
calendar 模块�Q�处理万�q�历�Q?

随机数模块：random

随机数生成器�Q?

random.random()�Q�生成均匀分布的��Q炚w��机数�Q�在半开半闭区间 [0.0, 1.0)�Q?
random.seed()�Q�设�|�随机数�U�子�Q?
random.randint(a,b)�Q�返回整型随机数�Q�在闭区�?[a,b]�Q?
random.randrange()�Q�返回整型随机数�Q�在半开半闭区间 [a,b)�Q?

取样�Q?/h2>

random.shuffle(list)�Q�按随机性质��列表重新排列顺序；
random.choice(list)�Q�按随机性质从列表中抽取数据�Q?
random.sample(list,k)�Q�按随机性质从列表中抽取指定长度的数据；

文�g处理�Q�glob �?fileinput

open(filename,mode)�Q�基�?mode 模式打开 filename 文�g�Q�还支持上下文管理器 with 模式�Q?
glob 模块�Q�目录处理；
fileinput 模块�Q�批量文件读入；是一个帮助类�Q?

压羃�Q�bz2 �?gzip

不徏议��用的压羃格式�Q?

rar�Q�专门服务于 Windows 下，Python 需要第三方库才能打开�Q?
tar�Q�只用于打包文�g�Q�不�Ҏ��件进行压�~�；
zip�Q�既可以压羃文�g�Q�还可以打包文�g�Q�因��带打包功能，不适合用于�Ҏ��件单独压�~�；

��使用的压�~�格�?

bz2 模块�Q�对单个文�g可写可读�Q�非常方便；
gzip 模块�Q�对单个文�g可写可读�Q�非常方便；

漂亮打印�Q�pprint 模块

跟踪异常日志�Q�traceback 模块

�|�络数据传输�Q�JSON

json.loads()�Q�将 JSON 转换成字典；
json.dumps()�Q�将字典转换�?JSON�Q?

C07. �?Python ��d��外部数据

CSV�Q�csv 模块

csv.reader()�Q�读取文�Ӟ��
csv.writer()�Q�写入文�Ӟ��
csv.register_dialect()�Q�delimiter= 注册分割�W�；
csv.DictReader()�Q�按照字典结构读取数据；*

Excel�Q�pandas 模块�Q�参�?C10�Q?/h2>

pandas.read_excel()�Q�读取文�Ӟ��
pandas.to_excel()�Q�写入文�Ӟ��
pandas.set_option()�Q�设�|�属性��|��
pandas.DataFrame()�Q�表格结构；

MySQL�Q�MySQLdb 模块�Q�torndb 模块

db=torndb.Connection(host,database,user,password)�Q�徏立数据库链接�Q?
db.insert(SQL),db.insertmany(SQL)�Q�向数据库中插入单行数据�Q�插入多行数据；
db.query(SQL)�Q�从数据库读取数据；

PostgreSQL�Q�psycopg2 模块

MongoDB�Q�pymongo 模块

ElasticSearch�Q�elasticsearch 模块

C08. �?Python 解决�l�计问题

pandas 模块许多函数发生了改变；�?Python 3.7 �?read_excel() �q�行有问题；�l�计都没办法��试了�?

数据可视�?/h2>

基本函数�Q?

plot()
show()
figure()
title()
xlabel()
ylabel()
legend()

囑�Ş�Q?

折线图：
散点图：
��q��图：bar()
饼图�Q�pie()

C09. 爬虫入门

request 模块

HTTP 协议�Q?
获取 HTML 内容�Q?

Xpath 模块

解析 HTML 内容�Q?
�q�个模块已经没有匚w�� Python3.7 的版本了�Q�放弃这个学习�?

Numpy 模块

ndarray:

创徏�Q?

arange()
linspace()�Q�度量等�?
random.random()�Q�随机数

属性：

ndim�Q�数�l�的�l�度�Q?
shape�Q�数�l�的形状�Q?
dtype.name�Q�数�l�中数据的类型；
itemsize�Q�数�l�类型占用的内存�I�间大小�Q?
size�Q�数�l�中元素个数�Q?

创徏特定数组�Q?

zeros()�Q�全零矩阵；
ones()�Q�全 1 矩阵�Q?
empty()�Q�随机的��值组成的矩阵�Q?

基本�q�算�Q�数�l�运��是��Z��元素计算�?

矩阵乘法�Q�dot()
�q�代�Q�与列表�c�M��Q�直接�P代按行取敎ͼ�flat() 可以把数�l�摊�q��ؓ一�l�数�l?
变�Ş�Q�resize() 原地修改数组�Q�reshape() 输出一个变形后的数�l�，原数�l�不变；
堆叠�Q�hstack() 行数相同�Q�水�q�_��叠；vstack() 列数相同�Q�垂直堆叠；

高��q�算

transpose()�Q��{�|�；
linalg.inv()�Q�取逆；
eye()�Q�单位阵�Q?
trace()�Q�取�q�；
linalg.solve()�Q�解�U�性方�E�；
linalg.eig()�Q�解特征方程�Q?

从这里开始，先弃了，�q�本书适合了解了以后，再来�Ҏ��作者的实践角度查遗补缺�?/h1>
Pandas 模块

Scikit-Learn 模块

图论基础

NetworkX 模块

C12. 大数据工�?/h1>
Hadoop

Spark

zYx.Tom 2019-03-19 12:51 发表评论

《Python��经�|�络�~�程》的��M��W�记

zYx.Tom — Tue, 19 Mar 2019 04:03:00 GMT

文章提纲

全书总评
��M��W�记

C01.��经�|�络如何工作�Q?/a>
C02.使用Python�q�行DIY
C03.开拓思维
附录B。树莓派

全书总评

书本印刷质量�Q?星。纸张是�c�黄�Ԍ��可以保护眼睛�Q�印��h��楚，文字排版整洁�Q�基本没有排版过�E�中引入的错误，阅读不篏眼睛。但是可能是Word排版�Q�感觉数学公式的排版不是太好�?
著作�~�写质量�Q?星。简单，易懂�Q�入门很好。可能是��Z��帮助读者克服对数学的恐惧，所以多用图来说明。但是，没有数学的神�l�网�l�本质上�q�是�I�Z��楼阁�Q�过于��E化数学的作用反而��推导部分读�v来费劌Ӏ?
著作��译质量�Q?星。没有明昄��问题�Q�基本��用的都是业界常用词汇。其实给3~4星我都在犹��U�Q�因为翻译本�w�没有错误，作者也不是靠机��M��事，但是作�ؓ一本入门图书，�q�于长的句子�Q�英文表�q�的风格�Q��人经�怼�看着看着��׃��书中“出戏”了�Q�媄响思��A的连贯性�?
代码质量�Q?星。代码问题不大，�q�可以去GitHub下蝲�?a >作者的GitHub�Q�热心读者的GitHub�?a >CSDN-Blog
�ȝ��Q�如果还惌��一步了解神�l�网�l�，��L��?a href="《神�l�网�l�与机器学习�?��M��-�W�记">《神�l�网�l�与机器学习�?/a>�Q�如果想�q�一步了解Python�Q�请�E�x��Python书籍�ȝ��。如果想�q�入机器学习的行业，�q�是找机会精��M��遍《高�{�数学》、《线性代数》和《概率统计》吧�Q�对于后期了解原理绝�Ҏ��有好处的�?

��M��W�记

C01.��经�|�络如何工作�Q?/h2>

计算��q�啥�Q�打游戏、听音乐、看视频�Q�还可以囑փ�识别、知识推理等�{��?
预测��q�啥�Q�不是程序员教的知识�Q�而通过学习得到的知识，用来处理未来的问�?
分类器能�q�啥�Q�对数据�q�行区分�Q�例如：�Ҏ��与香蕉，通过学习�Q�找出它们的特征�Q�从而学会分�?
分类器如何训�l�（学习�Q�？先学习正��的知识�Q�如果结果不对就调整记忆�Q�最�l�全部答�Ҏ��的知识
分类器如何解��x��为复杂的问题�Q�多个学习单元一起学�?
��经元的基本原理�Q�计��机的神�l�网�l�只是生物神�l�元的仿真，或者叫数学解释�Q�或者叫计算机模拟�?
信号在神�l�网�l�中如何��动�Q?
怎样��化神�l�网�l�的表示�Q�矩��c�?
使用矩阵乘法来表�C�Z��层神�l�网�l�的例子�?
��经元的权重如何学习�Q�基本原�?
★反向传播误差算法（11~13�Q?

多层��经�|�络的误差是如何反向传播的？
误差如何反向传播到更多层中？

��单的3层神�l�网�l�：输入�?隐藏�?输出层，误差如何在隐藏层中传播来修改权重�?

如何使用矩阵乘法来描�q�反向传播误差？

如何更新��经�|�络的权重？数学��法�Q�梯度下降）
权重更新的具体案例�?
��经�|�络训练的过�E�：输入�Q�准备训�l�数据）、权重（随机初始化）、输出（误差函数优化�Q?

C02.使用Python�q�行DIY

Python是啥�Q�一�U�非常利于阅�ȝ��~�程语言�Q�适合非计��机专业人员学习和��?
IPython是啥�Q�交互式Python�?
Python怎么用？��是帮你基本了解Python�Q�方便后面看Python代码�?
使用Python制作��经�|�络�Q�进入正题了�Q�跟着作者输入一遍代码，可以加深理解�?
数据集MNIST�Q�进入真正的实用��目了�?

输入完整的代码；�Q�有地方看不懂，是因��Z��中给出的Python说明�q�远不够�Q�但是别在意�q�些不懂�Q��l�前�q�，先明白神�l�网�l�可以干啥）
用小的数据集训练和测试神�l�网�l�，会发现对于复杂一点的��h��无法正常识别了�Q?
使用完整的数据集训练和测试神�l�网�l�，�q�次耗时有点长，但是准确率会大大提升�Q�看样子多花�Ҏ��间学习是值得的；
一�Ҏ��q�：调整学习率，会发现效果不一样了�Q��ؓ什么呢�Q�具体原理可以参考《神�l�网�l�与机器学习�?
一�Ҏ��q�：多次�q�行�Q�同��L��训练数据再学习一�ơ还能够提高识别率，但是如果�ơ数�q�多会出现过拟合�Q�参考《神�l�网�l�与机器学习》；
一�Ҏ��变：调整隐藏层的节点数目�Q�可能会影响识别率（P146�Q�图�Q�，参考《神�l�网�l�与机器学习》；

C03.开拓思维

自己创造数据：用画图��Y件创造一个图片用于识别，囄��大小必须是（28*28�Q�像素格式的�Q?
��经�|�络的秘密：

��秘的黑盒子�Q�像��Z��h��冗余能力�Q�少量的损失只会影响�_�ֺ��Q�不会完全失去能力；
逆向查询�Q�把输出变输入，输入变输出，可以发现��经�|�络到底从数据中学到了什么；

创徏新的训练数据�Q�真实情况下数字可能是扭曲的、旋转的、不规范的，创造这��L��数据试试�|�络的识别率�Q�想惌��别不出的原因�Q?

附录B。树莓派

�q�个对于中国同学��g��用处不大�Q�中国�h民突然变得钱多多��h��Q�电脑已�l�是上大学的标配了。当然如果有旉��Q�试着玩玩�q�是很有��的�Q�而且树莓�z��应用范围非常�q�泛�Q�学了不吃亏�?/p>

zYx.Tom 2019-03-19 12:03 发表评论

《��Y件开发与创新》的��M��W�记

zYx.Tom — Tue, 19 Mar 2019 03:57:00 GMT

文章提纲

全书总评
��M��W�记

其他�{�需要的时候再看。。�?/a>

全书总评

书本印刷质量�Q?星。纸张稍有点薄，当然印刷清楚�Q�文字排版合适，基本没有排版�q�程中引入的错误�Q�阅��M��累眼睛�?
著作�~�写质量�Q?星。各位大牛应�~�书的需要，针对“��Y件开发与创新”这个方向，写了点自��q��ȝ��。主要包括：软�g开发的语言、��Y件开发过�E�中的测试、��Y件开发中遇到的其他问题以及如何进行数据可视化�?
著作��译质量�Q?星。都是行内�h��译的作品，本��n又都是独立文集，因此��译的工作量不算太大�Q�因此质量还是可以保证的�?
代码质量�Q?星。其实里面没多少代码�Q�只有些代码片断�Q�也是用来说明文章的内容的。对那个语言的熟悉的同学�Q�阅读�v来没压力�Q�不熟悉的话��只有蟩�q�了�?

��M��W�记

Mock Roles, Not Objects[FPMW04]�?
对象��x��促��考虑�pȝ��中是否多个对象彼此交互，��保每个对象都有�z�d��Q�从而构建出一个健��L��pȝ��。（不要忙的忙死�Q�闲的闲死）

�E�序设计中典型安全就是Java的Calendar API�Q�过多关注类��D��W�重�Q�大家喜�ƢJoda Time�Q�更加简�z�，更加面向对象�?/p>
zYx.Tom 2019-03-19 11:57 发表评论

《神�l�网�l�算法与实现-��Z��Java语言》的��M��W�记

zYx.Tom — Tue, 19 Mar 2019 03:51:00 GMT

文章提纲

全书总评
��M��W�记

C1.初识��经�|�络
C2.��经�|�络是如何学习的
C3.有监督学习（�q�用感知机）
C4.无监督学习（自组�l�映��）
全书总评

书本印刷质量�Q?星。纸张很白，印刷清楚�Q�文字排版合适，基本没有排版�q�程中引入的错误�Q�阅��M��累眼睛�?
著作�~�写质量�Q?星。入门书�Q�看完后可能会对��经�|�络有个基本概念�Q�但是也可能��只有个基本概念。基本概忉|��q�还是清楚的�Q�还�l�出了比较好的参考资料。几个例子讲的很��，好处��是提供了代码，如果有开发方向的需要可以参考。深入学习神�l�网�l�还是参�?a >《神�l�网�l�和机器学习�?/a>�q�本书吧�?
著作��译质量�Q?星。用的都是常用词汇。对于不了解��经�|�络的读者，通过本书了解一些基本概念，为将来学习其他书�c�打下基��Q�对于了解神�l�网�l�的读者不会造成概念��h��?
代码质量�Q?星。基本没错误�Q�但是思�\跟书上不完全匚w��。比如说�Q�感知机一般都是单层的�Q�就是一个神�l�元�Q�一个偏�|�量�Q�两个输入的��|��一个输出的��|��两个权倹{��但是作者在��试代码中放入两个输入权��|��一个输出权��|��不明白，后面都是�q�样的思�\�Q�于是只好弃了�?

��M��W�记

C1.初识��经�|�络

基本概念�Q��h工神�l�元�Q�激�z�d��敎ͼ�权��|��偏置�Q�层�?/p>
��经�|�络�l�构�Q?/p>

��经元连�?

单层��经�|�络�Q�单层感知机�Q�自适应机，自组�l�映��、Elman�|�络和Hopfield�|�络�?
多层��经�|�络�Q�多层感知机�Q�径向基函数�?

信号��?

前馈��经�|�络�Q�多层感知机�Q�径向基函数�?
反馈��经�|�络�Q�单层的�Q�Elman�|�络和Hopfield�|�络�Q�和多层的（递归多层感知机和Echo�|�络�Q��?

C2.��经�|�络是如何学习的

学习范式�Q?/p>

有监督学习：

描述�Q�已知的数据集与学习得到的结果之间的误差最��，最��的评�h��Z��某个代�h函数�?
应用�Q�图像分�c�，语音识别�Q�函数��D��和趋劉K��?

无监督学习：

描述�Q�从已知的数据集提取知识�Q�即��数据集分类�Q�类间距��d��Q�类内距��d��Q�评价基于某个代价函数�?
应用�Q�聚�c�d��析，数据压羃�Q�统计徏模和语言建模�?

学习��法�Q?/p>

两个阶段�Q�训�l�和��试�?
重要�l�节�Q�参数�?
评�h方式�Q�误差度量和代�h函数�?
例子�Q�Perceptron 感知机和Delta规则�?

C3.有监督学习（�q�用感知机）

单层感知机的作用和局限性：解决�U�性可分问题，不能解决非线性问题�?
多层感知机（MLP�Q�：

层：

输入层：
隐藏层：�Ȁ�z�d��C��般选择双曲正切或者sigmoid�Q�因为它们是可导的�?
输出层：

学习�q�程�Q?

反向传播�Q�敏感性反向传播。收敛速度比较慢�?
Levenberg-Marquardt�Q?

C4.无监督学习（自组�l�映��）

竞争学习或赢安��吃�Q��生最大值的��经元更新它的权倹{�?
Kohonen自组�l�映��（Self-Organization Map�Q�：

一�l�SOM�Q��生最大值的��经元更新它的权��|��与之盔R��的神�l�元以相对较低的学习率更新权倹{�?
二维SOM�Q�领域函数判断相�ȝ��经元，使结构更“组�l�化”�?

zYx.Tom 2019-03-19 11:51 发表评论

zYx.Tom — Sun, 27 Jan 2019 16:28:00 GMT
文章提纲

开发小�l?/a>

建立��目
配置��目
理解感知机的代码

开发小�l?/h2>
建立��目

在Eclipse中创��Z��个Java��目�?

配置��目

选中��目�Q�“右键→Properties→Java Build Path→Libraries→Add Library→User Library→neuroph-2.94”即可把相关�c�d��U�_��到项目中�?
理解感知机的代码

单层感知机：neuroph-samples-2.94.jar中org.neuroph.samples.PerceptronSample.class

public SinglePerceptronAND() { // create training set (logical AND function)�Q�创��l�集�Q�符合逻辑与函敎ͼ� DataSet trainingSet = new DataSet(2, 1);trainingSet.addRow(...); // create perceptron neural network�Q�创建感知机(两个入，一个出�Q�就是最��单的单层一个神�l�元的神�l�网�l? NeuralNetwork myPerceptron = new Perceptron(2, 1); // learn the training set�Q�学习这个训�l�集�Q�就是�ؓ了得到神�l�网�l�的参数 myPerceptron.learn(trainingSet); // test perceptron�Q�测试这个感知机�Q�检验它训练的参数是否正��?/span> myPerceptron.setInput(trainingSet.get(0).getInput()); myPerceptron.calculate(); System.out.print("Input: " + Arrays.toString(trainingElement.getInput())); System.out.println(" Output: " + Arrays.toString(networkOutput)); }

zYx.Tom 2019-01-28 00:28 发表评论

zYx.Tom — Fri, 25 Jan 2019 03:19:00 GMT
文章提纲

开发小�l?/a>

建立��目
配置��目
创徏代码

执行��目

开发小�l?/h2>
建立��目

在Eclipse中创��Z��个Java��目�?

说明�Q�Hibernate不仅用在Web��目中，也可以在Java��目中��用，只是安装��参考前面的说明�Q?

在SQL Server的“企业管理器”中创徏一个名字叫“Hibernate”的数据库�?
在“Hibernate”数据库中创��Z��个“MESSAGE”的表�?

CREATE TABLE [dbo].[MESSAGE] ( [MESSAGE] [char] (10) COLLATE Chinese_PRC_CI_AS NULL ) ON [PRIMARY]

配置��目

选中��目�Q�“右键→Properties→Java Build Path→Libraries→Add Library→User Library→Hibernate 3”即可把相关�c�d��U�_��到项目中�?
选中��目�Q�“右键→Properties→Java Build Path→Libraries→Add Library→User Library→jTDS”即可把相关�c�d��U�_��到项目中�?
创徏代码

创徏一个新的类Message

package sample.entity; public class Message { private String message; public Message(String message) { this.message = message;} public String getMessage() { return message;} public void setMessage(String message) { this.message = message;} }

创徏一个测试类

package sample.entity; public class PopulateMessages { public static void main(String[] args) { SessionFactory factory = new Configuration().configure().buildSessionFactory(); Session session = factory.openSession(); session.beginTransaction(); Message message = new Message("Hibernated"); session.save(message); session.getTransaction().commit(); session.close(); } }

创徏一个Hibernate的配�|�文�Ӟ��“New→Other→Hibernate Configuration File→hibernate.cfg.xml�?

name="Hibernate"> name="hibernate.connection.driver_class">net.sourceforge.jtds.jdbc.Driver name="hibernate.connection.url">jdbc:jtds:sqlserver://127.0.0.1:1433;DatabaseName=hibernate name="hibernate.connection.username">sa name="hibernate.dialect">org.hibernate.dialect.SQLServerDialect name="hibernate.show_sql">true resource="sample/entity/Message.hbm.xml"/>

创徏一个Hibernate的映��文�Ӟ��“New→Other→Hibernate XML Mapping File”，把多余的文�g和目录移除，“Add Class→Message→Finish”就可以了�?

name="sample.entity.Message" table="MESSAGE"> name="message" type="java.lang.String"> name="MESSAGE" /> class="assigned" />

执行��目

�q�行PopulateMessages��可以看到结果了�?

zYx.Tom 2019-01-25 11:19 发表评论

《测试驱动开发》的��M��W�记

zYx.Tom — Fri, 18 Jan 2019 15:25:00 GMT

《测试驱动开发》的��M��W�记

学习基础�Q?/a>
学习�q�程�Q?/a>
学习目的�Q?/a>
学习感悟�Q?/a>
学习代码�Q?/a>

��试驱动开发的规则
��试�E�序开发周期的阶段

《测试驱动开发》的��M��W�记

学习基础�Q?/h3>
熟悉《设计模式》的基本概念�Q�熟悉《重构》的基本概念�Q�熟悉基本的Java语法�Q�熟悉Eclipse和JUnit的��用，有相对较好的��p��基础�?/p>
学习�q�程�Q?/h3>

�W?部分�Q�手工输入实例程序，了解TDD的方法和�q�程。重�Ҏ��理解TDD的思�\�Q�最好的理解方式��是通过实践的方式理解�?
�W?部分�Q�教你如何用Python实现一个符合xUnit的测试框架�?
�W?部分�Q�TDD的模式，�q�些模式展现TDD如何与其他重要思想�Q�例如：设计模式、重构等�{�）一起工作的�?

学习目的�Q?/h3>
�~�写正确的代码�?/p>
学习感悟�Q?/h3>

道理很简单，操作也很��单，但是我仍然无法明了作者许多重构操作的意图�Q�只是感觉作者可能是从直觉出发写��Z��码，再通过重构推进��试代码与��品代码之间的解耦。（知其�Ӟ��不知其所以然�Q?
可以先蟩�q�第2部分�Q�了解xUnit如何实现固然重要�Q�但是�ؓ此变成先学Python��有点跑题了
�q�可以蟩�q�第3部分�Q�这部分都是作者从思想上对TDD的�ȝ��Q�俗话说“不吃亏不涨记性”，�{�自己在��目中吃够了亏再来回��ֈ�人的�l�验�Q�才会真正共鸣吧�?

学习代码�Q?/h3>
代码很简单，不需要再提供�Q�反而最重要的是自己一定要手工跟一遍，否则无法领会作者的意图。至��，我在豆瓣上看了几个评论，大部分都是看懂了�Q�没感觉�?/p>
��试驱动开发的规则

�Q�P4�Q�明��设计目标，完善��试代码

消除重复设计��x��消除依赖关系�Q�测试代码与产品代码之间的依赖关�p�）�Q?
��试驱动开发不是通过一��步一��步来完成的�Q�而是培养一��步一��步开发��Y件的能力。因为简单的问题可以走快点，复杂的问题就可以走慢炏V�?

�Q�P12�Q�完善��品代�?

完成知道怎么做的产品代码�Q?
补充不知道怎么做的产品伪代码�?

�Q�P14�Q�寻��N��含的开发目标，完善��试代码

利用三角法发��C�品代码中的问题（三角法：当例子不�?个的时候才完善代码。可以在没有设计思�\的时候，换个角度思考问题）
利用重构解决发现的问�?

�Q�P17�Q�通过开发的功能来重构测试代�?
�Q�P33�Q�不打断自己已经在做的工作，如果非要打断也不要在新的工作中花太长的时��_��q�且不能再次打断�q�个新的工作。（事不�q�三�Q?
�Q�P34�Q�找到自��q��开发节奏。（一开始慢一点，慢慢加快�Q�再调整回慢�Q�直到找到自己最合适的节奏感）
�Q�P42�Q�删除不需要的子类�Q�会发现��试代码中存在的不需要的��试也可以删除（攑ּ�不需要的东西�Q�会帮助你发��C��q�需要什么）

��试�E�序开发周期的阶段

写一个测试程序；
让测试程序编译通过�Q?
�q�行��试�E�序�Q�发��C��能运行；
让测试程序可以运行；
消除重复设计�Q�优化设计结构�?

zYx.Tom 2019-01-18 23:25 发表评论

《单元测试之道Java版》的��M��W�记

zYx.Tom — Wed, 16 Jan 2019 09:57:00 GMT

总览
�W?�?首个单元��试
�W?�?使用JUnit�~�写��试

3.1 构徏单元��试
3.2 JUnit的各�U�断�a�
3.3 JUnit框架

5.CORRECT�Q�正��的�Q�边界条�?/a>
6.使用Mock对象
7. 好的��试所��h��的品�?A-TRIP)
8. 在项目中�q�行��试
9. 设计话题

总览

�q�是本相对简单的书，书中采用的JUnit的版本也是旧的，但是在新的JUnit4下稍做修改依然可以运行。重要的是通过�q�本书了解JUnit在Java的单元测试中是如何��用的�?/p>
�W?�?首个单元��试

计划你的��试�Q�测试不是无中生有的�Q�也不是意想天开的。是�Ҏ��需要一点点��d��的，帮助自己��早地发现思考上的误区。参看这章给出的例子�Q�原来理所当然正确的，�l�果不一定是正确的�?/p>
�W?�?使用JUnit�~�写��试

3.1 构徏单元��试

��试代码必须要做的几件事情：

准备��试的条�Ӟ��创徏对象、分配资源等�{�）
调用��试的方�?
验证��试�Ҏ��的行��Z��期望是否相符
��试�l�束后清理现场（释放资源�{�等�Q?
3.2 JUnit的各�U�断�a�

断言�Q�JUnit提供的辅助函敎ͼ�帮助你确认被��试函数是否正确�q�行�?/p>

后面�q�介�l�了�Q?.5 JUnit的自定义断言�Q?/p>
3.3 JUnit框架

�q�章是基于JUnit3.x写的�Q�徏议了解就可以了，因�ؓJUnit4的变化较大，使用也更方便直观�Q�因此直接参�?a >JUnit4的帮�?/a>�?/p>

框架�q�行��序对应于标�{?/th>

setUpBeforeClass() @BeforeClass

setUp() @Beofre

testMethod1()

tearDown() @After

setUp() @Before

testMethod2()

tearDown() @After

tearDownAfterClass() @AfterClass

5.CORRECT�Q�正��的�Q�边界条�?/h2>

一致性（Conformance�Q�：值是否符合预期的格式�Q?
有序性（Ordering�Q�：一�l�值是否符合对排序的要求（有序性、无序性）�Q?
区间性（Range�Q�：值是否在合理取��D��围内�Q�在最��g��最大��g��_��Q?
引用�Q�Reference�Q?耦合性：代码是否引用了不受代码本�w�直接控制的外部因素�Q?
存在性（Existence�Q�：值是否存在（例如�Q�非NULL�Q�非�Ӟ��包含于某个集合等�{�）
基数性（Cardinality�Q�：是否恰好有��够的��|��Q�也�U�Cؓ集合的势�Q�即集合里面包含的元素个敎ͼ�
旉��性（Time�Q?�l�对旉��和相�Ҏ��_��所有的事情是否按照��序发生�Q�是否在正确的时间发生？是否及时发生�Q?

6.使用Mock对象

Mock对象解决的问题：

真实对象��h��不可��定的行为（如：股票行情�Q�；
真实对象很难被创建；
真实对象的某些行为很难被触发�Q�如�Q�网�l�错误）�Q?
真实对象令程序的�q�行速度很慢�Q?
真实对象有用��L��面或者就是用��L��面；
真实对象需要被询问它是如何被调用的�Q�如�Q�验证某个回调函数是否被调用�Q�；
真实对象实际上不存在�Q�如�Q�其他开发小�l�的接口、或者某个没有的��g产品�Q��?

Mock对象解决的步骤：

使用一个接口来描述�q�个对象�Q?
��Z�品代码实现这个接口；
以测试�ؓ目的�Q�在Mock对象中实现这个接口�?

注：�q�里的Mock不是�|�上已经形成框架的Mock工具�Q�是Mock的实现原理。作者推荐的Mock工具�?a >EasyMock。其他的Mock工具可以参考《[使用Mock�q�行单元��试]�?https://blog.csdn.net/u011393781/article/details/52669772)

7. 好的��试所��h��的品�?A-TRIP)

自动化（Automatic�Q�：自动化地调用��试和检查结果；常用的持�l�集成工�?/a>
��d��的（Thorough�Q�：��试了所有需求关注的情况�Q?a >常用的代码覆盖工�?/a>
可重复（Repeatable�Q�：每个��试应该独立于其他所有的��试�Q�还必须独立于环境，从而可以重复地执行�Q��ƈ且��生相同的�l�果�?
独立的（Independent�Q�：��保一个函数只针对一��h��试，�q�且�q�个��试不依赖于其他��试�?
专业的（Professional�Q�：��试代码应该与��品代码的�~�码风格和编写质量相�?

如何��保��试代码是正��的呢？

对��品代码中的Bug�q�行修改的时候也改进��试代码�Q�（因�ؓ�q�个Bug是测试代码没有发现的�Q?
在��品代码中引入Bug来验证测试代码的正确性。（��保可能会发生的错误被测试代码捕捉到了）

8. 在项目中�q�行��试

把测试代码与产品代码攑֜�一个目录下�Q?
与别人共享代码的时候，需要确保你的代码可以通过所有测试；
��试的时间点�Q?

�~�写新的函数�Q?
修正Bug�Q?
每次成功�~�译之后�Q?
每次对版本控制的提交�Q?
持箋不断地由专门的机器来�q�行完整的构建和��试�?

��试别�h的项目代码：其实��是�l�护别�h的项目绝�Ҏ��个大问题�Q�同时也是个必须面对的问题。需要理性的态度�Q�不批评别�h的代码）、冷静的手段�Q�不随便修改别�h的代码）、持久的耐心�Q�先从测试代码开始，慢慢重构��目代码�Q��之重新回到健��L��态）、真正的智慧�Q�知道什么样的项目应该达��C��么样的目标，不执着于重构成一个完��的状态，也不��单放弃随之自生自灭。）
��试与评审：三个臭皮匠顶个诸葛亮�Q�放下自我的执着�Q�接�U�_��U�不同的意见�Q�才能做��Z�o自己满意的项目�?

9. 设计话题

面向��试的设计：不方便测试的设计不是好的设计�Q�说明设计过于僵化或者臃肿，需要简化或者修改��之更利用未来的扩展和�l�护�?
面向��试的重构：不方便测试的代码不是好的代码�Q�说明业务�؜杂在一��P��无法实现一个函数只针对一��h��试，需要修改设计��业务分离�?
��试�cȝ��不变性：��是对类的断�a�必须为真�?

有序性。例如：sorted list�cȝ��不变性就是无论发生什么，�l�果都应该是有序的�?
�l�构化。例如：订单�pȝ��中每个条目必��d��于一个订单，一个订单拥有一个或多个条目�?
数学不变性。例如：银行账号的的借贷必须�q��?
数据一致性。例如：商品��L��=库存�?销售数�?

��试驱动的设计。��你作��Z�品代码的用户在编码，而不是��品开发者在�~�码�Q�开发结果更能反应用��L��需求�?
��试无效的参数。当你作��Z�品代码的用户�Ӟ��你才能真正确定哪些责��d��该你来承担，而哪些是不需要的。例如：无效的参数应该由哪个函数来承担检查责��d��Q?

zYx.Tom 2019-01-16 17:57 发表评论

框架�q�行��序	对应于标�{?/th>
setUpBeforeClass()	@BeforeClass

setUp()	@Beofre
testMethod1()
tearDown()	@After

setUp()	@Before
testMethod2()
tearDown()	@After

tearDownAfterClass()	@AfterClass

国产精品亚洲二区在线观看,亚洲欧美日韩综合久久久久,亚洲国产精品无码中文lv

Office 2010 �l�验�ȝ��

《统计学习方法》的��M���W�记

全书总评

C01. �l�计学习�Ҏ��概论

�l�计学习

�l�计学习��D��

�l�计学习的目�?/h3> 模型�Q�学习什么样的模�? �{�略�Q�如何学习模�?�?使模型能够对数据�q�行准确地分�c�d��预测 ���法�Q�如何提高模型的学习效率

监督学习

基本概念

问题的�Ş式化描述

�l�计学习三个要素

模型

�{�略

���法

模型的评��C��选择

模型评估

模型选择

正则化与交叉验证

交叉验证

泛化能力

泛化误差

分类问题

标注问题

回归问题

C03. k �q�邻�?/em>

C05. 决策�?(decision tree)

C06. Logistic 回归与最大熵模型

C08. 提升�Ҏ���Q�集成学习）

C10. �?Markov 模型�Q�HMM�Q�的���法及推�q?/strong>

C12. �l�计学习�Ҏ���ȝ��

�W�号说明

全书总评

C01.Python 介绍

Python 版本

Python 之禅

C02.Python 基础知识

基础知识

异常

获取键盘输入�Q?/h3> input(str)�Q?

C05. 容器�Q�Container�Q�与集合�Q�Collections�Q?/h1>

元组�Q�Tuple�Q?/h2> 元组�Q�与字符串一��P��是有序的序列�Q�不可以改变内容 基本操作�Q�连接、切片都与字�W�串保持一��_�� 序列解包�Q�也�U�多重赋��|�� 支持�q�代器协议，支持 for 循环

集合�Q�Collections�Q?/h2> namedtuple()�Q�具名元�l��? Counter()�Q�篏加器�Q�可以用来做�l�典�?word count�Q? defaultdict()�Q��ؓ字典讑֮�一个默认��|�� OrderedDict()�Q���字典有序�Q?

数学模块�Q�math

旉���模块�Q�time�Q�datetime�Q�calendar

随机数模块：random

取样�Q?/h2> random.shuffle(list)�Q�按随机性质���列表重新排列顺序； random.choice(list)�Q�按随机性质从列表中抽取数据�Q? random.sample(list,k)�Q�按随机性质从列表中抽取指定长度的数据；

文�g处理�Q�glob �?fileinput

压羃�Q�bz2 �?gzip

漂亮打印�Q�pprint 模块

跟踪异常日志�Q�traceback 模块

�|�络数据传输�Q�JSON

C07. �?Python ��d��外部数据

CSV�Q�csv 模块

Excel�Q�pandas 模块�Q�参�?C10�Q?/h2> pandas.read_excel()�Q�读取文�Ӟ�� pandas.to_excel()�Q�写入文�Ӟ�� pandas.set_option()�Q�设�|�属性��|�� pandas.DataFrame()�Q�表格结构；

MySQL�Q�MySQLdb 模块�Q�torndb 模块

PostgreSQL�Q�psycopg2 模块

MongoDB�Q�pymongo 模块

ElasticSearch�Q�elasticsearch 模块

C08. �?Python 解决�l�计问题

数据可视�?/h2> 基本函数�Q? plot() show() figure() title() xlabel() ylabel() legend() 囑�Ş�Q? 折线图： 散点图： ��q��图：bar() 饼图�Q�pie()

C09. 爬虫入门

request 模块

Xpath 模块

Numpy 模块

从这里开始，先弃了，�q�本书适合了解了以后，再来�Ҏ��作者的实践角度查遗补缺�?/h1>

Pandas 模块

Scikit-Learn 模块

图论基础

NetworkX 模块

C12. 大数据工�?/h1>

Hadoop

Spark

《Python���经�|�络�~�程》的��M���W�记

全书总评

��M���W�记

C02.使用Python�q�行DIY

C03.开拓思维

附录B。树莓派

《��Y件开发与创新》的��M���W�记

《统计学习方法》的��M��W�记

�l�计学习的目�?/h3>

模型�Q�学习什么样的模�?
�{�略�Q�如何学习模�?�?使模型能够对数据�q�行准确地分�c�d��预测
��法�Q�如何提高模型的学习效率

��法

C08. 提升�Ҏ��Q�集成学习）

C10. �?Markov 模型�Q�HMM�Q�的��法及推�q?/strong>

C12. �l�计学习�Ҏ��ȝ��

获取键盘输入�Q?/h3>

input(str)�Q?

元组�Q�Tuple�Q?/h2>

元组�Q�与字符串一��P��是有序的序列�Q�不可以改变内容
基本操作�Q�连接、切片都与字�W�串保持一��_��
序列解包�Q�也�U�多重赋��|��
支持�q�代器协议，支持 for 循环

集合�Q�Collections�Q?/h2>

namedtuple()�Q�具名元�l��?
Counter()�Q�篏加器�Q�可以用来做�l�典�?word count�Q?
defaultdict()�Q��ؓ字典讑֮�一个默认��|��
OrderedDict()�Q��字典有序�Q?

旉��模块�Q�time�Q�datetime�Q�calendar

取样�Q?/h2>

random.shuffle(list)�Q�按随机性质��列表重新排列顺序；
random.choice(list)�Q�按随机性质从列表中抽取数据�Q?
random.sample(list,k)�Q�按随机性质从列表中抽取指定长度的数据；

Excel�Q�pandas 模块�Q�参�?C10�Q?/h2>

pandas.read_excel()�Q�读取文�Ӟ��
pandas.to_excel()�Q�写入文�Ӟ��
pandas.set_option()�Q�设�|�属性��|��
pandas.DataFrame()�Q�表格结构；

数据可视�?/h2>

基本函数�Q?

plot()
show()
figure()
title()
xlabel()
ylabel()
legend()

囑�Ş�Q?

折线图：
散点图：
��q��图：bar()
饼图�Q�pie()

《Python��经�|�络�~�程》的��M��W�记

��M��W�记

《��Y件开发与创新》的��M��W�记

��M��W�记

《神�l�网�l�算法与实现-��Z��Java语言》的��M��W�记

《测试驱动开发》的��M��W�记

《测试驱动开发》的��M��W�记

学习基础�Q?/h3>
熟悉《设计模式》的基本概念�Q�熟悉《重构》的基本概念�Q�熟悉基本的Java语法�Q�熟悉Eclipse和JUnit的��用，有相对较好的��p��基础�?/p>

学习目的�Q?/h3>
�~�写正确的代码�?/p>

学习代码�Q?/h3>
代码很简单，不需要再提供�Q�反而最重要的是自己一定要手工跟一遍，否则无法领会作者的意图。至��，我在豆瓣上看了几个评论，大部分都是看懂了�Q�没感觉�?/p>

��试驱动开发的规则

��试�E�序开发周期的阶段

《单元测试之道Java版》的��M��W�记

�W?�?首个单元��试

�W?�?使用JUnit�~�写��试

3.1 构徏单元��试

7. 好的��试所��h��的品�?A-TRIP)

8. 在项目中�q�行��试