如何通俗地解释李群和李群李代数是什么人学的的关系？

点击联系发帖人 时间：2024-04-19 06:34

李群李代数是什么人学的

线性代数 (Linear Algebra)：我想国内的大学生都会学过这门课程，但是，未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础，对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课，后来到了香港后，又重新把线性代数读了一遍，所读的是Introduction to Linear Algebra (3rd Ed.)
by Gilbert Strang.这本书是MIT的线性代数课使用的教材，也是被很多其它大学选用的经典教材。它的难度适中，讲解清晰，重要的是对许多核心的概念讨论得比较透彻。我个人觉得，学习线性代数，最重要的不是去熟练矩阵运算和解方程的方法——这些在实际工作中MATLAB可以代劳，关键的是要深入理解几个基础而又重要的概念：子空间(Subspace)，正交(Orthogonality)，特征值和特征向量(Eigenvalues and eigenvectors)，和线性变换(Linear transform)。从我的角度看来，一本线代教科书的质量，就在于它能否给这些根本概念以足够的重视，能否把它们的联系讲清楚。Strang的这本书在这方面是做得很好的。而且，这本书有个得天独厚的优势。书的作者长期在MIT讲授线性代数课(18.06)，课程的video在MIT的Open courseware网站上有提供。有时间的朋友可以一边看着名师授课的录像，一边对照课本学习或者复习。http://ocw.mit.edu/OcwWeb/Mathematics/18-06Spring-2005/CourseHome/index.htm
概率和统计 (Probability and Statistics):概率论和统计的入门教科书很多，我目前也没有特别的推荐。我在这里想介绍的是一本关于多元统计的基础教科书：Applied Multivariate Statistical Analysis (5th Ed.)
by Richard A. Johnson and Dean W. Wichern这本书是我在刚接触向量统计的时候用于学习的，我在香港时做研究的基础就是从此打下了。实验室的一些同学也借用这本书学习向量统计。这本书没有特别追求数学上的深度，而是以通俗易懂的方式讲述主要的基本概念，读起来很舒服，内容也很实用。对于Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)这些Learning中的基本方法也展开了初步的论述。之后就可以进一步深入学习贝叶斯统计和Graphical models。一本理想的书是Introduction to Graphical Models (draft version).
by M. Jordan and C. Bishop.我不知道这本书是不是已经出版了（不要和Learning in Graphical Models混淆，那是个论文集，不适合初学）。这本书从基本的贝叶斯统计模型出发一直深入到复杂的统计网络的估计和推断，深入浅出，statistical learning的许多重要方面都在此书有清楚论述和详细讲解。MIT内部可以access，至于外面，好像也是有电子版的。
分析 (Analysis)：我想大家基本都在大学就学过微积分或者数学分析，深度和广度则随各个学校而异了。这个领域是很多学科的基础，值得推荐的教科书莫过于Principles of Mathematical Analysis, by Walter Rudin有点老，但是绝对经典，深入透彻。缺点就是比较艰深——这是Rudin的书的一贯风格，适合于有一定基础后回头去看。在分析这个方向，接下来就是泛函分析(Functional Analysis)。Introductory Functional Analysis with Applications, by Erwin Kreyszig.适合作为泛函的基础教材，容易切入而不失全面。我特别喜欢它对于谱论和算子理论的特别关注，这对于做learning的研究是特别重要的。Rudin也有一本关于functional analysis的书，那本书在数学上可能更为深刻，但是不易于上手，所讲内容和learning的切合度不如此书。在分析这个方向，还有一个重要的学科是测度理论(Measure theory)，但是我看过的书里面目前还没有感觉有特别值得介绍的。
拓扑 (Topology)：在我读过的基本拓扑书各有特色，但是综合而言，我最推崇：Topology (2nd Ed.)
by James Munkres这本书是Munkres教授长期执教MIT拓扑课的心血所凝。对于一般拓扑学(General topology)有全面介绍，而对于代数拓扑(Algebraic topology)也有适度的探讨。此书不需要特别的数学知识就可以开始学习，由浅入深，从最基本的集合论概念（很多书不屑讲这个）到Nagata-Smirnov Theorem和Tychonoff theorem等较深的定理（很多书避开了这个）都覆盖了。讲述方式思想性很强，对于很多定理，除了给出证明过程和引导你思考其背后的原理脉络，很多令人赞叹的亮点——我常读得忘却饥饿，不愿释手。很多习题很有水平。
流形理论 (Manifold theory)：对于拓扑和分析有一定把握时，方可开始学习流形理论，否则所学只能流于浮浅。我所使用的书是Introduction to Smooth Manifolds.
by John M. Lee虽然书名有introduction这个单词，但是实际上此书涉入很深，除了讲授了基本的manifold, tangent space, bundle, sub-manifold等，还探讨了诸如纲理论(Category theory)，德拉姆上同调(De Rham cohomology)和积分流形等一些比较高级的专题。对于李群和李代数也有相当多的讨论。行文通俗而又不失严谨，不过对某些记号方式需要熟悉一下。虽然李群论是建基于平滑流形的概念之上，不过，也可能从矩阵出发直接学习李群和李代数——这种方法对于急需使用李群论解决问题的朋友可能更加实用。而且，对于一个问题从不同角度看待也利于加深理解。下面一本书就是这个方向的典范：Lie Groups, Lie Algebras, and Representations: An Elementary Introduction.
by Brian C. Hall此书从开始即从矩阵切入，从代数而非几何角度引入矩阵李群的概念。并通过定义运算的方式建立exponential mapping，并就此引入李代数。这种方式比起传统的通过“左不变向量场(Left-invariant vector field)“的方式定义李代数更容易为人所接受，也更容易揭示李代数的意义。最后，也有专门的论述把这种新的定义方式和传统方式联系起来。————————————————————————————无论是研究Vision, Learning还是其它别的学科，数学终究是根基所在。学好数学是做好研究的基石。学好数学的关键归根结底是自己的努力，但是选择一本好的书还是大有益处的。不同的人有不同的知识背景，思维习惯和研究方向，因此书的选择也因人而异，只求适合自己，不必强求一致。上面的书仅仅是从我个人角度的出发介绍的，我的阅读经历实在非常有限，很可能还有比它们更好的书（不妨也告知我一声，先说声谢谢了）。％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％Learning中的代数结构的建立Learning是一个融会多种数学于一体的领域。说起与此有关的数学学科，我们可能会迅速联想到线性代数以及建立在向量空间基础上的统计模型——事实上，主流的论文中确实在很大程度上基于它们。R^n (n-维实向量空间) 是我们在paper中见到最多的空间，它确实非常重要和实用，但是，仅仅依靠它来描述我们的世界并不足够。事实上，数学家们给我们提供了丰富得多的工具。“空间”(space)，这是一个很有意思的名词，几乎出现在所有的数学分支的基础定义之中。归纳起来，所谓空间就是指一个集合以及在上面定义的某种数学结构。关于这个数学结构的定义或者公理，就成为这个数学分支的基础，一切由此而展开。还是从我们最熟悉的空间——R^n 说起吧。大家平常使用这个空间的时候，除了线性运算，其实还用到了别的数学结构，包括度量结构和内积结构。·
第一，它是一个拓扑空间(Topological space)。而且从拓扑学的角度看，具有非常优良的性质：Normal (implying Hausdorff and Regular), Locally Compact, Paracompact, with Countable basis, Simply connected (implying connected and path connected), Metrizable.·
第二，它是一个度量空间(Metric space)。我们可以计算上面任意两点的距离。·
第三，它是一个有限维向量空间(Finite dimensional space)。因此，我们可以对里面的元素进行代数运算（加法和数乘），我们还可以赋予它一组有限的基，从而可以用有限维坐标表达每个元素。·
第四，基于度量结构和线性运算结构，可以建立起分析(Analysis)体系。我们可以对连续函数进行微分，积分，建立和求解微分方程，以及进行傅立叶变换和小波分析。·
第五，它是一个希尔伯特空间（也就是完备的内积空间）(Hilbert space, Complete inner product space)。它有一套很方便计算的内积(inner product)结构——这个空间的度量结构其实就是从其内积结构诱导出来。更重要的，它是完备的(Complete)——代表任何一个柯西序列(Cauchy sequence)都有极限——很多人有意无意中其实用到了这个特性，不过习惯性地认为是理所当然了。·
第六，它上面的线性映射构成的算子空间仍旧是有限维的——一个非常重要的好处就是，所有的线性映射都可以用矩阵唯一表示。特别的，因为它是有限维完备空间，它的泛函空间和它本身是同构的，也是R^n。因而，它们的谱结构，也就可以通过矩阵的特征值和特征向量获得。·
第七，它是一个测度空间——可以计算子集的大小（面积/体积）。正因为此，我们才可能在上面建立概率分布(distribution)——这是我们接触的绝大多数连续统计模型的基础。我们可以看到，这是一个非常完美的空间，为我们的应用在数学上提供了一切的方便，在上面，我们可以理所当然地认为它具有我们希望的各种良好性质，而无须特别的证明；我们可以直接使用它的各种运算结构，而不需要从头建立；而且很多本来不一样的概念在这里变成等价的了，我们因此不再需要辨明它们的区别。以此为界，Learning的主要工作分成两个大的范畴：
建立一种表达形式，让它处于上面讨论的R^n空间里面。
获得了有限维向量表达后，建立各种代数算法或者统计模型进行分析和处理。这里只讨论第一个范畴。先看看，目前用得比较广泛的一些方法：
直接基于原始数据建立表达。我们关心的最终目标是一个个现实世界中的对象：一幅图片，一段语音，一篇文章，一条交易记录，等等。这些东西大部分本身没有附着一个数值向量的。为了构造一个向量表达，我们可以把传感器中记录的数值，或者别的什么方式收集的数值数据按照一定的顺序罗列出来，就形成一个向量了。如果有n个数字，就认为它们在R^n里面。不过，这在数学上有一点小问题，在大部分情况下，根据数据产生的物理原理，这些向量的值域并不能充满整个空间。比如图像的像素值一般是正值，而且在一个有界闭集之中。这带来的问题是，对它们进行线性运算很可能得到的结果会溢出正常的范围——在大部分paper中，可能只是采用某些heuristics的手段进行简单处理，或者根本不管，很少见到在数学上对此进行深入探讨的——不过如果能解决实际问题，这也是无可厚非的，毕竟不是所有的工作都需要像纯数学那样追求严谨。
量化(quantization)。这是在处理连续信号时被广泛采用的方式。只是习以为常，一般不提名字而已。比如一个空间信号（Vision中的image）或者时间信号，它们的domain中的值是不可数无限大的(uncountably infinite)，不要说表示为有限维向量，即使表达为无限序列也是不可能的。在这种情况下，一般在有限域内，按照一定顺序每隔一定距离取一个点来代表其周围的点，从而形成有限维的表达。这就是信号在时域或空域的量化。这样做不可避免要丢失信息。但是，由于小邻域内信号的高度相关，信息丢失的程度往往并不显著。而且，从理论上说，这相当于在频域中的低通过率。对于有限能量的连续信号，不可能在无限高的频域中依然保持足够的强度，只要采样密度足够，丢失的东西可以任意的少。除了表示信号，对于几何形体的表达也经常使用量化，比如表示curve和surface。
找出有限个数充分表达一个对象也许不是最困难的。不过,在其上面建立数学结构却未必了。一般来说，我们要对其进行处理，首先需要一个拓扑结构用以描述空间上的点是如何联系在一起。直接建立拓扑结构在数学上往往非常困难，也未必实用。因此，绝大部分工作采取的方式是首先建立度量结构。一个度量空间，其度量会自然地诱导出一个拓扑结构——不过，很多情况下我们似乎会无视它的存在。最简单的情况，就是使用原始向量表达的欧氏距离(Euclidean distance)作为metric。不过，由于原始表达数值的不同特性，这种方式效果一般不是特别好，未必能有效表达实际对象的相似性（或者不相似性）。因此，很多工作会有再此基础上进行度量的二次建立。方式是多种多样的，一种是寻求一个映射，把原空间的元素变换到一个新的空间，在那里欧氏距离变得更加合适。这个映射发挥的作用包括对信息进行筛选，整合，对某些部分进行加强或者抑制。这就是大部分关于feature selection，feature extraction，或者subspace learning的文章所要做的。另外一种方式，就是直接调节距离的计算方式（有些文章称之为metric learning）。这两种方式未必是不同的。如果映射是单射，那么它相当于在原空间建立了一个不同的度量。反过来，通过改变距离计算方式建立的度量在特定的条件下对应于某种映射。
大家可能注意到，上面提到的度量建立方法，比如欧氏距离，它需要对元素进行代数运算。对于普通的向量空间，线性运算是天然赋予的，我们无须专门建立，所以可以直接进行度量的构造——这也是大部分工作的基础。可是，有些事物其原始表达不是一个n-tuple，它可能是一个set，一个graph，或者别的什么特别的object。怎么建立代数运算呢？一种方法是直接建立。就是给这些东西定义自己的加法和数乘。这往往不是那么直接（能很容易建立的线性运算结构早已经被建立好并广泛应用了），可能需要涉及很深的数学知识，并且要有对问题本身的深入了解和数学上的洞察力。不过，一个新的代数结构一旦建立起来，其它的数学结构，包括拓扑，度量，分析，以及内积结构也随之能被自然地诱导出来，我们也就具有了对这个对象空间进行各种数学运算和操作的基础。加法和数乘看上去简单，但是如果我们对于本来不知道如何进行加法和数乘的空间建立了这两样东西，其理论上的贡献是非常大的。（一个小问题：大家常用各种graphical model，但是，每次这些model都是分别formulate，然后推导出estimation和evaluation的步骤方法。是否可能对"the space of graphical model"或者它的某个特定子集建立某种代数结构呢？（不一定是线性空间，比如群，环，广群， etc）从而使得它们在代数意义上统一起来，而相应的estimation或者evaluation也可以用过代数运算derive。这不是我的研究范围，也超出了我目前的能力和知识水平，只是我相信它在理论上的重要意义，留作一个远景的问题。事实上，数学中确实有一个分支叫做 Algebraic statistics 可能在探讨类似的问题，不过我现在对此了解非常有限。）
回到我们的正题，除了直接建立运算定义，另外一种方式就是嵌入(embedding)到某个向量空间，从而继承其运算结构为我所用。当然这种嵌入也不是乱来，它需要保持原来这些对象的某种关系。最常见的就是保距嵌入(isometric embedding)，我们首先建立度量结构（绕过向量表达，直接对两个对象的距离通过某种方法进行计算），然后把这个空间嵌入到目标空间，通常是有限维向量空间，要求保持度量不变。“嵌入”是一种在数学上应用广泛的手段，其主要目标就是通过嵌入到一个属性良好，结构丰富的空间，从而利用其某种结构或者运算体系。在拓扑学中，嵌入到metric space是对某个拓扑空间建立度量的重要手段。而在这里，我们是已有度量的情况下，通过嵌入获取线性运算的结构。除此以来，还有一种就是前些年比较热的manifold embedding，这个是通过保持局部结构的嵌入，获取全局结构，后面还会提到。
接下来的一个重要的代数结构，就是内积(inner product)结构。内积结构一旦建立，会直接诱导出一种性质良好的度量，就是范数(norm)，并且进而诱导出拓扑结构。一般来说，内积需要建立在线性空间的基础上，否则连一个二元运算是否是内积都无法验证。不过，kernel理论指出，对于一个空间，只要定义一个正定核(positive kernel)——一个符合正定条件的二元运算，就必然存在一个希尔伯特空间，其内积运算等效于核运算。这个结论的重要意义在于，我们可以绕开线性空间，通过首先定义kernel的方式，诱导出一个线性空间(叫做再生核希尔伯特空间 Reproducing Kernel Hilbert Space)，从而我们就自然获得我们所需要的度量结构和线性运算结构。这是kernel theory的基础。在很多教科书中，以二次核为例子，把二维空间变成三维，然后告诉大家kernel用于升维。对于这种说法，我一直认为在一定程度上是误导的。事实上，kernel的最首要意义是内积的建立（或者改造），从而诱导出更利于表达的度量和运算结构。对于一个问题而言，选择一个切合问题的kernel比起关注“升维”来得更为重要。kernel被视为非线性化的重要手段，用于处理非高斯的数据分布。这是有道理的。通过nonlinear kernel改造的内积空间，其结构和原空间的结构确实不是线性关联，从这个意义上说，它实施了非线性化。不过，我们还应该明白，它的最终目标还是要回到线性空间，新的内积空间仍旧是一个线性空间，它一旦建立，其后的运算都是线性的，因此，kernel的使用就是为了寻求一个新的线性空间，使得线性运算更加合理——非线性化的改造最终仍旧是要为线性运算服务。值得一提的是，kernelization本质上说还是一种嵌入过程：对于一个空间先建立内积结构，并且以保持内积结构不变的方式嵌入到一个高维的线性空间，从而继承其线性运算体系。
上面说到的都是从全局的方式建立代数结构的过程，但是那必须以某种全局结构为基础（无论预先定义的是运算，度量还是内积，都必须适用于全空间。）但是，全局结构未必存在或者适合，而局部结构往往简单方便得多。这里就形成一种策略，以局部而达全局——这就是流形(manifold)的思想，而其则根源于拓扑学。从拓扑学的角度说，流形就是一个非常优良的拓扑空间：符合Hausdorff分离公理（任何不同的两点都可以通过不相交的邻域分离），符合第二可数公理（具有可数的拓扑基），并且更重要的是，局部同胚于Rn。因此，一个正则(Regular)流形基本就具有了各种最良好的拓扑特性。而局部同胚于Rn，代表了它至少在局部上可以继承R^n的各种结构，比如线性运算和内积，从而建立分析体系。事实上，拓扑流形继承这些结构后形成的体系，正是现代流形理论研究的重点。继承了分析体系的流形，就形成了微分流形(Differential manifold)，这是现代微分几何的核心。而微分流形各点上的切空间(Tangent Space)，则获得了线性运算的体系。而进一步继承了局部内积结构的流形，则形成黎曼流形(Riemann manifold)，而流形的全局度量体系——测地距离(geodesics)正是通过对局部度量的延伸来获得。进一步的，当流行本身的拓扑结构和切空间上的线性结构发生关系——也就获得一簇拓扑关联的线性空间——向量丛(Vector bundle)。虽然manifold theory作为现代几何学的核心，是一个博大精深的领域，但是它在learning中的应用则显得非常狭窄。事实上，对于manifold，很多做learning的朋友首先反应的是ISOMAP, LLE, eigenmap之类的算法。这些都属于embedding。当然，这确实是流形理论的一个重要方面。严格来说，这要求是从原空间到其映像的微分同胚映射，因此，嵌入后的空间在局部上具有相同的分析结构，同时也获得了各种好处——全局的线性运算和度量。不过，这个概念在learning的应用中被相当程度的放宽了——微分同胚并不能被完全保证，而整个分析结构也不能被完全保持。大家更关注的是保持局部结构中的某个方面——不过这在实际应用中的折衷方案也是可以理解的。事实表明，当原空间中的数据足够密集的情况下，这些算法工作良好。Learning中流形应用的真正问题在于它被过滥地运用于稀疏空间(Sparse space)，事实上在高维空间中撒进去几千乃至几十万点，即使最相邻的几点也难称为局部了，局部的范围和全局的范围其实已经没有了根本差别，连局部的概念都立不住脚的时候，后面基于其展开的一切工作也都没有太大的意义。事实上，稀疏空间有其本身的规律和法则，通过局部形成全局的流形思想从本质上是不适合于此的。虽然，流形是一种非常美的理论，但是再漂亮的理论也需要用得其所——它应该用于解决具有密集数据分布的低维空间。至于，一些paper所报告的在高维空间（比如人脸）运用流形方法获得性能提升，其实未必是因为“流形”本身所起的作用，而很可能是其它方面的因素。
流形在实际应用中起重要作用的还有两个方面：一个是研究几何形体的性质（我们暂且不谈这个），还有就是它和代数结构的结合形成的李群(Lie group)和李代数(Lie algebra)。当我们研究的对象是变换本身的时候，它们构成的空间是有其特殊性的，比如所有子空间投影形成了Grassmann流形，所有的可逆线性算子，或者仿射算子，也形成各自的流形。对他们的最重要操作是变换的结合，而不是加法数乘，因此，它们上面定义的更合适的代数结构应该是群和不是线性空间。而群和微分流形的结合体——李群则成为它们最合适的描述体系——而其切空间则构成了一种加强的线性空间：李代数，用于描述其局部变化特性。李代数和李群的关系是非常漂亮的。它把变换的微变化转换成了线性空间的代数运算，使得移植传统的基于线性空间的模型和算法到李空间变得可能。而且李代数中的矩阵比起变换本身的矩阵甚至更能反映变换的特性。几何变换的李代数矩阵的谱结构就能非常方便地用于分析变换的几何特性。最后，回头总结一下关于嵌入这个应用广泛的策略，在learning中的isometry, kernel和manifold embedding都属于此范畴，它们分别通过保持原空间的度量结构，内积结构和局部结构来获得到目标（通常是向量空间）的嵌入，从而获得全局的坐标表达，线性运算和度量，进而能被各种线性算法和模型所应用。在获得这一系列好处的同时，也有值得我们注意的地方。首先，嵌入只是一种数学手段，并不能取代对问题本身的研究和分析。一种不恰当的原始结构或者嵌入策略，很多时候甚至适得其反——比如稀疏空间的流形嵌入，或者选取不恰当的kernel。另外，嵌入适合于分析，而未必适合于重建或者合成。这是因为嵌入是一个单射(injection)，目标空间不是每一个点都和原空间能有效对应的。嵌入之后的运算往往就打破了原空间施加的限制。比如两个元素即使都是从原空间映射过来，它们的和却未必有原像，这时就不能直接地回到原空间了。当然可以考虑在原空间找一个点它的映射与之最近，不过这在实际中的有效性是值得商榷的。和Learning有关的数学世界是非常广博的，我随着学习和研究的深入，越来越发现在一些我平常不注意的数学分支中有着适合于问题的结构和方法。比如，广群(groupoid)和广代数(algebroid)能克服李群和李代数在表示连续变换过程中的一些困难——这些困难困扰了我很长时间。解决问题和建立数学模型是相辅相成的，一方面，一个清晰的问题将使我们有明确的目标去寻求合适的数学结构，另一方面，对数学结构的深入理解对于指导问题的解决也是有重要作用的。对于解决一个问题来说，数学工具的选择最重要的是适合，而不是高深，但是如果在现有数学方法陷入困难的时候，寻求更高级别的数学的帮助，往往能柳暗花明。数学家长时间的努力解决的很多问题，并不都是理论游戏，他们的解决方案中很多时候蕴含着我们需要的东西，而且可能导致对更多问题的解决——但是我们需要时间去学习和发现它们。拓扑：游走于直观与抽象之间近日来，抽空再读了一遍点集拓扑(Point Set Topology)，这是我第三次重新学习这个理论了。我看电视剧和小说，极少能有兴致看第二遍，但是，对于数学，每看一次都有新的启发和收获。代数，分析，和拓扑，被称为是现代数学的三大柱石。最初读拓扑，是在两三年前，由于学习流形理论的需要。可是，随着知识的积累，发现它是很多理论的根基。可以说，没有拓扑，就没有现代意义的分析与几何。我们在各种数学分支中接触到的最基本的概念，比如，极限，连续，距离（度量），边界，路径，在现代数学中，都源于拓扑。拓扑学是一门非常奇妙的学科，它把最直观的现象和最抽象的概念联系在一起了。拓扑描述的是普遍使用的概念（比如开集，闭集，连续），我们对这些概念习以为常，理所当然地使用着，可是，真要定义它，则需要对它们本质的最深刻的洞察。数学家们经过长时间的努力，得到了这些概念的现代定义。这里面很多第一眼看上去，会感觉惊奇——怎么会定义成这个样子。首先是开集。在学习初等数学时，我们都学习开区间 (a, b)。可是，这只是在一条线上的，怎么推广到二维空间，或者更高维空间，或者别的形体上呢？最直观的想法，就是“一个不包含边界的集合”。可是，问题来了，给一个集合，何谓“边界”？在拓扑学里面，开集(Open Set)是最根本的概念，它是定义在集合运算的基础上的。它要求开集符合这样的条件：开集的任意并集和有限交集仍为开集。我最初的时候，对于这样的定义方式，确实百思不解。不过，读下去，看了和做了很多证明后，发现，这样的定义一个很重要的意义在于：它保证了开集中每个点都有一个邻域包含在这个集合内——所有点都和外界（补集）保持距离。这样的理解应该比使用集合运算的定义有更明晰的几何意义。但是，直观的东西不容易直接形成严谨的定义，使用集合运算则更为严格。而集合运算定义中，任意并集的封闭性是对这个几何特点的内在保证。另外一个例子就是“连续函数”(Continuous Function)。在学微积分时，一个耳熟能详的定义是“对任意的epsilon > 0，存在delta > 0，使得。。。。”，背后最直观的意思就是“足够近的点保证映射到任意小的范围内”。可是，epsilon, delta都依赖于实空间，不在实空间的映射又怎么办呢？拓扑的定义是“如果一个映射的值域中任何开集的原象都是开集，那么它连续。”这里就没有epsilon什么事了。“开集的原象是开集”这里的关键在于，在拓扑学中，开集的最重要意义就是要传递“邻域”的意思——开集本身就是所含点的邻域。这样连续定义成这样就顺理成章了。稍微把说法调节一下，上面的定义就变成了“对于f(x)的任意邻域U，都有x的一个邻域V，使得V里面的点都映射到U中。”这里面，我们可以感受到为什么开集在拓扑学中有根本性的意义。既然开集传达“邻域”的意思，那么，它最重要的作用就是要表达哪些点靠得比较近。给出一个拓扑结构，就是要指出哪些是开集，从而指出哪些点靠得比较近，这样就形成了一个聚集结构——这就是拓扑。可是这也可以通过距离来描述，为什么要用开集呢，反而不直观了。某种意义上说，拓扑是“定性”的，距离度量是“定量”的。随着连续变形，距离会不断变化，但是靠近的点还是靠近，因此本身固有的拓扑特性不会改变。拓扑学研究的就是这种本质特性——连续变化中的不变性。在拓扑的基本概念中，最令人费解的，莫过于“紧性”(Compactness)。它描述一个空间或者一个集合“紧不紧”。正式的定义是“如果一个集合的任意开覆盖都有有限子覆盖，那么它是紧的”。乍一看，实在有点莫名其妙。它究竟想描述一个什么东西呢？和“紧”这个形容词又怎么扯上关系呢？一个直观一点的理解，几个集合是“紧”的，就是说，无限个点撒进去，不可能充分散开。无论邻域多么小，必然有一些邻域里面有无限个点。上面关于compactness的这个定义的玄机就在有限和无限的转换中。一个紧的集合，被无限多的小邻域覆盖着，但是，总能找到其中的有限个就能盖全。那么，后果是什么呢？无限个点撒进去，总有一个邻域包着无数个点。邻域们再怎么小都是这样——这就保证了无限序列中存在极限点。Compact这个概念虽然有点不那么直观，可是在分析中有着无比重要的作用。因为它关系到极限的存在性——这是数学分析的基础。了解泛函分析的朋友都知道，序列是否收敛，很多时候就看它了。微积分中，一个重要的定理——有界数列必然包含收敛子列，就是根源于此。在学习拓扑，或者其它现代数学理论之前，我们的数学一直都在有限维欧氏空间之中，那是一个完美的世界，具有一切良好的属性，Hausdorff, Locally compact, Simply connected，Completed，还有一套线性代数结构，还有良好定义的度量，范数，与内积。可是，随着研究的加深，终究还是要走出这个圈子。这个时候，本来理所当然的东西，变得不那么必然了。·
两个点必然能分开？你要证明空间是Hausdorff的。·
有界数列必然存在极限点？这只在locally compact的空间如此。·
一个连续体内任意两点必然有路径连接？这可未必。一切看上去有悖常理，而又确实存在。从线性代数到一般的群，从有限维到无限维，从度量空间到拓扑空间，整个认识都需要重新清理。而且，这些绝非仅是数学家的概念游戏，因为我们的世界不是有限维向量能充分表达的。当我们研究一些不是向量能表达的东西的时候，度量，代数，以及分析的概念，都要重新建立，而起点就在拓扑。和机器学习和计算机视觉相关的数学（转载）（以下转自一位MIT牛人的空间文章，写得很实际：）作者：Dahua感觉数学似乎总是不够的。这些日子为了解决research中的一些问题，又在图书馆捧起了数学的教科书。从大学到现在，课堂上学的和自学的数学其实不算少了，可是在研究的过程中总是发现需要补充新的数学知识。Learning和Vision都是很多种数学的交汇场。看着不同的理论体系的交汇，对于一个researcher来说，往往是非常exciting的enjoyable的事情。不过，这也代表着要充分了解这个领域并且取得有意义的进展是很艰苦的。记得在两年前的一次blog里面，提到过和learning有关的数学。今天看来，我对于数学在这个领域的作用有了新的思考。对于Learning的研究，1、Linear Algebra (线性代数) 和 Statistics (统计学) 是最重要和不可缺少的。这代表了Machine Learning中最主流的两大类方法的基础。一种是以研究函数和变换为重点的代数方法，比如Dimension reduction，feature extraction，Kernel等，一种是以研究统计模型和样本分布为重点的统计方法，比如Graphical model, Information theoretical models等。它们侧重虽有不同，但是常常是共同使用的，对于代数方法，往往需要统计上的解释，对于统计模型，其具体计算则需要代数的帮助。以代数和统计为出发点，继续往深处走，我们会发现需要更多的数学。2、Calculus (微积分)，只是数学分析体系的基础。其基础性作用不言而喻。Learning研究的大部分问题是在连续的度量空间进行的，无论代数还是统计，在研究优化问题的时候，对一个映射的微分或者梯度的分析总是不可避免。而在统计学中，Marginalization和积分更是密不可分——不过，以解析形式把积分导出来的情况则不多见。3、Partial Differential Equation （偏微分方程)，这主要用于描述动态过程，或者仿动态过程。这个学科在Vision中用得比Learning多，主要用于描述连续场的运动或者扩散过程。比如Level set, Optical flow都是这方面的典型例子。4、Functional Analysis (泛函分析)，通俗地，可以理解为微积分从有限维空间到无限维空间的拓展——当然了，它实际上远不止于此。在这个地方，函数以及其所作用的对象之间存在的对偶关系扮演了非常重要的角色。Learning发展至今，也在向无限维延伸——从研究有限维向量的问题到以无限维的函数为研究对象。Kernel Learning 和 Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。很多做Learning的人把Kernel简单理解为Kernel trick的运用，这就把kernel的意义严重弱化了。在泛函里面，Kernel (Inner Product)是建立整个博大的代数体系的根本，从metric, transform到spectrum都根源于此。5、Measure Theory (测度理论)，这是和实分析关系非常密切的学科。但是测度理论并不限于此。从某种意义上说，Real Analysis可以从Lebesgue Measure（勒贝格测度）推演，不过其实还有很多别的测度体系——概率本身就是一种测度。测度理论对于Learning的意义是根本的，现代统计学整个就是建立在测度理论的基础之上——虽然初级的概率论教科书一般不这样引入。在看一些统计方面的文章的时候，你可能会发现，它们会把统计的公式改用测度来表达，这样做有两个好处：所有的推导和结论不用分别给连续分布和离散分布各自写一遍了，这两种东西都可以用同一的测度形式表达：连续分布的积分基于Lebesgue测度，离散分布的求和基于计数测度，而且还能推广到那种既不连续又不离散的分布中去（这种东西不是数学家的游戏，而是已经在实用的东西，在Dirchlet Process或者Pitman-Yor Process里面会经常看到)。而且，即使是连续积分，如果不是在欧氏空间进行，而是在更一般的拓扑空间（比如微分流形或者变换群），那么传统的黎曼积分（就是大学一年级在微积分课学的那种）就不work了，你可能需要它们的一些推广，比如Haar Measure或者Lebesgue-Stieltjes积分。6、Topology（拓扑学)，这是学术中很基础的学科。它一般不直接提供方法，但是它的很多概念和定理是其它数学分支的基石。看很多别的数学的时候，你会经常接触这样一些概念：Open set / Closed set，set basis，Hausdauf, continuous function，metric space, Cauchy sequence, neighborhood, compactness, connectivity。很多这些也许在大学一年级就学习过一些，当时是基于极限的概念获得的。如果，看过拓扑学之后，对这些概念的认识会有根本性的拓展。比如，连续函数，当时是由epison法定义的，就是无论取多小的正数epsilon，都存在xxx，使得xxx。这是需要一种metric去度量距离的，在general topology里面，对于连续函数的定义连坐标和距离都不需要——如果一个映射使得开集的原像是开集，它就是连续的——至于开集是基于集合论定义的，不是通常的开区间的意思。这只是最简单的例子。当然，我们研究learning也许不需要深究这些数学概念背后的公理体系，但是，打破原来定义的概念的局限在很多问题上是必须的——尤其是当你研究的东西它不是在欧氏空间里面的时候——正交矩阵，变换群，流形，概率分布的空间，都属于此。7、Differential Manifold (微分流形)，通俗地说它研究的是平滑的曲面。一个直接的印象是它是不是可以用来fitting一个surface什么的——当然这算是一种应用，但是这是非常初步的。本质上说，微分流形研究的是平滑的拓扑结构。一个空间构成微分流形的基本要素是局部平滑：从拓扑学来理解，就是它的任意局部都同胚于欧氏空间，从解析的角度来看，就是相容的局部坐标系统。当然，在全局上，它不要求和欧氏空间同胚。它除了可以用于刻画集合上的平滑曲面外，更重要的意义在于，它可以用于研究很多重要的集合。一个n-维线性空间的全部k-维子空间(k8、Lie Group Theory (李群论)，一般意义的群论在Learning中被运用的不是很多，群论在Learning中用得较多的是它的一个重要方向Lie group。定义在平滑流形上的群，并且其群运算是平滑的话，那么这就叫李群。因为Learning和编码不同，更多关注的是连续空间，因为Lie group在各种群中对于Learning特别重要。各种子空间，线性变换，非奇异矩阵都基于通常意义的矩阵乘法构成李群。在李群中的映射，变换，度量，划分等等都对于Learning中代数方法的研究有重要指导意义。9、Graph Theory（图论)，图，由于它在表述各种关系的强大能力以及优雅的理论，高效的算法，越来越受到Learning领域的欢迎。经典图论，在Learning中的一个最重要应用就是graphical models了，它被成功运用于分析统计网络的结构和规划统计推断的流程。Graphical model所取得的成功，图论可谓功不可没。在Vision里面，maxflow (graphcut)算法在图像分割，Stereo还有各种能量优化中也广受应用。另外一个重要的图论分支就是Algebraic graph theory (代数图论)，主要运用于图的谱分析，著名的应用包括Normalized Cut和Spectral Clustering。近年来在semi-supervised learning中受到特别关注。这是大牛们做的很好的综述啊！据说，是MIT一牛人对数学在机器学习中的作用给的评述!
本人学习并整理于2010-01-01本文引用地址：http://blog.sciencenet.cn/blog-538909-740349.html
此文来自科学网马飞博客，转载请注明出处}

买书排山倒、读书如剥丝选手来啦！算来毕业已10好几年了。曾经穷得叮当响的学生时代，蹭学校图书馆一本本啃下来的书，内容基本都还给了作者们。但是工作后攒了钱，那些曾经读过的、有感情的教材，一本本都陆陆续续地补了票，现在放在书柜里作收藏。看到这个问题，也是封了2个月在家实在闲得慌，翻一波书柜给自己来一波回忆杀。下面一大票自己买过的实体藏书推荐，丢在办公室摸鱼时看的几本，等复工了再做不定期更新吧。基础物理、数学教材Ramamurti Shankar, Fundamentals of Physics耶鲁大学公开课配套教材，有中文翻译版。Shankar 教授的公开课也很精彩。篇幅、语言对新手都非常友好，英语原版的用词也很口语化，读起来非常畅快。个人比较欣赏这套书的点在于，Shankar 教授对经典物理的概念采用了现代化的处理方式。例如保守力概念的讨论，势能的引入，做的非常细致，必要的数学工具交代的明明白白；简谐振子通过解复数方程的处理技巧，受迫共振的推导短短几页就推得清清楚楚；相对论里很早就引入四维矢量，从而很多著名结论的证明变得更加简洁；热力学里很早地引入了统计力学的思想，可以很好地为后续的高阶物理课程做到承上启下的过渡。赵凯华等，新概念物理——力学、电磁学、量子物理、热学、光学国内不少大学理工科基础物理课的通用教材。几大物理学的主要分支，通过这几本教材可以有更加系统性的深入了解。郑永令、贾起民，力学复旦物理系普通物理的力学教科书，现在出到了第三版。我收藏的是自己读书时留到现在的更早的版本，有点时代感。两小册的书，语言简洁有力，适合作为力学的启蒙教材，我读高中时也有将这套书作为竞赛参考书目。陈纪修、於崇华、金路，数学分析复旦数学系教研室编写的数学分析教材，难度适中。我在大一那年学完高数后，从图书馆借来，用一个暑假里翻完的。虽说自己是学物理的，大体能用微积分做计算就够了，但读一读诸多结论前前后后的证明还是有助强身健体，加深对微积分的理解。尤其是一些通过极其巧妙的构造完成的证明，令人倍感神清气爽。陈纪修这套里穿插的偏物理模型、数值计算的应用也是我喜欢它的另一个点，例如专门作为小节编排在书中的 Kepler 行星定律、保守场与势函数、热传导模型这些内容的推导，让我这个学物理的读来觉得非常亲切。常庚哲、史济怀，数学分析教程中科大数学系的数学分析教材，前几年闲得买回来翻阅。每个章节篇幅都不大，想到了就拿起来读一段，读累了就放下，这种阅读体验很好。正文内容不难，行文语言比陈纪修还精炼一点。一些证明比较注重培养直觉，作者在给出重要结论后作的平白直叙的评述读来也是很有味道。这套教材的习题是出了名的难，不过我是读来玩的，但想想这些题的受众对象是中科大的学霸大佬们，也就懂了。Walter Rudin, Principles of Mathematical Analysis（数学分析原理）作者著有3本广受赞誉的分析学教材，这是被称为 Baby Rudin 的第一部。内容精炼，个人认为适合学过一遍高数的二刷，有助于提升观点。作者处理问题倾向于从最普遍的情况出发，然后降维打击到更一般的结论。例如基础拓扑部分，Rudin 没有花太多的笔墨从欧氏空间切入，直接讨论了度量空间的性质，欧氏空间作为度量空间里一个很平凡的特例，这些结论自然成立。又例如多元微积分中很漂亮的 Green 公式、Stokes 公式、Gauss 公式，Rudin 没有从更加直观的梯度、散度、旋度的角度去一个个证明，而是通过微分形式的框架，用严格的数学语言，推出一个形式简洁但适用于各种维度下的广义 Stokes 公式。整本书简洁明快、惜字如金的风格感觉是作者有意为之的一种意识形态，一些重要的定理和结论（实数的 Cantor 构造，一堆反常积分的问题，常微分方程的存在性和唯一性，等等）能被 Rudin 放在习题里，属实也是考验读者。下平邦彦，微积分入门菲尔兹奖和沃尔夫奖加身的日本数学家小平邦彦的书，难度居中，但若真以为如书名所说只是入门就过于天真了。概念的引入与讲解很有特色，很体现大师的功力和视野。学过微积分的想读些更进阶的东西，可以翻一翻这本书。学物理用得上的数学加餐龚昇，简明复分析很薄的一本，篇幅不大，观点不低，后面从微分几何的观点来看复分析的部分很出彩。对此书的主要批评意见是严谨性不是特别强，但对我一个学物理的这完全什么问题。汪德新，数学物理方法也许是数学物理方法教材里比较小众的一本。当年上这门课，用的主要是复旦胡嗣柱和北大吴崇试的两本，可能是我太菜了，到了偏微分方程和特殊函数那块啃不下来，去图书馆摸了这本回来换换口味，就一路跟下来了。保角变换、格林函数、Z变换这些操作，也都是在读这本的时候一点点入门的。整本书中繁复的推导过程交待得极其细致，跟着推一遍，活也大差不差了。蓝以中，高等代数简明教程在北大教了大半辈子高等代数的蓝以中老师，多年教学的积累凝结在了这两册教材里了。叙述上风格细碎絮叨，对自学很友好。上册大致就是普通高校里的线性代数。抽象概念和定义的引入不像国内诸多线性代数教材那般简单粗暴。跟着作者抛出来的问题慢慢读下来，能自然而然地 get 到这些东西为什么要这么做。随后的推导证明基本不跳步，例题也选得很有启发性。当时看到图书馆有这套很新的书，原只是打算随手借回去作为上课指定教材的补充，读着读着就把老师指定的教材丢一边了。当时读完关于矩阵的秩的章节后，一堆重要概念全部串起来的醍醐灌顶的通透感记忆尤其深刻。下册里引出了群、环、域这些抽象代数的概念，还有张量与外代数，没有深入读过，不做评价。Sheldon Axler, Linear Algebra Done Right令人相见恨晚的线性代数书。编排极其离经叛道，全书几乎都是通过线性空间和线性映射来讲，完全绕开了行列式，直到最后一章才引入了行列式的概念。私以为整本书从线性算子的几个章节开始越发渐入佳境，从内积空间上引入的伴随算子，一点点推进到谱定理和极分解、SVD 分解，再往后引出广义的特征向量和特征多项式这些东西，最后通过特征多项式引入了迹和行列式这些概念收官，这种处理方法实在是妙不可言。对于一个学物理的人，这可能是最棒的一本线性代数教材。量子力学里需要的线性代数基础，这一本就给夯实了。矩阵力学里让人摸不清楚的数学结构，结合这本书再看，希尔伯特空间里的量子态、可观测量算符背后的代数结构，这些容易学得稀里糊涂的内容突然就理通了。Theodore Frankel, The Geometry of Physics : An Introduction物理人案头值得拥有的特供版数学书，微分几何、微分拓扑、李群、纤维丛这些现代数学的内容，用物理学者看着贼舒服的形式写了出来，抽象的几何配上清晰明了的配图，结合茫茫多物理中的例子，内容十分丰富。物理学专业教材Malcolm Longair, Theoretical Concepts in Physics阅读体验极佳的近代物理史。作者不仅仅是讲述历史故事，而是把近代物理中重要概念的起源放到了当时的时代背景中，重走一遍那些已经名垂青史的科学家们走过的路，重温艰难探索后作出重大发现所带来的激动和欣喜。作者以渊博的学识和浪漫的情怀，将史料故事和理论的讲解有机融合在了一起，硬核的物理学概念的拆解，极具作者个人情感的评注（建议读原版，中文版很难翻出那味道），科学家原始论文、通信邮件中很精辟的段落摘抄，穿插阅读起来却也毫无违和感。Herbert Goldstein, Classical Mechanics经典力学的著名教材，大而全，抽象的理论、具体的实例应有尽有。缺点是主线不是很清晰，作者什么都想跟你讲，读着读着就很可能会迷失方向。我当年读的是第二版，配合中文的教材跳着读。毕业很久后剁了第三版的影印版，发现又加了不少新东西，内容就更杂了。而第二版中一些我个人还挺喜欢的讨论却在新版中给删掉了（比如附录里中心力场的 Bertrand 定理的证明、声场的 Lagrangian 密度的推导），买回来收藏略感遗憾。不过话说回来，把这大部头当作工具书搁书架还挺压场面的。Tom Kibble, Classical Mechanics毕业后没事温故经典力学，无意间发现了 Tom Kibble 老爷子的这本，逻辑非常清晰，从牛顿力学到 Lagrangian 再到 Hamiltonian，一章接一章一气呵成。原理应用举了很多地球物理有关的例子也算是一个特色吧，习题里有很多也挺有意思的问题。最新版还加进来了关于动力系统和混沌的新章节。关于经典力学的方方面面，可谓短小精悍地都覆盖到了。Landau & Lifshitz, Mechanics著名的朗道十卷中第一本，也是最薄的一本。不到180页的篇幅，涵盖的内容却一点也不少。上来直接建立起 Lagrangian 分析力学的工具，通篇拿 Lagrangian、Hamiltonian 说事情，带着读者学者从物理学家的视角去看问题。对称性和守恒量之间的联系，恐怕很难比朗道讲得更加清晰明了了，后面非惯性系、转动力学板块的内容，也是一贯的短平快路数，出手就是重点。朗道就像一个带你飙车的老司机，车速拉满。遇上新手上路并不好读，很多推导的细节需要在作者指明的方向后自己领悟，worked problem 常常写一半就不写了，剩下的留给读者自己玩。但一旦打通思路 follow 下来绝对受益匪浅。张永德，量子力学中科大的量子力学教材，图书馆借来简单借阅过，由浅入深，适合作入门教材。张永德还主编过一本量子力学的大开本习题讲解，也是当时我学习这门课程的重要资料。苏汝铿，量子力学苏老爷子的量子力学和统计力学课是复旦物理系的招牌，很久以前就评上了国家精品课程，我们那届也有幸赶在老爷子离开讲台前搭上个末班车。书的逻辑基本就是跟着每周的讲课走的，配合操着可爱广东口音的老先生的讲课视频，阅读体验更佳。J. J. Sakurai, Modern Quantum Mechanics + Advanced Quantum Mechanics高等量子力学教材，内容丰富，习题高能。两本中 Modern QM 这本更负盛名。基础部分的前几章就全程高能，开篇介绍了 Stern–Gerlach 实验，对标分析力学、热力学，点出量子世界的光怪离奇之处，引出概率振幅、反对易代数的概念。数学上，Dirac 那套很容易让人迷惑的
> <
<|> 符号体系先定义个明明白白，然后逐渐在希尔伯特空间中利用 Dirac formalism 那套程序，从对称性出发，引出了动量、角动量这些基本概念。之后角动量这个章节，实在是讲得太棒了，没有搬出群论里面那套可怕的表示论的东西，几乎纯粹地用物理语言，讲清楚了怎么把群论里相关概念融合进来理解量子体系。也许是前几章过于出彩了，读到后面关于近似方法和散射的重要章节，感觉跟其他教材似乎差不多。当然这几章内容确实庞杂、不好写，也可能是因为这几章不是作者本人亲自编写，而是由后人根据作者去世前的手稿整理完成的，但 Modern QM 整本依然是很出色的量子力学的参考书。Advanced QM 这本涉及到了更多高阶的内容，其实是在讲相对论性的量子力学了，或者说得上是个 QFT 的教材了。但 QFT 比 Sakurai 写的好的教材一大把，这本书的内容也挺过时了。只是太喜欢作者的 Modern QM，收书就收了全套。David J. Griffiths, Introduction to Quantum MechanicsGriffiths 的这本一直有所耳闻，却也是到了毕业工作后闲的没事才第一次读，对初学者还是很友好的一本量子力学教材。上来直接甩薛定谔方程，然后快速地把概念体系的框架给搭建了起来。感觉作者写作时秉承的理念就是，理论需要严谨讨论的高屋建瓴的东西可以先放一放，帮助读者建立起物理图像是第一要义。这本书的另一个特色是它的习题编排，难易程度标的清清楚楚，三星的题很多都是很有物理深度的问题，不是那种为了难度二而特地编出来的。很多教材里在正文中推导的重要的结论在 Griffiths 的书中会出现在习题中（比如 Virial 定理、核磁共振），每章选几个题刷一刷对掌握并知道怎么运用原理会很有帮助。David J. Griffiths, Introduction to Electrodynamics业界良心的 Griffiths 写的另一本造福物理系小白的教材。与上面提到的量子力学一样的配方，一样的味道。蔡圣善、朱耘、徐建军，电动力学复旦物理系教研室编写的电动力学教材，当年学习这门课主要啃的就是这本，除了给我们上课的周磊教授的自编讲义，没用过其他书目，所以想来这本至少说是中规中矩吧。顺便提一句，周磊教授的讲课也很出彩，网上也能搜到全套课程的视频录像，值得推荐。林宗涵，热力学与统计物理学本科学习同名课程时，从图书馆借阅收获的好教材。比较强调物理，还手把手地教你算。系综、配分函数这块的推导，很容易就 follow 下来了。非平衡态统计、涨落理论这些高阶一点的专题，也有比较细致的讲解，以后要更进一步了解给打个基础。R. K. Pathria & Paul D. Beale, Statistical Mechanics我也是铁了头买本研究生教材回来当消遣读物。这书更适合学过一遍统计物理的二刷，学第一遍的过程中抓主干线，而需要更多数学才能完善的细枝末节，可以在二刷这本时补上。全书都围绕系综的方法展开，开篇快速回顾了热力学到统计力学的基本概念，然后介绍了统计力学的三大系综和量子统计，往后的专题章节中，我读到早期宇宙的热力学那块就歇工了，就我翻过的前半部分个人觉得还是挺不错的。再后面还有相变与临界现象、重整化群、计算模拟的方法都有很大篇幅的讲解，没有摸过，就不评价了。黄昆，固体物理学国内固体物理的著名教材，可能会跟学校里某些个老教授开的课很搭。并不厚的一个小开本，颇有时代感的短小精悍风格。物理意义的介绍和推导点到为止，阅读需要一点数理直觉。Ashcroft & Mermin, Solid State Physics固体物理这块最著名的教材之一了。深入浅出，逻辑结构很有条理，模型的来龙去脉都会很仔细地交待。书看起来厚，但是絮叨的叙述风格读起来并不累。J. M. Ziman, Principles of the Theory of Solids也是一本很老的教材，成书于1970年前后。按现在的观点看来，书里涵盖的内容都比较基础：格子波、声子的概念、输运和光学性质，最后讨论了磁性和超导现象，而且讨论的对象只是完美周期性的晶体固体。但它依然不失为一本很好的梳理物理图像的教材。作者在前言中写道：A treatise expounds, a textbook explains，以及表达写作观点的 It is a book full of ideas, not facts，确实是所言不虚。Claude Cohen-Tannoudji, Quantum Mechanics当年苏汝铿教授给我们上量子力学时，第一节课就强势推荐者 Cohen-Tannoudji 的这套书。这套教材成书于70年代，而作者 Cohen-Tannoudji 与朱棣文及 William Daniel Phillips 分享了1997年的诺贝尔物理奖，也不愧是诺奖获得者才有这么高的水平把书写到这个境界。这套书称得上量子力学的百科全书，起点不高，对初学者友好。但落点一点不低，对科研工作者也是很有价值的参考书。作者通过类似公理化的数学形式引入量子力学的基本原理，再不断展开，赋以详尽的物理解释，推导严密详实，逻辑连贯，体系完整。这套书的亮点是章节中比正文篇幅还长的补充材料，或是介绍理论的应用（内容非常多），或是必要的数学工具的介绍，其他教材中含糊不明的点经常在 Cohen-Tannoudji 的补充材料中可以找到十分细致的讨论，读完豁然开朗。J. D. Jackson, Classical Electrodynamics电动力学的经典教材，可能更适合作工具书。初学电动力学时怀疑人生，为什么这些方程的数学推导可以如此丧心病狂，直到翻过 Jackson，才知道什么叫小巫见大巫。镜象法去解静电场的分布，多数的电动力学教材可能举几个有代表性、也是精心构造的例子就完事儿了，Jackson 可以给你花上近百页的篇幅甩你一脸的数学。再比如讲多极展开时，一般的教材给你推到了偶极项、四级项，带着点近似，给出一个形式上还比较漂亮的结果，也就完事了，Jackson 可以不惜搬出特殊函数给你一个系统化的处理。将来如果走电磁场这块的深入研究，Jackson 会是比较有价值的硬核参考书。刘辽、赵峥，广义相对论广义相对论入门级教材，物理图像和数学推导都还不错。引力波、黑洞（包括 Kerr-Newman 黑洞）、Hawking 辐射、基础宇宙学这些话题，也都有介绍。P. A. M. Dirac, General Theory of Relativity是的，量子力学祖师爷的那位 Dirac，看看他老人家是怎么推导广义相对论的。很薄的一本，连蒙带猜式地建立起了引力场方程，中间完全没有用到微分几何的工具。写法很符合 Dirac 的一贯风格，比较强调 formalism 的理论体系，抽象的数学唱主角，应用的部分不是很多。J. B. Hartle, An Introduction to Einstein's General Relativity广义相对论入门级教材，出自 UCSB 的讲席教授，也是领域内的大牛。图很多，写得通俗易懂。有助快速建立物理图像，应用和实验也有介绍。数学工具点到为止，跟其他 GR 的书相比这本的数学不是很复杂。Sean Carroll, Spacetime and Geometry作者基于在 MIT 教授广义相对论的讲义扩充写成的一本，比上面两本稍微深一点。很循序渐进的讲义风格，推导过程虽然简略，但是 motivation 交待得很有启发性，解释性的文字很到位。简要回顾完狭义相对论，交待了微分几何的基础，然后进入广义相对论正题，从引力场方程，讲到 Schwarzschild 解、黑洞、黑洞热力学、引力波，倒数第二章介绍了一点宇宙学的入门，最后一章对弯曲时空下的量子场论也有初步的介绍，附录里还有不少好东西。作者的原始讲义也是很棒的资源，跟教材内容基本相同，但是更简明扼要，可作为精简快餐版服用。作者的个人网站上可以自由下载：https://www.preposterousuniverse.com/spacetimeandgeometry/梁灿彬、周彬，微分几何与广义相对论有微积分和线性代数的基础，就可以直接跟着梁老上手了。非常循循善诱，由浅入深，不可多得的广相中文教材。前面微分几何的部分略显简略，但往后开始讲物理的部分就很棒了，数学和物理兼顾，梁老写得真的是很细致、很有诚意。侯伯元、侯伯宇，物理学家用微分几何个人水平问题，这书我完全读不动，买来纯粹就贡起来。物理学家用的微分几何加餐，广相和规范场论里需要用到的微分几何工具，这本基本都有了。流形的同伦群与同调群、Morse 理论、辛流形、纤维丛与示性类理论、指标定理，这些高阶的内容，学得会的、学不会的，都有。同专题的书，上课的教授推荐的是 Nakahara 写的 Geometry, Topology and Physics，学理论物理的基本都知道的一本，我也只是部分读过。侯式兄弟的大厚书里有的，Nakahara 也差不多都有。G. D. Coughlan, The Ideas of Particle Physics给我们讲基本粒子标准模型的教授推荐的一本书。一半硬核科普，一半教科书，介绍了20世纪几代物理学家建立标准模型的历程。没有任何细节性的数学推导，但是可以快速对现代粒子物理理论和实验中的重要工作有个大致的了解。Peskin & Schroeder, An Introduction to Quantum Field Theory研究生学 QFT 的主力教材，并不好读。第一章初读有点劝退，从第二章起条理就清楚多了。第一部分从简单的 Klein-Gordon 场开始，用正则量子化一路下去，到处理完 QED 的一些问题。然后在第二部分引出路径积分的量子化方法，介绍了重整化和重整化群的问题，这部分的讲解是我读过的 QFT 教材中最细致的没有之一。第三部分进入非阿贝尔规范场论和 QCD 的介绍，这部分只看了几个章节，计算都繁得可怕，作者也不咋避讳，手把手带着你走。这本书啃下来对修炼计算功力大有裨益。正文部分，在第四章引出费曼图之后，往后动不动就是，来，我们先画个费曼图出来，算了再说。有些地方甚至故意挖坑让读者自己去 easily verify the formula。习题质量很高，一些长习题很有启发性，刷完还会发现跟后面章节提到的内容高度相关。另外，作者写作时的一个特点是，很喜欢卖关子，经常先故意假装很有道理地演练一通错误做法，然后再来指出哪里有问题，正确的做法应该怎么样，偶尔后面再继续补刀，其实这还没完，还需要补上什么额外的项，这种绕圈子的路数说不出好坏，个人喜好问题吧。Mark Srednicki, Quantum Field Theory标量场、旋量场和矢量场三大板块的划分思路很有特点。先对付最简单的标量场，直接用路径积分做量子化，一点一点把 QFT 的框架搭起来，像有效场论、重整化群、对称性自发破缺这些通常出现在其他 QFT 教材里会比较靠后的内容，Srednicki 的书里推进到1/3的地方就登场亮相了。对场论结构有所了解后，再推进到旋量场和矢量场，逐步把标量场没有的自旋、规范这些内禀结构加进来，也不失为一种很棒的思路。整本书都是由小章节构成，每个小章节都只关注一个小主题，并且标注了这个章节需要的前置知识是哪几个章节。这种写作方式对自学不能更友好，很容易梳理出 QFT 的内在逻辑。Anthony Zee, Quantum Field Theory in A NutshellZee 教授写的东西数得上教材界的一枝花，行文动不动抖个冷笑话。没有充斥着多数场论教材的繁复演算，Zee 就喜欢跟你唠嗑似的，包袱抖着抖着，就把场论的大体框架给搭起来了。就是只读 Zee 虽然会给你一个 big picture，却依然不会做计算，需要配合其他场论教材，同时服用效果更佳。量子场论场论这块，还没补票的分别有 Mandl & Shaw 和 Lewis Ryder 写的两本 Quantum Field Theory，我的入门教材，对初学者十分友好，可作为 Peskin & Schroeder 的简易版，就是内容有点偏旧了。还有一部广受赞誉的新书，Matthew D. Schwartz 的 Quantum Field Theory and the Standard Model，目前还只是在我的书单上，没有读过不做评价。郑汉青，量子场论北京大学的研究生课程讲义，国内老师写的比较近出版的 QFT 教材。在『北大有哪些有趣的老师？』这个问题里，听说了郑汉青老师的大名，想来写书也会有些个人特色。没有仔细读过，对内容就不评价了。懒得看英文教材时可以作为以上的补充。Kerson Huang, Quarks, Leptons and Gauge Fields黄克孙教授更广为人知的可能是他的统计力学教材，这本也一样很棒。适合有一点 QFT 的基础后来啃，加深对规范场论中的数学结构的理解。诸如拓扑孤子、axial anomaly、Wilson Loop 重整化这些专题书中也有相当占比的篇幅作了介绍。Kapusta & Gale, Finite-temperature Field Theory: Principles and Applications温度场论的综述式教材，因为自己毕业论文的课题选了个温度场论，所以这个略偏门的方向也读了一些专著。Kapusta & Gale 带我入了门，另外 Le Bellac 写的 Thermal Field Theory 也是这个领域挺不错的教材。数学、物理类的科普闲书偏休闲的科普，可以移步我在知乎的另一个问题回答：}

淘宝游戏网