要如何学数据挖掘掘需要哪些基础？

点击联系发帖人 时间：2023-10-24 09:25

如何学数据挖掘

别着急，往下看，我先介绍路线然后再给大家推荐书籍，喜欢的记得点赞哦，我会持续更新，记得关注我 @渔好学以及我的公众号【渔好学】总的来说，数据分析师要想快速入行，需要完整学习以下五个部分的知识路线:1.数据体系的搭建什么是数据体系搭建？确定好数据指标把指标可视化出来做成报表把报表组织在一起如何学习？PM和DS必须懂得数据运营指标搭建产品和数据应该懂得的AARRR2. 数据分析方法和思维数据分析方法和思维是什么？面对数据问题采用的方法和思维学会了这些知道如何去分析问题如何学习？强烈推荐跟着我的数据分析方法新书学习数据分析方法和思维—RFM用户分群数据分析方法和思维—相关性分析法数据分析思维和方法—用户画像分析数据分析方法和思维—对比细分数据分析方法和思维—拐点法和分位数法数据分析方法和思维—5w2h数据分析方法和思维—麦肯锡逻辑树分析法数据分析方法和思维—漏斗分析数据分析方法和思维—aha 时刻3. SQLSQL 有什么用？获取数据，提取数据数据清洗，数据计算数据统计，数据验证如何学习SQL？SQL 教程SQL 教程
菜鸟教程SQL数据库实战题_面试必刷+解析_牛客题霸_牛客网4. Excel 技能EXCEL有什么用？数据计算，数据统计数据可视化，直方图，折线图，饼图，组合图，雷达图等数据分析建模，如回归预测如何学习EXCEL？怎样用 Excel 做数据分析？秦路：七周成为数据分析师—Excel实战篇SYLVICE：Excel 数据分析案例分享5. python等编程技能python 有什么用？如何预测用户留存/流失如何预测用户付费销量预测/用户数预测/dau预测/mau 预测如何对用户进行分群如何学习python:人工智能LeadAI：Python数据分析学习路径图（120天Get新技能）李铭：机器学习与建模知识点总结及Python实现（二）接下来是书籍推荐。下面的书籍都是数据分析中的重点书籍，喜欢的记得点赞哦，我会持续更新，记得关注我 @渔好学以及我的公众号【渔好学】理论基础 (1) 概率论和统计学统计比较通用的入门教材了, 讲解的通俗易懂大学的概率论和统计学的教材, 学习起来不吃力（2）数据挖掘和机器学习数据挖掘入门书籍, 讲的非常详细, 里面很多理论值得好好学习一下, 也适合工作一段时间再来读这本书数据挖掘入门书籍，和导论那本书一样都是入门的经典这本书是包括各种机器学习算法数学原理的推导, 面试的时候手推公式需要研读一下西瓜书, 机器学习的圣经, 需要反复研读用人话把复杂难懂的机器学习算法解释清楚了，其中有零星的数学公式，但是是以解释清楚为目的的。而且有Python代码，大赞这本书涵盖了非常多的内容，讲解深入，有人评价说，“有了这本书就不需要其他机器学习教材”，虽然有点夸张，但是此书实际是机器学习的经典巨作，如果你真的希望好好研究机器学习，此书非常值得仔细研读，另外此书要求不低的统计理论和数学基础（3）数据库数据库的经典 2. 工具和语言（1）R语言R 语言入门的语法以及用R语言进行数据分析数据科学和R语言的著作（2）python 语言分析了python 语言进行数据分析的案例python 语言的基础教程, 可以从零开始学习python 的基础编程作者通过实际例子介绍了数据挖掘和机器学习的算法并且有对应的python 实现（3）SQL 语言SQL 入门经典书籍 3. 分析方法论这本书涵盖了数据分析建模的方法论在实际业务中的应用, 讲得非常详细, 讲了数据分析方法是如何驱动业务进行增长和落地的, 有完整的建模例子这本书涵盖了数据分析的方法论如相关性分析, 杜邦分析法等分析方法 4. 软技能数据分析思维和沟通技巧金字塔原理主要是涵盖了如何去组织一个有条理的思路的文章和讲话逻辑, 对于ppt的汇报展示是非常有帮助的本书展示了如何验证自己的设想、找到真正的客户、打造能赚钱的产品，以及提升企业知名度-----------------------------------------------------------------------------------------------详细目录和内容可以直达京东}

针对题主个人问题，建议分三步走。第三步，说的是谷歌算法工程师们如何进行数据挖掘由入门到精通的。最后教会你碧血剑法的最高境界...人剑合一。牛皮吹破了，让我们看看实战吧......1. 先认清大数据这个行业和你希望从事的数据挖掘这个岗位方向。因为它太火了，火的有点炸掉，一旦一样东西太火了，后续必然会有一些问题比如泡沫经济，比如股市大萧条之前的回光返照。所以，入坑要谨慎...一定要结合自己的兴趣，看是否你愿意长期从事这行，毕竟这行的转行成本有点高，数学专业也不例外。我身边很多数学专业毕业的学生，转过来也要花费不少气力。在这个阶段你可以多看看介绍大数据相关的书籍，这些数据技术性不要太强，更多的是帮你确定未来从事数据挖掘哪一个方向奠定基础。大数据+通信？大数据+证券？大数据+互联网？大数据+教育？如果考虑不清楚就会导致你在转行和非转行间犹豫徘徊。你考虑清楚了，下面的事情对你而言才会是惊喜。2. 其次，就是认识数据挖掘能做什么？本科硕士阶段学习的专业知识，尤其是数学方面的知识，可以在数据挖掘方面体现的淋淋尽致。神马。。。微积分、神马。。。。线性代数，你原以为停留在课本的那些数学公式会在你脑中不断出现，并运用在你之后的工作当中。但，此前还是建议你看的第一本书是吴军的《数学之美》，对于数学专业的小伙伴们，这本书简直就是妥妥的福利，他既不想一般的专业技术书一样，直入挖掘算法，而是给你讲讲数学和现有的算法应用的联系。看完后你才会发现“哇塞，数学原来可以如此好玩，如此有趣并且如此好用”。3.最后，如果你要开始做，可以参考谷歌这套学习方法。这简直就是逼格大神的成长完美路线，好好收藏吧~数学基础—题主的优势，我就不介绍书籍了，统计学及机器学习相关《统计学基础》刚开始入门同学可以买这一本足够用了，简直太实惠了～《机器学习》吴恩达/周志华《机器学习》多多价淘宝价《python入门手册》——个人看的这本,感觉厚实，但还是非常系统的，推荐耐心看看。再看看《利用python进行数据分析》就更完美了。Python的书籍清单：淘宝价《Pattern Recognition and Machine Learning》——PRML，经典书，难度较大，需要的话可以通过下面链接下载。链接:
提取码: trh2 不过多多的书质量就差一些了～个人喜欢正版。4. 最后的最后。。。业务。。。业务。。。业务。。。重要的事情说三遍，没有业务的数据分析挖掘工作，都是纸上谈兵，千万别把自己炼成了刀枪不入的葫芦娃。这才是决定你前面千锤百炼的关键。最后，祝愿每一位入坑人事能入这行，爱这行...}

上一讲，我们从流程上介绍了数据挖掘，而在整个数据挖掘实施的流程中，数据挖掘算法可能是我们的算法工程师最关注的环节。在常见的数据挖掘过程中，通常会用到什么类型的算法，不同的算法又应对什么样的问题？在实际工作中遇到的问题，该如何转化成算法可解决的问题呢？带着这些疑问，让我们开始这节课吧。数据挖掘算法有什么特色首先我们来看一下“算法”的定义：算法是为求解一个问题需要遵循的、被清楚指定的简单指令的集合。如果是没有接触过数据挖掘或者机器学习的同学，说到算法想到的可能是查找、排序、二叉树、动态规划等等。这些算法主要用于我们的数据在存储和运算过程中，通过精巧的设计计算过程达到优化时间复杂度和空间复杂度的目标，而且这些算法的结果是确定的，实施某一个算法，就可以获得对应的效率提升。单纯从“算法”的定义来看，我们在数据挖掘中所使用的算法与其他的算法也没有什么区别，同样是为了求解问题而形成的指令集合。但不同的是，数据挖掘中的算法目标是要寻找存在于数据之中的知识，而且这些知识是不确定的，因此算法的结果也无从而知，可能会获得好的结果，也可能会获得不好的结果，在算法计算完成后我们还需要通过一些辅助方法来评估结果。数据挖掘算法四大类既然我们知道数据挖掘的算法是为了寻找数据中潜在的知识，那么数据挖掘的算法通常都有哪些类型呢？如果说按照这些算法所解决的问题来进行划分，大致可以分为分类问题、聚类问题、回归问题和关联分析问题。下面我们就来详细看一下。1.分类春天来了，我带着儿子在公园里闲逛，看到花圃里形状各异，五颜六色的小草和花朵，儿子撒开我的手蹲在那里仔细研究起来。儿子指着其中一朵黄色的花问，“爸爸，这个是什么花？”我定睛一看，这个简单，“这是郁金香。”“这个是什么花？”我回答，“这个红色的也是郁金香。”连续问了几个之后，他指着旁边的一朵说“这个也是郁金香。”我们接着往前走，走到一片玉兰前面，儿子又问我“这树上的是什么花呀？”我说“这是玉兰花。”上面这个人类幼崽的学习过程就是分类算法所处理的过程。分类算法就是对已经确定好结果的数据进行学习，从而对未知的新数据进行分类的算法。在这个例子中，我为部分数据提供确定的结果，儿子通过观察它们的特征和区别来对新的花朵进行判断，从而区分出一朵花是玉兰花还是郁金香花。我们前面说，数据挖掘的算法结果是不确定的，我们怎么知道学得怎么样呢？再看看我儿子的行为，如果他没有见过其他的花，当我们看到一棵桃树的时候，他可能会指着桃花说“这个长在树上的花是玉兰花。”这就出现了欠拟合，他只通过判断是长在地上还是长在树上就决定了花的类别，这个时候我们需要告诉他更多的特征，比如说玉兰的花瓣更宽，更长之类的。另外一种情况，他可能会指着一朵粉色的郁金香说“这个是粉色的，这个不是郁金香。”这时候就是出现了过拟合，他把条件限制得太死，这时候我们应该给他找更多郁金香，让他明白，颜色并不是判断郁金香的主要特征。2.聚类我们接着往前走，这时候儿子又问我“这个是什么树叶？那个是什么树叶？”我看着这些叶子，虽然它们确实不一样，可是这也超出了我的认知，我也不知道这是什么树呀。我只好跟儿子说，我也不知道这是什么树叶，不如我们把你捡的树叶分一分，然后从每一种里拿一片出来，等我们回家查查这是什么树叶。于是我跟儿子一起蹲在那里，对着之前捡的一兜树叶挑挑拣拣。这些带锯齿边的是一堆，那些小圆片是一堆，还有这种三个尖尖的是一堆，如此种种。与分类不同，聚类算法只需要有一些数据，但是事先并不知道数据属于什么类别，通过对这些数据的学习，希望能够通过数据的差别寻找到潜在的类别，从而把已有的数据划分成几个类别，至于说这个类别具体是什么并不清楚。3.回归从公园回家，还没进门我就已经闻到了饭菜的香味。我跟儿子说：“我们先吃饭吧，吃完再查树叶。”儿子却不同意，说：“我不饿，我不饿，我不想吃饭。”我媳妇这时候冲了出来，“饭都不爱吃，你都已经比别的小朋友矮了，真不知道你能长多高！”这个问题。我们或许可以使用回归算法来分析一下，当然我们首先需要有一些数据，假设孩子的身高可能跟父母身高、孩子的性别，等等有关系，那么我们获取一百组父母的身高和孩子的身高、孩子的性别、孩子吃多少饭、喝多少奶、有多少运动量等等数据，就可以构建一个线性方程，通过已有的数据把系数算出来，然后把我自己的数据输入到这个方程中就可以算出一个数来了。回归的计算其实跟分类类似，都是预先已经有了特征数据和结果数据，只不过分类的结果是一个确定的标签，而回归的结果是一个连续型数值。很多时候，我们甚至可以在回归方法和分类方法之间进行转化。4.关联分析正当我还在思索孩子能长多高的时候，我媳妇又说：“他不吃饭那就冲点奶粉喝吧，奶粉快喝完了，你去某东上买点。”于是我打开了某东的 App，搜索了奶粉，正当我准备下单的时候，下面弹出了一个优惠信息：买了该奶粉的人还买了 xxx 尿不湿，组合购买可省 xx 元，然后是一个组合链接。于是我问媳妇，“尿不湿还够不够，需不需要买了，这个一起买能便宜一点。”接下来，就是我买了一桶奶粉，两包尿不湿，通过关联分析，某东成功把我本次下单的客单价从 1xx 提升到了 2xx。关联分析是从已知数据中寻找相关关系的一类算法，比如说我们这里的奶粉和尿不湿，只是找到这样的销售搭配关系，并把它推荐给正在购物的人，就可以提升业绩了。在商业分析，推荐系统，以及用户行为分析中，经常会用到关联分析方法。不同算法适合的情况1.分类算法分类算法对数据的要求比较高，需要一定的数据量以及事先的标注结果，通常是要根据学习过去已有的数据，对新的数据做出类别预测，比如说给新闻分类。常见的分类算法有最近邻算法 KNN、决策树算法、朴素贝叶斯、人工神经网络、支持向量机等等。2.聚类算法聚类算法也是要去划分类别，但是聚类算法对数据的要求会低一些，并不需要事先标注好的结果，而是通过算法模型来判定。聚类算法通常是针对已经确定的数据集合进行划分，比如说对于用户分群，有一堆用户的基础信息和行为数据，我们不太确定这些用户到底有多少类别，又该如何划分，这时候就可以使用聚类的方式。常见的聚类算法有 k-means 聚类、DBSCAN 聚类、SOM 聚类等等。3.回归算法如果你有一些数据，其中要去预测的结果并不是一个标签，而是一个连续数值，可以用一个函数近似地模拟特征与结果的关系，那么就考虑使用回归算法。比如说你知道广告投入和产品销量存在着一定的关系，通常是广告投入越大销量越高，你可以用过去几年的广告费用和产品销量构建起一个函数方程，然后把明年的广告预算放进去，就可以得到一个销量的预测值。常见的回归算法有线性回归、Logistic 回归等。4.关联分析关联分析主要用于寻找两个项之间的关系，并给出关联规则，比如我们提到的尿不湿和奶粉的关系，关联分析可能是需要最少人工调整的方法。常见的关联分析算法有 FP-Growth 算法和 Apriori 算法。一个现实问题如何转化只是了解了不同的算法适合解决什么问题还不足以很好地完成工作。因为在实际的工作场景下，总是存在着这样或者那样的现实问题。举个例子，比如说我们的电商网站中有很多评论信息，产品经理希望能够从评论中识别到那些不好的评价，并进行深入的分析，从而根据评价来优化商品或者服务。第一步，我们需要找到那些“不好的评价”，这可以认为是一种文本的情感识别，所谓“不好的评价”就是带有负面情绪的评价，他可能会说产品不好，或者服务不好，甚至是破口大骂。面对这样一个问题，自然而然我们想到把这个问题转化为分类问题，把评论分成正面情绪、负面情绪和无情绪三种类别。但是需要注意的是，分类需要有事先标注的结果，那这个标注必须由人来完成，如果没有人来标注怎么办呢？首先考虑自己来标注，这个方法最简单直接，但是耗时很多。如果不想自己标注，那看看在产品形态和数据层面是否有可以利用的信息？比如说有些电商网站除了写评价以外还会让用户进行打分，一般来说不好的评价往往伴随着更低的打分，那么我们可以认为这个分值是一种弱化的标注，虽然没有直接标注来得准确，但是在没有直接标注的情况下也不失为一种方案。如果没有可以利用的标注信息怎么办呢？那这个时候可能就要考虑用聚类方法，我们是否可以先对评论朝着这三个维度进行聚类，在获得了聚类之后再对新数据进行分类呢？当然，这里可能需要对情感相关的特征进行抽取，不然可能聚类到别的维度上面去了。在实际的工作中，像这种问题可能会经常遇到，除去优化算法本身，还有很多的事情需要去思考、去解决。我们的目的是解决业务中的问题，提升业务指标，如何更好地利用这些算法，需要因地制宜。总结这一讲是一个基础的数据挖掘算法介绍，可以说数据挖掘中的算法就是在模拟人的决策过程，从而获取数据中的知识。就像我在文中写的小例子，我观察到刚出生的孩子在观察世界时的一举一动其实与这些算法有着类似的过程，或者说这些算法本身也就是从人类认知世界的过程中抽象出来的。（大数据15.png数据挖掘及其算法是大数据版图中一块重要的组成部分，收集来的数据到了这一步才开始真正发挥价值。通过算法，我们可以把原本价值密度低的数据处理成高价值的知识，相当于是一个萃取的过程。那这里，你可以举一个应用数据挖掘算法处理数据的例子吗？欢迎在评论区与我分享。在我们实际的场景里，除掉数值型的数据，还有更大量的语言文本与图像数据，这些数据更贴近我们的真实生活，也更易于人们理解，但是在我们的数据挖掘中，算法能否对这些信息进行处理，炙手火热的深度学习又能带来哪些变化呢？下节课，我们会介绍自然语言处理与图像处理，到时见。}

淘宝游戏网