你怎么理解“大数据的含义是什么”这个概念?

点击联系发帖人 时间：2023-12-27 11:45

大数据的含义是什么

先拿文字和案例给大家解释一下，文末有个充满科技感的科普视频。大数据可以重点关注一个“大”字，也就是数据量的大，特点、概念什么的，帆软君就不说了，百度都有，别人的回答中也说的很好。今天帆软君想说说企业大数据这个概念，也就是目前可以用的数据，是什么意思呢？全面记录企业经营和管理活动的数据，比如生产、销售、财务、人力数据等，企业的各个环节都会产生数据。如果再细分的话，可以到如下的维度：大数据分析和普通数据分析有哪些区别呢？第一，在分析方法上，两者并没有本质不同。数据分析的核心工作是人对数据指标的分析、思考和解读，人脑所能承载的数据量是极其有限的。所以，无论是“传统数据分析”，还是“大数据分析”，均需要将原始数据按照分析思路进行统计处理，得到概要性的统计结果供人分析。两者在这个过程中是类似的，区别只是原始数据量大小所导致处理方式的不同。第二，在对统计学知识的使用重心上，两者存在较大的不同。“传统数据分析”使用的知识主要围绕“能否通过少量的抽样数据来推测真实世界”的主题展开。“大数据分析”主要是利用各种类型的全量数据（不是抽样数据），设计统计方案，得到兼具细致和置信的统计结论。第三，与机器学习模型的关系上，两者有着本质差别。“传统数据分析”在大部分时候，知识将机器学习模型当黑盒工具来辅助分析数据。而“大数据分析”，更多时候是两者的紧密结合，大数据分析产出的不仅是一份分析效果测评，后续基于此来升级产品。在大数据分析的场景中，数据分析往往是数据加墨的前奏，数据建模是数据分析的成果。企业有了这些数据之后，该如何利用呢？都说现在是数据时代，很多企业都还没看到自身和数据结合的机会在哪，帆软君说几个大数据应用的例子吧。某家品牌服装企业，每年都会在全国开设许多门店，那这店铺的选址怎么做呢？一般的做法是组建一个选址团队，到现场进行实地考察，然后根据粗略统计的统计，预测一下这个地方的销售量会怎么样，然后对比分析之后靠经验选择一个地址。但这种方法成本大，效率低，误差大，而且非常仰仗经验。为了解决这个问题，希望能够用更科学的方法优化店铺选址：1、数据处理：衣架原有的数据包括店铺基础数据以及旧店铺的历史销售数据，项目团队首先对这些已有的数据进行格式化统一，然后收集了原始数据没有的人流量、消费水平、消费时尚等数据，将获取的数据根据业务与后续算法实施来进行预处理，比如异常值删除、缺失值填补、数据标准化等处理。如下图，是使用lof算法进行异常值筛选的过程：2、特征工程与模型构建所谓特征工程就是与预测结果相关的特征（指标）组合，也就是与新店铺相关的销售额特征组合。然后建立算法模型，最后通过模型准确率以及模型与业务的契合度对比，选择了合适算法。3、模型优化模型优化主要是在找到模型可改进的地方之后所做的事情，比如模型算法的参数调整、特征工程调整等。4、得出结果同样的还有医疗大数据，工业大数据等。帆软也一直在帮企业规范化报表业务，建立数据分析中心，搭建自助的业务分析平台，简单点说就是提供企业的数据化管理服务。为此，我司先后研发了两款数据产品，一款是FineReport，另一款是FineBI。前者解决报表的制作和管理问题，后者解决业务的快速分析。再或者，经常被大家提到的大数据杀熟，其实也算是大数据的一种，只不过这个应用对大家不会产生正面的效果。比如，你在某个app买东西，系统会根据你这个人的用户画像，给你推荐符合你消费层级的产品。再比如，你点外卖，但是你如果经常点这家，系统会自动给你增加费用，第一天只需要花15块，第二天就变成18，第三天就直接变成20了。甚至手机型号的不同也会产生影响：打车会贵一点，订酒店买票等也会贵一点这期间，每一个环节都需要大量的数据。数据哪里来？消费者的每一次交易，每一次浏览，每一次点击都会被记录，每一次关键行为都会被贴上标签，用于判断他是高消费还是低消费人群，推荐符合你需求且承受得起的产品。只不过现在有了大数据，有了数据分析，我们可以通过技术手段，更快的拿到这些信息。大数据的用处在于，你每一个环节都可以用数据量化。我是 @帆软，专注BI商业智能领域十五年！最后分享一些相关资料：}

是大数据，大概应该都只听过概念，印象中好像很多公司都叫大数据公司，但具体是什么东西，怎么定义，没有一个标准，感觉不是很好理解，我们就从下面几个方面来说说大数据。先来个彩蛋：本公司目前在招聘一些大数据分析师，我们欢迎所有对数据分析感兴趣的人来试试，符合条件的可以投递简历（可培养！！！）投递方式见下方，更多岗位信息关注本公司公众号，欢迎主动与我们联系。（1、签订正式合同、五险一金；2、须本科及以上学历（优秀者可放宽条件）；3、无经验者有项目经理带；4、在京工作一年后要求回当地的工作的，可申请调回当地省会城市的分公司或合作企业工作；5、每日简历投递量非常大，欢迎主动与我们联系！！首先来了解一下什么是大数据大数据又称巨量数据、海量数据，是由数量巨大、结构复杂、类型众多的数据构成的数据集合。基于云计算的数据处理与应用模式，通过数据的集成共享，交叉复用形成的智力资源和知识服务能力。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。换言之，大数据就是在浩如烟海的信息中，利用数据分析的技术，对冗杂无序的数据进行分析和整理，并迅速筛选出有价值的信息。大数据的基本特征一是数据体量巨大。百度资料表明，其新首页导航每天需要提供的数据超过1.5PB（1PB=1024TB），这些数据如果打印出来将超过5千亿张A4纸。有资料证实，到目前为止，人类生产的所有印刷材料的数据量仅为200PB。二是数据类型多样。现在的数据类型不仅是文本形式，更多的是图片、视频、音频、地理位置信息等多类型的数据，个性化数据占绝对多数。三是处理速度快。数据处理遵循“1秒定律”，可从各种类型的数据中快速获得高价值的信息。四是价值密度低。以视频为例，一小时的视频，在不间断的监控过程中，可能有用的数据仅仅只有一两秒。普通人如何理解大数据呢？大数据虽然原本是IT行业的行业术语，但是近几年来大数据一直都被提起，最主要的原因是AI的崛起和VR行业的前沿性造就了它不断地被大众所接受。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，所以一般会有用到人工智能AI的全新处理分析演算技术才能让其具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。而百度百科上的介绍就可以看的出来，各个行业的数据是很专业的东西，它包含的很多类型、这样的一个集合体被广称为大数据。我们在平常中就可以看到，比如：点外卖、视频播放、动画制作、快递等等都与大数据不可分割，因为有了大数据之后，公司发展起来就能少走弯路，获得更多的市场了。所以借助大数据能发现很多有趣的东西呢，比如：大数据的分析平台——大数据展厅。大家都知道大数据是需要有工程师、计算机等进行分析的，而大数据在我们普通人眼里看到的和工程师看到的是完全不一样的东西，而大数据展厅就是为了让我们普通人有所了解而建立的一个展览馆，也正是因为有这种展览馆才能让我们普通人越来越了解大数据。大数据展厅中各个板块里展示的任何一个现有的实际成果（APP、平台、网站、产品等）都能让参观者即时进行体验，所以大数据展厅是十分有趣的地方，不知道你们有没有去过大数据展厅呢？}

01. 从“大象”到“羊驼”不久前，Meta 发布了开源大模型 Llama2一经问世，Llama2 就在 AI 社区就引发了激烈的讨论。在各方媒体争相报道 Llama2 的性能时，小瑞更欣赏的是 Meta 通过开源不断向科技社群做出的贡献。Llama2 的出现，让被以 OpenAI 为首的闭源商业所统治的大模型领域，好像又回到了开源和商业平衡共生的生态了。而今天大模型社群“开源和商业”的生态很像 20 年前大数据的发展历史，尤其是 Google、Meta 等科技公司在其中所扮演的角色。从大数据到大模型时代的变迁，基本也是从“大象”到“羊驼”的过程。其中，大模型和大数据中两项重要的代表开源技术，Hadoop logo 是大象，而 Llama 的字义是羊驼。科技领域开源和商业的平衡生态由各种个体组成：Vertical Big Tech：比如 LLM 的 OpenAI，LLM 技术本身就是他们卖点所在。他们所有的技术研发都在围墙中进行，是最传统典型的发展路径。Horizontal Big Tech：比如 LLM 的 Meta，他们的商业核心在于社交媒体。他们乐于将自己的 AI 技术开源，来推动整个领域的进步。而后，他们可以利用开源推动的成熟 AI 技术，来反哺他们的主营业务。开源开发：最分散的工作流程。非盈利的技术开发，科技发展过程中稳定的推力。学术界：比如 LLM 的 Google Research，他们由大学或是 Google Research 这样的研究机构构成。没有商业的顾虑以及拥有更集中的人才构成，让他们不时能做出跨时代的开创性技术创新。今天小瑞带大家一起回顾大数据的发展历史，更重要的是思考今天 Llama2 的出现给我们身处的大模型时代的发展带来的无限可能。02.大数据简史2003-2006：大数据的开始始于 2003-2006: iTunes、Android、Tesla、Facebook、YouTube、Twitter从 20 世纪 90 年代开始，随着互联网、电商和搜索引擎的飞速发展，数据迎来井喷。简单来说，大数据是一个描述数据的规模已超出传统工具所能管理范围的概念。大数据由 5V 定义：Variety 种类、Volume 数量、Velocity 速度、Value 价值和 Veracity 准确性。数据的种类越来越多，数量越来越大，而需求的速度也越来越快。这些现象和需求促使科技界开始研究如何高效地存储和处理“大数据”。大数据的开端由 Google Research 代表的学术界最先推动。2003 年到 2006 年间，谷歌发布了三篇研究论文，解释了他们的内部数据架构，这些论文永远改变了大数据行业。第一篇论文于 2003 年发表，题为“GFS：谷歌文件系统”。第二篇论文于 2004 年出版，题为“MapReduce：大型集群上的简化数据处理”，此后被引用超过 21,000次。第三篇于 2006 年问世，标题为“Bigtable：结构化数据的分布式存储系统”。与此同时，Yahoo！一位名为 Doug Cutting 的技术大牛在受到 MapReduce 的启发后，开发了以他儿子的玩具象命名的 Hadoop。2008 年，Yahoo！将该项目开源，作为 Apache 软件基金会的一部分。图1：Doug Cutting 和他儿子的玩具象图片来源：https://www.cnbc.com/id/100769719Hadoop 作为一个开源框架，加速了大数据技术的的实用性和增长速度。Hadoop 分布式文件系统（HDFS）是一种可将数据分布存储到计算机集群中的系统。而 MapReduce 可以对分布式数据进行并行处理，从而实现性能提升。两者的结合极为强大，他们的用例是以前不可能实现或者成本过高的。Google 代表的学界的三篇论文，和 Yahoo！开源的 Hadoop 架构开启了大数据时代。2007-2008：Hadoop 的早期贡献者始于 2007-2008: iPhone、GitHub、Airbnb、Spotify、ChromeHadoop 框架迅速扩展，但直接上手使用 Hadoop 并不是一件易事，于是各个公司基于 Hadoop 开始研发工具。2007 年，一家年轻但快速增长的公司 Facebook，在 23 岁的马克·扎克伯格领导下，开源了两个新项目：Hive 和 Cassandra。Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。而 Cassandra 是一个广泛的列存储，旨在以大规模的分布式方式访问和更新内容。与此同时，一家名为 Powerset 的公司正在开发搜索引擎，该公司从谷歌的 Bigtable 论文获得启发开发了 HBase，这是另一个依赖 HDFS 存储的宽列存储。Powerset 很快就被微软收购，以启动一个名为 Bing 的新项目。图2：Hive、Cassandra、HBase 的 logo另一家公司在 Hadoop 的快速布局中发挥了决定性作用：亚马逊。通过开发第一个定制云 Amazon Web Services，以及 Elastic MapReduce 服务快速添加对 MapReduce 的支持，亚马逊让初创公司轻松地将数据存储在亚马逊的分布式文件系统 S3 上，并在上面部署和运行 MapReduce 作业，从而避免 Hadoop 集群管理带来的烦恼。Hive，Cassandra，HBase 都是开源项目，并很快成为了 Hadoop 生态不可或缺的部分。而 AWS 则是最早基于Hadoop进行商业化的公司。2008-2012：Hadoop 商业化的崛起始于2009-2012: Bitcoin、Uber、iPad、Instagram、Minecraft很快，每个人都同意，尽管 Hive 是处理大量 ETL Batch 的绝佳 SQL 工具，但它不适合交互式分析和 BI（商业洞察）。任何习惯于标准 SQL 数据库的人都希望他们能够在几毫秒的时间内扫描一千行的表，而 Hive 需要几分钟。这就是一场新的 SQL 战争的开端，这场战争今天仍在继续。再一次，谷歌对大数据世界产生了巨大影响。2010年，Google 发布了第四篇研究论文，名为“Dremel：网络规模数据集的交互式分析”。本文描述了两项主要创新：分布式交互式查询架构和面向列的存储格式。前者启发了我们下面提到的大多数交互式 SQL，而后者为多种新的数据存储格式的出现提供了启发。第一家 Hadoop 供应商 Cloudera 于 2008 年成立，Hadoop 之父 Doug Cutting 迅速加入。Cloudera 提出了一个预包装的 Hadoop 分发，称为 CDH，以及集群监控接口 Cloudera Manager，最终使其易于安装和维护 Hadoop 集群，并同时提供 Hive 和 HBase 的配套软件。在这个时期内，为了提供比 Apache Hive 更快的交互式查询功能，也出现了其他分布式数据仓库。在 2012 年，Facebook 数据基础设施组启动了 Presto，这种交互式查询系统能够以 PB 级规模快速运行。它于 2013 年春季在全公司范围内推广，替换掉了他们自己 08 年研发并开源的 Apache Hive。同年 11 月，Facebook 将 Presto 开源，作为 Apache 软件许可证下的开源软件。继续出现的还有几个商业化的分布式 SQL 分析数仓，例如于 2011 年首次发布的谷歌 BigQuery ，于 2012 年发布的亚马逊 Redshift ，于 2012 年成立的 Snowflake。图3：大数据发展时间轴图片来源：小瑞自己做的～Google 的一篇 Dremel 论文，引领出基于 Hadoop 和 Hive 的多个开源和商业化尝试。Facebook 继 Hive 之后，再一次开源了 Presto SQL 引擎。而到今天Cloudera，BigQuery，Redshift，Snowflake 依旧是头部数仓厂商。2010-2014：Hadoop 2.0、Spark始于 2012-2014: React、Slack、hearthstone、Discord、VS Code2012 年，Hadoop 2.0 发布，整合并添加新的关键组件 YARN（Yet Another Resource Manager）；同时，由加州大学伯克利分校领头的开源项目 Apache Spark 开始以前所未有的速度获得关注。很快，人们发现 Spark 将成为 MapReduce 的最佳替代品，因为它拥有更好的功能、更简单的语法，而且在很多情况下比 MapReduce 快得多。由于 SparkSQL 基于 Hive 的语法，它与 Hive 之间也有很好的互操作性，这使得从 Hive 迁移到 SparkSQL 变得非常容易。为了支持 Spark 的快速发展并实现盈利，其创建者于 2013 年成立了 Databricks 公司。他们致力于通过提供简单而丰富的多种语言 Java、Scala、Python 和 R 语言的开发 API，以及与多种数据源和格式（csv、json、parquet、jdbc、avro 等）的本地连接器。值得注意的一点是，Databricks 采用了与前辈们不同的市场策略：Databricks 没有为 Spark 提供本地部署，而是提供纯云平台，先从 AWS 开始，然后是 Azure 和 GCP。十年后的今天，我们可以肯定地说，这是一个明智之举。图4：UCB、Spark、Databricks 的 logo在此期间，亚马逊网络服务 AWS 正变得前所未有地受欢迎和成功：Netflix 在2010 年的令人难以置信的增长，这在很大程度上是由 AWS 实现的。云竞争对手终于开始出现，微软 Azure 于2010年普遍可用，谷歌云平台（GCP）于2011年通用。UC Berkley 作为大学引领了开源 Spark 的开发。并为了加速 Spark 的发展，基于大学的团队创建 Databricks，加速将其商业化。同时，云服务商加速发展。大数据时代基本的宏图已经展开。大数据小结到了 2014 年，大数据的技术基本成熟。回看大数据时代，是 Google 的知识分享启发了 Hadoop 的开发。而将 Hadoop 开源，快速的让分布式计算和存储被世人使用。而像 Facebook 一样的 Horizontal Big Tech 则是把内部基于 Hadoop 改良的 Hive 和 Cassandra 开源，让更多受限于使用复杂的 Hadoop 架构的开发者能够更顺畅的开发。Facebook 的开源让大数据领域迅速成长，一家家的商业化公司和产品应运而生。而后，依托着从校园开发并开源的 Apache Spark 和 Facebook 再一次开源的 Presto，大数据时代走向进一步的成熟。人们绝对离不开 Google 通过论文的知识分享，以及 Facebook 和 UC Berkley 这样的企业或高校提供的开源技术。在不到 20 年的时间里，是一次次的分享给予人类对于大数据知识的极速增长。谈到大数据时代，我们回味的不尽然是那些传奇的商业故事，更是怀念那个知识无私共享的年代。03. LLM 发展Attention is all you need2017年，Google 再一次以学术论文的形式改变了一个行业一篇名为 “Attention is all you need” 的论文中，引入了 “Transformer” 的概念，这奠定了 LLM 的基础。论文中提到的 Transformer 包括两部分：Encoder 编码器，和 decoder 解码器。排列组合下就出现了三种技术路线 Encoder-Only，Decoder-Only，Encoder-Decoder 共用。Transformer 论文问世不久后，各家厂商对这三条技术路线的探索都有展开。走 Encoder-Only 的 Google BERT，走 Decoder-Only 的 GPT-1，以及 Encoder-Decoder 的 Meta BART。图5：大模型发展图图片来源：https://github.com/Mooler0410/LLMsPracticalGuide而随着，人们被 GPT-3 强大的能力所震撼，以及学界的研究为 Decoder-Only Transformer 架构的前景背书，各家公司开发和投入的重点放到了 Decoder-Only Transformer 上。封闭的 LLM 社群在 2015 年，前著名风投 YC 的 CEO Sam Altman 和马斯克创建 OpenAI创建之初，OpenAI 的愿景是成为一个非营利性组织，共享研究成果和技术。然而在 2019 年，OpenAI 从非营利组织转型“有上限”的营利组织。同年发布 GPT-2 时，OpenAI 以安全的理由没有将其开源。而从那之后，OpenAI 再没第一时间开源自己的技术。作为 Co-founder 的马斯克也在公司背离最初“open”理想后，离开了公司。图6：马斯克吐槽 OpenAI 的推特图片来源：https://twitter.com/elonmusk/status2022 年， OpenAI 发布 GPT-3。作为前两个模型的迭代，GPT-3 被输入了 45 TB 的文本数据，并转化为 175 B 的 Parameters。后来相继发布的有谷歌的 PaLM、Chinchilla 和 Gopher。以及后来出现更强劲的 GPT-4 和谷歌的 BARD，然而这些顶尖的 LLM 都采取闭源商业化的路线。人们也问出 “OpenAI 真的 open 吗？”这样的问题。虽然 OpenAI 在人工智能开发方面取得了惊人的进展，但其日益增长的保密性、缺乏透明度和有限的定制选择，已经疏远了它曾经旨在服务的社区。这段时间也有开源大模型的出现，Meta 的 Llama1， BigScience 的 Bloom。但是他们在性能上不能企及同时期的 GPT-3，以及后来更出色的 GPT-3.5。Llama2 的出现Llama2 的出现对于 LLM 的生态会是至关重要的一步。Llama2 在性能上超越 GPT-3，并比肩 GPT3.5 的开源大模型。在这个 AI 研究成果分享最少，但是阶段性研究成果历史上最多的时候，Llama2 的出现对于 LLM 的生态会是至关重要的一步。开源模型是公有的生产工具，大家都可以拿在自己的手里。它相对比较分散，没有那么集中的资源，大家在上面做各种各样不同的事情，研发的方向也不一样。生态会变得特别繁荣，这种繁荣的生态里可以看到很多不同的东西。模型在这个时代不单单是生产工具，它可以是你表达的渠道，是你思想的反映。如果是闭源模型，那这个模型不属于你，而开源可以让你用属于自己的模型。不管 Stable Diffusion，创造者用他自己的画风定制模型。或是文本，我把我的思想，我之前写的文字、发的消息喂到这个模型里，做符合自己表达习惯的模型。因为这个模型属于我，这些数据是私有的，我不必担心自己的想法会泄露出去，而在这上面定制的一个模型是自己思想的反映。Llama1 发布的时候，人们将一大批人用自己的数据去微调这个模型的现象称作“The Llama Moment”。这一次 Llama2 发布，我们也大可以相信这么强大的基座模型被放到开源社区之后，就会有一大波寒武纪生命大爆发一样的开源模型出现。而这些吃到开源红利的个体和企业，也更有可能以开源的形式继续回报 LLM 社区。而重新在大模型时代建立起开源分享的文化也看到了曙光。04. 总结回看我们在大数据时代见证的故事各个厂商将先进技术开源是推动这个领域进步的核心动力。而同样，今天 Meta 向市场开源 Llama2。明天它能在 AI 社区激起怎样的涟漪会是我们所能尽情想象的！如果没有开源和知识共享的魔力，人工智能和大数据方面的人类知识和技术永远不会发展得如此之快。我们应该感谢最初通过学术论文的知识分享，我们也应该感谢所有开源项目的公司。在过去的 20 年里，开源的技术是互联网科技创新的最大驱动力。Reference：2003–2023: A Brief History of Big Data:https://towardsdatascience.com/2003-2023-a-brief-history-of-big-data-25712351a6bc深度数据云关注深度数据云，把握数据、云计算、AI智能的技术与行业脉动}

淘宝游戏网