平均数的大小与原始数据有什么关系?

对于右偏的频数分布,一般情况平均数、众数、中位数的大小关系为?



请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!


}
  平方平均数≥算数平均数≥几何平均数≥调和平均数;

引理的正确性较明显,条件A≥0,B≥0可以弱化为A≥0,A+B≥0。

平均数表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。

用平均数表示一组数据的情况,有直观、简明的特点,所以在日常生活中经常用到,如平均速度、平均身高、平均产量、平均成绩等等。

平均数非常明显的优点之一是,它能够利用所有数据的特征,而且比较好算。

在数学上,平均数是使误差平方和达到最小的统计量,也就是说利用平均数代表数据,可以使二次损失最小。
  因此,平均数在数学中是一个常用的统计量。但是平均数也有不足之处,正是因为它利用了所有数据的信息,平均数容易受极端数据的影响。

只有在数据分布偏态(不对称)的情况下,才会出现均值、中位数和众数的区别。所以说,如果是正态的话,用哪个统计量都行。
  如果偏态的情况特别严重的话,可以用中位数。

}

我们常说将数据应用于实际业务,但具体要怎样做呢?根据不同的阶段和水平,我们所需的能力可以分为以下4种:

    1. 掌握观察数据的“视点”(这是驾驭数据的基础)

    1. 掌握通用的整理和分析数据的基本方法

    1. 将各种方法或思维方式有机结合起来,形成具有整体一贯性的解决问题的故事

  1. 高级分析技能和IT系统

    1. 掌握运用专业的高难度方法和高难度技术进行分析的能力

个人理解:先学会解读才能找到切入点,基于基础的分析方法以得到初步的结论,但使用分析结论如何解决问题需要具备综合能力以及和业务进行结合。进一步可以使用高级的分析技能,数据所展示的问题并不仅限于浮于表面的统计结论,高级分析技能可以挖掘更深层的原因。

实际工作中的大部分数据分析都只是运用分析工具来“摆弄”现有的数据。因此,虽然不知不觉中做出很多图表,但耗费大量的精力和时间,最后也不过是总结出一份报告,只是描述了“本月XX分店取得了优异的销售业绩”“经费的使用额在整体上有所增加”等实际情况。当然,这样很难找到有效的应对措施,或者找到造成这种现象的原因。

为了避免这种情形,我们需要了解“流程”,这是数据分析的前提。掌握了流程,才能避免见到数据就立即动手,却总是在原地打转的情况。分析的各个详细流程还会在后面的章节介绍,我们先来概观一下数据分析的整体流程(故事)。

抱着“先从容易收集的数据开始统计”的想法进行分析,这本身就是错的。正常情况下,首先应该确定分析的目的。但是忙于日常业务的商务人士在面对数据时,却往往会想要“先做成图表看看”。他们明知没有意义,却还是不由自主地这样做。

确定目的或问题后,才能决定假设、方法、所需数据等具体内容。进行数据分析,“假设”可以发挥重要作用。如图12所示,在解决问题的过程中,有两个环节需要假设。

首先,在“锁定问题的关键”时,需要通过“WHAT型假设”对数据进行分解和比较。此外在“锁定原因”时,还需要通过“WHY型假设”来列举出候补原因

WHY型假设是将问题放在最顶层,然后列出能够回答“为什么”的所有可能答案。接下来,再针对这些答案,同样重复“为什么”的提问,进一步深入挖掘。

假设我们使用WHY型假设,来探讨店铺的现烤面包在最近3个月急剧下降的原因。为了整理思路,可以制作一个如图13所示的图表。按照逻辑关系,将目的或问题、假设、方法以及所需数据从上至下依次连接起来。

如果觉得最初的假设挖掘得还不够深入,也可以进一步反复思考“为什么”,继续深入挖掘第二层、第三层假设,从而找到更为具体的问题(原因)。这里不再详细介绍深入挖掘的方法,但请注意:并非所有的情况都是只有一层假设就够了。

接下来,要确定检验各假设的方法及所需数据。

做完了这些工作,接下来总算到了分析数据的环节。我们要根据数据来检验假设。要确定对问题来说,哪种假设是正确的、哪种假设的影响最大。做到这一步,就能够发现问题出在哪里、应该采取哪些对策,或者是否需要继续深入调查或分析。也就是说,这样就可以采取下一步措施。

我们既然采用了数据分析这种科学的研究方法,也就应该尽量客观地提出假设。为此,可以请别人对自己的假设进行确认,也有一些可以用来自己检查的方法。方法之一是运用“框架”作为思考问题的线索。这里的框架是指商务人士都经常会接触到的流程图、损益表及4P营销理论等(图14)。

前面介绍了框架的作用,但这并不说假设必须完全符合框架。使用框架,是为了检查假设是否有遗漏。此外,框架还有助于明确“可视的范围”和“不可视范围”。它可以帮助我们认识到,“自己目前正在哪个范围进行研究”。这一点极为重要,因为它直接规定了数据分析的范围。

在尚未习惯数据分析的阶段,制作图表是一种行之有效的方法。但实际上很多时候,这个工作只要在头脑中做就可以了。制作图表可以提高数据分析的效率,更容易实现目标。但如果成为负担,害得我们为 此而顾不上关键的数据分析和解决对策,图表就失去了意义。

很多时候,分析者并没有意识到,他们进行分析仅仅是为了验证自己的想法。如果分析的结果能够支持(或接近)自己的想法,分析者就会大大满足,对风险就会变得极为迟钝。他们往往会产生一种错觉,认为分析取得了成功。这样一来,耗费时间与精力所做的分析就都成了徒劳。那么,这个事例中具体存在哪些问题呢?答案是,在问题设定中,就已经包括了“原因”(在这个事例中为降价)。越是具有丰富经验及敏锐直觉的人,越有可能在设定问题时就已经想好了针对原因需要采取的“对策”。

高质量、高效率的数据分析并不只取决于“数据分析”本身的质量。也就是说,在实际动手处理数据之前,应该先缜密地思考,这一阶段的内容和质量基本上决定了后面分析的质量及整体故事的有效性。

明确目的或问题、大致把握现状之后,就进入提出假设、确定问题关键的阶段。那么,具体应该如何找到“问题的关键”呢?

把握数据和分解数据的视点很重要。因为要锁定“问题的关键”,需要准确把握数据所显示的信息,在此基础上对分解的结果进行比较,从而锁定关键点。

2.1 趋势视点和快照视点

“趋势”视点可以捕捉一段时间内的变化,也被称作时间序列。通过数据观察变化经过,可以得知有哪些流程,以及形成目前状况的经过。关注过去的变化,预测将来的动向,可以带来飞跃性的效果提升。因为从时间的变化过程中,有可能找到问题的关键或原因所在。重点挖掘这些内容,找到所需信息的概率就会增加。“快照”视点是截取某个期间的情况。用指标(平均值等)体现该期间的大小、比例和分布情况等,可以轻松地把握大致情况,或进行比较,从而确定该因素对问题的影响程度。例如,区域A的销售额的确出现了大幅度下降(趋势),不过如果通过“快照”发现其年销售额规模不及整体的1%,我们就会毫不犹豫地将其从深入挖掘的对象中剔除出去。

不过,对较大范围(包括多个要素)的数据,即使进行比较也很难找到差异。此时需要运用“四则运算”来分解数据,使其变得更为详细和具体。这就叫作“WHAT型假设”(图25)。

在此基础上,接下来需要关于“维度”的思路。分解数据之后,会得到某个指标或者变量(例如:客户忠诚度)。我们需要考虑从何种维度对该指标进行比较,才能找到问题的关键。在依赖数据之前先进行推测,也可以说是WHAT型假设的一部分。

2.3 表示数据大小的“平均值”

为什么平均值可以广泛用于各种场合呢?我们首先从积极的方面来考虑。单纯地罗列数据的话,人们很难从中获得信息。数据越多,就越会超出人们能够处理的极限。此时,我们可以制成图表,或者取整体的平均值。这是为了将整体归纳为图表或者平均值等“一个对象”,便于人们理解和认知。尤其是平均值能够作为体现数据“大小”的代表值或标准值发挥作用。因此,平均值这个指标用途广泛、非常便利。

但在使用平均值时需要注意,平均值对整体数据的代表程度取决于数据的分布情况。因为平均值会受到离群值的影响。而且,数据波动越大,离群值就越多。其结果就是,“平均值未必是代表值”的可能性更大。

2.4 了解“中位数”

这种情况下,还有一种简便方法,即“中位数”。中位数是指把所有数据按从大到小(或从小到大)的顺序进行排列时,排在最中间的数据。顾名思义,中位数就是位于中间位置的数据。有奇数个数据时,中位数是正中间的数据,有偶数个数据时,中位数则是中间两个数据的平均值。

如果以平均值为中心,所有数据都大致均等地分布在其左右两侧,那么中位数的值必然会接近平均值。相反,如果受离群值的影响,平均值在所有数据中的位置较偏,那么中位数与平均值之间就会出现较大差异(也有个别情况例外)。我们也可以在这种情况下再用直方图等查看平均值为什么会出现偏离。

2.5 平均值所掩盖的真相

①平均值最适合表示整体的大小平均值便于人们把握大体趋势,可以通过平均单价等把握和比较整体情况。

②平均值的缺点是会掩盖原始数据的部分特征注意到这一点,可以避免遗漏更为精确的信息。

2.6 用“波动”的视点给平均值做补充

在商业世界中,波动也可以说是“风险”。虽然最初得出“没有变化”的结论,但它很可能是错误的,正确的结论应该是“风险增大了”。只注意平均值的人忽略了这一点,因此无法得到正确的结论。需要注意的是,“波动大”或“风险大”并不一定就是坏事。风险也可以反过来看作机会。有时我们也可以有意选择“高风险、高回报”的情况。

能够客观体现波动大小的指标叫作标准差。标准差表示以平均值为中心,数据对平均值的偏离程度。人们可以根据标准差的数值对类似每日销售额的波动程度等进行相对评价。

很多书都从统计学的角度介绍标准差,其代表性的说明如下:“以平均值为中心,在向其左右各扩大1个标准差的范围内,会包含约占整体三分之二的数据(满足正态分布的条件下)”

“以平均值为中心左右对称”“数据集中在平均值附近,极端数据较少。如果不符合这些(正态分布的)前提,标准差就没有太大意义。然而我们很难断定所有数据都接近正态分布。不如说在商业领域里,相反的情形更多。因此,很多人因为“统计书上的内容”与“自己运用”之间存在明显的距离(还有很多情况下,二者之间的距离甚至大得已经感觉不到距离),而放弃使用标准差。

那么,有没有什么办法可以将不太好用的标准差运用到实际工作中呢?这里介绍两种能够轻松掌握数据分布的方法。

一种方法是用柱状图来展现数据的分布情况,可从视觉上直接确认。

还有一种方法是变异系数。使用标准差对波动程度进行相对比较时,必须满足被比较的两个数据大小相当或相同(例如同一家店铺不同月份之间的比较、相同销售额规模的两家店铺之间的比较等)的前提条件。因为一般情况下,如果原始数据值较大,其波动(标准差)也会相对比较大。不消除“数据大小”的差异,就无法进行适当的比较。

说到数据的大小,请各位回忆一下平均值的相关内容。如果能用标准差除以全部数据的平均值,消除数据大小的差异,就可以不必在意原始数据的大小,从数值上用标准差来比较两者的波动程度。标准差除以平均值得到的值叫作变异系数。

前面介绍了如何用平均值和标准差等指标来“计算每月平均销售额”“比较每家店铺来店人数的波动”等。此外还介绍了如何在此基础上从某个维度对大小、比例或波动等进行比较,划定对象数据的范围,锁定问题的关键。那么,从这些指标可以获得哪些信息呢?不过是现有数据范围内的结果或者现状。进一步分解销售额的构成要素,对每种商品、每个店铺、不同月份等进行深入研究(分解),能够更进一步锁定具体的问题的关键。不过其结果仍然不过是“更为细致的现状”。

在实际工作中,我遇到的很多情况是:虽然通过数据分析细致入微地了解了现状,但到锁定原因的阶段,却又用突兀的主观见解来代替客观事实。“这一步也能展现出客观根据就完美了”,像这种令人深感惋惜的例子屡见不鲜。

3.1 表示二者关系的“相关系数”

像这样,关注2种以上数据之间的关联程度,就可能获得仅从一种数据中绝对无法得到的信息。换句话说,就是将视野从一维的数据,扩大为关注2个维度,有意识地转换思路和视点。为了把握2种数据之间的关联,首先需要确认它们是否密切相关。“相关系数”可以表示相关程度,计算相关系数的方法叫作“相关分析”。相关系数的值介于1和+1之间(图31)。

相关系数越接近1,正相关的程度越高。也就是说,一方数据增加,另一方数据也会随之增加。二者完全成比例(如果一方增至2倍,另一方也随之变为2倍)时的相关系数最大,是1。相关系数为0,表示两个数据没有任何关联,互相独立。实际业务中使用的第一手数据,一般都不是0或者1所表示的完全不相关或者完全成比例相关,而是介于二者之间。

在以下3种情况下,借助散点图我们可以对相关性有更直观的认知:

①能够发现明显的离群值(出于某种原因,明显偏离其他数据的数据)。离群值可能会产生影响,导致整体的相关系数变低。如果能够合理去除离群值,那么其他数据的相关系数可能会有不同。

②相关系数能够体现两种数据之间的比例关系(线性关系),但并非所有数据之间都是比例关系,也可能是其他类型(曲线等)关系。这些其他类型的关系可以不依赖相关系数,从散点图中看到。

③借助散点图,对相关分析、相关系数一无所知的人也可以理解分析的结果。

3.2 相关系数的四大优势

(1)能够立即得出答案

(2)简单易懂,更容易得到对方理解

(3)能够分析单位不同的数据

(4)为回归分析等进一步分析做铺垫

相关分析可以单独运用于实际业务,也可以为其他深入分析做准备。这样可以避免只用单独的一种方法结束分析,而是用其他方法做补充,或者组合使用,从而通过多个分析形成脉络,描绘出解决问题的完整故事。正如我多次强调的,贯穿始终的故事可以增强分析的论据,显著提高对方的理解和接受程度。

3.3 不要随便编故事

相关分析既有效又简单,稍做尝试即可得出结论,非常适合实际应用。但另一方面,如果理解或使用方法不当,相关分析也有可能得出错误的结论。如果能在分析过程中发现这些错误倒也无妨,但这一点往往很难做到。实际上,有很多情况必须依靠分析者本人的细心、知识或经验才能发现。没有一种方法可以保证“这样做绝对没问题”。因此,我们在学习分析方法的同时,还需要了解它的注意事项。随时有意识地进行检查,可以大大提高数据分析的质量。那么,都有哪些陷阱呢?以下介绍4种常见的情况。

相关关系并不一定就是因果关系,这一点非常重要。是否给相关关系套上因果关系的故事,是分析者个人判断决定的。所以要清楚,这并不是分析结果所展现的内容。根据同样的分析结果,却有可能得出与原本的因果关系截然相反的解释。

任何情形都可以通过计算得出相关分析的结果(相关系数),但这个结果未必都是由“直接”相关关系导致的。尤其是在复杂的商务世界中,只用一对一的直接关系就能解释的情况其实很少。如果仅凭计算结果创造故事,很可能会得出有悖常识的结论。

所有的数据分析都有一个共同点,就是分析所用的数据范围不同,会对结果带来很大差异。

还有一个与其他分析方法共通的注意事项,即对“离群值”的处理。离群值指由于某种原因,与其他数据差距比较大的数据。分析对象中是否包含离群值,会使相关系数产生很大差异。

发现离群值时,首先要调查这个数据为什么会出现偏离。在此基础上,如果能找到合适的理由,则可以将其从对象中剔除,再进行分析。

前面介绍了如何确认2个数据之间的相关程度并锁定原因。相关分析具有简单实用的优点,即使数据单位不同[例如“人”和“钱(日元)”等],也可以进行分析。但在实际工作中,要想充分发挥数据分析的作用,获得对方的认可,还需更进一步的工作。了解相关程度的大小,对锁定原因非常有效,但只靠相关分析却无法得知这个原因会对目标产生多大影响。

虽然找到了高度相关的原因,却仍然不知道要改善到什么程度才能对目标带来变化。而对掌管业务整体运营的人来说,这是一个非常重要的问题。

相关分析归根结底还只是锁定原因,而无法规划下一步的措施。

因此,继相关分析之后,还需要“一元回归分析”登场。一元回归分析可以将2个数据之间的相关关系表现为具体公式。

4.1 10秒钟完成一元回归分析

(1)用散点图展现2个数据间的关系

(2)用散点图求回归方程

回归直线作为零散分布的原始数据的代表,是距离各点(数据)之和最小的直线。不过除非所有数据都排列在同一条直线上,否则回归方程与各点之间就一定会有偏差。就这一点而言,回归方程无法完美地体现原始数据。

这样一来,就还需要另一个指标,来衡量回归方程(作为原始数据的代表)的可信度。这个指标就是散点图里写在回归方程下面的R2。

让我们再来看看相关分析。如果原始数据完全相关(相关系数=1),那么所有的点都会排列在一条直线上;但如果不是完全相关,相关系数就会随着数据对完全相关(直线)的偏离,从1开始逐渐减小。其实,越偏离直线,指标越小于1的现象也适用于一元回归。数据偏离越远,回归直线就越不能准确地代表原始数据,R2表示数据的偏离程度。

4.2 注意事项及应用事例

运用一元回归分析要注意以下两个问题。一个是“数据之间必须具有单纯的比例关系”。与相关分析一样,一元回归分析的大前提是2个数据之间存在直线比例关系。情况或关系越复杂,就越不符合严密的线性关系。这种情况就不适合套用y=ax+b。

运用一元回归分析要注意以下两个问题。一个是“数据之间必须具有单纯的比例关系”。与相关分析一样,一元回归分析的大前提是2个数据之间存在直线比例关系。情况或关系越复杂,就越不符合严密的线性关系。这种情况就不适合套用y=ax+b。

根据每章篇末的“解决问题的故事”,不知道大家有没有将每个单独的分析过程串联起来,形成一个完整的解决问题的故事?最后,我们再将前面的要点(故事),分为4个部分回顾一遍。(1)第1章和第2章的重点是“明确目的或问题”“大致把握现状”(图51)。与去年一年的月平均销售(额)相比,本年度最近一个月的新车销售(额)减少了约15%。对比本年度计划,可以确认约有10%的目标无法实现(图52)。

(2)第2章的重点是提出具体的论点,锁定问题的关键(图53)。

(3)接下来,第3章的重点为如何“锁定原因”(图59)。在这个过程中通过一些相关分析或是对比分析可以发现一些内容。

针对这些内容,本来还应该做进一步调查。因为这些都是公司外部的原因,往往容易被漏掉。与外界信息相比,公司内部的数据当然更容易获得,也更容易受到关注。人们的意识常常只集中在能够看到的范围之内。我们在随时关注身边信息的同时,还应该养成习惯,经常提醒自己“还应该关注其他范围”

(4)第4章是最后“讨论及实施对策”的阶段。根据回归分析的结果,车型B为了使客户忠诚度达到75%,设定了以下目标值及行动措施,并传达给各位销售人员(图511)。

5.1 解决问题的故事

以上解决问题的故事可以总结为“明确目的或问题”→“大致把握现状”→“锁定问题的关键”→“锁定原因”→“设定行动措施及KPI(和所需资源)”。

无论解决什么问题,都需要这样一步步锁定对象,摸索原因。不过实际工作中,我们未必能马上获得自己所需的数据,常需要对假设进行重新调整,反复尝试多个回合。在假设和检验的过程中循序渐进,将所发现的事实和逻辑一层层积累起来,这个过程对任何问题来说都是相同的。那么,这些工作对解决问题能产生多大作用呢?数据分析并不是到考虑对策就结束了。

5.2 把解决问题的过程展现出来

需要将措施或预算提交给决策者时,将相关信息条理清晰地展现出来,会取得更好的效果。当然,对于有些听众来说,先陈述结论(希望得到批准的措施、预算等)会比先陈述理由(锁定的原因)效果更好一些。

5.3 在组织中使用数据的价值与难点

无论是未知领域的业务,还是新组建的事业,只靠自己过去的经验都未必能得出正确的答案。个人的经验或知识实在有限,仅凭这些已经无法确保工作顺利进展。

通过有效运用外界的数据信息无论是个人还是组织都能获得爆炸式增长。同时,及时发现效率低下或徒劳无功的工作,不断加以改进,还可以消减哪些“本来已经没有效果,只是为了维持现状而运行”的项目等。无论是对希望用更少的人员获得更多业绩的公司来说,还是对在公司中工作的个人来说,这都将是一个幸福的结局。

5.4 更上一层楼(高级技能简介)

(2)样本与总体(假设检验)

}

我要回帖

更多关于 平均数反映了一组数据的 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信