Excel如何提取多列的平均数和最小值

Excel是我们工作中经常用到的工具,也是数据分析最基础的工具。传统行业很多数据分析师只需要掌握Excel和SQL。

对于初学者来说,有时候没有必要急着去学习R语言等专业工具(当然学习是加分项),因为Excel涵盖的功能足够多,而且有很多统计、分析、可视化的插件,但是我们在处理数据的时候却不知道怎么用很多功能!

对于Excel的高级学习,主要分为两大块:——。一个是数据分析常用的Excel函数,一个是用Excel进行简单完整的分析。

本文主要介绍了数据分析中常用的43个Excel函数及其用法。实际分析将在下一篇文章中解释。

(本文内容为目录,介绍了每个函数的作用,哪些函数可以用来解决某个问题等。具体使用方法可以通过百度了解。)

Excel的功能其实就是一些复杂的计算公式,把复杂的计算步骤交给程序。只要按照函数格式输入相关参数,就可以得到结果。比如求一个区域的和(A1:C100),可以直接用SUM(A1:C100)的形式。

而且,对于函数来说,不需要记忆,只需要知道应该选择什么样的函数,需要什么参数,如何使用就可以了!例如,选择一个字段并使用左/右/中功能.其他细节留给万能的百度吧!

根据不同的应用场景,对这些常用的必备功能进行分类介绍。

经常需要的数据不在同一个Excel表中,或者不在同一个Excel表的不同工作表中,数据太多,复制麻烦,容易出错。如何整合它们?

以下函数用于多表关联或行列比较的场景,表越复杂越好!

函数:用于查找第一列中符合条件的元素。

语法:=VLOOKUP(要查找的值、要查找值的区域、包含返回值列号的区域、精确匹配或近似匹配指定0/FALSE或1/TRUE)。

(例如:查询姓名为F5的单元格中员工的职位)

函数:搜索表的顶行或值数组中的值,并在表或数组中指定行的同一列中返回一个值。

语法:=VLOOKUP(要查找的值、要查找值的区域、包含返回值行号的区域、精确匹配或近似匹配指定0/FALSE或1/TRUE)。

区别:HLOOKUP和VLOOKUP两个函数都是用来查找表中的数据的,但是HLOOKUP返回的值和要查找的值在同一列,而VLOOKUP返回的值和要查找的值在同一行。

函数:返回或引用表或区域中的值。

语法:=INDEX(要返回值的单元格区域或数组、行和列)。

函数:用于返回指定区域(行或列)中指定内容的位置。

语法:=MATCH(要返回值的单元格区域或数组、搜索区域、搜索方法)。

函数:求某个数值在某个区域的一组数值中的排名。

语法:=RANK(参与排名的数值,排名的数值区域,排名方式-0为降序-1为升序-默认为0)。

函数:返回单元格所在的行。

函数:返回单元格所在的列。

功能:从指定的参考位置按直线偏移量返回指定的参考。

语法:=Offset(指定点,偏移多少行和列,返回多少行和列)。

在进行数据处理之前,需要对提取的数据进行初步清理,如清除字符串空格、合并单元格、替换、截取字符串、查找字符串出现的位置等。

合并单元格:使用连接。

截取字符串:使用左/右/中。

替换单元格中的内容:替换/替换。

查找文本在单元格中的位置:查找/搜索。

功能:清除字符串两边的空格。

功能:清除单元格右侧的空间。

功能:清除单元格左侧的空间。

语法:=连接(单元格1,单元格2.)

还有一种方法可以合并单元格中的内容。当要合并的内容太多时,连接更有效。

语法:=Left(值所在的单元格,裁剪长度)。

功能:从右截取字符串。

语法:=右(值所在的单元格,长度被截断)。

函数:从中间截取字符串。

语法:=Mid(指定字符串、起始位置、截距长度)。

(示例:根据身份证号提取年月)

功能:替换单元格字符串。

语法:=Replace(指定一个字符串,从哪里开始替换,替换多少个字符,替换什么)。

与replace类似,区别在于Replace根据位置实现替换,从哪个地方替换后需要提供新的文本,替换哪个地方;当根据文本内容替换替换时,需要提供替换的旧文本和新文本,以及替换哪些旧文本等。因此,“替换”在固定位置执行文本替换,“替换”在固定位置执行文本替换。

(示例:替换一些电话号码)

语法:=Find(要查找字符,请指定字符串,哪个字符)。

函数:返回字符串中指定字符或文本字符串的第一个出现位置,并从左到右进行搜索。

语法:=search(要查找的字符,字符所在的文本,从哪个字符开始)。

区别:查找和搜索的功能差不多,可以找到字符的位置。区别在于Find准确地找到并区分大小写。搜索功能模糊搜索,不区分大小写。

函数:文本字符串中的字符数。

函数:返回文本中包含的字符数。

(示例:从a列的电话中提取姓名)

逻辑,顾名思义,就是不重复,而是直接作用于函数:

函数:使用逻辑函数IF函数时,如果条件为真,函数将返回值;如果条件为假,函数将返回另一个值。

语法:=IF(条件,真时返回值,假时返回值)。

功能:逻辑判断,相当于“合并”。

语法:如果所有参数都为真,则返回真,常用于多条件判断。

作用:逻辑判断,相当于“或”。

语法:只要参数有true,就返回True,常用于多条件判断。

使用Excel表格统计数据时,往往需要用到各种Excel公式,也是最常用的公式。(对于这些,Excel自带快捷函数。)

MIN函数:求一个区域的最小值。

MAX函数:求一个区域的最大值。

AVERAGE函数:计算一个区域的平均值。

COUNT函数:计算一个区域中包含数字的单元格的数量。

COUNTIF函数:计算区域中满足给定条件的单元格数。

COUNTIFS函数:计算由一组给定条件指定的单元格数。

SUM函数:计算单元格区域中所有值的总和。

SUMIF函数:对满足条件的单元格求和。

SUMIFS函数:对满足指定条件的一组单元格求和。

sum函数:返回相应数组或区域的SUM乘积之和。

函数:求一个区域的最小值。

函数:求一个区域的最大值。

功能:计算某一区域的平均值。

函数:计算包含数字的单元格的数量。

函数:计算区域中满足给定条件的单元格数量。

(示例:统计商店中的业务交易数量)

函数:计算一组给定条件指定的单元格数。

语法:=COUNTIFS(第一条件区,第一对应条件,第二条件区,第二对应条件,第n条件区,第n对应条件)。

示例:=COUNTIFS(表1!A1:表1!A100,“是”,表1!C1:表1!C100,“否”)计算表1中A1至A100区域中值为“是”而C区域中值为“否”的单元格数。

计算单元格区域中所有值的总和。

函数:求满足条件的单元格之和。

语法:=SUMIF(单元格1:单元格2,条件,单元格:单元格4)

函数:对满足指定条件的一组单元格求和。

语法:=SUMIFS(实际求和区域,第一个条件区域,第一个对应的求和条件,第二个条件区域,第二个对应的求和条件,第n个条件区域,第n个对应的求和条件)。

函数:返回相应数组或区域的乘积之和。

语法:=SUMPRODUCT(单元格1:单元格2,单元格:单元格4)。

Summary函数,参数化平均值、计数、最大值和最小值、乘法、标准差、和、方差等。换句话说,只要知道这个函数,上面所有的都可以丢弃。

整数函数,int向下舍入,round按小数位舍入。

专门用于处理时间格式和转换。

返回今天的日期,动态函数。

返回当前时间,动态函数。

函数:返回日期的年份。

函数:返回日期的月份。

函数:返回以序列号表示的某一天的天数。

函数:返回某个日期对应的星期几。默认情况下,天数是1(星期日)到7(星期六)之间的整数。

功能:计算两个日期之间的天数、月数或年数。

语法:=Datedif(开始日期、结束日期、参数)。

以上是我整理的常用的Excel函数,学了之后很爽。希望能帮到大家!

}

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。在学习R数据科学之前,我们首先要对R语言的基础语法有一个良好的了解,方便我们理解以后的数据科学算法。本次语法精讲分三次讲完,每次负责讲解其中一部分!本次的R语言语法精讲(一)主要介绍了 R语言的数据结构,R语言的运算以及R语言的编程结构。学完本文后,您将可以具备初步的R语言编程技巧,并能编写大部分程序以及算法。

  • R常用数据结构(本文)
  • R的运算以及常用函数(本文)
  • R语言编程结构(本文)

R拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。它们在存储数据的类型、创建方式、结构复杂度,以及用于定位和访问其中个别元素的标记等方面均有所不同。

我们可以把vector想象:vector是一串糖葫芦,把山楂都串在一起。vector包含的是一串数据,要求这一串的数据类型是一样的。在R中,常见的数据类型有3种:

我们可以使用 c() 创造一个vector, c是英文单词cancatenate的缩写,意思是连结,连锁。所以c()可以把括号里的数字或者其他的数据类型的元素串成一个vector. 例如:(<-代表R语言中的赋值符号,绝大多数也可以用=代替;相当于python的“=”)

这里,a是数值型向量,b是字符型向量,而c是逻辑型向量。 注意,单个向量中的数据必须拥有相同的类型或模式(数值型、字符型或逻辑型) 。同一向量中无法混杂不同模式的数据。

vector索引指的是R会给vector的每个元素一个位置坐标。R的位置坐标从1开始,从左到右依次给予vector的每个元素。例如:

此外,我们还可以很方便的输出vector除去某些位置的对应元素后的vector, 例如:

我们还可以用names()函数给vector的每一个元素赋予一个名字,例如:

矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数matrix()创建矩阵。一般使用格式为:

其中vector包含了矩阵的元素,nrow和ncol用以指定行和列的维数,dimnames包含了可选的、以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行填充(byrow=TRUE)还是按列填充(byrow=FALSE) ,默认情况下按列填充。代码清单2-1中的代码演示了matrix函数的用法。

我们首先创建了一个5×4的矩阵, 接着创建了一个2×2的含列名标签的矩阵, 并按行进行填 充,最后创建了一个2×2的矩阵并按列进行了填充。

(3) 删除矩阵的某些行,列

(4) 添加一行或一列:cbind或者rbind合并两个矩阵

数组(array)与矩阵类似,但是维度可以大于2。数组可通过array函数创建,形式如下:

其中vector包含了数组中的数据, dimensions是一个数值型向量, 给出了各个维度下标的最大值,而dimnames是可选的、各维度名称标签的列表。

如你所见,数组是矩阵的一个自然推广。它们在编写新的统计方法时可能很有用。像矩阵一样,数组中的数据也只能拥有一种模式。

从数组中选取元素的方式与矩阵相同。

data frame可以看成是一个excel表格。dataframe是数据分析中非常常用的一种储存数据的方式。dataframe也是一个2维的表格,和matrix一样不一样的地方是data frame的每一列的数据类型可以不一样,但是要求每一列内部数据类型是一样的。数据框可通过函数data.frame()创建:

其中的列向量col1、col2、col3等可为任何类型(如字符型、数值型或逻辑型) 。每一列的名称可由函数names指定。

每一列数据的模式必须唯一,不过你却可以将多个模式的不同列放到一起组成数据框。由于数据框与分析人员通常设想的数据集的形态较为接近,我们在讨论数据框时将交替使用术语 变量

如果想指定index,那么:

如你所见,变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。糖尿病类型Diabetes(Type1、Type2)是名义型变量的一例。即使在数据中Type1编码为1而Type2编码为2,这也并不意味着二者是有序的。有序型变量表示一种顺序关系,而非数量关系。病情Status(poor、improved、excellent)是顺序型变量的一个上佳示例。我们明白,病情为poor(较差)病人的状态不如improved(病情好转)的病人,但并不知道相差多少。连续型变量可以呈现为某个范围内的任意值,并同时表示了顺序和数量。年龄Age就是一个连续型变量,它能够表示像14.5或22.8这样的值以及其间的其他任意值。很清楚,15岁的人比14岁的人年长一岁。

类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor) 。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。

函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1...k](其中k是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。要表示有序型变量,需要为函数factor()指定参数ordered=TRUE。通过指定levels选项来覆盖默认排序。

(1) 因子类型的使用

列表(list)是R的数据类型中最为复杂的一种。一般来说,列表就是一些对象(或成分,component)的有序集合。列表允许你整合若干(可能无关的)对象到单个对象名下。例如,某个列表中可能是若干向量、矩阵、数据框,甚至其他列表的组合。

可以使用函数list()创建列表:

其中的对象可以是目前为止讲到的任何结构。

你还可以为列表中的对象命名:

本例创建了一个列表,其中有四个成分:一个字符串、一个数值型向量、一个矩阵及一个字符型向量。可以组合任意多的对象,并将它们保存为一个列表。

可以通过在双重方括号中指明代表某个成分的数字或名称来访问列表中的元素。

2.R的运算以及常用函数

2.1 R的四则运算法则

R数字的四则运算+,-,*,/和算数中的四则运算时一致的:

(1) 向量的四则运算法则:

(2) 矩阵的四则运算法则:

(3) 矩阵与矩阵的乘法:

矩阵相乘的函数是%*%,同样的,我们要求第1个矩阵的列数(column)和第2个矩阵的行数(row)相同

矩阵乘法中,需要注意,当矩阵和向量相乘时,把向量当成一个列数为1的矩阵即可。

在探索数据的阶段,常常会先探索数据分布的一些统计量,如求和,均值,标准差,方差,中值,分位数等。对vector,R有函数可以直接得到这些统计量,sum()(求和), mean()(均值), sd()(标准差), var()(方差), median()(中值), quantile()(分位数)。

R的基本函数库里没有函数可以直接计算,方差,标准差等其他信息,我们可以用apply()函数。apply(X,MARGIN,FUN)的参数主要有3个,X通常是一个matrix, MARGIN通常的取值有两个,1或者2,1表示按照行计算,2表示按照列计算,FUN指的是一个函数。

函数rnorm()可以产生服从正态分布的随机数

有时候我们需要重复我们的计算或者实验,这时我们需要用到set.seed()函数固定一个产生随机数的种子。下面的形式可以保证我们每次运行产生一样的随机数

函数cor()可以计算两个vector的相关关系

函数summary()可以得到matrix或者data frame的每一列的基本信息,包括最大值,最小值,中间值,25%和75%分位数,均值。

(1) 在R中,if-else语句的形式通常如下:

需要根据不同条件执行不同代码时,使用函数if(), 在括号里写入判断的语句,在上面的例子中,我们根据a == 4是TRUE, 还是FALSE执行不同的语句。

(2) if()也可以单独使用,例如:

# 我们如果要计算1到10的平均值
 

在R中,函数可以通过如下形式定义:

# 自定义函数求一个向量中所有偶数的和
 

赋值号(=或者<-)左边是自定义函数的函数名

赋值号右边是定义函数的函数function()

函数function()括号内是我们要传到自定义函数的参数

最后使用函数return()返回结果

本次的R语言语法精讲(一)主要介绍了 R语言的数据结构,R语言的运算以及R语言的编程结构。学完本文后,您将可以具备初步的R语言编程技巧,并能编写大部分程序以及算法。

}

Python读取Excel文件取平均数 1.文件读取 下面我们将对这个excel文件进行读取 接下来利用For循环对每行进行处理,处理的目的是把想要的数据存储在列表当中 2.整合为字典 这一步是获取数据后第一个要处理的关键 初始化字典的方法有许多 但是最常用的方法还是使用 zip 可以把两个对应位置的列表进行整合为字典 输出结果 再根据字典输出为DataFrame 再进行转置输出 2.平均数的读取...

方法我们能将...,比如求和,平均数,中位数,标准差等等… 举例来说,用 .groupby() 方法我们可以下面数据表按 'Company' 列进行分组,并用 .mean() 每组平均值: 首先

DataFrame一个多维数据类型。因为通常使用二维数据,因此,我们可以DataFrame理解成类似excel表格数据,由多列组成,每个列类型可以不同。 因为DataFrame多维数据类型,因此,DataFrame行索引,也列索引。 . 创建方式 我们可以使用如下方式创建(初始化DataFrame类型对象(常用): 二维数组结构(列表

)。 将数据写出到文本格式 利用DataFrameto_csv方法可以数据写到一个以都好分隔文件中。 对于任何单字符分隔符文件可以直接使用Python内置csv模块。将任意已打开文件文件对象传给csv.reader,这个reader进行迭代将会为每行产生一个元组(并移除了所有的引号)。

}

我要回帖

更多关于 多列数据取同一行最小值 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信