根据图片里的公式,计算出图片里两个问题的样本容量?

  • 单项选择题(每小题2分,共20分)
  • (每空1分,共20分)
  • 简答题(每题6分,共30)
  • 析题与计算题(30)

25. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是: (A)
26. 下列哪一个不是专门用于可视化时间空间数据的技术: (B)
27. 在抽样方法中,当合适的样本容量很难肯定时,可使用的抽样方法是: (D)
A 有放回的简单随机抽样   B无放回的简单随机抽样  C分层抽样 D 渐进抽样
28. 数据仓库是随着时间变化的,下面的描述不正确的是 (C)
A. 数据仓库随时间的变化不断增长新的数据内容;
B. 捕捉到的新数据会覆盖原来的快照;
C. 数据仓库随事件变化不断删去旧的数据内容;
D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行从新综合.
29. 关于基本数据的元数据是指: (D)
A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;
B. 基本元数据包括与企业相关的管理方面的数据和信息;
C. 基本元数据包括日志文件和简历执行处理的时序调度信息;
D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.
30. 下面关于数据粒度的描述不正确的是: (C)
A. 粒度是指数据仓库小数据单元的详细程度和级别;
B. 数据越详细,粒度就越小,级别也就越高;
C. 数据综合度越高,粒度也就越大,级别也就越高;
D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.
31. 有关数据仓库的开发特色,不正确的描述是: (A)
A. 数据仓库开发要从数据出发;
B. 数据仓库使用的需求在开发出去就要明确;
C. 数据仓库的开发是一个不断循环的过程,是启发式的开发;
D. 在数据仓库环境中,并不存在操做型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式
32. 在有关数据仓库测试,下列说法不正确的是: (D)
A. 在完成数据仓库的实施过程当中,须要对数据仓库进行各类测试.测试工做中要包括单元测试和系统测试.
B. 当数据仓库的每一个单独组件完成后,就须要对他们进行单元测试.
C. 系统的集成测试须要对数据仓库的全部组件进行大量的功能测试和回归测试.
D. 在测试以前不必制定详细的测试计划.
B. 对用户的快速响应;
A. OLAP主要是关于如何理解汇集的大量不一样的数据.它与OTAP应用程序不一样.
B. 与OLAP应用程序不一样,OLTP应用程序包含大量相对简单的事务.
C. OLAP的特色在于事务量大,但事务内容比较简单且重复率高.
D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP同样均来自底层的数据库系统,二者面对的用户是相同的.
36. OLAM技术通常简称为”数据联机分析挖掘”,下面说法正确的是: (D)
A. OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;
B. 因为OLAM的立方体和用于OLAP的立方体有本质的区别.
D. OLAM服务器经过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体做必定的操做.
A. OLAP事务量大,但事务内容比较简单且重复率高.
C. OLTP面对的是决策人员和高层管理人员.
D. OLTP以应用为核心,是应用驱动的.
38. 设X={1,2,3}是频繁项集,则可由X产生__(C)__个关联规则。
A、无向无环 B、有向无环 C、有向有环 D、无向有环
41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是: (C)
A、频繁项集 频繁闭项集 =最大频繁项集
B、频繁项集 = 频繁闭项集 最大频繁项集
C、频繁项集 频繁闭项集 最大频繁项集
D、频繁项集 = 频繁闭项集 = 最大频繁项集
42. 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程获得4-项集不包含(C)
44. 在图集合中发现一组公共子结构,这样的任务称为 ( B )
A、频繁子集挖掘 B、频繁子图挖掘 C、频繁数据项挖掘 D、频繁模式挖掘
45. 下列度量不具备反演性的是 (D)
A、 系数 B、概率 C、Cohen度量 D、兴趣因子
46. 下列__(A)__不是将主观信息加入到模式发现任务中的方法。
A、与同一时期其余数据对比
47. 下面购物篮可以提取的3-项集的最大数量是多少(C)
6 牛奶,尿布,面包,黄油
9 牛奶,尿布,面包,黄油
51. 不纯性度量中Gini计算公式为(其中c是类的个数) (A)
53. 如下哪项关于决策树的说法是错误的 (C)
A. 冗余属性不会对决策树的准确率形成不利的影响
B. 子树可能在决策树中重复屡次 
C. 决策树算法对于噪声的干扰很是敏感 
D. 寻找最佳决策树是NP彻底问题
54. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B)
D. 基于规格的排序方案。 
55. 如下哪些算法是基于规则的分类器 (A)
56. 如下关于人工神经网络(ANN)的描述错误的有 (A)
A,神经网络对训练数据中的噪声很是鲁棒 B,能够处理冗余特征  C,训练ANN是一个很耗时的过程  D,至少含有一个隐藏层的多层神经网络
57. 经过汇集多个分类器的预测来提升分类准确率的技术称为 (A)
58. 简单地将数据对象集划分红不重叠的子集,使得每一个数据对象恰在一个子集中,这种聚类类型称做( B )算法

(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示

(2)算法的效率、可扩展性和并行处理

(3)统计学、数据库技术和机器学习

(5)一些与数据的通常行为或模型不一致的孤立数据

  1. 数据清理、数据集成、数据变换、数据规约
  2. 分箱、聚类、计算机和人工检查结合、回归
  3. 整合不一样数据源中的元数据,实体识别问题
  4. 线性回归方法,多元回归,对数线性模型
  5. 五数归纳、中间四分位数区间、标准差

(1)模式分层,集合分组分层,操做导出的分层,基于规则的分层

(2)简单性、肯定性、实用性、新颖性

(3)最小置信度临界值、最小支持度临界值

(3)包含项集的事务数

(4)找出全部频繁项集、由频繁项集产生强关联规则

(5)布尔关联规则、量化关联规则

(6)频繁项集的全部非空子集也必须是频繁的

(7)量化属性的静态离散化、量化关联规则、基于距离的关联规则

(8)反单调的、单调的、简洁的、可转变的、不可转变的

(1)准确性、有效性和可伸缩性

(1)划分方法、层次的方法、基于密度的方法

(3)高类内类似度、低类间类似度

(4)数据矩阵、相异度矩阵

(6)度量或执行错误、数据变异的结果

(7)数据分布、分布参数、预期的孤立点数

  1. 何谓数据挖掘?它有哪些方面的功能?

从大量的、不彻底的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。

数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及误差分析等。

  1. 何谓数据仓库?为何要创建数据仓库?

数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不一样时间)的数据集合,为企业决策支持系统提供所需的集成信息。

创建数据仓库的目的有3个:

一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。

二是解决决策分析对数据的特殊需求问题。决策分析须要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。

三是解决决策分析对数据的特殊操做要求。决策分析是面向专业用户而非通常业务员,须要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。

  1. 何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?

粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有:

  • 何谓聚类?它与分类有什么异同?

聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具备较高的类似度,而不一样簇中的对象差异较大。

聚类与分类不一样,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。

  1. 分类知识的发现方法主要有哪些?分类过程一般包括哪两个步骤?

分类规则的挖掘方法一般有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。分类的过程包括2步:首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;而后根据规则对新数据进行分类。

  1. 什么是决策树?如何用决策树进行分类?

决策树是用样本的属性做为结点,用属性的取值做为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和概括而产生的。决策树的根结点是全部样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。

决策树用于对新样本的分类,即经过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中很是有效的分类方法。

  1. 简述ID3算法的基本思想及其主算法的基本步骤。

首先找出最有判别力的因素,而后把数据分红多个子集,每一个子集又选择最有判别力的因素进一步划分,一直进行到全部子集仅包含同一类型的数据为止。最后获得一棵决策树,能够用它来对新的样例进行分类。

①从训练集中随机选择一个既含正例又含反例的子集(称为窗口)

②用“建树算法”对当前窗口造成一棵决策树;

③对训练集(窗口除外)中例子用所得决策树进行类别断定,找出错判的例子;

④若存在错判的例子,把它们插入窗口,重复步骤②,不然结束。

  1. 噪声数据的产生缘由有哪些?

(1)数据采集设备有问题

(2)在数据录入过程当中发生了人为或计算机错误

(3)数据传输过程当中发生错误

(4)因为命名规则或数据代码不一样而引发的不一致。

  1. 遗传算法与传统寻优算法相比有什么特色?
    • 遗传算法为群体搜索,有利于寻找到全局最优解;
    • 遗传算法采用高效有方向的随机搜索,搜索效率高;
    • 遗传算法处理的对象是个体而不是参变量,具备普遍的应用领域;
    • 遗传算法使用适应值信息评估个体,不须要导数或其余辅助信息,运算速度快,适应性好;
    • 遗传算法具备隐含并行性,具备更高的运行效率。
  2. 请解释一下在数据挖掘关联规则中什么是支持度和可信度,以及关联规则。

支持度:规则AB的支持度指的是全部事件中AB同地发生的的几率,即P(AB),是AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。

可信度:规则AB的可信度指的是包含A项集的同时也包含B项集的条件几率P(B|A),是AB同时发生的次数与A发生的全部次数之比。可信度是对关联规则的准确度的衡量。

关联规则:同时知足最小支持度阈值和最小可信度阈值的规则称之为关联规则。

(a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度为3。

(b) 该数据的均值是多少,中位数是多少?

答:(a)已知数据元组中 age  的值以下(按递增序):

且箱的深度为 3,划分为(等频)箱:

(b)  计算两个对象之间的曼哈顿距离 ;

(c)  计算两个对象之间的切比雪夫距离 ;

(d)  计算两个对象之间的闵可夫斯基距离,用 x=3。

答:(a)  计算两个对象之间的欧几里得距离:

(b)  计算两个对象之间的曼哈顿距离:

  1. 计算两个对象之间的闵可夫斯基距离,其中参数 r=3:

用 Apriori 算法找出全部频繁项集,列出全部关联规则。

4. 给定如下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,即k=2。在给出的数据集中随机选择的两个对象做为初始簇中心,分别是m1=2,m2=4,类似度按照欧式距离计算。求:

(1)第一次循环(迭代)结束时,划分所得的两个簇分别是多少?

(2)第一次循环(迭代)结束后,进行下一次循环(迭代)时簇心是多少?

最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3);

另外一个聚类m2=4为(4,10,12,15,21)。

(2)完成数据样本的划分以后,对于每个聚类,计算其中全部数据样本的均值,而且将其做为该聚类的新的表明点,由此获得k个均值表明点:m1=2.5,m2=12。

}

第一节 统计的产生和发展
二、统计学的产生和发展
第二节 统计学的研究对象和研究方法
第三节 统计学的基本概念
五、统计指标和统计指标体系
第一节 统计调查的基本理论
二、统计调查的基本任务
第二节 统计调查的种类和方法
三、统计调查方案的设计
第三节 统计调查的组织形式
第四节 二手统计资料的主要来源
一、数据整理的意义及内容
二、统计分组的概念和种类
三、总量指标的计量单位
第二节 总量指标的计算
三、总量指标的计算原则
第一节 相对指标的概念及作用
二、相对指标的意义和作用
三、相对指标的表现形式
第二节 相对指标的计算
四、计划完成程度相对指标
第三节 相对指标的应用
三、将相对指标与总量指标结合运用
四、多种相对指标结合运用
第一节 平均指标的基本理论
一、算术平均数的基本形式
二、算术平均数的计算方法
三、算术平均数的数学性质
第六节 平均指标的应用
一、各种平均指标的比较
二、运用平均指标应注意的问题
第一节 变异指标的基本理论
第二节 全距、分位差和平均差
第三节 方差、标准差和标准差系数
第四节 变异指标的应用
第一节 概率的基本概念
一、随机试验与随机事件
三、条件概率与事件独立
四、全概率公式与贝叶斯公式
第二节 随机变量及其分布
二、随机变量的概率分布
三、随机变量的数字特征
第三节 几种常用的概率分布
第九章 抽样分布与参数估计
第一节 抽样的基本概念
一、总体参数与样本统计量
二、样本容量与样本个数
三、重复抽样与不重复抽样
第三节 正态分布的再生定理和中心极限定理
一、正态分布的再生定理
第五节 样本容量的确定
一、估计总体均值时样本容量的确定
二、估计总体成数时样本容量的确定
一、假设检验的基本思想
第二节 单个总体均值的检验
第三节 单个总体成数的检验
第十一章 时间序列分析
一、时间序列的概念和种类
二、编制时间序列的原则
三、时间序列的构成因素和组合模型
第二节 时间序列的水平分析
第三节 时间序列的速度分析
三、平均发展速度和平均增长速度
第四节 长期趋势变动分析

统计学是认识客观数量规律的有力工具,随着社会的进步和知识的更新,统计学越来越多地应用到各个领域。社会越发展进步,统计学就越重要。田孟主编的《统计学基础》是为授予经济学或管理学学位的高等学校各专业统计课程而编写的,性质上属于社会经济统计学。全书分为三大部分:第一部分为传统的统计学基本理论与方法,包括第一章总论、第二章统计调查、第三章统计整理、第四章总量指标、第五章相对指标、第六章平均指标和第七章变异指标;第二部分为数理统计理论、方法及在社会经济统计中的应用,包括第八章概率基础、第九章抽样分布与参数估计、第十章假设检验;第三部分为社会经济统计理论与方法,包括第十一章时间序列分析、第十二章统计指数、第十三章统计预测。

}

在估计总体比例时所需样本量的计算公式为。当总体比例π未知时,就无法根据上述公式确定样本容量。(  )[2018年初级真题]

题王网让考试变得更简单

扫码关注题王,更多免费功能准备上线!

}

我要回帖

更多关于 如何根据量表条目计算样本量 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信