求助，关于等级和BOSS绿色账户积分采集的具体数据采集

点击联系发帖人 时间：2016-12-21 01:33

八爪鱼采集器免积分

【图文】第7章数据采集系统_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
评价文档：
第7章数据采集系统
上传于||暂无简介
大小：347.50KB
登录百度文库，专享文档复制特权，财富值每天免费拿！
你可能喜欢【图文】积分系统开发总结.潘洪亮_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
评价文档：
积分系统开发总结.潘洪亮
上传于||文档简介
&&1. 积分系统介绍

. 架构设计

设计机制：队列解耦机制、热点分离机制、预计算原则、多级缓存、以空间换时间、以时间换空间、分区机制、插件机制、异步处理、对象池、批量存储、单例不简单

数据库设计、采集代理设计、云接口设计



. 开发

java代码生成工具、零配置的服务框架、新技术跟进、表达式引擎、横表纵表经验总结、自动分区、自身监控、内存溢出案例



.工具

总有一款适合你,但是你还不知道的常用工具
大小：19.48MB
登录百度文库，专享文档复制特权，财富值每天免费拿！
你可能喜欢1349人阅读
版权说明：内容来自互联网及书籍
一、数据采集方法
1.数据来源
一手数据：数据的直接来源。
二手数据：数据的间接来源。内部来源：比如财务报表，包括会计计算，成本资料等。外部来源：比如各类统计年鉴等，调查机构发布的数据等。
2. 抽样方法
按照样本抽取方式不同分为：有放回抽样，无放回抽样
2.非概率抽样
3. 概率抽样方法分类
概率抽样主要分为
简单随机抽样，系统抽样，&分类抽样，
整群抽样，多阶段抽样... 现实生活中绝大多数抽样调查都采用概率抽样方法来抽取样本。
4.简单随机抽样的样本量
二、市场调研
市场调研：对营销决策相关的数据进行计划、收集和分析，并把分析结果向管理者沟通的过程。
1. 市场调研的过程
1. 不同的营销调研目标（识别问题、需要什么信息）
2. 生成调研设计（描述性研究、还是因果性研究）
3. 选择调研方法（调查法、实验法、观察法）
4. 选择抽样方法&
5. 收集数据
6. 分析数据
7. 撰写并提交报告
2. 调查问卷
1.问卷分类
（1）结构型问卷：封闭式问卷、开放式问卷、半封闭式问卷
（2）非结构型问卷：事先不准备表格、提问方式和标准化的备选答案，只是按照调查放向和询问内容，和被调查者自由交谈的问卷。
2. 封闭式和开放式问卷
3. 问卷设计原则
目的性原则
顺序性原则
简明性原则
匹配性原则
可接受原则
4. 问题的类型
5. 问卷编码
各色各样的问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型，他们的变量的定义和处理的方法各有不同，我们详细举例介绍如下：
1&单选题：答案只能有一个选项
&&　例一当前贵组织机构是否设有面向组织的职业生涯规划系统？&
　　A有&&&B 正在开创&&&C没有&&&D曾经有过但已中断
编码：只定义一个变量，Value&#、3、4分别代表A、B、C、D&四个选项。
录入：录入选项对应值，如选C则录入3
2&多选题：答案可以有多个选项，其中又有项数不定多选和项数定多选。
&&（1）方法一（二分法）：
&&　例二贵处的职业生涯规划系统工作涵盖哪些组群？画钩时请把所有提示考虑在内。
　　A月薪员工&&&&&&&B日薪员工&&&&&C钟点工
编码：把每一个相应选项定义为一个变量，每一个变量Value值均如下定义：“0”&未选，“1”&选。
录入：被调查者选了的选项录入1、没选录入0，如选择被调查者选AC，则三个变量分别录入为1、0、1。
　（2）方法二：
&&　例三你认为开展保持党员先进性教育活动的最重要的目标是那三项：
　　1（&&&）&&&2 （）&&&3（&&&）
　　A、提高党员素质&&
　　A、提高党员素质&&&B、加强基层组织 C、坚持发扬民主
　　D、激发创业热情 E、服务人民群众&&&F、促进各项工作
　　D、激发创业热情 E、服务人民群众&&&F、促进各项工作
编码：定义三个变量分别代表题目中的1、2、3三个括号，三个变量Value值均同样的以对应的选项定义，即：“1” A，“2” B，“3” C，“4” D，“5” E，“6” F
录入：录入的数&#、3、4、5、6分别代表选项ABCDEF，相应录入到每个括号对应的变量下。如被调查者三个括号分别选ACF，则在三个变量下分别录入1、3、6。
［注：能用方法二编码的多选题也能用方法编码，但是项数不定的多选只能用二分法，即方法一是多选题一般处理方法。］
3&排序题：&对选项重要性进行排序
　　例四您购买商品时在&&&①品牌 ②流行 ③质量 ④实用 ⑤价格&&&中对它们的关注程度先后顺序是（请填代号重新排列）&
　　第一位&&&&第二位&&&&第三位&&&&第四位&&&&
　　第一位&&&&第二位&&&&第三位&&&&第四位&&&&第五位
&&&&&&&&&&&&&&&
编码：定义五个变量，分别可以代表第一位&第五位，每个变量的Value都做如下定义：“1”&品牌，“2”&流行，“3”&质量，“4”&实用，“5”&价格
录入：录入的数字1、2、3、4、5分别代表五个选项，如被调查者把质量排在第一位则在代表第一位的变量下输入“3“。
4&选择排序题：
　　例五把例三中的问题改为“你认为开展保持党员先进性教育活动的最重的目标是那三项，并按重要性从高到低排序”，选项不变。
编码：以ABCDEF6个选项分别对应定义6个变量，每个变量的Value都做同样的如下定义：“1”&未选，“2”&排第一，“3”&排第二，“4”&排第三。
录入：以变量的Value值录入。比如三个括号里分别选的是&& &ECF，则该题的6个变量的值应该分别录入：1（代表A选项未选）、1、&3（代表C选项排在第二）、1、2、4。
［注：该方法是对多选题和排序题的方法结合的一种方法，对一般排序题（例四）也同样适用，只是两者用的分析方法不同（例四用频数分析、例五用描述分析），输出结果从不同的侧面反映问题的重要性（前一种方法从位次从变量的频数看排序，后一种方法从变量出发看排序）。］
5&开放性数值题和量表题：这类题目要求被调查者自己填入数值，或者打分
例六你的年龄（实岁）：______
编码：一个变量，不定义Value值
录入：即录入被调查者实际填入的数值。
6开放性文字题：
　　如果可能的话可以按照含义相似的答案进行编码，转换成为封闭式选项进行分析。如果答案内容较为丰富、不容易归类的，应对这类问题直接做定性分析。
三、数据预处理方法
1. 数据预处理的基本步骤
（1）数据清洗 —— 去噪声和无关数据
（2）数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中
（3）数据变换 —— 把原始数据转换成为适合数据挖掘的形式
（4）数据规约 —— 主要方法包括：数据立方体聚集，维度归约，数据压缩，数值归约，离散化和概念分层等。
2. 数据清洗
BIN方法（分箱）：通过考察邻近值，来光滑有序数据的值
识别方法：
3.&数据集成
（1）、实体识别问题
数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并，存放那个在一个一致的数据存储中，如存放在数据仓库中。这些数据源可能包括多个、数据立方体或一般文件。
自数据集成时，有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”？这涉及实体识别问题。例如，数据分析者或者计算机如何才能确定一个数据库的customer_id与另一个数据库中的cust_number指的是相同的属性呢？每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围，以及处理空白、零或NULL值得空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用于变换数据(例如，pay_type的数据编码在一个数据库中可以是“H”和“S”，而在另一个数据库中是1和2)。因此，这一步也与前面介绍的有关。
在集成期间，当一个数据库的属性和另一个数据库的属性匹配时，必须特别注意数据的结构。这旨在确保源系统中的函数和参考约束与目标系统中的匹配。例如，在一个系统中，discount可以用于订单，而在另外一个系统中，它被用于订单内的商品。如果在集成之前未发现，则目标系统中的商品可能被不正确地打折。
（2）、冗余和相关分析
冗余是数据集成的另一个重要问题。一个属性(例如，年收入)如果能由另一个或另一组属性”导出”，则这个属性可能是冗余的。属性或维命名的不一致可能导致结果数据集中的冗余。
有些冗余可以被相关分析检测到。给定两个属性，这种分析可以根据可用的数据，度量一个属性能在多大程度上蕴涵另一个。对于标称数据，我们使用x^2（卡方）检测。对于数值属性，我们使用相关系数(correlation coefficient)和协方差(covariance)，他们都评估一个属性的值如何随另一个变化。
（3）、元组重复
除了检测属性间的冗余外，还应当在元组级检测重复。去规范表是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间，由于不正确的数据输入，或者由于更新了数据库的某些地方，但未更新所有的。
4. 数据变换
（1）数据的泛化和聚集
（2）数据标准化：最大最小规范 &z-score规范小数定标
min-max标准化(Min-max normalization)
　　也叫离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下：
其中max为样本数据的最大值，min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。
z-score&标准化(zero-mean normalization)
　　也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：
其中μ为所有样本数据的均值，σ为所有样本数据的标准差。
5. 数据消减
（1）维数消减：主成分分析，变量聚类分析
（2）离散化（连续）
（3）分类重组（离散）
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：47411次
排名：千里之外
原创：14篇
转载：19篇
评论：12条
(5)(1)(1)(2)(1)(1)(8)(1)(1)(2)(5)(4)(1)openstack（5）
云计算（5）
转载自：http://niusmallnan.github.io/_build/html/_templates/openstack/ceilometer_collect.html
ceilometer主要负责监控数据的采集，采集的项目包括虚拟机的性能数据，neutron-l3-router使用的网络带宽，glance&cinder&swift等租户使用信息，甚至是通过snmp采集物理机的信息，以及采集支持opendaylight的网络设备信息。
ceilometer 主要有下面几个概念:
meter 是ceilometer定义的监控项，诸如内存占用，网络IO，磁盘IO等等sample 是每个采集时间点上meter对应的值statistics 一般是统计学上某个周期内，meter对应的值(平均值之类)resource 是被监控的资源对象，这个可以是一台虚拟机，一台物理机或者一块云硬盘alarm 是ceilometer的告警机制，你可以通过阈值或者组合条件告警，并设置告警时触发的action
ceilometer的各个服务中，与采集相关的服务是ceilometer-collector、ceilometer-agent-central、ceilometer-agent-compute、ceilometer-agent-notification。我们可以通过下图了解一下他们之间的关系:
agent-*服务负责采集信息，采集的信息可以通过三种方式publish出来，包括RPC、UDP、File。RPC是将采集的信息以payload方式发布到消息队列，collector服务通过监听对应的queue来收集这些信息，并保存到存储介质中；UDP通过socket创建一个UDP数据通道，然后collector通过bind这个socket来接收数据，并保存到存储介质中；File方式比较直接，就是将采集的数据以filelog的方式写入log文件中。
至于使用哪种方式publish，那么就要看你的pipline文件是如何配置的了，具体可以查看/etc/ceilometer/pipline.yaml中的publishers配置。
agent-*三个采集组件分别负责采集不同类型的信息，agent-notification负责收集各个组件推送到oslo-messaging的消息，oslo-messaging是openstack整体的消息队列框架，所有组件的消息队列都使用这个组件；agent-compute只负责收集虚拟机的CPU内存IO等信息，所以他需要安装在Hypervisor机器上；agent-central是通过各个组件API方式收集有用的信息；agent-notification只需监听AMQP中的queue即可收到信息，而agent-compute和agent-central都需要定期Poll轮询收集信息。看下图来了解一下:
信息通过agent-*采集并由collector汇总处理，最终需要持久化到存储介质中，ceilometer目前支持的存储包括mysql、DB2、HBase、mongoDB，从支持的数据库来看，监控数据持久化的压力还是相当大的。
agent-*组件在启动时候，通过stevedore的插件机制来加载采集项，包括每个采集项对应的执行程序。stevedore的插件配置是利用了setuptools的entry_points，所以我们可以通过查看entry_points的配置信息，来确定有哪些采集项。如果你的程序打包完毕并发布到了python的搜索路径中，那么你需要查看ceilometer的egg文件来查看，或者你可以下载源码查看setup.cf文件，相关信息如下:
[entry_points]
ceilometer.notification =
instance = pute.notifications.instance:Instance
instance_flavor = pute.notifications.instance:InstanceFlavor
memory = pute.notifications.instance:Memory
disk.read.requests = pute.pollsters.disk:ReadRequestsPollster
cpu = pute.pollsters.cpu:CPUPollster
ceilometer.poll.central =
image = ceilometer.image.glance:ImagePollster
storage.containers.objects = ceilometer.objectstore.swift:ContainersObjectsPollster
ceilometer.notification 对应的是agent-notification组件，pute对应的是agent-compute组件，ceilometer.poll.central对应的是agent-central组件。
采集neutron l3 router 的bandwidth
与ceilometer其他采集方式不同的是，bandwidth的采集是通过neutron-meter-agent收集，然后push到oslo-messaging，ceilometer-agent-notification通过监听消息队列来收取bandwidth信息，可以看一些官方的wiki()。
按照wiki上的描述，设置好rule，ceilometer就可以收集bandwidth信息了，router上的流量计算是利用了iptables的特性，iptables本身可以用于做流量统计，这里不清楚的去Google一下即可。
比如我们使用neutron-meter 设定了这样一组规则:
$ neutron meter-label-rule-list
+--------------------------------------+----------+-----------+------------------+
| excluded | direction | remote_ip_prefix |
+--------------------------------------+----------+-----------+------------------+
| d2f-42a7-9a92-9f2a12e929ce | False
| 66.66.66.0/24
| e6ab-415a-ab96-90df211c027b | False
| 66.66.66.0/24
+--------------------------------------+----------+-----------+------------------+
那么对应此规则建立的iptables规则如下:
-A neutron-meter-r-d49bfb44-546 -d 66.66.66.0/24 -o qg-874a8e9b-4d -j neutron-meter-l-d49bfb44-546
-A neutron-meter-r-d49bfb44-546 -d 66.66.66.0/24 -i qg-874a8e9b-4d -j neutron-meter-l-d49bfb44-546
neutron-meter-agent 会在设定的间隔时间内去通过iptables统计流量，然后push到oslo-messaging:
$ ip netns exec qrouter-94cca346-ea17-48fe-94fd- iptables -t filter -L neutron-meter-l-d49bfb44-546 -n -v -x -Z
Chain neutron-meter-l-d49bfb44-546 (2 references)
bytes target
prot opt in
destination
采集hardware
ceilometer除了可以收集openstack组件的相关信息，也可以收集诸如kwapi、hardware、opendaylight信息。kwapi是采集物理机能耗信息的项目，agent-central组件通过kwapi暴露的api来收集物理机的能耗信息；agent-central也可以通过snmp协议直接收集hardware的CPU、MEM、IO等信息；opendaylight是SDN解决方案的开源项目，opendaylight规范中包括暴露一个API接口来提供SDN内部的一些信息，agent-central正是通过这个API可以收集opendaylight组件的信息。
如果我们想扩展这些监控信息，需要对ceilometer增加一些额外的配置，但是这些配置原理都是一样的，我们这里以采集hardware信息为例。
首先需要在被监控的hardw上开启SNMP协议，比如我们要监控一台物理机host为icehouse-ncloud-compute-a1，系统为ubuntu，先安装snmp和snmpd包，然后修改配置文件:
#开启监听端口和对应的ip
agentAddress udp:161,udp6:[::1]:161
#开启所有SNMP访问项
systemonly
重启snmp服务，在ceilometer的pipline.yaml文件中加入如下(以采集hardware.memory为例)，interval是poll的轮询间隔时间，可以按自家需求配置:
- name: hardware_memory_source
interval: 1800
- &hardware.memory.*&
resources:
- snmp://icehouse-ncloud-compute-a1
- meter_sink
通过 ceilometer meter-list | grep hardware ，可以看到新增的监控项，如果要查看监控数据可以这样:
$ ceilometer sample-list -m hardware.memory.total
+----------------------------+-----------------------+-------+-------------+------+---------------------+
| Resource ID
| Unit | Timestamp
+----------------------------+-----------------------+-------+-------------+------+---------------------+
| icehouse-ncloud-compute-a1 | hardware.memory.total | gauge |
| T03:07:40 |
| icehouse-ncloud-compute-a1 | hardware.memory.total | gauge |
| T02:37:40 |
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：24439次
积分：1059
积分：1059
排名：千里之外
原创：77篇
转载：15篇
(1)(4)(2)(3)(14)(51)(4)(1)(5)(1)(1)(3)(1)(2)求助，关于等级和BOSS积分的具体数据采集_传奇霸业吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0可签7级以上的吧50个
本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：138,156贴子：
求助，关于等级和BOSS积分的具体数据采集
目前采集了一半的数据了，我自己煞笔从149降到129忘记采集数据了水友们，道友们，大家帮帮忙啊！目前需要升级所需经验122-123124-125125-126126-127127-128128-129138-139143-144145-146146-147147-148148-149149-150降级获得BOSS积分150-149 149-148148-147147-146146-145145-144143-142138-137128-127127-126126-125125-124124-123122-121大家有数据的麻烦提供一下，采集完毕之后会在数据贴里面统一发布。
_盛世才、小胖在美女、度度雨. . . 被楼主禁言，将不能再进行回复
有图有真相！！！
iOS33区，这个应该相对...
试了好几次，boss都摸不...
用了一次免费复活，还是...
这个阵容打到E4斩杀阶...
刚从冒险级出来
三次了带基友打掉2/3血...
@点贊小王子 @徐州香皂 @仙之灵韵 @baby那些年
一个帮忙的都没有吗
141-142 124亿142-143 156亿143-144 180亿144-145 211亿148-149 407亿149-150 471亿
俺不懂，没玩到那个地步呢，看名字就知道啦
探宝搞上去，再降级
楼主，还没统计出来吗？
大家散了吧，撸主在水经验
楼主要水到18级啊
15级了还要水。。。不要太过分。。。
星座服求助，我工会就10个人，现在面对40个已经被霸服了，对面是三个会和在一起的。他们有第一法，第一道，我们只有第一战，我自己是第二法
大水牛……
137到138是88.8亿，138到139是90.6亿
楼主，想问你个问题，目前在超霸服，一法，目前13魂珠，27000攻击，霸业武器2，衣服4，内四7，多的都朋友在穿，然后今天降级到了124级，血量在51600，物防10300，魔防11250，内功104级，20700！宝石差8000到10，全吃了到11差10000不到！
贴吧热议榜
使用签名档&&
保存至快速回贴}

淘宝游戏网