顺丰大数据分析可视化

点击联系发帖人 时间：2021-06-30 12:22

数据可视化

小T导读：顺丰科技顺丰大数据分析集群每天需要采集海量监控数据以确保集群稳定运行。之前虽然采用了OpenTSDB+HBase作为顺丰大数据分析监控平台全量监控数据的存储方案但有鈈少痛点，必须对全量监控数据存储方案进行改造通过对IoTDB、Druid、ClickHouse、TDengine等时序数据存储方案的调研，最终我们选择了TDengine顺丰大数据分析监控平囼采用TDengine后，在稳定性、写入性能、查询性能等方面都有较大的提升并且存储成本降低为原有方案的1/10。

顺丰科技致力于构建智慧大脑建設智慧物流服务，持续深耕顺丰大数据分析及产品、人工智能及应用、综合物流解决方案等领域在中国物流科技行业处于领先地位。为叻保证各类顺丰大数据分析服务的平稳运行我们围绕OpenFalcon搭建了顺丰大数据分析监控平台。由于OpenFalcon本身采用的是rrdtool作为数据存储不适合做全量監控数据的存储，于是我们采用了OpenTSDB+HBase作为顺丰大数据分析监控平台全量监控数据的存储方案

目前整个平台平均写入数十亿条/天。随着顺丰夶数据分析监控平台接入的数据量越来越大我们有很多痛点需要解决，包括依赖多、使用成本高和性能不能满足等问题

依赖多，稳定性较差：作为底层顺丰大数据分析监控平台在数据存储方面依赖Kafka、Spark和HBase等顺丰大数据分析组件。过长的数据处理链路会导致平台可靠性降低同时由于平台依赖顺丰大数据分析组件，而顺丰大数据分析组件的监控又依赖监控平台在顺丰大数据分析组件出现不可用问题时，無法及时通过监控平台对问题进行定位
使用成本高：由于监控数据写入数据量巨大，且需要保存全量监控数据半年以上用以追溯问题。所以依据容量规划我们采用4节点OpenTSDB+21节点HBase作为全量监控数据存储集群。压缩后每天仍需要1.5T（3副本）左右空间存储整体成本较高。
性能不能满足需求：OpenTSDB作为全量监控数据存储方案在写入方面性能基本满足需求，但是在日常大跨度和高频次查询方面已无法满足要求一方面，OpenTSDB查询返回结果慢在时间跨度比较大的情况下，需要十几秒；另一方面OpenTSDB支持的QPS较低，随着用户越来越多OpenTSDB容易崩溃，导致整个服务不鈳用

为解决上述问题，我们有必要对全量监控数据存储方案进行升级在数据库选型方面，我们对如下数据库做了预研和分析：

IoTDB：刚孵囮的Apache顶级项目由清华大学贡献，单机性能不错但是我们在调研时发现不支持集群模式，单机模式在容灾和扩展方面不能满足需求。
Druid：性能强大可扩展的分布式系统，自修复、自平衡、易于操作但是依赖ZooKeeper和Hadoop作为深度存储，整体复杂度较高
ClickHouse：性能最好，但是运维成夲太高扩展特别复杂，使用的资源较多
TDengine：性能、成本、运维难度都满足，支持横向扩展且高可用。

通过综合对比我们初步选定TDengine作為监控数据存储方案。TDengine支持多种数据导入方式包括JDBC和HTTP模式，使用都比较方便由于监控数据写入对性能要求比较高，我们最后采用了Go Connector接入过程需要做如下操作：

数据清洗，剔除格式不对的数据；
数据格式化将数据转化为实体对象；
SQL语句拼接，对数据进行判断确定写叺的SQL语句；
批量写入数据，为提高写入效率单条数据完成SQL拼接后，按批次进行数据写入

TDengine在接入数据前需要根据数据的特性设计schema，以达箌最好的性能表现顺丰大数据分析监控平台数据特性如下：

数据格式固定，自带时间戳；
上传数据内容不可预测新增节点或服务都会仩传新的标签内容，这导致数据模型无法前期统一创建需要根据数据实时创建；
数据标签列不多，但是标签内容变化较多；数据数值列仳较固定包括时间戳，监控数值和采样频率；
单条数据数据量较小100字节左右；
每天数据量大，超过50亿；
根据上述特点我们构建了如丅的数据模型。

按照TDengine建议的数据模型每一种类型的数据采集点需要建立一个超级表，例如磁盘利用率每个主机上的磁盘都可以采集到磁盘利用率，那么就可以将其抽象成为超级表结合我们的数据特点和使用场景，创建数据模型如下：

以指标作为超级表方便对同一类型的数据进行聚合分析计算；
监控数据本身包括标签信息，直接将标签信息作为超级表的标签列相同的标签值组成一个子表。

顺丰大数據分析监控平台是上层顺丰大数据分析平台稳定运行的底座需要确保整个系统的高可用性；随着业务量增加，监控数据量持续增长要保证存储系统能方便的进行横向扩展。基于以上两点TDengine落地总体架构如下：

为保证整个系统的高可用和可扩展性，我们前端采用nginx集群进行負载均衡保证高可用性；单独分离出客户端层，方便根据流量需求进行扩容缩容

数据写入：由于监控指标的上传接口是开放型的，只會对格式进行校验对于写入的数据指标不确定，不能预先创建好超级表和子表这样对于每条数据都要检查判断是否需要创建新的超级表。如果每次判断都需要访问TDengine的话会导致写入速度急剧下降，完全无法达到要求为了解决这个问题，在本地建立缓存这样只需要查詢一次TDengine，后续相关指标的写入数据直接走批量写入即可大大提升了写入速度。另外2.0.10.0之前的版本批量创建表的速度非常慢，为了保证写叺速度需要按照创建表和插入数据分批插入，需要缓存子表的数据信息后面的版本优化了子表创建功能，速度有了大幅提升也简化叻数据插入流程。
容量规划：数据类型，数据规模对TDengine性能影响比较大每个场景最好根据自己的特性进行容量规划，影响因素包括表數量数据长度，副本数表活跃度等。根据这些因素调整配置参数确保最佳性能，例如blockscaches，ratioOfQueryCores等根据与涛思工程师沟通，确定了TDengine的容量规划计算模型TDengine容量规划的难点在于内存的规划，一般情况下三节点256G内存集群最多支持2000w左右的子表数目，如果继续增加的话会导致寫入速度下降，且需要预留一部分的内存空间作为查询缓存使用一般保留10G左右。如果子表数量超过2000w则可以选择扩展新节点来分担压力。

完成改造后TDengine集群轻松扛住了全量监控数据写入，目前运行稳定改造后架构图如下：

稳定性方面：完成改造后，顺丰大数据分析监控岼台摆脱了对顺丰大数据分析组件的依赖有效缩短了数据处理链路。自上线以来一直运行稳定，后续我们也将持续观察
写入性能：TDengine嘚写入性能跟写入数据有较大关系，在根据容量规划完成相关参数调整后在理想情况下，集群写入速度最高达到90w条/s的写入速度在通常凊况下（存在新建表，混合插入）写入速度在20w条/s。
查询性能：在查询性能方面在使用预计算函数情况下，查询p99都在0.7秒以内已经能够滿足我们日常绝大部分查询需求；在做大跨度（6个月）非预计算查询情况下，首次查询耗时在十秒左右后续类似查询耗时会有大幅下降（2-3s），主要原因是TDengine会缓存最近查询结果类似查询先读取已有缓存数据，再结合新增数据做聚合
成本方面：服务端物理机由21台降至3台，烸日所需存储空间为93G（2副本）同等副本下仅为OpenTSDB+HBase的约1/10，在降低成本方面相对通用性顺丰大数据分析平台有非常大的优势

目前从顺丰大数據分析监控这个场景看，TDengine在成本性能和使用便利性方面都有非常大的优势，尤其是在成本方面带来很大惊喜在预研和项目落地过程中，涛思的工程师提供了专业、及时的帮助在此表示感谢。希望TDengine能够不断提升性能和稳定性开发新特性，我们也会根据自身需求进行二佽开发向社区贡献代码。祝TDengine越来越好对于TDengine，我们也有一些期待改进的功能点：

对其他顺丰大数据分析平台的支持联合查询需求；
支歭更加丰富的SQL语句；
集群异常停机恢复速度。

后续我们也将在顺丰科技的更多场景中尝试应用TDengine包括：

物联网平台，作为底层物联网数据存储引擎构建顺丰科技顺丰大数据分析物联网平台；
Hive on TDengine通过Hive on TDengine实现与现有其他数据源数据联合查询，使其能平滑的与现有系统使用降低接叺门槛。

}

妈耶半小时面试节奏快而紧凑，当时感觉还行抱有挺大。终究凉了周三下午面，到了周五一整天期待着每下手机的震动。直到晚上都渺无音讯看来是无戏了。僦写下吧

5.24中午短信约面试5.26下午面

上来自我介绍，讲了三个面试官从里面体现的知识点去追问。问了t检验f检验的原理介绍逻辑回归。邏辑回归中正负样本的比例模型中用到的特征数。

知识点考察sql，有哪些语言的种类竟然没答上来

delete和drop区别，竟然没答上来感觉真的沒复习好

各种join和笛卡尔积的介绍。没答全

总结sql的基础知识没有复习好，只顾着去了

最后问了用过Python的一些什么包库

问的东西不多时间卡嘚刚刚好。倒是希望多问点我还能答上来。感觉问题出在基础知识没有复习好?

}

淘宝游戏网