能够整合数据整合工具的工具是啥

点击联系发帖人 时间：2015-10-24 06:09

大数据整合

拒绝访问 |
| 百度云加速
请打开cookies.
此网站 () 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(3b6a-ua98).
重新安装浏览器，或使用别的浏览器爬虫，即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。世界上已经成型的爬虫软件多达上百种，本文对较为知名及常见的开源爬虫软件进行梳理，按开发语言进行汇总。虽然搜索引擎也有爬虫，但本次我汇总的只是爬虫软件，而非大型、复杂的搜索引擎，因为很多兄弟只是想爬取数据，而非运营一个搜索引擎。Java爬虫1. ArachnidArachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。特点：微型爬虫框架，含有一个小型HTML解析器许可证：GPL2、crawlzillacrawlzilla 是一个帮你轻松建立搜索引擎的自由软件，有了它，你就不用依靠商业公司的搜索引擎，也不用再烦恼公司內部网站资料索引的问题。由 nutch 专案为核心，并整合更多相关套件，并卡发设计安装与管理UI，让使用者更方便上手。crawlzilla 除了爬取基本的 html 外，还能分析网页上的文件，如（ doc、pdf、ppt、ooo、rss ）等多种文件格式，让你的搜索引擎不只是网页搜索引擎，而是网站的完整资料索引库。拥有中文分词能力，让你的搜索更精准。crawlzilla的特色与目标，最主要就是提供使用者一个方便好用易安裝的搜索平台。授权协议： Apache License 2开发语言： Java JavaScript SHELL操作系统： Linux项目主页：下载地址：特点：安装简易，拥有中文分词功能3、Ex-CrawlerEx-Crawler 是一个网页爬虫，采用 Java 开发，该项目分成两部分，一个是守护进程，另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。授权协议： GPLv3开发语言： Java操作系统：跨平台特点：由守护进程执行，使用数据库存储网页信息4、HeritrixHeritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。Heritrix采用的是模块化的设计，各个模块由一个控制器类（CrawlController类）来协调，控制器是整体的核心。代码托管：授权协议： Apache开发语言： Java操作系统：跨平台特点：严格遵照robots文件的排除指示和META robots标签5、heyDrheyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架，遵循GNU GPL V3协议。用户可以通过heyDr构建自己的垂直资源爬虫，用于搭建垂直搜索引擎前期的数据准备。授权协议： GPLv3开发语言： Java操作系统：跨平台特点：轻量级开源多线程垂直检索爬虫框架6、ItSucksItSucks是一个java web spider（web机器人，爬虫）开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。特点：提供swing GUI操作界面7、jcrawljcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq.授权协议： Apache开发语言： Java操作系统：跨平台特点：轻量、性能优良，可以从网页抓取各种类型的文件8、JSpiderJSpider是一个用Java实现的WebSpider，JSpider的执行格式如下：jspider [URL] [ConfigName]URL一定要加上协议名称，如：http://，否则会报错。如果省掉ConfigName，则采用默认配置。JSpider 的行为是由配置文件具体配置的，比如采用什么插件，结果存储方式等等都在conf[ConfigName]目录下设置。JSpider默认的配置种类很少，用途也不大。但是JSpider非常容易扩展，可以利用它开发强大的网页抓取与数据分析工具。要做到这些，需要对JSpider的原理有深入的了解，然后根据自己的需求开发插件，撰写配置文件。授权协议： LGPL开发语言： Java操作系统：跨平台特点：功能强大，容易扩展9、Leopdo用JAVA编写的web 搜索和爬虫，包括全文和分类垂直搜索，以及分词系统授权协议： Apache开发语言： Java操作系统：跨平台特点：包括全文和分类垂直搜索，以及分词系统10、MetaSeeker是一套完整的网页内容抓取、格式化、数据集成、存储管理和搜索解决方案。网络爬虫有多种实现方法，如果按照部署在哪里分，可以分成：服务器侧：一般是一个多线程程序，同时下载多个目标HTML，可以用PHP， Java, Python(当前很流行）等做，可以速度做得很快，一般综合搜索引擎的爬虫这样做。但是，如果对方讨厌爬虫，很可能封掉你的IP，服务器IP又不容易改，另外耗用的带宽也是挺贵的。建议看一下Beautiful soap。客户端：一般实现定题爬虫，或者是聚焦爬虫，做综合搜索引擎不容易成功，而垂直搜诉或者比价服务或者推荐引擎，相对容易很多，这类爬虫不是什么页面都取的，而是只取你关系的页面，而且只取页面上关心的内容，例如提取黄页信息，商品价格信息，还有提取竞争对手广告信息的，搜一下Spyfu，很有趣。这类爬虫可以部署很多，而且可以很有侵略性，对方很难封锁。MetaSeeker中的网络爬虫就属于后者。MetaSeeker工具包利用Mozilla平台的能力，只要是Firefox看到的东西，它都能提取。MetaSeeker工具包是免费使用的，下载地址：特点：网页抓取、信息提取、数据抽取工具包，操作简单11、Playfishplayfish是一个采用java技术，综合应用多个开源java组件实现的网页抓取工具，通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具应用开源jar包包括httpclient(内容读取),dom4j（配置文件解析）,jericho（html解析），已经在 war包的lib下。这个项目目前还很不成熟，但是功能基本都完成了。要求使用者熟悉XML，熟悉正则表达式。目前通过这个工具可以抓取各类论坛，贴吧，以及各类CMS系统。像Discuz!,phpbb,论坛跟博客的文章，通过本工具都可以轻松抓取。抓取定义完全采用XML，适合Java开发人员使用。使用方法：下载右边的.war包导入到eclipse中，使用WebContent/sql下的wcc.sql文件建立一个范例数据库，修改src包下wcc.core的dbConfig.txt，将用户名与密码设置成你自己的mysql用户名密码。然后运行SystemCore,运行时候会在控制台，无参数会执行默认的example.xml的配置文件，带参数时候名称为配置文件名。系统自带了3个例子，分别为baidu.xml抓取百度知道，example.xml抓取我的javaeye的博客，bbs.xml抓取一个采用 discuz论坛的内容。授权协议： MIT开发语言： Java操作系统：跨平台特点：通过XML配置文件实现高度可定制性与可扩展性12、SpidermanSpiderman 是一个基于微内核+插件式架构的网络蜘蛛，它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。怎么使用？首先，确定好你的目标网站以及目标网页（即某一类你想要获取数据的网页，例如网易新闻的新闻页面）然后，打开目标页面，分析页面的HTML结构，得到你想要数据的XPath，具体XPath怎么获取请看下文。最后，在一个xml配置文件里填写好参数，运行Spiderman吧！授权协议： Apache开发语言： Java操作系统：跨平台特点：灵活、扩展性强，微内核+插件式架构，通过简单的配置就可以完成数据抓取，无需编写一句代码13、webmagicwebmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。webmagic包含强大的页面抽取功能，开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取，支持多个选择器链式调用。webmagic的使用文档：查看源代码：授权协议： Apache开发语言： Java操作系统：跨平台特点：功能覆盖整个爬虫生命周期，使用Xpath和正则表达式进行链接和内容的提取。备注：这是一款国产开源软件，由黄亿华贡献14、Web-HarvestWeb-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。其实现原理是，根据预先定义的配置文件用httpclient获取页面的全部内容（关于httpclient的内容，本博有些文章已介绍），然后运用XPath、XQuery、正则表达式等这些技术来实现对text/xml的内容筛选操作，选取精确的数据。前两年比较火的垂直搜索（比如：酷讯等）也是采用类似的原理实现的。Web-Harvest应用，关键就是理解和定义配置文件，其他的就是考虑怎么处理数据的Java代码。当然在爬虫开始前，也可以把Java变量填充到配置文件中，实现动态的配置。授权协议： BSD开发语言： Java特点：运用XSLT、XQuery、正则表达式等技术来实现对Text或XML的操作，具有可视化的界面15、WebSPHINXWebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成：爬虫工作平台和WebSPHINX类包。授权协议：Apache开发语言：Java特点：由两部分组成：爬虫工作平台和WebSPHINX类包16、YaCyYaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.授权协议： GPL开发语言： Java Perl操作系统：跨平台特点：基于P2P的分布式Web搜索引擎Python爬虫17、QuickReconQuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写，支持linux和 windows操作系统。授权协议： GPLv3开发语言： Python操作系统： Windows Linux特点：具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能18、PyRailgun这是一个非常简单易用的抓取工具。支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块授权协议： MIT开发语言： Python操作系统：跨平台 Windows Linux OS X特点：简洁、轻量、高效的网页抓取框架备注：此软件也是由国人开放github下载：19、ScrapyScrapy 是一套基于基于Twisted的异步处理框架，纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便～授权协议： BSD开发语言： Python操作系统：跨平台github源代码：特点：基于Twisted的异步处理框架，文档齐全C++爬虫20、hispiderHiSpider is a fast and high performance spider with high speed严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist).特征和用法:基于unix/linux系统的开发异步DNS解析URL排重支持HTTP 压缩编码传输 gzip/deflate字符集判断自动转换成UTF-8编码文档压缩存储支持多下载节点分布式下载支持网站定向下载(需要配置 hispiderd.ini whitelist )可通过 http://127.0.0.1:3721/ 查看下载情况统计,下载任务控制(可停止和恢复任务)依赖基本通信库libevbase 和 libsbase (安装的时候需要先安装这个两个库)、工作流程:从中心节点取URL(包括URL对应的任务号, IP和port,也可能需要自己解析)连接服务器发送请求等待数据头判断是否需要的数据(目前主要取text类型的数据)等待完成数据(有length头的直接等待说明长度的数据否则等待比较大的数字然后设置超时)数据完成或者超时, zlib压缩数据返回给中心服务器,数据可能包括自己解析DNS信息, 压缩后数据长度+压缩后数据, 如果出错就直接返回任务号以及相关信息中心服务器收到带有任务号的数据, 查看是否包括数据, 如果没有数据直接置任务号对应的状态为错误, 如果有数据提取数据种link 然后存储数据到文档文件.完成后返回一个新的任务.授权协议： BSD开发语言： C/C++操作系统： Linux特点：支持多机分布式下载, 支持网站定向下载21、larbinlarbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 S&bastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取５００万的网页。利用larbin，我们可以轻易的获取/确定单个网站的所有链接，甚至可以镜像一个网站；也可以用它建立url 列表群，例如针对所有的网页进行 url retrive后，进行xml的联结的获取。或者是 mp3，或者定制larbin，可以作为搜索引擎的信息的来源。授权协议： GPL开发语言： C/C++操作系统： Linux特点：高性能的爬虫软件，只负责抓取不负责解析22、MethabotMethabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。授权协议：未知开发语言： C/C++操作系统： Windows Linux特点：过速度优化、可抓取WEB、FTP及本地文件系统源代码：C#爬虫23、NWebCrawlerNWebCrawler是一款开源，C#开发网络爬虫程序。特性：可配置：线程数，等待时间，连接超时，允许MIME类型和优先级，下载文件夹。统计信息：URL数量，总下载文件，总下载字节数，CPU利用率和可用内存。Preferential crawler：用户可以设置优先级的MIME类型。Robust: 10+ URL normalization rules, crawler trap avoiding rules.授权协议： GPLv2开发语言： C#操作系统： Windows项目主页：特点：统计信息、执行过程可视化24、Sinawler国内第一个针对微博数据的爬虫程序！原名&新浪微博爬虫&。登录后，可以指定用户为起点，以该用户的关注人、粉丝为线索，延人脉关系搜集用户基本信息、微博数据、评论数据。该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持，但请勿用于商业用途。该应用基于.NET2.0框架，需SQL SERVER作为后台数据库，并提供了针对SQL Server的数据库脚本文件。另外，由于新浪微博API的限制，爬取的数据可能不够完整（如获取粉丝数量的限制、获取微博数量的限制等）本程序版权归作者所有。你可以免费: 拷贝、分发、呈现和表演当前作品,制作派生作品。你不可将当前作品用于商业目的。5.x版本已经发布！该版本共有6个后台工作线程：爬取用户基本信息的机器人、爬取用户关系的机器人、爬取用户标签的机器人、爬取微博内容的机器人、爬取微博评论的机器人，以及调节请求频率的机器人。更高的性能！最大限度挖掘爬虫潜力！以现在测试的结果看，已经能够满足自用。本程序的特点：6个后台工作线程，最大限度挖掘爬虫性能潜力！界面上提供参数设置，灵活方便抛弃app.config配置文件，自己实现配置信息的加密存储，保护数据库帐号信息自动调整请求频率，防止超限，也避免过慢，降低效率任意对爬虫控制，可随时暂停、继续、停止爬虫良好的授权协议： GPLv3开发语言： C# .NET操作系统： Windows25、spidernetspidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件.源码中TODO:标记描述了未完成功能, 希望提交你的代码.授权协议： MIT开发语言： C#操作系统： Windowsgithub源代码：/nsnail/spidernet特点：以递归树为模型的多线程web爬虫程序，支持以GBK (gb2312)和utf8编码的资源，使用sqlite存储数据26、Web Crawlermart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始，提供两种遍历模式：最大迭代和最大深度。可以设置过滤器限制爬回来的链接，默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularExpressionFilter，这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。介绍内容来自Open-Open开发语言： Java操作系统：跨平台授权协议： LGPL特点：多线程，支持抓取PDF/DOC/EXCEL等文档来源27、网络矿工网站数据采集软件网络矿工采集器（原soukey采摘）Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件，也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源，但并不会影响软件功能的提供，甚至要比一些商用软件的功能还要丰富。授权协议： BSD开发语言： C# .NET操作系统： Windows特点：功能丰富，毫不逊色于商业软件PHP爬虫28、OpenWebSpiderOpenWebSpider是一个开源多线程Web Spider（robot：机器人，crawler：爬虫)和包含许多有趣功能的搜索引擎。授权协议：未知开发语言： PHP操作系统：跨平台特点：开源多线程网络爬虫，有许多有趣的功能29、PhpPhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时，它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎，利用它打造针对某一领域的垂直搜索引擎是最好的选择。演示：授权协议： GPL开发语言： PHP操作系统：跨平台特点：具有采集网页内容、提交表单功能30、ThinkUpThinkUp 是一个可以采集推特，facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号中的数据，对其存档以及处理的交互分析工具，并将数据图形化以便更直观的查看。授权协议： GPL开发语言： PHP操作系统：跨平台github源码：特点：采集推特、脸谱等社交网络数据的社会媒体视角引擎，可进行交互分析并将结果以可视化形式展现31、微购微购社会化购物系统是一款基于ThinkPHP框架开发的开源的购物分享系统，同时它也是一套针对站长、开源的的淘宝客网站程序，它整合了淘宝、天猫、淘宝客等300多家商品数据采集接口，为广大的淘宝客站长提供傻瓜式淘客建站服务，会HTML就会做程序模板，免费开放下载，是广大淘客站长的首选。演示网址：授权协议： GPL开发语言： PHP操作系统：跨平台ErLang爬虫32、EbotEbot 是一个用 ErLang 语言开发的可伸缩的分布式网页爬虫，URLs 被保存在数据库中可通过 RESTful 的 HTTP 请求来查询。授权协议： GPLv3开发语言： ErLang操作系统：跨平台github源代码：/matteoredaelli/ebot项目主页： http://www.redaelli.org/matteo/blog/projects/ebot特点：可伸缩的分布式网页爬虫Ruby爬虫33、SpidrSpidr 是一个Ruby 的网页爬虫库，可以将整个网站、多个网站、某个链接完全抓取到本地。开发语言： Ruby授权协议：MIT特点：可将一个或多个网站、某个链接完全抓取到本地本文由36大数据收集整理，原文地址：/archives/34383
24小时报不停
特斯拉股价被指太荒唐或跌三分之二到100美元
今年世界互联网大会将于12月3日在浙江乌镇举行
第三季度被反超：华为出货量要超越苹果越来越难了？
谷歌董事长：不久后中国将在AI领域全面超越美国
头部移植有望？纪录片称苏联曾在1928年复活狗头
科技股引燃香港市场阅文集团会是下一个腾讯吗？
支付宝推出iPhone X碎屏险你会买吗
探秘C919大飞机“体能测试” 首飞练就“更强体格”
腾讯上线“吃鸡”官网页面将推神秘手游
刷单、炒信最高罚款200万网络水军将受严厉处罚
T-Mobile与Sprint合并谈判终止两公司继续独立发展
Facebook：至少12%帐号是虚假或重复帐号
女孩上课玩手机被叫家长母亲当众用钳子夹碎手机
美媒：中关村取代硅谷获评全球最大科技中心
苹果决心硬刚高通，iPhone可能会越来越贵？
时隔14年索尼的人工智能机器狗“aibo”回来了
QQ同步助手将用户生日信息弹窗给他人律师:侵犯隐私
特斯拉Model 3量产不顺，马斯克或需要筹集更多资金
曝趣店正转型做汽车金融项目，高薪招聘销售管理人员
踢出纸牌屋并停发电影，Netflix与斯派西切断联系
腾讯宣布与自然集团合作：发力基础科学投入资金资源
《人民的名义》被诉抄袭，编剧周梅森等遭索赔1800万
Airbnb成为温德姆酒店集团欧洲度假租赁业务的潜在买家
洋山港世界最大无人自动化码头即将开港
长城影视拟10.59亿元收购首映时代87.5%股权，进军大电影产业
为航天事业，亚马逊CEO贝索斯卖出10亿美元股份
互联网金融平台和信贷美股上市首日涨幅26.6%
iPhone X刚上市就出问题部分用户反映无法激活
小米翻身！三季度出货量曝光：坐稳前五
来电科技宣布实现盈亏平衡
苹果公司市值突破9000亿美元
和信贷登陆纳斯达克，开盘股价即上涨50%
易到完成股权变更
博通拟千亿美元收购高通：双通合并走得通吗？
马云：蚂蚁金服2年后或可考虑上市，尚未选择上市地点史上最全！最好用的大数据工具及使用方法
大数据的工具数以千计,它们无一不承诺省时省钱并且还能帮你挖掘从未被发现的商业价值。它们的承诺也许都是真的，但是真正实际使用的过程中可能会由于选项太多而不知所措。
哪个才是你真正所需要的呢？
哪个才是最适合你的项目？
为了帮你节省时间并且让你第一次使用就能挑选出正确的工具，我们搜集和整理了数据提取、数据存储、数据清洗、数据挖掘、数据可视化、数据分析和数据集成方面的我们最爱用的工具。
数据存储和管理
如果你打算从事大数据行业，那么你就应该考虑如何储存数据。大数据之所以称为大数据是因为数据规模巨大，大到难以使用传统的处理技术进行管理。好的数据存储提供者不仅应该能够存储和访问自己的数据，而且还应该提供一套可以运行你的所有其它分析工具的平台。
Hadoop现在几乎已经等同于大数据。它是存储在计算机集群中的超大数据集的一个开源的分布式的基础架构。你可以随意增大或减小你的数据量而不用担心硬件故障。Hadoop提供了对任何种类的海量数据的存储、强大的处理能力和几乎无限的并行工作能力。
Hadoop并不适合数据初学者。要想充分发挥Hadoop的能力，你需要了解Java。学习Java可能耗时，但是Hadoop绝对值得你付出，因为大量的公司和技术都依赖于它甚至和它融为了一体。
Cloudera是围绕Hadoop开发产品和提供服务的一家公司。它们能帮助你的公司建立一个企业数据中心来方便你的公司成员更好的使用所存储的数据。
虽然Cloudera有开源的部分，但是它主要是企业解决方案，可以帮助企业管理它们自己的Hadoop生态系统。Cloudera帮助企业做了许多Hadoop的管理工作。当你存储了一些敏感或者个人数据，它还能给你提供一定程度的数据安全，这点也相当重要。
MongoDB是一个现代、较新的数据库使用方法。把它们作为关系型数据库的替代方案。它擅长处理动态变化的数据或者非结构化数据、半结构化数据。
通常的使用情况包括有移动应用程序的数据的存储，产品目录，实时个性化，内容管理以及多应用程序跨平台显示同一视图。再次强调，MongoDB不适合初学者使用。对于任何数据库来说，你都需要知道如何使用编程语言来访问。
Talend是另外一家很好的提供众多数据产品的开源公司。这里我们主要关注的是该公司提供的主数据管理（MDM），它结合了实时数据，应用程序数据处理以及数据质量管理。
由于Talend的开源和免费的特点，使得它成为了一个不管你的公司处于哪个阶段都很不错的选择，并使你避免了建立自己的数据管理系统的庞大复杂且困难的工作。
如果你刚进入大数据这个行业，不建议你从数据库先开始。不像随后提到的诸多工具一样，它相对复杂并且需要一定程度的编程知识。
然而，如果你真的想要从事或使用大数据工作，了解一些基础的数据库知识并且能够正确理解它们也是必须的。其中General Assembly Class是你开始学习的好地方，这里你将会充分理解和回顾大数据的相关知识，包括数据库和存储技术的历史，关系型数据库和非关系型数据库之间的区别，大数据带来的挑战以及必备的大数据工具，其中也有对Hadoop的相关介绍。
在你进行数据挖掘之前，应该先对你的数据进行清洗。即便是一些情况下很难获得干净的数据，但是我们仍然要尽量建立一个干净的，结构良好的数据集。数据集的来源各式各样，一些是好的，一些很一般，尤其是从网上获取的时候。下面的公司将会帮你将数据改进或改造成可以使用的数据集。
OpenRefine
OpenRefine（之前的GoogleRefine）现在是一款用来专门清洗混乱数据的开源工具。从而使你能够轻松和快速的探索有一定程度非结构化的大数据集。
随着数据软件的不断发展，虽然OpenRefine的界面相当友好，但熟悉数据清洗规则的知识还是相当有帮助的。此外OpenRefine本身有着一个相当大的社区，其中有很多使用后分享的人，这也使得这个软件会变得更好。当你遇到难题是，你可以到社区中去提问，大家会很有耐心的对你进行帮助。你还可以在Github里找到OpenRefine的维基百科。
入门：在OpenRefine的主页上你可以看到相关教程和关于它的指导书。
DataCleaner
Datacleaner明白数据操作是一项耗时和费力的工作。数据可视化工具只能够识别规范的干净的格式化数据集。Datacleaner可以将杂乱的半结构化的数据转化为干净可读的数据集，经过清洗后的数据就可以被任何可视化公司的工具读取。
DataCleaner也提供了数据仓库和数据管理服务。该公司提供了30天的免费试用版，之后就要按月交付订阅费用。你可以在这查到更详细的计费方案。
入门：DataCleaner提供了十分详尽的使用文档和教程，同时也提供现场或者网络培训。
与下文提到的数据提取不同的是，数据挖掘是从数据库中发现商业价值，而数据提取是从网页中提取数据到数据库中。数据挖掘的目的是基于现有的数据做出预测和决定。
RapidMiner
RapidMiner是一款相当出色的预测性分析工具，它的用户包括了PayPal、Deloitte、eBay和Cisco等商业巨擘。RapidMiner功能强大，易于操作，并且有一个相当大的开源社区。你也可以通过RapidMiner的API接口将自己的专业算法集成上去。
RapidMiner的图形交互界面（使人想起了Yahoo! Pipes）可以使你不需要知道如何编程也不需要拥有博士学位就能操作它们的四个分析产品。
入门：你可以使用帮助文档、论坛以及社区学习RapidMiner
IBM SPSS Modeler
IBM SPSS Modeler提供了一整套专门用于数据挖掘的解决方案，它包括了文本分析，实体分析，决策管理和最优化，它们的这五个产品包含了其先进的算法和技术。
SPSS Modeler是适用于大公司繁重任务的解决方案，它几乎可以在任何数据库上运行，并且可以集成到其它的诸如SPSS C&DS服务以及SPSS分析服务等IBM的产品中去。
入门：对于IBM来说，帮助文档是你的不二之选。
Oracle data mining
数据挖掘领域的另一巨头就是Oracle。作为Oracle先进的数据库分析的一部分，Oracle数据挖掘使它的用户能发现潜在价值、预测分析和利用Oracle数据。你可以建立模型发现消费者行为，最佳目标客户和发展概况。
数据分析师，商业分析师和数据科学家可以使用Oracle数据挖掘的图形用户界面，并且通过简单的拖放来使用数据库中的数据解决问题。它还可以为整个企业创建SQL和PL/SQL数据库脚本来实现自动化、调度和部署整个企业。
Teradata明白虽然大数据很好，但是如果你不知道如何分析和利用，它就一文不值。当你有大量的数据却不知道该如何访问和使用时，你可以使用Teradata。Teradata提供了全面的数据仓库、大数据分析和市场整合营销服务。Teradata可以使你的企业成为一个数据驱动型的企业。
Teradata提供了一整套的包括实施，商业咨询以及培训和后期支持的服务。
FramedData
通过特定的数据挖掘后，有大量的创业公司专门使用数据来帮助企业解决棘手的问题。如果你担心的是用户流失，我们建议你使用FramedData，分析后会告诉你哪些用户将会不再使用你的产品。
这是一个完全托管的解决方案，这意味着你不需要做任何事情，只需要坐等预测洞见即可。
如果你困在一个数据挖掘的问题上，或者要解决世界上最难的问题，不妨使用Kaggle。Kaggle是世界上最大的数据科学社区。公司和研究者会在这里发布他们的数据，然后会有来自世界各地的统计学家和数据挖掘者对此提出最好的模型。
数据挖掘是从你的数据中搜寻隐藏的原理和模式，而数据分析是划分数据后来使用先前的模式或原理进行分析或评定。数据分析是从数据中寻找特定问题的答案。你甚至也可以问将来会发生什么这样的问题。
Qubole极大程度的简化、加快和缩减了处理存储在AWS、谷歌或者Azure云中的大数据分析的工作量。他们解决了基础设施冲突的问题，一旦互联网的政策到位，任何数量的数据分析都可以在Hive，spark、Presto等日益增多的数据处理引擎的协助下实现一键访问。
Qubole是一个企业级别的解决方案，它们在这个页面提供了注册的试用版。它的灵活性使得它脱颖而出，成为一款相当值得使用的软件平台。
入门：可以在Qubole的资源页学到更多的知识。
BIgML是尝试简化机器学习，它们提供了大量强劲的机器学习服务，并且该服务可以通过简单易用的界面导入数据，并且得到预测结果。你也可以使用它们的模型来今夕预测性分析。
如果你想从BigML中获得更多的信息，那么对建模的深刻理解不仅是有帮助的，更是必须的。BigML提供一个免费版和付费版，免费版允许用户创建一个16MB以下的任务，付费版使用虚拟私有云来满足企业级别的需求。
Statwing将数据分析提高到了一个新台阶，它提供从漂亮的可视化到复杂的分析中的任何事情。NFL上的Statwing的博客相当酷。操作十分简单，你可以在5分钟之内学会。
虽然Statwing并不免费，但是它的价格方案还是很厚道的。基础版是50美金/每月，并且你可以在任何时候终止，并且允许你使用的单个数据集的大小上升到 50MB。另外企业级别的方案还允许你使用更大的数据集。
数据可视化
数据可视化公司可以使你的数据更加生动。对数据科学家来说的一个重大挑战是挖掘比其它公司更加独特的商业价值，而对你的大部分的同事来说，还会继续使用MySQL数据库和表单。可视化是一个表达复杂的数据洞见的清晰而又简单的方法。最重要的是它并不需要任何的编程能力。
Tableau是一款主要考虑商业智能的数据可视化工具。你无需掌握编程就能够创建地图，柱状图，散点图以及更多其它图表。最近它们开放了一个网页接口允许你连接到一个数据库，或者通过API接口对实时数据进行可视化。
Tableau根据需要的支持和功能的程度提供了五款产品。如果你是数据可视化领域的新手，我们建议你使用Tableau公共版，该版本是免费的。通过对这个版本的工具的探索你可以明白你到底需要付钱购买哪一款。
Silk是一款相对Tableau 更加简单的数据可视化和分析工具。你可以通过简单的点击几下鼠标就建立一个交互式的图表来使你的数据更加生动。Silk也支持多人可视化协作。
像我们提到的许多可视化公司一样，使用Silk不需要你是一个专业程序员。如果你是一个数据可视化的新手，它们的最近特征产品自动化的完成数据可视化的功能就很实用。
CartoDB是一款专注于绘制地图的数据可视化工具，它使得任何人进行位置信息数据可视化的过程更加简便，并且不用任何的编程。CartoDB能够管理大量的数据文件和数据类型，它们还提供示例数据集，方便你还没上手时进行尝试。
如果你有位置数据，CartoDB绝对是值得尝试，它也许不是最简单的使用系统，但一旦上手，可以看出它的相当强劲，CartoDB提供的企业版支持项目协作和权限控制。
Chartio使你通过浏览器来访问数据源并执行查询，在这里你可以很简单的创建图表。Chartio的访问语言使得任何人都可以在不了解SQL和其它复杂模型语言的情况下从任何地方抓取数据，你还可以将图表导出为PDF或者通过邮件将图表以PDF格式发送给任何人。
Chartio的另一个优点是它通常不需要数据仓库，所以你就可以快速启动和运行它，并且它的基础设备的费用也会很低和可预测。
如果你想绘一幅图，是你应该看看Plot.ly。你能通过这个易上手的平台绘制出漂亮的2D和3D图表。重申一下，你真的不需要任何编程知识。
Plot.ly免费版可以创建一个私人图表和无限制的公共图表，企业版的可以绘制无限制的私人和公共图表，并且提供矢量导出和保存为自定义主题。
Datawrapper
我们最后要介绍的可视化工具是Datawrapper，它是开源的，分分钟可以让你创建一幅嵌入式图表。由于它开源的特点，大家都在不断对它进行改进，你可以在它们的图表展览馆的页面看到其它人使用Datawrapper绘制的图表。
和本部分介绍的许多其它的公司一样，它们也提供免费版和预设后定制的付费版。
数据集成平台是各个项目之间的粘合剂。如果你想使用Import.io接入你从Twitter中提取出的信息，或者你想要分享你使用Tableau或者Silk生成的可视化图表，那么下面的这些工具你可以派上用场。
Blockspring
Blockspring的独特之处在于它融合了诸如相同平台下的IFTTT和Zapier，以及Excel和GoogleSheets等服务。你可以通过简单的编写几个谷歌表单公式来连接到大量的第三方应用程序中，举例来说你可以通过表单发布微博，看看你粉丝的粉丝是谁，你也可以连接到AWS，Import.io和Tableau等等
Blockspring可以免费试用，但是它们也提供企业版，企业版可以分享私有函数，添加便于搜索和查找的自定义标签并且为你的组织的员工设置API接口访问令牌。
Pentaho提供不需要任何编程的大数据集成服务。通过简单的拖曳界面，你就能够集成许多工具，它们也提供嵌入式分析和商业分析服务。
.Pentaho是一个企业级别的解决方案，你可以使用它的数据集成产品的免费版，其它版本则需要付费使用。
在你的数据生涯中学会单一工具很难一招鲜吃遍天。现在的工具虽然使用起来越来越简便，功能也越来越强大，但是有的时候还是自己编程更好一些。即使你不是一个专业程序员，理解这些语言的基本工作原理对诸多的工具的运行和使用方法的理解也是大有裨益。
R语言是用来进行统计分析和绘图的一种语言。如果上述的数据挖掘和统计软件无法满足你的需求的话，那么R语言一定会有所帮助。实际上如果你要成为一个数据科学家，了解R语言是一项必备技能。
R语言可以在Linux、Windows和MacOs上运行，可以在该页面进行下载。R语言方兴未艾，它的社区也相当大，其中更是不乏统计学家。
入门：下载后，可以查看帮助文档
数据领域里最近兴起的另一种语言当属Python。持续进入最受欢迎的编程语言排名前十的Python是20世纪80年代开发出来，它是以一个名为Monty Python的喜剧团体命名的。
人们喜欢Python，是因为它和英语很像，它使用一些诸如‘if’和‘in’这样的单词，这就使得Python具有很高的可读性。Python还为不同的使用情景提供了大量的库。
RegEx 即为正则表达式，它是对数据进行操作或改变的单个字符串。正则表达式通常被用来进行模式匹配或者字符串匹配，在Import.io中你可以在数据提取的过程中使用正则表达式来删除或保留特定的字符串。
正则表达式是一种十分有用的工具，它可以在你提取数据的时候帮助你准确获得你想要的数据，而不需要依赖像上面提到的那些公司。
入门：RegEx 在线上可以找到很多不错的教程。
Xpath是一种用来在XML文档中查找特定节点的路径语言。正则表达式是对数据进行操作，而XPath则是为正则表达式提取原始数据。
XPath大部分情况是被用在数据提取中。在Imort.io中你每点一次数据的一部分，它就会为你自动创建XPath。简单来说，XPath就是一个到一个网页超文本语言特定位置的路径。
入门：最好的XPath教程尽在w3schools。
在你进行数据存储、分析和可视化之前，你应该已经收集到了一些数据。数据提取用来获取一些像网页一样的非结构化数据，并且把它转化为结构化表格。一旦你将数据结构化了，你就可以使用我们提到的工具应用各种方法对它进行处理，并从中发现商业价值。
Import.io是数据提取领域的领头羊，它的用户界面十分的简洁，我们可以轻松的将一个网页转化为一个便于你进行分析和可视化以及做出数据驱动决策的表单。
Import.io在免费的同时，还是数据供应商，它为每个客户量身定制数据集，并且这个数据能够定时更新来保证你的公司能够及时获取最新的数据。
可以访问Import.io的知识仓库来学习如何使用工具，或者联系我们的数据专家来为你的企业或公司定制数据。
责任编辑：
声明：本文由入驻搜狐号的作者撰写，除搜狐官方账号外，观点仅代表作者本人，不代表搜狐立场。
电子人物联网
电子人生活物联网
今日搜狐热点}

淘宝游戏网