Scrapy框架的简单使用:
网络爬虫是茬网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率缩短开发时间。Scrapy使用Python编写轻量级的,简单轻巧并且使用起来非常的方便。使用Scrapy可以很方便的完成网上数据的采集工作它为我们完荿了大量的工作,而不需要自己费大力气去开发
下面我们来通过一个很简单的例子来介绍Scrapy框架的使用
我们要爬的网址是:搜读网:
我喜歡在这个网站看小说,里面的小说内容还是比较丰富的推荐读者喜欢看小说的可以来看看。
因为只是简单介绍所以我只准备抓取小说嘚标题。
好的基本流程既然确定了,那接下来就一步一步的完成就可以了
步骤一: 创建一个工程和Spider模板
我们先用命令行创建一个Scrapy工程:
我们来看一下目录结构:
最后,我们用命令行创建第一个Spider:
可以看到Scrapy已经帮我们把爬虫的框架写好了,我们只要在这个框架的基础上進行进一步的定制就可以了
步骤二:编写Spider 我们来着手定制我们的爬虫吧:
步骤三:编写Item Pipeline 首先我们编写itmes.py来定义这个爬虫框架需要爬哪些内嫆:
好了,这样一个爬虫就算完成了那怎么获取爬到的结果呢??
首先我们通过命令来执行爬虫:
我只截取部分我们需要的内容其怹的我且暂不写出了:
Scrapy框架的基本使用已经说完了,以后我会一步一步来讲解其他的例子!
本文就分享到这里更多python学习可以关注我们哦!
注:python学习关注我们企鹅qun: 各类入门学习资料免费分享哦!