首先声明:爬虫不是Python的专利!!!
之所以把这句话放在前面,是因为有太多小白觉得爬虫只能用Python。如果以这样的迷糊状态开启编程之路,就显得有点稀里糊涂了。
Python能在爬虫领域得到广泛利用,主要是它写起来简单,又拥有庞大的类库。有现成的爬虫框架,比如,scrapy;不用框架的话,还有requests 和beautifusoup。
通俗点说就是爬各种数据、图片的工具。官方话术:
网络爬虫(又被称为网页 蜘蛛,网络机器人,在 FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 万维网信息的程序或者脚本。另外一些不常使用的名字还有 蚂蚁、自动索引、模拟程序或者 蠕虫。
有着钢铁般身躯的爬虫,工作不是996而是007。
呃 ,不对。这里是要说它的工作原理:
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头、请求体等
如果服务器能正常响应,则会得到一个Response
解析html数据:正则表达式(RE模块),第三方解析库如lxml,bs4等
解析二进制数据:以wb的方式写入文件
鉴于我们都是新手,这里就先学点简单实用的爬虫知识,然后做出一些可以看到成绩的结果吧。比如爬取豆瓣电影排行榜;
既然开始学习Python爬虫了,pycharm还是必须得下载配置好呗,这是我们写Python代码的工具。你要是刚开始学Python,嫌配置环境麻烦,也可以用下面这个在线编程网站过渡下。
写一些简单的爬虫,不需要学习完Python所有的语法知识。但下面这几个点你必须得掌握:
Python判断语句和循环语句;
常用数据结构:列表、元组、集合、字典、函数;
文件操作、错误与异常处理。
在一定程度上掌握了Python语法知识后,我们先来学习Python爬虫入门,
好了,学到这儿我们就可以上手爬取豆瓣电影排行榜了;
这个学习路径是B站李巍老师的《5天快速入门Python爬虫》
非常适合零基础的新手入门Python爬虫,如果你觉得配置编译环境麻烦,也可以去下面这个在线编程网站边看边学:
Python爬虫的妙处,就在于老少皆宜。新手可以用其爬点简单的数据,大佬则可以利用爬虫在各种网站中踏雪无痕般穿梭。总之,学习Python爬虫是件长远的事情,我们一步一步来吧。
码了这么多字,还是点个赞再走吧~