python爬虫时遇到这种问题怎么办!

解决方法都是 导入相应的包然後就可以了。pycharm真的太好用了

}

这是恋习Python之浅入深出系列第3篇原創首发文章

转载请联系授权(微信ID:)

近日有位粉丝向我请教,在爬取某网站时网页的源代码出现了中文乱码问题。之前关于爬虫乱碼有很多粉丝的各式各样的问题今天恋习Python与大家一起总结下关于网络爬虫的乱码处理。注意这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理因为他们的解决方式 是一致的,故在此统一说明

就以爬取51job网站举例,讲讲为何会出现“乱码”问題如何解决它以及其背后的机制。

基本思路三步走:确定源网页的编码A---gbk、程序通过编码B---ISO-8859-1对源网页数据还原、统一转换字符的编码C-utf-8至于為啥为出现统一转码这一步呢? 网络爬虫系统数据来源很多不可能使用数据时,再转化为其原始的数据假使这样做是很废事的。所以┅般的爬虫系统都要对抓取下来的结果进行统一编码从而在使用时做到一致对外,方便使用

比如如果我们想讲网页数据保存下来,则會将起转为utf-8代码如下:

关于网络爬虫乱码问题,恋习Python不仅给出了一个解决方案还深入到其中的原理,由此问题引申出很多有意思的问題如,utf-8、gbk、gb2312的编码方式怎样的为什么这样转化就可以解决问题?

最后多动脑,多思考多总结,致每一位码农!

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信