轮子哥的回答虽然是个玩笑(urllib、urlib2、urllib3)但是,也确实反映出了Python标准库的混乱就我个人的使用感受来说,Python和Python标准库在数据结构方面非常强大但是,在网络和邮件这两块设計得非常糟糕。正是由于标准库的不完美才有了更多更好的开源项目。对于Python程序员来说可谓是"失之东隅,收之桑榆"重要的是我们要善于发现并使用这些项目。
下面就给大家推荐几个我用过的并且特别好用的项目,而不是简单的贴一下awesome python相信很多人看完awesome python以后,只是简單的收藏一下并没有很多帮助。
此外使用越来越广泛的监控工具glances(如果没用过,要不现在就是试试),就是用psutil收集相关数据的
4. BeautifulSoup如果你写爬虫,还在用XPath解析HTML那赶紧用用BeautifulSoup,比XPath好用一百倍;如果你还在用正则表达式从HTML中获取内容BeautifulSoup能让你好用到哭。(补充:评论里大家嘟说XPath更好用难道是我思维方式和大家不一样?)
例如要找到页面中所有的links,如下所示:
例如我在编写知乎的爬虫的时候,对于每一個用户的”关注”页面对于每一个关注对象,有如下的tag: 所以解析单个关注的用户代码如下所示:
#通过属性找到这个div,对于每个用户对应于这样一个div
有了BeautifulSoup以后,爬虫操作就变得特别简单了脏活累活别人都帮忙做好了。
5. utils除了开源的库以外还有些开源项目的DataStruct.py helper.py utils.py文件,也徝得看一看里面很多好东西,都是可以直接拿过来用的
}