scrapy爬虫系列:利用pymysql操作mysql数据库

发布于
苏南大叔在本篇文章中,继续讲述scrapy如何处理item数据,如何把抓取到的item数据,持久化到mysql数据库之中。本文的主要战场是:piplines.py这个文件。在python中,配合mysql的库文件也有好多个。本文中...
阅读更多

scrapy爬虫系列:页面数据查询的三种方式

发布于
scrapy获取到response对象后,需要对response对象进行解析,才能取到后续数据。本文中,苏南大叔将对scrapy解析数据的几种方式,进行总结说明。这其中包括官方推荐的.css,.xpath方式,当然还包括有广大we...
阅读更多

scrapy爬虫系列:如何使用pycharm调试scrapy程序

发布于
本文描述如何利用pycharm单步调试 scrapy的项目代码,方式主要有两种,适用的途径是不一样的。但对于调试这件事情来说,这两种方案效果都是一致的,有效。不过对于通过pycharm运行scrapy项目来说,这两种方式是有较大差...
阅读更多

scrapy爬虫系列:shell命令行测试模式

发布于
scrapy的命令行模式,非常适合调试parse()内的具体语句。通过这个命令行,可以实验.css和.path函数,是否可以返回预想中的值。scrapy的shell模式,使用起来是非常的简单。本文只涉及scrapy shell的最...
阅读更多