Python爬虫模拟人为操作

有些大厂,像BAT可能对爬虫这类检测做的很厉害,为了模拟人为操作,需要让脚步运行的慢一些。

以下python代码用于登录支付宝账号,为了更像真人操作,

  1. 录入账号密码时,每次录入一个字符都暂停若干时间;
  2. 且暂停时间是随机时间,不固定;
  3. 同时也在一些按钮上悬停若干时间后再执行点击事件。

 

 

神箭手爬虫制作时需要注意的地方

1.扒取的第一个“抽取项”的值,会作为系统key,用于唯一性验证,不能重复。(在单页面,单条数据的情况下,系统会直接用url作为key)

2.无论要采集的链接是否会用到正则,都要用正则写法: contentUrlRegexes , helperUrlRegexes (不要使用 helperUrls ),其中,字符’.’, ‘?’ 需要用双斜杠‘\\’转义。

爬虫学习

找了些不错的爬虫平台,学习参考:

JS版爬虫:

1.http://www.shenjianshou.cn/

2.https://github.com/ShenJianShou/crawler_samples

Python版爬虫:

http://scrapy.org/

PHP版获取页面内容:

http://sourceforge.net/projects/simplehtmldom/

.Net版爬虫:

http://www.locoy.com/

http://www.bazhuayu.com/

使用simple_html_dom 解析html 页面

如果想用PHP 写爬虫 获取某些网页数据,需要能解析HTML页面结构,simple_html_dom是不错的工具。

使用手册:http://simplehtmldom.sourceforge.net/manual.htm

下载:https://sourceforge.net/projects/simplehtmldom/

备注:当将采集的内容存数据库时,记得编码要保持一致,否则会报如下类似错误:

Error: Illegal mix of collations (utf8_general_ci,IMPLICIT) and (gbk_chinese_ci,COERCIBLE) for operation '='

 

使用curl抓取防盗链网站资源

场景:

使用curl获取网页资源,并做进一步内容分析,但当网页启用防盗链功能时,诸如图片内容可能会获取失败。

解决:

在使用curl时,添加头部参数,模拟搜索引擎的蜘蛛爬虫即可。

相关代码:

【参考:】http://m.blogchina.com/blog/view/uname/gaojohn/bid/1257804