神箭手爬虫制作时需要注意的地方

1.扒取的第一个“抽取项”的值,会作为系统key,用于唯一性验证,不能重复。(在单页面,单条数据的情况下,系统会直接用url作为key)

2.无论要采集的链接是否会用到正则,都要用正则写法: contentUrlRegexes , helperUrlRegexes (不要使用 helperUrls ),其中,字符’.’, ‘?’ 需要用双斜杠‘\\’转义。

爬虫学习

找了些不错的爬虫平台,学习参考:

JS版爬虫:

1.http://www.shenjianshou.cn/

2.https://github.com/ShenJianShou/crawler_samples

Python版爬虫:

http://scrapy.org/

PHP版获取页面内容:

http://sourceforge.net/projects/simplehtmldom/

.Net版爬虫:

http://www.locoy.com/

http://www.bazhuayu.com/