分类:爬虫
神箭手爬虫制作时需要注意的地方
1.扒取的第一个“抽取项”的值,会作为系统key,用于唯一性验证,不能重复。(在单页面,单条数据的情况下,系统会直接用url作为key)
2.无论要采集的链接是否会用到正则,都要用正则写法: contentUrlRegexes , helperUrlRegexes (不要使用 helperUrls ),其中,字符’.’, ‘?’ 需要用双斜杠‘\\’转义。
爬虫学习
找了些不错的爬虫平台,学习参考:
JS版爬虫:
1.http://www.shenjianshou.cn/
2.https://github.com/ShenJianShou/crawler_samples
Python版爬虫:
http://scrapy.org/
PHP版获取页面内容:
http://sourceforge.net/projects/simplehtmldom/
.Net版爬虫:
http://www.locoy.com/
http://www.bazhuayu.com/