神箭手爬虫制作时需要注意的地方

1.扒取的第一个“抽取项”的值,会作为系统key,用于唯一性验证,不能重复。(在单页面,单条数据的情况下,系统会直接用url作为key)

2.无论要采集的链接是否会用到正则,都要用正则写法: contentUrlRegexes , helperUrlRegexes (不要使用 helperUrls ),其中,字符’.’, ‘?’ 需要用双斜杠‘\\’转义。

发表评论