创建任务第三步:链接采集设置
该部分用于设置一系列要采的网页链接,最终得到文章内容所在页链接,可无限多个,可采任何种链接类型
如上图所示:
1、初始化取得链接:即前一步中,生成的网址列表
2、采集链接列表:要采集的网页链接,可通过多步采到
每个规则有如图所示的附加选项:
其中:
1、该规则所采链接为最终内容链接:用于指定本规则所提取的链接是否供给第四步内容提取规则采集的内容
2、该规则处理内容:默认有[初始化链接],即第二步中初始化设置取得的链接,若添加了其他采链接规则,则将在此出出现,可供选择
3、循环处理结果:用于指定该规则采到的链接除了标记为其本身外,是否标记为其对应的“该规则处理内容中所选规则采到的内容”,以达到规则内容的循环处理,举个例子,如果当前规则所选
该规则处理内容为[初始化链接],则该规则会去提取[初始化链接]取得的内容所含的链接,并将链接置为该规则和[初始化链接](即其对应的处理规则)标记,此选项主要用于分页的递推式采集
如上图中所示两个规则,第一、二个都规则提取“初始化”网址中的内容,
第一个个规则采集“初始化网址”中所含的分页然后提交回“初始化网址”
第二个规则采集“初始化网址”中所含的最终结果页链接,因为第一个规则采集了所有分页并置为“循环处理”,所以第二个规则间接就提取了所有分页上的最终结果页链接
此处设好后可以点 测试采集链接,来检测是否设正确。
这里采到的最终网页列表,供最后的内容提取采内容使用。
添加采集规则可参考相关帮助:采集规则格式说明,过滤规则格式说明