RuiJi Scraper 分页抽取

如果想抽取分页结,您需要在规则配置中配置分页选择器,分页选择器位于规则编辑器最下方,如图所示

请注意以下分页选择器的配置要求

1.  分页选择器的默认名称为 _paging,请不要修该名称

2. 分页选择器要求选择出的结果为链接地址

下面我们以百度新闻的搜索结果为例举例说明下分页选择的配置

首先观察下分页的形式,具有数字分页链接及上一页下一页的链接

我们需要提取出所有的地址,并排除掉上一页及下一页的超链接

最终的分页抽取器配置如下

如上选择器的解释为

1. 选择#page 元素的外部html源码

2. 排除带有class为n的a标签,并选择外部html(排除上一页及下一页的链接地址)

3. 选择a标签的href属性的值作为输出结果

Copied!