RuiJi Scraper 选择器

如之前课程所述,选择器首先是用来描述出需选择的数据块Block、数据片Tile或元数据Meta所在的区域,在RuiJi Scraper中,必须以Css选择器为开始。

在描述出需选择的区域之后,可以根据需要对选择出的区域的源代码进行下一步的清洗,整理。所以在RuiJi Scraper中选择器为一个数组。通常第一个选择器用来选择区域,之后的选择器用做清洗,整理数据之用。从第二个选择器开始,选择器的输入是上一个选择器的输出。

在RuiJi Scraper中提供了多种选择器,如果您对数据的精细度没有太大要求的话,只使用一个选择器就可以,如果您希望提取出的数据更加精确,更满足业务需要,您可以使用更多的选择器来达到您的目的。

RuiJi Scraper的选择器与RuiJi.Net的选择器一样,具有如下类型:

类型 说明 选项 说明
css Css选择器 outerHTML Dom外部HTML
innerHTML Dom内部HTML
text Dom内文本
Attribute Dom上的属性
reg 正则选择器 n
[…]
可选填,数字类型
未定义取出正则匹配结果
已定义取出第n个结果,可以为多个
regS 分割选择器 strR n 以正则strR进行分割,取第n个结果
text 文本区域选择器 beginR endR 裁剪出beginR和endR之间的文本
ex 排除选择器 strR -a 排除strR的正则结果
strR -b 排除开始位置strR的正则结果
strR -e 排除结束位置strR的正则结果
regR 替换选择器 strR str 将strR的正则匹配结果替换成str
jpath JSON选择器 path 预留
xpath xpath选择器 path 预留
clear 标签清除选择器 tag 清除tag标签
exp 表达式选择器 urlexp 以通配符方式匹配出地址
proc 函数选择器 name 需要执行的函数名称

其中n代表数字类型,以R为结尾的参数代表为正则表达式

 

 

Copied!