RuiJi Scraper 网页视觉识别

网页设计师在设计网页的过程中,往往会考虑页面的视觉结构,这使得使用者可以快速分辨出网页不同区域(RuiJi Scraper的数据块,数据片,元数据就是基于此所定义)。在大多数的网页中,页面中的不同的区域会通过横向或纵向布局,布局块边距等来达到视觉识别目的。以如下页面为例:

从整体上来看,该页面分为导航区,搜索结果区,热词区。每个区域内还有区域划分,例如搜索结果区的每个搜索结果还分为文本区和缩略图区。这种结构良好的页面,通过视觉识别算法可以将不同区域的内容自动识别出来。

下面我们来介绍RuiJi Scraper网页视觉识别功能的使用。我们同样也上面的页面为例。

1.  首先打开搜狗微信搜索,搜索任意关键词,到搜索结果页面

2. 打开RuiJi Scraper抽取面板,视觉识别位于公共选项卡第一项

这里面的选项为过滤条件,视觉识别出的元素可能很多,我们只对其中一部分感兴趣,选项的默认值所表示如下:

宽 : 显示宽度在0像素-1024像素之间的Dom

高:显示高度在0像素-1024像素之间的Dom

深度:Dom树深度,显示深度0-深度50

子块:具有大于等于5的子块

重组:根据class或path重组数据,适合部分结构不太良好的页面

移除相同数据:如果某列识别出的数据完全一样,该列将不再结果中展示

3. 点击识别按钮

4. 观察识别结果

这里的5:0的意义为冒号前为深度,冒号后面为序号,深度可以用来重新设置深度过滤条件,序号仅是编号。

5. 点击识别出的区域上面的编号

6. 查看识别结果

这看着有些挤,但是您可以将面板停靠在页面下端来观看抽取结果,或者直接使用导出按钮,导出结果后查看。

 

Copied!