RSS| 首页| 山顶道| 布珞阁¹| GoodUI| 土产| 关于

WizKnowledge 抓取网页提取正文自定义规则全攻略 1
2010.01.19 10:58 bruce:
    网页,作为互联网信息海洋时代的信息载体,包容着无穷无尽的信息,根据人脑的识别,将同类(分类)、高质量(筛选)的网页聚集在一起,就是一个人的知识,相当于人脑的一级缓存,人脑装不下的交给知识管理工具来,再装不下的再去互联网搜。
    在长期使用网文快捕的过程中,我们通过分析120万分样本发现,每篇捕获的网页中,有40%以上的杂质,这些杂质就是原始网页中包含很多诸如“网站导航栏(Header)、新闻列表、广告、栏目导航、版权(Footer)“在内的无价值内容。这些无用内容不仅占用视觉面积,还造成了存储尺寸的增大。
    在WizKnowledge的产品设计中我们利用搜索引擎(Search Engine)的经验,提出了内容智能提取的概念,即在保证网页内容完整性的同时,自动剥离无用的信息。使之成为与众不同的知识管理工具。
    目前WizKnowledge的智能规则提取可以识别大多数网站的正文
 
    下面,让我们以图例,揭开WizKnowledge网页正文智能提取的真面目。
 

1、功能图解

捕捉界面如下:

 
 
默认是“仅保存正文”,还有传统的保存完整网页、保存选中部分、通过链接批量保存、批量保存选中部分的链接、保存网页中的图片、保存文本、保存选中部分文本等。
 
每一种的效果:
WizKnowledge多种方式保存网页的比较
 
1.1、原始网页
1.2、完整保存的效果
1.3、使用正文提取的效果
1.4、选中网页链接
1.5、保存选中部分效果
1.6、保存选中部分文本(仅保存文本也类似)
1.7、保存选中部分链接(保存链接也类似)
 

原始网页

其中,我们关注的仅仅是红色部分。蓝色部分无价值。
 

完整保存的效果

 

使用正文提取的效果

 
 
 
下一章  自定义规则

分类  WizKnowledge| 暂无评论


垃圾太厉害了
说几句吧






*注意: 回复可能需要审查.您不必重复提交.