2010.01.19 10:58 bruce:
网页,作为互联网信息海洋时代的信息载体,包容着无穷无尽的信息,根据人脑的识别,将同类(分类)、高质量(筛选)的网页聚集在一起,就是一个人的知识,相当于人脑的一级缓存,人脑装不下的交给知识管理工具来,再装不下的再去互联网搜。
在长期使用网文快捕的过程中,我们通过分析120万分样本发现,每篇捕获的网页中,有40%以上的杂质,这些杂质就是原始网页中包含很多诸如“网站导航栏(Header)、新闻列表、广告、栏目导航、版权(Footer)“在内的无价值内容。这些无用内容不仅占用视觉面积,还造成了存储尺寸的增大。
在WizKnowledge的产品设计中我们利用搜索引擎(Search Engine)的经验,提出了内容智能提取的概念,即在保证网页内容完整性的同时,自动剥离无用的信息。使之成为与众不同的知识管理工具。
目前WizKnowledge的智能规则提取可以识别大多数网站的正文
下面,让我们以图例,揭开WizKnowledge网页正文智能提取的真面目。
1、功能图解
捕捉界面如下:

默认是“仅保存正文”,还有传统的保存完整网页、保存选中部分、通过链接批量保存、批量保存选中部分的链接、保存网页中的图片、保存文本、保存选中部分文本等。
每一种的效果:
1.1、原始网页
1.2、完整保存的效果
1.3、使用正文提取的效果
1.4、选中网页链接
1.5、保存选中部分效果
1.6、保存选中部分文本(仅保存文本也类似)
1.7、保存选中部分链接(保存链接也类似)
1.2、完整保存的效果
1.3、使用正文提取的效果
1.4、选中网页链接
1.5、保存选中部分效果
1.6、保存选中部分文本(仅保存文本也类似)
1.7、保存选中部分链接(保存链接也类似)
原始网页

其中,我们关注的仅仅是红色部分。蓝色部分无价值。
完整保存的效果

使用正文提取的效果

下一章 自定义规则
分类 WizKnowledge| 暂无评论
