WEB网页结构化信息抽取技术介绍(网页库级)--郑州征途信息网--网站建设,河南网站建设,郑州网站建设.网站推荐,河南网站推广,郑州网站推广
建站流程 建站意向表 客户案例 付款方式 联系我们 加入收藏
河南郑州网站建设销售咨询电话:13073728811(24小时值班)  客服电话0371-60988783
首 页网站建设网站推广 5107网站伴侣 域名注册 虚拟主机 企业邮局 关于我们 合作代理 网上商店 企业邮箱
征途新闻
公司新闻
行业新闻
服务项目
网站建设 网站推广
域名注册 虚拟主机
网站伴侣 运营维护
联系我们

联系电话:
0371-60273020       60273015
      60273016
      60273017
传    真:
0371-60273018

 
当前位置:首 页 > WEB网页结构化信息抽取
WEB网页结构化信息抽取技术介绍(网页库级)
发布日期:2007-5-25
关键词:结构化信息抽取,信息抽取

    注意:原创文章,无版权,可以任意转载,但必须完整转载全文、url和内部解释性链接

    WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。
  如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”
  房产信息搜索那就应该抽取出那应该抽取出:类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电话……
  公司企业信息搜索那就应该抽取出:公司名称、地址、电话、联系人……
  …………
  结构化信息抽取有两种方式可以实现,比较简单的是模板方式,还有一种是对网页不依赖的网页库级的结构化信息抽取方式


  模板方式是事先对特定的网页进行配置模板,抽取模板中设置好的需要的信息,可以针对有限个网站的信息进行精确的采集。
  特点:简单、精确、技术难度低、方便快速部署。
  缺点:需要针对每一个信息源的网站模板进行单独的设定在信息源多样性的情况下维护量巨大是不可完成的维护量。所以这种方式适合少量信息源的信息处理,不是搜索引擎级的应用,很难满足用户对查全率的需求。


    网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。
  特点:可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械的匹配,采用智能分析技术,准确率能达到98%以上。能保证较快处理速度,由于采用页面的智能分析技术,先去除了垃圾块,降低分析的压力,是处理速度大大提高。通用性较好,易于维护,只需设定参数、配置相应的特征就能改进相应的抽取性能;一般的非专业人员经过简单培训就能维护。
  缺点:技术难度高,前期研发成本高,周期长。适合网页库级别结构化数据采集和搜索的高端应用。


   我们的技术是对网页不依赖的web结构化信息抽取技术,适合高端的垂直搜索应用或者高端的竞争情报分析系统。


上一条: 全套垂直搜索引擎技术
  下一条: 什么是垂直搜索?[原创]
征途介绍 | 征途新闻 | 客户服务 | 版权声明 | 友情链接 | 联系我们 | 网站建设 | 网站推广
版权所有:郑州征途信息技术有限公司 地址:郑州市管城区地铁2号线二里岗B口斜对面中国邮政郑州跨境电商产业园2楼210
联系电话:0371-60988783 13073728811 豫ICP备19037742号-3

本站关键词:郑州网站建设公司 郑州网站建设 郑州电子商务 郑州网站设计 郑州网站策划 河南郑州网站建设 郑州网站制作 郑州建网站
郑州网站制作 郑州做网站的公司 网站托管 郑州 郑州网络公司 新乡网络公司 河南网络公司 洛阳网络公司 网站建设 电子商务网站
建网站 网站设计 郑州虚拟主机 新乡网站建设 郑州 网站制作 安阳网络公司 焦作网络公司 网页设计 郑州网页设计 郑州网站制作 在线客服
网页制作 网站制作 河南网站建设 烽火台 网络推广 郑州网站推广 网站建设方案 网络营销 河南网站建设公司 郑州5107网站伴侣