专业的QQ下载站 本站非腾讯QQ官方网站

QQ下载|QQ资讯|QQ分类|下载排行|最近更新

软件
软件
文章
当前位置:首页应用软件编程开发 → Apache Nutch v2.3 最新版
Apache Nutch v2.3 最新版

Apache Nutch v2.3 最新版

Apache Nutch免费下载评分:10.0
下载地址
  • 软件大小:7.1M
  • 软件语言:中文
  • 更新时间:2022-03-21 11:43:50
  • 软件类别:编程工具
  • 软件性质:国产软件
  • 软件厂商:暂无
  • 运行环境:WinAll, WinXP, Win7
  • 软件等级:
  • 官方网址:暂无
  • 软件介绍
  • 软件截图
  • 猜你喜欢
  • 同类推荐
  • 相关文章

软件Tags: ApacheNutch编程工具

Apache Nutch是一款用于java编程工具的搜索引擎软件,快速完成java数据编程,智能检索java资源便捷使用。快来绿色资源网下载体验吧!

软件介绍

Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎.

使用原理

在创建一个WebDB之后(步骤1), “产生/抓取/更新”循环(步骤3-6)根据一些种子URLs开始启动。当这个循环彻底结束,Crawler根据抓取中生成的segments创建索引(步骤7-10)。在进行重复URLs清除(步骤9)之前,每个segment的索引都是独立的(步骤8)。最终,各个独立的segment索引被合并为一个最终的索引index(步骤10)。

其中有一个细节问题,Dedup操作主要用于清除segment索引中的重复URLs,但是我们知道,在WebDB中是不允许重复的URL存在的,那么为什么这里还要进行清除呢?原因在于抓取的更新。比方说一个月之前你抓取过这些网页,一个月后为了更新进行了重新抓取,那么旧的segment在没有删除之前仍然起作用,这个时候就需要在新旧segment之间进行除重。

展开内容

软件截图

同类推荐

推荐文章

用户评论

关于九渡客 | 联系方式 | 发展历程 | 版权声明 | 下载帮助(?) | 广告联系 | 网站地图 | 友情链接

Copyright 2019-2029 9DOKE.COM 【九渡客】 版权所有 鲁ICP备2021036634号-4 | 鲁ICP备2021036634号-4

声明: 本站非腾讯QQ官方网站 所有软件和文章来自互联网 如有异议 请与本站联系 本站为非赢利性网站 不接受任何赞助和广告