当前位置：首页 → 应用软件 → 编程开发 → Apache Nutch v2.3 最新版

Apache Nutch v2.3 最新版

Apache Nutch免费下载评分：10.0分

下载地址

软件大小：7.1M
软件语言：中文
更新时间：2022-03-21 11:43:50
软件类别：编程工具
软件性质：国产软件
软件厂商：暂无
运行环境：WinAll, WinXP, Win7
软件等级：
官方网址：暂无

本地下载

软件大小：7.1M

高速下载

需优先下载高速下载器

点赞差评

软件介绍
软件截图
猜你喜欢
同类推荐
相关文章
下载地址

软件Tags： ApacheNutch编程工具

Apache Nutch是一款用于java编程工具的搜索引擎软件，快速完成java数据编程，智能检索java资源便捷使用。快来绿色资源网下载体验吧！

软件介绍

Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch诞生于2002年8月，是Apache旗下的一个用Java实现的开源搜索引擎项目，自Nutch1.2版本之后，Nutch已经从搜索引擎演化为网络爬虫，接着Nutch进一步演化为两大分支版本：1.X和2.X，这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎.

使用原理

在创建一个WebDB之后(步骤1), “产生/抓取/更新”循环(步骤3－6)根据一些种子URLs开始启动。当这个循环彻底结束，Crawler根据抓取中生成的segments创建索引（步骤7－10）。在进行重复URLs清除（步骤9）之前，每个segment的索引都是独立的（步骤8）。最终，各个独立的segment索引被合并为一个最终的索引index（步骤10）。

其中有一个细节问题，Dedup操作主要用于清除segment索引中的重复URLs，但是我们知道，在WebDB中是不允许重复的URL存在的，那么为什么这里还要进行清除呢？原因在于抓取的更新。比方说一个月之前你抓取过这些网页，一个月后为了更新进行了重新抓取，那么旧的segment在没有删除之前仍然起作用，这个时候就需要在新旧segment之间进行除重。