Your Ad Here
首页 | 编程语言 | 网站建设 | 游戏天堂 | 冲浪宝典 | 网络安全 | 操作系统 | 软件时空 | 硬件指南 | 病毒相关 | IT 认证
软讯网络 > 编程语言 > Java > 关于 nutch analyze db
【标  题】:关于 nutch analyze db
【关键字】:nutch,analyze
【来  源】:http://www.cublog.cn/u/4906/showart.php?id=108838

关于 nutch analyze db

Your Ad Here

这是一个链接分析工具,借助 nutch/tools/DistributedAnalysisTool.java
做了一个封装,便于更方便的使用
 nutch/tools/LinkAnalysisTool.java 上 RUN:  mydb 3
进行3层链接分析

程序先打开webDB/stats 看有多少page,linke
一下三行代码可以看出 stats文件的内容
                int version = (byte) in.read();
                this.totalPages = in.readLong();
                this.totalLinks = in.readLong();
然后根据分配的处理器数量和需要计算的page和link数,分配任务
chunkSize=totalPages / numProcesses; 就是每个进程参与计算的page
然后
   for (int i = 1; i < numProcesses; i++) {
            startPages[i] = startPages[i-1] + chunkSize;
        }
计算每个进程应该从哪里开始计算
 在\mydb\tmpdir-1146884784731-la下生成临时文件 assignment.0存放结果,
多进程的话, 会在分布式文件系统上生成更多的 assignment.1 , assignment.2 。。。。
在assignment.x文件中写入一些相关信息,结束 initRound函数, 完成准备工作

中 ,建立 tmpdir-1146884784731-la/scoreEdits.0.unsorted 存放未排序的临时结果。

对webDB中的每个page,先取出他的outlink,(吓一遍fetch之后,就可以用updatadb 重写 webdb ,把新抓到的outlink加进来)
然后根据初始的score 1来计算 Score和NextScore
在我的例子中某个page的outlink有21个,targerLink有15个, Score和NextScore分别是0.5和0.6 左右,
然后把这个21个outlink以及它的Score分别用ScoreWriter对象写入 score.unsort文件
然后把计算好的Score,NextScore 重新写回 webDB
在我的例子中,对2.5万个页面做了2层的链接分析, 大约每秒分析10个page,由于时间问题,没有完成,
这是一个比较耗时的工作, 但是对提高搜索结果质量无疑是大有帮助的
 
J2ME入门学习(一):【上一篇】
关于 Nutch 的 segread TOOL:【下一篇】
【相关文章】
  • Nutch 数据查看工具
  • How to analyze system panic
  • [Nutch]如何利用HTML页面中meta元素?
  • [SearchEngine]《介绍 Nutch 第二部分:搜索》出来了
  • 《MS SQL Server 2000管理员手册》系列——13. T-SQL 与 SQL Query Analyzer
  • 《MS SQL Server 2000管理员手册》系列——35. 使用SQL Query Analyzer和SQL Profiler
  • Nutch入门教程,第一部分
  • 介绍 Nutch 第一部分:抓取 (翻译)
  • 介绍 Nutch 第一部分:抓取过程详解(翻译2)
  • Nutch在Windows中安装之细解
  • 【随机文章】
  • 深入浅出Win32多线程程序设计 ---- 线程控制
  • 如何计算 “IQ网际搜寻家99” 注册码
  • 实验桢中继的点到点子接口配置
  • 创新谈-王军
  • 第一章:优化器介绍(1)
  • 开发出高性能的网站,第三部分:压缩和其他服务器端的技术(转)
  • <展现C#> 第七章 异常处理(rainbow 翻译)
  • SQL Server Express 数据库自动部署问题及解决
  • AMD Duron安装redhat linux 6.2成功后无法进入linux的解决办法
  • TIS防火墙详述--Zt
  • 【相关评论】
    没有相关评论
    【发表评论】
    姓名:
    邮件:
    随机码*
    评论*
          
    |  首 页  |  版权声明  |  联系我们   |  网站地图  |
    CopyRight © 2004-2007 软讯网络 All Rigths Reserved.