lucene的hit类

anna_zr

浏览: 196402 次
性别:
来自: 北京

最近访客更多访客>>

yyzhanglbb

whxy0144

aaaaab2

Lovefire_

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene学习笔记

lucene Apache Cache 算法 F#

本文转自：
http://daihaixiang.blog.163.com/blog/static/3830134200862394745683/

关于Hits类。
这个Hits类可是非常的重要，因为Lucene使用了缓存机制，关于缓存的实现就是在这个Hits类中。Hits工作过程中，使用了LRU算法，即通过一个HitDoc结构来实现一个双向链表，使用LRU置换算法，记录用户最近访问过的Document。
开门见山，直接拿出Hits类的实现代码来说话。
package org.apache.lucene.search;
import java.io.IOException;
import java.util.Vector;
import java.util.Iterator;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
public final class Hits {
private Weight weight;
private Searcher searcher;
private Filter filter = null;
private Sort sort = null;
private int length;                // Hits的长度，即满足查询的结果数量
private Vector hitDocs = new Vector();    // 用作缓存检索结果的(Hit)
private HitDoc first;         // head of LRU cache
private HitDoc last;          // tail of LRU cache
private int numDocs = 0;      // number cached
private int maxDocs = 200;    // max to cache
Hits(Searcher s, Query q, Filter f) throws IOException {
    weight = q.weight(s);
    searcher = s;
    filter = f;
    getMoreDocs(50); // retrieve 100 initially | 从缓存中取出检索结果，如果缓存为null，则需要查询，查询后将结果加入缓存中
}
Hits(Searcher s, Query q, Filter f, Sort o) throws IOException {
    weight = q.weight(s);
    searcher = s;
    filter = f;
    sort = o;
    getMoreDocs(50); // retrieve 100 initially | 从缓存中取出检索结果，如果缓存为null，则需要查询，查询后将结果加入缓存中

}
/**
   * 将满足检索结果的Document加入到缓存hitDocs中
   */
private final void getMoreDocs(int min) throws IOException {
    /////////////////////////////////////////////////////////////////////////////////////////////
    System.out.println("■■■■■■■■■■■■■■■■■■■■■■■■进入getMoreDocs()方法中时，hitDocs.size="+hitDocs.size());
    ///////////////////////////////////////////////////////////////////////////////////////////
    if (hitDocs.size() > min) {
      min = hitDocs.size();
    }
    int n = min * 2;    // 扩充缓存容量为默认的2倍(默认最小情况下，也要扩充缓存。即使检索结果为1条记录，缓存的长度也扩充为100)
    TopDocs topDocs = (sort == null) ? searcher.search(weight, filter, n) : searcher.search(weight, filter, n, sort);
    length = topDocs.totalHits;
    ScoreDoc[] scoreDocs = topDocs.scoreDocs;
    float scoreNorm = 1.0f;

    if (length > 0 && topDocs.getMaxScore() > 1.0f) {
      scoreNorm = 1.0f / topDocs.getMaxScore();
    }
    int end = scoreDocs.length maxDocs) {      // if cache is full
      HitDoc oldLast = last;
      remove(last);             // flush last
      oldLast.doc = null;       // let doc get gc'd
    }
    if (hitDoc.doc == null) {
      hitDoc.doc = searcher.doc(hitDoc.id); // cache miss: read document
    }
    return hitDoc.doc;
}
// 得到第n个Document的得分
public final float score(int n) throws IOException {
    return hitDoc(n).score;
}
// 得到第n个Document的编号
public final int id(int n) throws IOException {
    return hitDoc(n).id;
}
public Iterator iterator() {
    return new HitIterator(this);
}
private final HitDoc hitDoc(int n) throws IOException {
    if (n >= length) {
      throw new IndexOutOfBoundsException("Not a valid hit number: " + n);
    }
    if (n >= hitDocs.size()) {
      getMoreDocs(n);
    }
    return (HitDoc) hitDocs.elementAt(n);
}
private final void addToFront(HitDoc hitDoc) { // insert at front of cache
    if (first == null) {
      last = hitDoc;
    } else {
      first.prev = hitDoc;
    }
    hitDoc.next = first;
    first = hitDoc;
    hitDoc.prev = null;
    numDocs++;
}
private final void remove(HitDoc hitDoc) {    // remove from cache
    if (hitDoc.doc == null) {     // it's not in the list
      return;                    // abort
    }
    if (hitDoc.next == null) {
      last = hitDoc.prev;
    } else {
      hitDoc.next.prev = hitDoc.prev;
    }
    if (hitDoc.prev == null) {
      first = hitDoc.next;
    } else {
      hitDoc.prev.next = hitDoc.next;
    }
    numDocs--;
}
}
final class HitDoc {
float score;
int id;
Document doc = null;
HitDoc next; // in doubly-linked cache
HitDoc prev; // in doubly-linked cache
HitDoc(float s, int i) {
    score = s;
    id = i;
}
}
上面代码中，红色标注的部分为后面测试之用。
一次查询时，需要构造一个Query实例。从Hits类的成员变量来看，在检索的过程中，一个Query实例并不是只使用一次，那么多次使用进行查询就需要记录这个Query实例的状态。
为了更加直观，写了一个测试类，来观察缓存长度的分配情况：
package org.shirdrn.lucene.learn.test;
import java.io.IOException;
import java.util.Date;
import java.util.Iterator;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.document.DateTools;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.search.Hit;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.store.LockObtainFailedException;
public class MyHitsTest {

    public void create() throws CorruptIndexException, LockObtainFailedException, IOException{
        String indexPath = "H:\\index";
        IndexWriter writer = new IndexWriter(indexPath,new CJKAnalyzer(),true);
        for(int i=0;i min = 50不成立，接着n = min*2 = 50*2 = 100，因此离开getMoreDocs()方法时hitDocs.size() = 100；
第二次进入getMoreDocs()方法时，hitDocs.size() = 100 > min = 50成立，从而设置min = hitDocs.size() = 100，接着n = min*2 = 100*2 = 200，因此离开getMoreDocs()方法时hitDocs.size() = 200；
第三次进入getMoreDocs()方法时，hitDocs.size() = 200 > min = 100成立，从而设置min = hitDocs.size() = 200，接着n = min*2 = 200*2 = 400，因此离开getMoreDocs()方法时hitDocs.size() = 400；
如果满足查询的检索结果的Document数量足够大的话，应该继续是：
第四次进入getMoreDocs()方法时，hitDocs.size() = 400，离开getMoreDocs()方法时hitDocs.size() = 800；
第五次进入getMoreDocs()方法时，hitDocs.size() = 800，离开getMoreDocs()方法时hitDocs.size() = 1600；
……
根据上面，最后一次(第四次)进入getMoreDocs()方法的时候，hitDocs.size() = 400 > min = 400不成立，接着n = min*2 = 400*2 = 800，此时虽然缓存扩充了，但是执行searcher.search(weight, filter, n) 的时候取到了100条满足条件的Document，故而缓存的实际大小为hitDocs.size() = 500，因此离开getMoreDocs()方法时hitDocs.size() = 500，其实此次如果满足查询的Document数量足够，可以达到hitDocs.size() = 800。

分享到：

彻底弄懂CSS盒子模式(DIV布局快速入门) | hashcode（）重写

2009-05-23 10:37
浏览 2686
评论(1)
查看更多

1 楼 yyang1986321 2009-07-20

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

node-v12.18.3-linux-s390x.tar.xz: Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎，可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型，这使得它非常适合处理大量并发连接，从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外，Node.js使用了模块化的架构，通过npm（Node package manager，Node包管理器）,社区成员可以共享和复用代码，极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展，它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等，因此，开发者可以用JavaScript编写全栈应用程序，这一点大大提高了开发效率和便捷性。在实践中，许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台，如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能，简化了开发流程，并且能更快地响应市场需求。

用于高级分析的阿联酋汽车市场销售数据: 通过我们最新收集的数据集，释放阿联酋充满活力的汽车市场的潜力，该数据集于2024年4月12日更新。该主要数据集来源于dubizzle.com，提供了阿拉伯联合酋长国当前汽车销售的全面快照，为汽车市场趋势和消费者偏好提供了宝贵的见解。

基于Python+opencv+keras+numpy+sklearn的人脸识别门禁系统.zip: 基于OpenCV的系统

美国大学生数学建模竞赛简介: 美国大学生数学建模竞赛（MCM/ICM），简称“美赛”，是一项由美国数学及其应用联合会（COMAP）主办的国际性数学建模竞赛。该竞赛自1985年创办以来，已经成为全球范围内极具影响力的数学建模竞赛之一，旨在鼓励大学生团队应用数学知识解决实际问题，提升学生的数学建模能力、科研能力以及团队合作精神。美赛作为一项国际性的学术竞赛，对参赛学生的数学、英语、论文写作和科研能力有很高的要求。竞赛通常要求三人一组，在四天内完成从建立数学模型、求解、验证到撰写论文的全过程。竞赛题目覆盖经济、管理、环境、资源、生态、医学、安全等多个领域。

Blackmagic SmartView SmartScope Duo 4K SmartView 4K 五月安装和操作手册: Blackmagic SmartView SmartScope SmartView Duo SmartScope Duo 4K SmartView 4K 五月 2021 安装和操作手册

unity开发入门教程.zip: Unity是一个流行的跨平台游戏开发引擎，它允许开发者使用C#等语言创建2D和3D游戏。以下是一个Unity开发的基本入门教程： 1. 安装Unity 首先，你需要从Unity的官方网站下载并安装Unity Hub和Unity编辑器。Unity Hub是一个用于管理Unity版本和项目的工具。 2. 创建新项目打开Unity Hub，点击“New”来创建一个新项目。选择你需要的Unity版本、模板（例如2D或3D）和其他设置。 3. 熟悉Unity界面 Unity的界面主要由以下几个部分组成： Hierarchy：显示场景中的所有游戏对象。 Project：显示项目的所有资源，如场景、模型、材质、脚本等。 Inspector：显示当前选中游戏对象的详细信息和属性。 Scene：显示当前场景的3D视图，你可以在这里编辑游戏对象。 Game：显示游戏运行时的视图。

根据各种因素预测一个地区发生洪水的概率设计代码: 根据各种因素预测一个地区发生洪水的概率。

python 3.9.19源码编译包: python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包python 3.9.19源码编译包

信息技术填空选择100题: 总结出了信息技术课程常考的100道填空题，答案在花括号内。制卷时只需要将花括号及其中的内容替换成圆括号即可。

数据结构实验代码中国象棋马（上机实验）.rar: 数据结构实验代码

一篇基础的Scratch语言教程: 一篇基础的Scratch语言教程 Scratch 是一种面向青少年的图形化编程语言，由麻省理工学院（MIT）的终身幼儿园团队开发。它通过拖放代码块的方式，使得编程教育变得更加直观和有趣。以下是一篇基础的Scratch语言教程，适合初学者入门。

第五次作业函数第一题代码: 第五次作业函数第一题--

node-v12.22.10-darwin-x64.tar.xz: Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎，可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型，这使得它非常适合处理大量并发连接，从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外，Node.js使用了模块化的架构，通过npm（Node package manager，Node包管理器）,社区成员可以共享和复用代码，极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展，它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等，因此，开发者可以用JavaScript编写全栈应用程序，这一点大大提高了开发效率和便捷性。在实践中，许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台，如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能，简化了开发流程，并且能更快地响应市场需求。

基于扩散概率模型在无监督OCT去噪中的应用.zip: 本项目聚焦于基于扩散概率模型在无监督光学相干断层扫描（OCT）去噪中的应用。OCT是一种高分辨率的医学影像技术，常用于视网膜、心血管等疾病的诊断。传统的OCT去噪方法往往需要依赖于带有清晰图像的监督学习，而本项目则探索在无监督环境下，利用扩散概率模型对OCT图像进行去噪。该方法无需清晰的图像作为监督，能够有效减少对大量标注数据的依赖。在数据集方面，我们使用了公开的OCT影像数据集，如OCT2017等，并进行了预处理，包括图像裁剪、大小调整和归一化等。在环境搭建方面，我们使用Python编程语言，基于TensorFlow和PyTorch深度学习框架进行开发。为了提高计算效率，我们还使用了GPU加速计算。此外，我们还采用了Docker容器技术，确保实验结果的可重复性。项目完成后，将实现对OCT图像的无监督去噪，提高医学影像的清晰度和可用性，为相关疾病的诊断和治疗提供有力支持。同时，项目成果也可应用于其他无监督去噪任务。

福禄克 1550B 兆欧表用户手册 FLUKE 1550B MegOhmMeter: 福禄克 1550B 兆欧表用户手册

星间飞行二次元角色研修课程-课程网盘链接提取码下载 .txt: 本课程旨在深入探讨二次元角色设计理念，引导学员掌握角色塑造技巧与创作方法。通过案例分析与实践训练，学员将学习角色设定、情感表达等关键要素，提升角色创作能力，激发创意潜能，打造独具魅力的二次元角色形象。课程大小：6.4G

node-v12.16.1-linux-arm64.tar.xz: Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎，可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型，这使得它非常适合处理大量并发连接，从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外，Node.js使用了模块化的架构，通过npm（Node package manager，Node包管理器）,社区成员可以共享和复用代码，极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展，它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等，因此，开发者可以用JavaScript编写全栈应用程序，这一点大大提高了开发效率和便捷性。在实践中，许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台，如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能，简化了开发流程，并且能更快地响应市场需求。

BRD母婴需求文档(产品需求文档及原型图都市孕妈项目).docx: BRD母婴需求文档(产品需求文档及原型图都市孕妈项目).docx

知乎答题王小程序2.1.6开源素材教程.zip: 知乎答题王小程序2.1.6开源素材教程.zip

node-v12.19.0-linux-s390x.tar.xz: Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎，可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型，这使得它非常适合处理大量并发连接，从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外，Node.js使用了模块化的架构，通过npm（Node package manager，Node包管理器）,社区成员可以共享和复用代码，极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展，它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等，因此，开发者可以用JavaScript编写全栈应用程序，这一点大大提高了开发效率和便捷性。在实践中，许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台，如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能，简化了开发流程，并且能更快地响应市场需求。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论