Elasticsearch – 词频越高得分越高

Elasticsearch - higher scoring if higher frequency of term

我有 2 个文档,正在搜索关键字"Twitter"。假设两个文档都是带有"标签"字段的博客文章。

文档 A 在"标签"字段中只有 1 个术语,即"Twitter"。

文档 B 在"标签"字段中有 100 个术语,但其中 3 个是"Twitter"。

即使文档 B 的频率更高,弹性搜索也会给文档 A 更高的分数。但是分数被"稀释"了,因为它有更多的术语。我如何给文档 B 一个更高的分数,因为它的搜索词的频率更高?

我知道 ElasticSearch/Lucene 会根据文档中的术语数量执行一些规范化。如何禁用此规范化,以便文档 B 获得更高的分数?


正如另一个答案所说,看看你在单个分片上是否有相同的结果会很有趣。我认为你会,这取决于标签字段的规范,在使用 tf/idf 相似度(默认)计算分数时会考虑到这一点。

事实上,lucene 确实考虑了术语频率,即术语在字段中出现的次数(在您的情况下为 1 或 3 次),以及倒置文档频率,换句话说,术语是如何出现的在索引中频繁出现,以便将其与查询中的其他术语进行比较(在您的情况下,如果您正在搜索单个术语,它没有任何区别)。

但是还有另一个称为规范的因素,它奖励较短的字段并考虑最终的索引时间提升,这可以是每个字段(在映射中)甚至每个文档。您可以验证规范是否是您在搜索请求中启用解释选项并查看解释输出结果的原因。

我想第一个文档只包含该标签这一事实使得其他包含该标签多次但也包含许多其他标签的文档更重要。如果您不喜欢这种行为,您可以在标签字段的映射中禁用规范。如果字段为 "index":"analyzed"(默认),则默认情况下应启用它。如果您不希望您的标签字段被分析,您可以切换到 "index":"not_analyzed"(这通常是有意义的,但取决于您的数据和域),或者在您的标签字段的映射中添加 "omit_norms": true 选项。


文件是否在不同的分片上找到?来自弹性搜索文档:

"在特定分片上执行查询时,它不会考虑来自其他分片的词频和其他搜索引擎信息。如果我们想要支持准确的排名,我们需要先执行查询所有分片并收集相关词频,然后基于它执行查询。"

解决方法是指定搜索类型。使用 dfs_query_and_fetch 搜索类型执行初始分散阶段,该阶段会计算分布的词频以进行更准确的评分。

您可以在这里阅读更多内容。


相关推荐

  • Spring部署设置openshift

    Springdeploymentsettingsopenshift我有一个问题让我抓狂了三天。我根据OpenShift帐户上的教程部署了spring-eap6-quickstart代码。我已配置调试选项,并且已将Eclipse工作区与OpehShift服务器同步-服务器上的一切工作正常,但在Eclipse中出现无法消除的错误。我有这个错误:cvc-complex-type.2.4.a:Invali…
    2025-04-161
  • 检查Java中正则表达式中模式的第n次出现

    CheckfornthoccurrenceofpatterninregularexpressioninJava本问题已经有最佳答案,请猛点这里访问。我想使用Java正则表达式检查输入字符串中特定模式的第n次出现。你能建议怎么做吗?这应该可以工作:MatchResultfindNthOccurance(intn,Patternp,CharSequencesrc){Matcherm=p.matcher…
    2025-04-161
  • 如何让 JTable 停留在已编辑的单元格上

    HowtohaveJTablestayingontheeditedcell如果有人编辑JTable的单元格内容并按Enter,则内容会被修改并且表格选择会移动到下一行。是否可以禁止JTable在单元格编辑后转到下一行?原因是我的程序使用ListSelectionListener在单元格选择上同步了其他一些小部件,并且我不想在编辑当前单元格后选择下一行。Enter的默认绑定是名为selectNext…
    2025-04-161
  • Weblogic 12c 部署

    Weblogic12cdeploy我正在尝试将我的应用程序从Tomcat迁移到Weblogic12.2.1.3.0。我能够毫无错误地部署应用程序,但我遇到了与持久性提供程序相关的运行时错误。这是堆栈跟踪:javax.validation.ValidationException:CalltoTraversableResolver.isReachable()threwanexceptionatorg.…
    2025-04-161
  • Resteasy Content-Type 默认值

    ResteasyContent-Typedefaults我正在使用Resteasy编写一个可以返回JSON和XML的应用程序,但可以选择默认为XML。这是我的方法:@GET@Path("/content")@Produces({MediaType.APPLICATION_XML,MediaType.APPLICATION_JSON})publicStringcontentListRequestXm…
    2025-04-161
  • 代码不会停止运行,在 Java 中

    thecodedoesn'tstoprunning,inJava我正在用Java解决项目Euler中的问题10,即"Thesumoftheprimesbelow10is2+3+5+7=17.Findthesumofalltheprimesbelowtwomillion."我的代码是packageprojecteuler_1;importjava.math.BigInteger;importjava…
    2025-04-161
  • Out of memory java heap space

    Outofmemoryjavaheapspace我正在尝试将大量文件从服务器发送到多个客户端。当我尝试发送大小为700mb的文件时,它显示了"OutOfMemoryjavaheapspace"错误。我正在使用Netbeans7.1.2版本。我还在属性中尝试了VMoption。但仍然发生同样的错误。我认为阅读整个文件存在一些问题。下面的代码最多可用于300mb。请给我一些建议。提前致谢publicc…
    2025-04-161
  • Log4j 记录到共享日志文件

    Log4jLoggingtoaSharedLogFile有没有办法将log4j日志记录事件写入也被其他应用程序写入的日志文件。其他应用程序可以是非Java应用程序。有什么缺点?锁定问题?格式化?Log4j有一个SocketAppender,它将向服务发送事件,您可以自己实现或使用与Log4j捆绑的简单实现。它还支持syslogd和Windows事件日志,这对于尝试将日志输出与来自非Java应用程序…
    2025-04-161