应用错误收集

Java API：下载和计算给定网页的tf-idf

时间：2011-02-14 10:29:13

标签： java lucene solr tf-idf

我是IR技术的新手。

我正在寻找基于Java的API或工具来执行以下操作。

下载指定的网址
提取令牌
删除停用词
执行词干
创建倒置索引
计算TF-IDF

请让我知道Lucene怎么能对我有所帮助。

此致 Yuvi

2 个答案:

答案 0 :(得分：4)

你可以试试Word Vector Tool - 自最新发布以来已经有一段时间了，但它在这里工作正常。它应该能够执行您提到的所有步骤。但是，我自己从未使用过爬虫部件。

答案 1 :(得分：3)

实际上，TF-IDF是给予文档中术语的分数，而不是整个文档。如果您只想在文档中每个术语使用TF-IDF，可以使用this method，而不要触及Lucene。如果要创建搜索引擎，则需要执行更多操作（例如从给定的URL中提取文本，其相应的文档可能不包含原始文本）。如果是这种情况，请考虑使用Solr。

Java API：下载和计算给定网页的tf-idf
测试时计算IDF（如在TF-IDF中）？
java - tf * idf实现？
优势页面排名超过TF-IDF
计算solr和java中文档中单词的TF-IDF
我的文件的TF-IDF收益率为0
计算网页的tf-idf
在pyspark中计算名称/姓氏的tf-idf
Elasticsearch：获取给定文档中每个术语的tf-idf
计算gensim中tf-idf的问题

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？