Question

基本上我正在尝试索引Solr中的word或pdf文档并找到ExtractingRequestHandler，但无法弄清楚如何在执行HTTP POST请求的c＃中编写代码，就像在Solr wiki中一样：http://wiki.apache.org/solr/ExtractingRequestHandler

我使用Solr zip中example / solr目录中的文件在Tomcat 7（7.0.22）上安装了Solr 3.4，但我没有改变任何东西。 ExtractingRequestHandler应该在solrconfig.xml中开箱即用，可以使用，对吗？

你们有些人可以提供一个C＃（HttpWebRequest）示例，说明如何发出HTTP POST请求并上传PDF文件，就像在Solr wiki中使用curl一样吗？

我看遍了这个网站以及其他许多人试图找到一个关于如何完成这个的示例或教程，但是没有找到任何东西。

修改

我终于设法使用SolrNet让它工作了！

为了使它能够工作，你需要从Solr zip中将它复制到Solr安装目录中的lib文件夹：

apache-solr-cell-3.4.0.jar文件
contrib \ extraction \ lib目录的内容

使用SolrNet 0.4.0 beta 2，此代码完成了这项工作：

Startup.Init<IndexDocument>("YOUR-SOLR-SERVICE-PATH");
var solr = ServiceLocator.Current.GetInstance<ISolrOperations<IndexDocument>>();

using (FileStream fileStream = File.OpenRead("FILE-PATH-FOR-THE-FILE-TO-BE-INDEXED"))
{
    var response =
        solr.Extract(
            new ExtractParameters(fileStream, "doc1")
            {
                ExtractFormat = ExtractFormat.Text,
                ExtractOnly = false
            });
}

solr.Commit();

对不起，不好意思。但我希望其他人会觉得这很有用。

Answer 1

我建议使用SolrNet客户端。它支持ExtractingRequestHandler。

从C＃客户端索引Solr中的pdf文档

1 个答案: