我想在Solr中的数据导入处理程序中使用多个数据源,并在查询父实体中的数据库后传递子实体中的URL值

时间:2012-05-19 14:31:26

标签: solr

我想在Solr中的DataImporthandler中使用多个数据源,并在查询父实体中的数据库后传递子实体中的URL值。 这是我的rss-data-config文件:

<dataConfig>
    <dataSource type="JdbcDataSource" name="ds-db" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/HCDACoreDB" 
                            user="root" password="CDA@318"/>
    <dataSource type="URLDataSource" name="ds-url"/>
    <document>
        <entity name="feeds" query="select f.feedurl, f.feedsource, c.categoryname from feeds f, category c where f.feedcategory = c.categoryid">

        <field column="feedurl" name="url" dataSource="ds-db"/>
        <field column="categoryname" name="category" dataSource="ds-db"/>

        <field column="feedsource" name="source" dataSource="ds-db"/>

        <entity name="rss"
                transformer="HTMLStripTransformer" 
                forEach="/RDF/channel | /RDF/item" 
                processor="XPathEntityProcessor" 
                url="${dataimporter.functions.encodeUrl(feeds.feedurl)}" > 

            <field column="source-link" dataSource="ds-url" xpath="/rss/channel/link" commonField="true" />
            <field column="Source-desc" dataSource="ds-url" xpath="/rss/channel/description" commonField="true" />
            <field column="title" dataSource="ds-url" xpath="/rss/channel/item/title" />
            <field column="link" dataSource="ds-url" xpath="/rss/channel/item/link" />
            <field column="description" dataSource="ds-url" xpath="/rss/channel/item/description" stripHTML="true"/>
            <field column="pubDate" dataSource="ds-url" xpath="/rss/channel/item/pubDate" />
            <field column="guid" dataSource="ds-url" xpath="/rss/channel/item/guid" />
            <field column="content" dataSource="ds-url" xpath="/rss/channel/item/content" />
            <field column="author" dataSource="ds-url" xpath="/rss/channel/item/creator" />
        </entity>

    </entity>
</document>

我所做的是在名为feeds的第一个实体中我正在查询数据库并希望使用feedurl作为子实体名称rss的URL。

运行dataimport时得到的错误是: java.net.MalformedURLException:no protocol:nullselect f.feedurl,f.feedsource,c.categoryname from feeds f,category c where f .feedcategory = c.categoryid

URL us NULL表示不将feedur分配给URL。

有关我做错的任何建议吗?

1 个答案:

答案 0 :(得分:5)

以下是一个例子:

<?xml version="1.0" encoding="UTF-8"?>
<dataConfig>
    <dataSource name="db1" ... />
    <dataSource name="db2"... />
    <document>
        <entity name="outer" dataSource="db1" query=" ... ">
            <field column="id" />
            <entity name="inner" dataSource="db2" query=" select from ... where id = ${outer.id} ">
                <field column="innercolumn" splitBy=":::" />
            </entity>
        </entity>
    </document>

这个想法是将一个嵌套实体的定义用于对另一个数据库进行额外查询。

您可以访问像 $ {outer.id}

这样的父实体字段