GSA订阅源 - 发布的元数据被忽略

时间:2015-04-10 14:32:50

标签: metadata google-search-appliance

我们正在为部分PDF发布“metadata-and-url”GSA Feed,而这些PDF无法通过正常抓取来覆盖。除了PDF的URL,我们还提交了其他元数据。 Feed成功完成,PDF将添加到GSA索引(在索引诊断和结果XML中可用)。但是发布的元数据被忽略,只考虑GSA本身通过抓取文档(作者等)提取的元数据。

我们远低于许可限制(甚至达不到50%)。

Feed记录如下所示:

<record lock="true" action="add" mimetype="application/pdf" crawl-once="true" url="<PDF URL HERE>">
        <metadata>
            <meta content="md1value" name="md1name"/>
            <meta content="md2value" name="md2name"/>
            ...
        </metadata>
</record>

索引诊断页面显示PDF的此元数据:

Metadata Name   Metadata Content            Metadata Content length
CreationDate    D:20110622112810-04'00'     23
ModDate         D:20110622112949-04'00'     23
Producer        PDF-XChange 4.0.165.0       75

因此没有md1name和md2name的条目。请帮忙。

2 个答案:

答案 0 :(得分:1)

以下是Google文档的摘录。

元数据信息 - 抓取时的网址元数据信息。还显示了实体识别添加的元数据。请注意,当存在大量元数据信息时,并非所有元数据都显示在此处,即使所有元数据仍然正确编入索引。

为了查看所有元数据,使用搜索查询(不使用proxystylesheet) getfields = *并检查结果xml。

希望它有所帮助。

答案 1 :(得分:1)

您应该尝试从Feed中剥离所有xml属性,并仅推送最相关的属性(例如,remove:lock = true,crawl-once = true)。成功处理订阅源后(因此您在索引诊断中看到记录及其元数据),您可以尝试添加属性。请尝试以下格式:

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" "gsafeed.dtd">
<gsafeed>
<header>
    <datasource>$datasource_name</datasource>
    <feedtype>metadata-and-url</feedtype>
</header>
<group>
    <record action="add" mimetype="text/pdf" url="{$URL}">
        <metadata>
            <meta name="{$name1}" content="{$content1}" />
            <meta name="{$name2}" content="{$content2}" />
        </metadata>
    </record>
</group>
</gsafeed>

还要确保您的Feed客户端使用适当的类型(metadata-and-url)发布Feed。而且我认为PDF文件的mimetype是“text / pdf”而不是“application / pdf”(这样的事情经常令人头疼)。