Question

我们正在为部分PDF发布“metadata-and-url”GSA Feed，而这些PDF无法通过正常抓取来覆盖。除了PDF的URL，我们还提交了其他元数据。 Feed成功完成，PDF将添加到GSA索引（在索引诊断和结果XML中可用）。但是发布的元数据被忽略，只考虑GSA本身通过抓取文档（作者等）提取的元数据。

我们远低于许可限制（甚至达不到50％）。

Feed记录如下所示：

<record lock="true" action="add" mimetype="application/pdf" crawl-once="true" url="<PDF URL HERE>">
        <metadata>
            <meta content="md1value" name="md1name"/>
            <meta content="md2value" name="md2name"/>
            ...
        </metadata>
</record>

索引诊断页面显示PDF的此元数据：

Metadata Name   Metadata Content            Metadata Content length
CreationDate    D:20110622112810-04'00'     23
ModDate         D:20110622112949-04'00'     23
Producer        PDF-XChange 4.0.165.0       75

因此没有md1name和md2name的条目。请帮忙。

Answer 1

以下是Google文档的摘录。

元数据信息 - 抓取时的网址元数据信息。还显示了实体识别添加的元数据。请注意，当存在大量元数据信息时，并非所有元数据都显示在此处，即使所有元数据仍然正确编入索引。

为了查看所有元数据，使用搜索查询（不使用proxystylesheet） getfields = *并检查结果xml。

希望它有所帮助。

Answer 2

您应该尝试从Feed中剥离所有xml属性，并仅推送最相关的属性（例如，remove：lock = true，crawl-once = true）。成功处理订阅源后（因此您在索引诊断中看到记录及其元数据），您可以尝试添加属性。请尝试以下格式：

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" "gsafeed.dtd">
<gsafeed>
<header>
    <datasource>$datasource_name</datasource>
    <feedtype>metadata-and-url</feedtype>
</header>
<group>
    <record action="add" mimetype="text/pdf" url="{$URL}">
        <metadata>
            <meta name="{$name1}" content="{$content1}" />
            <meta name="{$name2}" content="{$content2}" />
        </metadata>
    </record>
</group>
</gsafeed>

还要确保您的Feed客户端使用适当的类型（metadata-and-url）发布Feed。而且我认为PDF文件的mimetype是“text / pdf”而不是“application / pdf”（这样的事情经常令人头疼）。

GSA订阅源 - 发布的元数据被忽略

2 个答案: