我们正在为部分PDF发布“metadata-and-url”GSA Feed,而这些PDF无法通过正常抓取来覆盖。除了PDF的URL,我们还提交了其他元数据。 Feed成功完成,PDF将添加到GSA索引(在索引诊断和结果XML中可用)。但是发布的元数据被忽略,只考虑GSA本身通过抓取文档(作者等)提取的元数据。
我们远低于许可限制(甚至达不到50%)。
Feed记录如下所示:
<record lock="true" action="add" mimetype="application/pdf" crawl-once="true" url="<PDF URL HERE>">
<metadata>
<meta content="md1value" name="md1name"/>
<meta content="md2value" name="md2name"/>
...
</metadata>
</record>
索引诊断页面显示PDF的此元数据:
Metadata Name Metadata Content Metadata Content length
CreationDate D:20110622112810-04'00' 23
ModDate D:20110622112949-04'00' 23
Producer PDF-XChange 4.0.165.0 75
因此没有md1name和md2name的条目。请帮忙。
答案 0 :(得分:1)
以下是Google文档的摘录。
元数据信息 - 抓取时的网址元数据信息。还显示了实体识别添加的元数据。请注意,当存在大量元数据信息时,并非所有元数据都显示在此处,即使所有元数据仍然正确编入索引。
为了查看所有元数据,使用搜索查询(不使用proxystylesheet) getfields = *并检查结果xml。
希望它有所帮助。
答案 1 :(得分:1)
您应该尝试从Feed中剥离所有xml属性,并仅推送最相关的属性(例如,remove:lock = true,crawl-once = true)。成功处理订阅源后(因此您在索引诊断中看到记录及其元数据),您可以尝试添加属性。请尝试以下格式:
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" "gsafeed.dtd">
<gsafeed>
<header>
<datasource>$datasource_name</datasource>
<feedtype>metadata-and-url</feedtype>
</header>
<group>
<record action="add" mimetype="text/pdf" url="{$URL}">
<metadata>
<meta name="{$name1}" content="{$content1}" />
<meta name="{$name2}" content="{$content2}" />
</metadata>
</record>
</group>
</gsafeed>
还要确保您的Feed客户端使用适当的类型(metadata-and-url)发布Feed。而且我认为PDF文件的mimetype是“text / pdf”而不是“application / pdf”(这样的事情经常令人头疼)。