我们已成功使用Youtube API创建GSA所需的元数据和网址xml Feed,并根据文档将其推送到我们的Google Search Appliance
我们遇到的问题是,我们知道您需要在内容来源>中添加一个开始网址。网页抓取>管理控制台中的“启动和阻止URL ”页面。如果我们将https://www.youtube.com作为开始网址和https://www.youtube.com/watch?v= *的跟随模式(所有看起来像所有youtube视频都会跟随),那么GSA只会对来自Feed的内容进行索引,还是会将其发送到youtube.com并索引一大堆不属于我们频道的内容?我无法在任何地方看到您可以为视频指定频道。
仅供参考,我们知道用于YouTube的FishBowlSolutions连接器,但试图避免使用TomCat启动另一台服务器,以便为我们的YouTube视频编制索引。
答案 0 :(得分:0)
Google CSE Search
YouTube User Panel
我没有使用过GSA(虽然我已经开始使用它了,这就是我发现你的帖子的方式),但是我使用Google的CSE完成此操作的方法是专门为频道,用户或播放列表编制索引一般来说,与youtube相比,即:
youtube dot com / user / alltrapmusic
或:youtube dot com / channel / UC_ahy2GUec7EmbWF3LGxLhQ
或:youtube dot com / playlist?list = PLsHnWFR4n5jBFYdsclaKtdWQtf2Iu8bKZ
因此,在CSE中,我可以配置为仅搜索该用户,频道和播放列表,并仅返回在这三者上找到的结果(Google CSE搜索链接)。
我只能假设GSA的工作方式相同(正如我所提到的,我没有GSA的经验);如果没有,我很抱歉。
〜chipleh
P.S。 - 要查找您的YouTube频道,请转到用户链接(YouTube用户面板链接);在那里你会找到家,视频,播放列表,频道等。希望有所帮助。
答案 1 :(得分:0)
您不应将youtube-url添加到您的起始网址,只能添加到您的关注模式。这样,抓取工具就不会从上到下抓取Youtube,但会抓取您在Feed中提供的网址。但是,如果GSA在已爬网页面上找到URL,则显然也会抓取这些URL。 一个选项是收紧跟随模式。当然,你可以在Googles Adapter Framework上开发一个Youtube连接器,这对Java开发人员来说并不难!
答案 2 :(得分:0)
对于任何想要使用Youtube api并将其视频推送到GSA的人,我们发现需要对Feed进行一些更改。
xml中的 feedtype 需要完整。这告诉GSA,它需要知道的有关内容的所有内容都在xml中,并且它没有我需要出去索引一个网址。
您需要在xml中有一个<content>
节点。我们使用来自Youtube api的描述作为值。这是在搜索结果
url属性需要是可以添加到GSA设置中的“开始”和“阻止URL”和“跟随”模式的值,并且它必须是唯一的。这些实际上并不需要存在,但GSA将在xml中使用此值来确定它是否应包含在索引中。我们使用了假网址,并附加了Youtube视频ID的值,使其成为唯一
displayurl 属性将是结果中显示的网址,因此它将包含实际的YouTube网址。
开始和阻止网址应包含常规网址属性值。对我们来说,这是假目录http://www.yourdomain.com/video/youtube/
关注模式应包含要遵循的模式,该模式也与起始网址匹配。由于我们只在该目录中有视频,因此我们可以将相同的值设置为起始网址。如果您指向一个真实的目录,并且其中包含您不想索引的其他内容,则可能需要添加视频中常见的任何模式。
下面是一个样本记录。我们更新了Feed后添加了“开始”和“阻止网址”,我们的视频会显示在搜索结果中。
<gsafeed>
<header>
<datasource>youtube</datasource>
<feedtype>full</feedtype>
</header>
<group action="add">
<record url="http://www.yourdomain.com/video/youtube/?VIDEOID" displayurl="https://www.youtube.com/watch?v=VIDEOID" mimetype="text/html">
<content><![CDATA[DESCRIPTION]]></content>
<metadata>
<meta name="Title" content="TITLE OF VIDEO"></meta>
<meta name="Published" content="2016-08-15T22:00:38.000Z"></meta>
<meta name="PhotoURL" content="https://i.ytimg.com/.."></meta>
</metadata>
</record>
</group>
</gsafeed>