使用R XML包从RSS Feed中提取全文

时间:2013-08-30 11:10:42

标签: xml r rss full-text-search

您好我正在尝试从RSS Feed中提取全文:http://www.hu-berlin.de/pr/nachrichten.rss?cat=exz。显示的只是简短说明和全文链接:

<item>
    <guid>http://www.hu-berlin.de/pr/nachrichten/nr1305/nr_130524_00</guid>
     <title>KOSMOS Summer University 2013 </title>
     <link>http://www.hu-berlin.de/pr/nachrichten/nr1305/nr_130524_00</link>
     <description>Frist verlängert: Anmeldung zum internationalen Forschertreffen bis 30. Juni möglich</description>
     <pubDate>Thu, 20 Jun 2013 00:00:00 +0200</pubDate>
  </item>

我可以使用xmlTreeParse

直接得到它

我想知道天气可以使用XML库直接在R中提取全文:我发现这个:Parse RSS feed using XML packagin R虽然它工作正常,但它对全文问题没有帮助。我找到了rss-to-full-texr转换器(比如:http://fulltextrssfeed.com/),这正是我需要的,但我不知道他们是如何实现这一点的。也许这会帮助其他人寻找相同的东西或没有人需要研究这个因为它在这种情况下如此基本我很抱歉我困扰你。 我很感激任何帮助或有用的链接!

1 个答案:

答案 0 :(得分:0)

全文不在 RSS Feed XML数据中。你必须获得链接,获取该网页,然后使用R的HTML解析工具解析它,这在其他地方有详细描述。

RSS被设计为摘要格式,然后人类应该进入网页。