如何将html页面中的数据读入单元格?

时间:2015-09-08 21:47:24

标签: html matlab

我必须手动填充许多网页的电子表格。我只需要从每个页面中获取一些细节,例如标题,描述等。手动执行此操作变得过于单调和无聊所以我认为我可以使用Matlab对其进行半自动化。

假设这是一个例子:http://www.smythstoys.com/uk/en-gb/video-games-tablets/c-751/xbox-one/p-14141/xbox-one-1tb-console/

我可以使用以下方法将此页面读入matlab:

page = urlread('..the_webpage..');

这基本上将其源代码复制到字符串变量中。查看源代码我可以看到标题位于<title></title>标签中,描述也是如此。

有什么方法可以从字符串中提取这些值并进入单元格数组。然后,我可以轻松地将它们移动到Excel电子表格中。我尝试使用textscan但它没有用,因为我无法分辨值之间的分隔符。

1 个答案:

答案 0 :(得分:3)

您需要在Matlab中编写HTML解析器。唐&#39;吨。有很多项目都是这样做的,因为它是一项非常常见的任务,但也是一项非常复杂的任务。

尝试python和beautifulsoup,并编写一个python程序,为您的matlab应用程序提取数据。你可以从matlab执行python程序,然后。

Matlab是一种数学处理语言。编写HTML解析器就像cutting down a tree with a herring。不要浪费你的博士候选人的生命。学习一点python并用通用语言做一般目的问题。