我必须手动填充许多网页的电子表格。我只需要从每个页面中获取一些细节,例如标题,描述等。手动执行此操作变得过于单调和无聊所以我认为我可以使用Matlab对其进行半自动化。
假设这是一个例子:http://www.smythstoys.com/uk/en-gb/video-games-tablets/c-751/xbox-one/p-14141/xbox-one-1tb-console/
我可以使用以下方法将此页面读入matlab:
page = urlread('..the_webpage..');
这基本上将其源代码复制到字符串变量中。查看源代码我可以看到标题位于<title></title>
标签中,描述也是如此。
有什么方法可以从字符串中提取这些值并进入单元格数组。然后,我可以轻松地将它们移动到Excel电子表格中。我尝试使用textscan
但它没有用,因为我无法分辨值之间的分隔符。
答案 0 :(得分:3)
您需要在Matlab中编写HTML解析器。唐&#39;吨。有很多项目都是这样做的,因为它是一项非常常见的任务,但也是一项非常复杂的任务。
尝试python和beautifulsoup,并编写一个python程序,为您的matlab应用程序提取数据。你可以从matlab执行python程序,然后。
Matlab是一种数学处理语言。编写HTML解析器就像cutting down a tree with a herring。不要浪费你的博士候选人的生命。学习一点python并用通用语言做一般目的问题。