以编程方式从HTML获取文本

时间:2019-02-12 22:16:22

标签: html web

因此,在我的工作中,我偶尔要负责手动将HTML页面中的数据输入到excel文件中。这通常会详细说明诸如课程列表之类的内容,我必须在其中获取标题,学位类型,页面链接以及其他信息。有没有办法我可以通过编程方式处理此问题?我具有Java,Python和PHP的中级编程技能的初学者,并且在Web Dev中拥有非常扎实的基础。任何帮助,将不胜感激。

从我的理解上来看,我将不得不循环查找标记/类之间的某些文本,然后将其转储到另一个文本文件中?从那里我很迷路。

尝试搜索,但找不到帮助的解决方案。只是想弄清楚该怎么做,将不胜感激链接或新的答案。再次感谢,希望我听起来不会像白痴一样大声笑

2 个答案:

答案 0 :(得分:0)

对于初学者来说,我会考虑使用 JavaScript 来获取标记之间的值。

更具体地说,您将对DOM元素的innerText属性感兴趣:

var x = document.getElementById("myBtn").innerText;

这会将ID为“ myBtn”的元素中的文本存储在变量x中。

https://www.w3schools.com/jsref/prop_node_innertext.asp

答案 1 :(得分:0)

找到了我想要的东西,这要归功于这篇文章的一些评论。我已经进行了如下所示的循环:

var Array = [];
$('.class').each(function () {
    Array.push(this.innerHTML);
});