java - 使用java进行屏幕抓取而不下载Web源代码

我正在尝试从特定网站提取信息，然后将其存储在单独的文本文件中。例如，我想转到http://www.ncbi.nlm.nih.gov/nuccore/293762并提取基因组序列。这些序列被格式化为10个字符的组，仅包括由空格分隔的字母“a，t，c，g”。它们看起来像这样：“acctgtacgg”。我一直在寻找一个解决方案几个小时，但我找到的只是解析html代码的java库，如jsoup。这个问题是，当我查看网站的来源并搜索基因组序列时，它们似乎不包含在源代码中，尽管我可以在DOM树中找到它们。有没有办法以编程方式读取网页上的实际数据而无需下载源代码？或者有更好的方法来解决这个问题吗？请指出我正确的方向，将不胜感激。

使用java进行屏幕抓取而不下载Web源代码

0 个答案: