回答“抓取动态网页数据” https://knowledge.亚搏在线safe.com/questions/80267/scraping-dynamic-web-page-data.html “抓取动态网页数据”问题的最新答案 由dbaldacchino1回答 网址:https://knowled亚搏在线ge.safe.com/answers/80408/view.html

好的,所以我可以在没有附加工具的情况下获取数据。幸运?可能:)进行了一些侦查,但下面是我如何得到上面这个例子所需要的:

  1. 我保存了网页,但选择了Chrome“网页中我刚注意到的选项,完成“
  2. 我在记事本+中打开了这个文件,并试着通读,看看有没有什么有用的地方。我注意到我想要的标签是“h2”,但最重要的是,我在保存的页面中间注意到了这一点:
  3. 我通过将URL重建为https://help.autodesk.com/cloudhelp/enu/connect/files/guid-03d59aad-65b0-45e3-84f2-a12aa5b267.htm“并加载页面(URL重新定向到原始页面)
  4. 在FME中,我在这个新的URL上使用了一个htmlextractor:
  5. 巴姆!尽可能的快乐:)

我想有遗嘱的时候,有办法!

坐,2018年10月13日00:01:59格林尼治标准时间 德巴尔奇奇诺
由dbaldacchino1回答 https://knowledge.亚搏在线safe.com/answers/80377/view.html网站

谢谢@雷维兹.我的python技巧是……嗯……主要是复制和粘贴:)所以我非常感谢你分享你的任何内容,也许可以用它来了解更多。我在这个项目中的目标是搜集文本以知道什么时候有新版本的软件可用。我在其他网站上做过,但是他们要么有一些表暴露出来,我可以直接在FME中得到,或者有一个可用的API,我可以从页面源代码本身找到它。

FRI,2018年10月12日14:19:25格林尼治标准时间 德巴尔奇奇诺
回复:Revesz https://knowledge.亚搏在线safe.com/answers/80365/view.html网站

不幸的是,它是Web浏览器或至少是呈现引擎的任务。

有一些python解决方案可以调用浏览器来进行渲染,并从渲染的dom中获取所需的信息。

其中之一是硒包装.它甚至可以在无头模式下调用Web浏览器。这里有一个无头铬合金的讨论出发点.

此解决方案要求在fme python中安装包铬合金驱动器可执行到一个由python脚本可见的文件夹。

我正在研究一个渲染解决方案,但它不是一个高优先级的解决方案,因此可能需要一周的时间。但是我很高兴在它相当稳定的时候分享它。

FRI,2018年10月12日10:18:10格林尼治标准时间 雷维兹