你在这里: 亚搏在线工作流 > HTMLExtractor

HTMLExtractor

从网页中提取结构化数据或格式化以人为可读性(屏幕擦伤)的其他HTML源,使用CSS选择器将HTML内容的部分提取到特征属性中。

跳转到配置

典型的用途

  • 从网页中提取内容

它是如何工作的?

HTMLExtractor允许您定义针对传入HTML内容运行的多个查询,这些内容可以作为属性或文件提供。查询由输出属性名、CSS Selector(它定义要提取的标记类型)和提取整个标记、值或HTML属性的选择组成。

您可以只提取第一个匹配标记,也可以将多个结果保存为列表属性

与XML转换器或正则表达式搜索相比,htmllextractor更适合于HTML内容,因为它具有更宽松的解析和过滤器,可以承受对页面内容的微小更改。

使用说明

  • 标准的CSS选择器用于创建查询。可以在这里找到他们的名单:CSS选择器参考

配置

输入端口

输出端口

参数

对话框选项

编辑变压器参数

使用一组菜单选项,可以通过引用工作区中的其他元素来分配变压器参数。一些变压器也可提供更高级的功能,例如高级编辑器和算术编辑器。要访问这些选项的菜单,请单击除适用的参数旁边。有关更多信息,请参阅变压器参数菜单选项

定义值

有几种方法可以定义在Transformer中使用的值。最简单的方法是输入一个值或字符串,它可以包含各种类型的函数,如属性引用、数学和字符串函数,以及工作空间参数。有许多工具和快捷方式可以帮助构造值,这些工具和快捷方式通常可以从值字段旁边的下拉上下文菜单中获得。

参考

处理行为

基于特征

功能持有

依赖性 没有任何
FME授权级别 FME专业版及以上
别名
历史 发布:FME 2017.0
类别

一体化

网页

亚搏在线工作流

FME知识中心

FME知识中心是演示,How-TOS,文章,常见问题和更多的地方。获取您的问题的答案,从其他用户学习,并建议,投票和评论新功能。

搜索关于Htmlextractor的所有结果在FME知识中心。