HTMLExtractor
典型的用途
- 从网页中提取内容
它是如何工作的?
HTMLExtractor允许您定义针对传入HTML内容运行的多个查询,这些内容可以作为属性或文件提供。查询由输出属性名、CSS Selector(它定义要提取的标记类型)和提取整个标记、值或HTML属性的选择组成。
您可以只提取第一个匹配标记,也可以将多个结果保存为列表属性.
与XML转换器或正则表达式搜索相比,htmllextractor更适合于HTML内容,因为它具有更宽松的解析和过滤器,可以承受对页面内容的微小更改。
![关闭](http://www.baooytra.com/docs/fme/2017.0/html/FME_Desktop_Documentation/FME_Transformers/Transformers/../Skins/Default/Stylesheets/Images/transparent.gif)
在工作空间的这一部分,网页上的所有链接都将被提取并作为列表属性输出。
一个httpcaller.使用GET方法检索网页的内容。页面的内容以HTML形式存储在_Response_Body.属性。
在HTMLExtractor中,将相同的属性设置为HTML源,并构造一个查询来查找所有链接(CSS Selector =a [href]),提取唯一的链接本身(标记部分/ html属性=HREF.),并将其存储在一个名为的新属性中链接.
返回格式设置为列表属性,因此将包含所有匹配项。
输出看起来与此类似:
链接{0}= ' https://www.example.com/page1.html '
链接{1}= ' https://www.example.com/page2.html '
链接{2}= ' https://www.example.com/page3.html '
![关闭](http://www.baooytra.com/docs/fme/2017.0/html/FME_Desktop_Documentation/FME_Transformers/Transformers/../Skins/Default/Stylesheets/Images/transparent.gif)
在工作区的这一部分中,一个httpcaller.使用GET方法检索网页的内容并将其存储在属性中_Response_Body..
在HtmlexTractor中,构建查询以查找使用ID“文章”的DIV标记(CSS选择器=div#文章)。将提取该标签的内容(标记部分/ html属性=价值),并输出到新属性articlext..
使用返回格式设置为第一次匹配,遇到的第一个匹配div标记的内容将作为普通(非列表)属性输出。
使用说明
- 标准的CSS选择器用于创建查询。可以在这里找到他们的名单:CSS选择器参考
配置
输入端口
![关闭](http://www.baooytra.com/docs/fme/2017.0/html/FME_Desktop_Documentation/FME_Transformers/Transformers/../Skins/Default/Stylesheets/Images/transparent.gif)
此变形器接受任何功能。
输出端口
![关闭](http://www.baooytra.com/docs/fme/2017.0/html/FME_Desktop_Documentation/FME_Transformers/Transformers/../Skins/Default/Stylesheets/Images/transparent.gif)
具有包含提取查询结果的属性的功能。
参数
![关闭](http://www.baooytra.com/docs/fme/2017.0/html/FME_Desktop_Documentation/FME_Transformers/Transformers/../Skins/Default/Stylesheets/Images/transparent.gif)
HTML输入 | 源的类型。选择包括:
|
HTML内容 | 如果HTML输入设置为内容,则可以将HTML内容直接指定在HTML Content字段中,或者设置为属性的值。 |
HTML文件 | 如果HTML输入设置为文件,则可以指定输入HTML文件的路径。 |
![关闭](http://www.baooytra.com/docs/fme/2017.0/html/FME_Desktop_Documentation/FME_Transformers/Transformers/../Skins/Default/Stylesheets/Images/transparent.gif)
目标属性 | 将保存查询结果的属性的名称。 |
CSS选择器 | CSS选择器,其指定HTML文档或内容中的标签或一组标签。 选择器的列表可在以下网页找到: |
标记部分/ html属性 | 可设置为
或者,可以输入HTML属性名称(例如“HREF”或“ALT”)。这将导致从标签中提取的属性。 |
![关闭](http://www.baooytra.com/docs/fme/2017.0/html/FME_Desktop_Documentation/FME_Transformers/Transformers/../Skins/Default/Stylesheets/Images/transparent.gif)
返回格式 |
如果这设置为第一场比赛,目标属性将仅包含找到匹配查询的第一个元素。 如果设置为属性列表,目标属性将是列表,并将包含与查询匹配的所有结果。 |
对话框选项
![关闭](http://www.baooytra.com/docs/fme/2017.0/html/FME_Desktop_Documentation/FME_Transformers/Transformers/../Skins/Default/Stylesheets/Images/transparent.gif)
行重新排序 |
在提取查询中单击一行后启用。选择包括:
|
编辑变压器参数
使用一组菜单选项,可以通过引用工作区中的其他元素来分配变压器参数。一些变压器也可提供更高级的功能,例如高级编辑器和算术编辑器。要访问这些选项的菜单,请单击除适用的参数旁边。有关更多信息,请参阅变压器参数菜单选项.
定义值
有几种方法可以定义在Transformer中使用的值。最简单的方法是输入一个值或字符串,它可以包含各种类型的函数,如属性引用、数学和字符串函数,以及工作空间参数。有许多工具和快捷方式可以帮助构造值,这些工具和快捷方式通常可以从值字段旁边的下拉上下文菜单中获得。
![关闭](http://www.baooytra.com/docs/fme/2017.0/html/FME_Desktop_Documentation/FME_Transformers/Transformers/../Skins/Default/Stylesheets/Images/transparent.gif)
使用文本编辑器
文本编辑器提供了一种方便的方法来构建来自各种数据源的文本字符串(包括正则表达式),例如属性,参数和常量,其中结果直接在参数内使用。
使用算术编辑器
算术编辑器提供了一种方便的方法来构建来自各种数据源的数学表达式,例如属性,参数和特征函数,其中结果直接在参数内使用。
条件值
根据通过或失败的一个或多个测试条件设置值。
内容
表达式和字符串可以包括许多函数,字符,参数等 - 是否直接在参数中输入或使用其中一个编辑器构造。
参考
处理行为 |
|
功能持有 |
不 |
依赖性 | 没有任何 |
FME授权级别 | FME专业版及以上 |
别名 | |
历史 | 发布:FME 2017.0 |
类别 |
FME知识中心
FME知识中心是演示,How-TOS,文章,常见问题和更多的地方。获取您的问题的答案,从其他用户学习,并建议,投票和评论新功能。
搜索关于Htmlextractor的所有结果在FME知识中心。