主题中的问题：“clusterModeller”

FME中的聚类点（聚类大小）

比肖夫 — 清华大学，2018年7月5日18:21:26格林尼治标准时间

嗨，大家好，

我总共有n（点）在某一特定区域上按空间划分的。我想把他们分成X集群使用Y每个群集的成员。这必须在空间上尽可能优化。

所以我想在变压器中设置以下参数：

-集群的数量

-簇的大小或最小值。和最大。簇的大小

有人有什么想法吗？我已经尝试使用集群建模器，k-means&rclustercalculation没有成功。

事先谢谢！

DBSCAN密度点聚类

马尔科 — 星期二，2017年12月12日10:32:53格林尼治标准时间

在开放源码库中有许多不同的集群算法实现，包括dbscan和kmeans。一个用于聚类的FME转换器在试图映射更复杂的数据集时非常有用。我知道人们已经使用三维地形和距离矩阵来做类似的事情，但似乎没有现成的FME解决方案，在FME中创建聚集区域是一个相当大的挑战。我想运行scikit的python学习可能是最简单的方法？但变压器将非常有用，并将有助于使FME更像一个绘图工具。

基于位置的群集或组n点

比亚哈特 — 坐，2016年11月26日12:50:21格林尼治标准时间

你好，

我有10万以上的积分，我想分组成一个固定数量的成员，空间上尽可能优化。

数据以文本或csv的形式发送给我，包含各种属性，包括邮政编码。我已经使用操作系统代码点将每一行地理位置引用到每个邮政编码的名义中心。这给了我每排的东行和北行。我尝试将此转换为XYZ，然后按照本文中的建议进行操作。https://knowledge.亚搏在线safe.com/questions/24064/cluster-points-based-on-location-k-means-method.html.然而，我怀疑是因为我对失效模式分析的工作知识有限，我正在努力创建正确的工作流。亚搏在线

我在FME中尝试了另一种方法，从点创建Voronoi多边形，然后使用PointOnAreaOverlayer添加多边形中的点重叠/计数。我想我可以根据最近的邻近位置来分解多边形，直到达到所需的数量。

有人能提供任何建议吗？关于如何最好地提出解决方案的提示或说明？

谢谢你花时间看

乙

基于位置的聚类点（k-均值法）

弗里凡德尔瓦尔克 — 结婚，2016年3月2日16:39:16格林尼治标准时间

你好，

我正在尝试执行以下操作：

我总共有n在给定区域上空间上划分的地址（点）。

我想把他们分成X集群使用Y每个群集的成员。这必须在空间上尽可能优化。

据我所知，它应该是k均值算法中的某一行。

事实上，邻里聚合器接近了，但是我想为每个集群设置一个固定数量的成员，不是最小的。

有人有什么想法吗？我已经尝试使用集群建模器，无济于事。

事先谢谢！

轻弹

聚类或密度建模

史都华 — 清华大学，2015年10月8日19:15:56格林尼治标准时间

下载

clusterModeller.zip文件

概述

这个变压器是因为弗梅拉克用户组。

我正在绘制犯罪热点地图。使用其他地理信息系统，我可以很容易地进行核密度类型分析，它将创建密集区域的轮廓。我想在FME中做这个，但我在挣扎！有什么想法吗？

FME确实有密度计算器变压器，但这有点不同。基本上，我们需要计算密度（或聚类），取每个点，评估同一区域内相似点的密度。

输入

此转换器接受任何一组点特征作为输入。

上面：在我的测试案例中，我使用了一组地址点。

你可以看到地址簇在哪里，但是我们能把它写成一种更好的可视化格式吗？

产量

是的，我们可以！该变压器的输出可以是一组轮廓，或者表面特征。你可以把它写成多种格式，包括真正的三维可视化。

上面：在Adobe Viewer中打开3D PDF输出。这显示了表面和轮廓，当然，你可以只使用其中一个。

关于产出的一个问题是它看起来相当平坦，即使在最密集的地区。为了反击这一点，Z值都被放大了10倍。

方法论

方法很简单（见附件：clusterModeller.zip文件）我只找到一个给定半径内每个点的邻居数量，并将该值用作DEM/曲面模型中的Z。诀窍是找到最好的半径以获得良好的结果。此转换器为用户提供输入该值的能力，或者根据输入点之间的平均距离自动计算。

详细描述

这是变压器的整体。你可以看到它是如何由两个主要部分组成的。

上面：自定义转换器定义。

让我们仔细看看蓝色部分书签，因为这是所有真正的工作发生的地方。

上面：处理部分。

这开始于邻域变压器。而不是正常的基础/候选用途，我们使用的是“仅限候选人”模式下的邻居查找程序。我们为查找邻居设置了一个最大半径（我称之为“公差”），并设置了一个列表属性来存储结果。

这个列表元素计数器 然后用于查找列表中有多少条目-即有多少邻居聚集在这一点上，在规定的公差范围内。不匹配点（没有相邻点的点）设置为0。

这个3DR Transformer只需将每个点的z坐标设置为该值，以及定标器 乘以10以强调结果。

最后，SurfaceModeller将点及其Z值转换为数字高程模型（DEM），并使用该模型创建一组轮廓和一个三角网曲面。这些轮廓是与几乎任何格式都兼容的简单线条特征。表面是真正的三维特征，与支持3D的格式兼容（PDF，Geodatabase3ds等）。

你可能会问，“工作区的红色部分做了什么？”.如果用户没有设置公差，我们就在这里计算公差。

上面：公差计算部分。

这里邻域再次使用，但这次我们想找出每个点和它最近的邻居之间的距离。

然后一个统计计算器 和一个表达式评估器 用于根据点之间的平均距离计算公差值。

这个特征合并 然后将该公差值重新附加到原始特征上。

局限性

有一些明显的局限性，但我可能应该指出：

我不知道这个方法是否真的适用于建模集群。我认为这是一个很好的结果。
有一件事是肯定不能做到的，那就是证明集群是否具有统计意义。它们可能只是随机的模式。
当你不确定你的数据时，公差计算是很方便的。但同样，这只是一种产生可接受结果的方法。您可以尝试使用值来获得更好的结果。

更新

因为我拍了上面的截图，我做了以下更新：

获取用户对z放大系数的输入。

向日志窗口写入一条消息，说明正在计算哪些公差。

这个聚类模型现在可以从下载变压器FME集线器在这里。FME Hub上的版本可能会被更新，所以一定要检查出来。

未来更新

因为这不是一个特定的项目，所以我并不打算做进一步的更新。但是我可以……

以与自动公差计算类似的方式计算轮廓间隔。
计算统计显著性数字。我在想…
创建与输入相同数量的点，在相同的X/Y范围内，但在随机的地点。
从随机位置创建曲面。
计算簇状曲面减去随机曲面的体积
值越接近零，原始数据的聚集度越低。