文本差异

Question

所以这是一个不断出现的问题…我们需要报告两个版本的报告之间的文本差异。我可以访问前后字段并将其读到FME中，但我正在寻找分析字符串和报告差异（添加和删除）的方法。

最终的目标是用清晰标记的添加（绿色）和删除（红色）来格式化报告。不过，作为开始，我必须找到一些方法来分析这两个字符串，并将其分解到足以重新组装正确格式的字符串。也许是HTML。没有什么比简单的答案更让人兴奋的了，所以我怀疑这并不容易。）

我查看了自定义工作区“fuzzystringcomparer”和“fuzzystringcomparefrom2dataset”，但我认为他们不会对我有多大帮助。我想到了一个将字符串分割成单个单词的过程，并使用正则表达式进行重复循环，以确定之前存在哪些块，并识别添加和删除，但它现在开始看起来更像一个论文项目，而不是很容易实现的。所以我想我应该在这里问一下，是否有人有其他的想法，可能会使我的大脑发生变化，并把它放在一条通往成功的潜在道路上！提前感谢您的洞察力。

附言：我知道一些在线文本差异。工具，甚至找到了一个非常好的PDF比较工具，它保留了原始格式（这实际上是可取的，但对于这个任务来说并不重要），但我正在寻找一种更直观地报告数据差异的方法，并对布局有一些控制。BeyondCompare也做得很好，但是它缺乏创建一个包含所有差异的单一差异报告的控制。

Answer 1 · 2018-07-31T23:45:15Z

最佳答案

回答通过格哈拉德保险箱亚搏在线 ·7月31日，2018年11:45

您好!@ dBaldACCHIO1，

我将检查这个python模块并在pythoncaller中使用它：https://docs.python.org/3.5/library/difflib.html这是一个用法例子.

希望这有帮助！

添加注释 · 秀3· 分享

10×4000 需要字符左字符超过个字符

附件：最多可使用10个附件（包括图像），每个附件最多4.0 MB，总计4.0 MB。

德巴尔达奇诺 ·八月01日，2018年下午4:13 零

啊哈，巨蟒……不是我的专长（还没有！）.不过，谢谢你的小费；它可能有助于我定制上述定制变压器之一。这会是一个有意义的新变压器的想法？我认为在不需要自定义代码的情况下拥有它是一件很有用的事情。

Gerhardat亚搏在线safe♦ 德巴尔达奇诺 ·八月01日，2018年下午5:20 零

对，我认为那些定制的变形金刚使用同一个库，只是一个不同的用例。我认为对于diff本身来说，重新发明轮子可能不值得，挑战将是如何解析从模块中得到的结果。但我认为这在FME中是可以实现的。可能是一个新的自定义变压器枢纽？
也就是说，我认为这是一个很好的主意，我肯定会建议把它张贴在这里，让人们投票，并增加对它的要求。

德巴尔达奇诺 Gerhardat亚搏在线safe♦ ·八月01日，2018年下午6:44 零

谢谢，将张贴。我一定会看看这个图书馆，看看我是否可以分拆一个基于它们的自定义转换器。至少这让我感到安慰，我没有错过任何其他可用的技术，我肯定没有时间来重新发明车轮…我喜欢车轮！祝你今天愉快，谢谢大家。

Answer 2 · 2018-08-04T13:46:28Z

回答通过扒窃的 ·八月04日，2018年下午1:46

@德巴尔奇奇诺我为您构建了这个转换器：textDifferenceReportGenerator

添加注释 · 秀2· 分享

10×4000 需要字符左字符超过个字符

附件：最多可使用10个附件（包括图像），每个附件最多4.0 MB，总计4.0 MB。

德巴尔奇奇诺 ·八月06日，2018年上午5:47 零

谢谢 @帕尔皮！我会在早上试一试，然后发回。

德巴尔奇奇诺 ·八月06日，2018年下午4:49 零

您好! @帕尔皮我发现还有一些其他的选项可以设置，这样它可以查看每个单词，并导出一个HTML文件而不是字符串（看起来您是从difflib获取字符串输出并自己将其设置为HTML输出）。这是我上周发现的一个例子： https://www.youtube.com/watch？V=A1X6H19M9J0&T=7S

您是否愿意共享您的密码或删除保护，以便我/我们进一步改进您的工作？再次感谢！

Answer 3 · 2018-08-03T19:49:57Z

回答通过扒窃的 ·八月03日，2018年下午7:49

听起来你想用git。

你试过Git工具吗？

添加注释 · 秀1· 分享

10×4000 需要字符左字符超过个字符

附件：最多可使用10个附件（包括图像），每个附件最多4.0 MB，总计4.0 MB。

德巴尔达奇诺 ·八月03日，2018下午8:04 零

您好! @帕尔皮不，我没有。我需要将所有内容都保存在FME中（每个字符串都是一个特性，在为所有特性格式化一个单独的报告之前，我需要分析前后的特性）。我还研究了JScript和其他一些变体的可能性，因为我可能能够直接调用报表应用程序中的函数并完全绕过FME，因为在这种情况下，FME是有限报表系统（Ecrion呈现服务器使用的XSLT）的“一种出路”。我认为FME是一种定制差异报告系统的可能方法，但因为它看起来需要编码，我再看一下原始的报告编写应用程序（EcrionPublisher），因为它允许直接在那里编写脚本。

文本差异

三答复

回答这个问题

相关问题