数据复制检测

Question

嗨，

我有一个包含first_name，name和strain_date的数据库。

我必须找到所有潜在的重复的人。

如果我发现两个具有first_name的功能和同样写入或类似的名称或类似的名称，我必须比较彼此之间的功能来检查它们是否具有相同的出生_date。如果他们这样做，这是一个人，如果他们不是两个不同的人。

在这个例子中，John Lennon和Jon Lenon几乎是相同的方式，他们有相同的出生。我们可以认为这是同一个人。

但John Lennon（1950-01-01）不同一个John Lennon（1985-01-01）。

你有想法如何做这种比较吗？我尝试了FuzzyDuplicatereMover，但它并没有给出非常好的结果，它不会存储到列表中，潜在地找到的重复功能（所以我无法比较出生_date）。

谢谢！

Answer 1 · 2019-04-10T16:37:06Z

回答通过Ebygomm. ·4月10日晚上04:37

建立您希望在列表中进行相似性的每个功能的想法。

在网上找到一些Python以比较Levenshtein距离，然后将列表中的每个值相互比较。如果比率> 89（挑选的任意图）确定匹配并分配match_group。输出列表中每个ID的功能。

capture.png. （11.8 KB）

fuzzyfun.fmwt. （20.1 KB）

添加评论·显示3.·分享

10 | 4000.需要的人物剩余字符字符超出

附件：最多10个附件（包括图像），最多可用于4.0 MB，总计4.0 MB。

菲律宾 ·4月10日晚上05:27 0.

这绝对是伟大的！我明确地用这个脚本进行分析。非常感谢！！！

Ebygomm. 菲律宾 ·4月10日在06:31 PM 0.

所有匹配列有一个轻微的错误，匹配组很好

菲律宾 Ebygomm. ·4月10日晚上06:36 0.

哈哈，是的，我注意到了，但感谢确认;）

Answer 2 · 2019-04-10T13:32:00Z

回答通过菲律宾 ·4月10日晚上01:32

经过很多思考，我决定在Begrings的出生中做出一个ListBuilder。

并在每个列表中进行FuzzyDuplicatereMover。（不知道如何做到这一点）

拥有ListFuzzyduplicateremover会很棒。

添加评论·分享

10 | 4000.需要的人物剩余字符字符超出

附件：最多10个附件（包括图像），最多可用于4.0 MB，总计4.0 MB。

Answer 3 · 2019-04-02T21:29:36Z

回答通过Miladahmad. ·4月02日晚上09:29

使用哪种标准来确定John Lennon和Jon Lenon的特色是相同的？

无论如何，如果您想检测到真正重复的功能，那么请查看附图

capture.jpg. （40.3 KB）

添加评论·显示1·分享

10 | 4000.需要的人物剩余字符字符超出

附件：最多10个附件（包括图像），最多可用于4.0 MB，总计4.0 MB。

菲律宾 ·4月10日晚上01:41 0.

虽然可能是在两个值之间相同的字母数计算的比率。

我认为模糊的变压器也会做这项工作。