SPAN8.
SPAN4.
嗨,
我有一个包含first_name,name和strain_date的数据库。
我必须找到所有潜在的重复的人。
如果我发现两个具有first_name的功能和同样写入或类似的名称或类似的名称,我必须比较彼此之间的功能来检查它们是否具有相同的出生_date。如果他们这样做,这是一个人,如果他们不是两个不同的人。
在这个例子中,John Lennon和Jon Lenon几乎是相同的方式,他们有相同的出生。我们可以认为这是同一个人。
但John Lennon(1950-01-01)不同一个John Lennon(1985-01-01)。
ID | 名字 | 名称 | 生日 |
1 | 约翰 | 列侬 | 1950-01-01 |
2 | Jon. | 列宁 | 1950-01-01 |
3. | 约翰 | 列侬 | 1985-01-01 |
4. | 林诺 | 星 | 1945-01-01 |
5. | 林戈洛 | 星 | 1945-01-01 |
6. | 林诺 | 星 | 2000-01-01 |
7. | 乔治 | 哈里森 | 2000-01-01 |
你有想法如何做这种比较吗?我尝试了FuzzyDuplicatereMover,但它并没有给出非常好的结果,它不会存储到列表中,潜在地找到的重复功能(所以我无法比较出生_date)。
谢谢!
建立您希望在列表中进行相似性的每个功能的想法。
在网上找到一些Python以比较Levenshtein距离,然后将列表中的每个值相互比较。如果比率> 89(挑选的任意图)确定匹配并分配match_group。输出列表中每个ID的功能。
使用哪种标准来确定John Lennon和Jon Lenon的特色是相同的?
无论如何,如果您想检测到真正重复的功能,那么请查看附图
©2019 S亚搏在线afe Software Inc |法律