问下大家实现相似度去重的方法

【问下大家实现相似度去重的方法】

问下大家实现相似度去重的方法

文章插图
先问大家如何实现相似性去重?先给大家简单介绍一下如何实现相似性去重:有1W/天的数据 , 每个数据串平均长度在150个汉字左右 , 视觉上有1/10的重复 , 但是重复不完善 , 需要去重 。请给我们出个主意 。php有similar_text()和levenshtein()