MongoDB去除重复数据(只保留一个)
【代码】MongoDB去除重复数据(只保留一个)
·
目录
直接对数据库进行操作
db.getCollection("你的集合名").aggregate([
{
//使用aggregate聚合查询重复数据
//$group中是查询条件,根据你的字段来聚合相同的数据;
//$count用来统计重复出现的次数, $match来过滤没有重复的数据;
//$addToSet将聚合的数据id放入到dups数组中方便后面使用;
$group:{_id:{你的字段1:'$你的字段1',你的字段2:"$你的字段2"},count:{$sum:1},dups:{$addToSet:'$_id'}}
},
{
$match:{count:{$gt:1}}
}
]).forEach(function(it){
//保留第一个数据,防止所以重复数据全部被删除
it.dups.shift();
//执行删除
db.getCollection("wallhaven.cc").remove({_id: {$in: it.dups}});
});
使用py进行去重
from pymongo import MongoClient # 打开集合 client = MongoClient(address, port) db = client.db_name collection = db.collection_name patents = [] # 存储已遍历过的字段 count = 0 for item in collection.find(): if item['你的字段'] not in patents: # 判断当前文档是否在之前已经遍历过 patents.append(item['你的字段']) # 该文档设置成已遍历 else: collection.delete_one(item) # 删除重复文档
成功截图
一个实例
集合结构
查询代码
db.getCollection("wallhaven.cc").aggregate([
{
$group:{_id:{url:'$url',tag:"$tag"},count:{$sum:1},dups:{$addToSet:'$_id'}}
},
{
$match:{count:{$gt:1}}
}]).forEach(function(it){
it.dups.shift();
db.getCollection("wallhaven.cc").remove({_id: {$in: it.dups}});});
更多推荐
已为社区贡献12条内容
所有评论(0)