python函数去重 python可以去重的数据类型

Python实现对列表中重复元素进行去重的方法小结

1、运用新建字典的方式，去除重复的键

创新互联建站成都网站建设按需策划设计，是成都网站维护公司,为柴油发电机提供网站建设服务,有成熟的网站定制合作流程，提供网站定制设计服务：原型图制作、网站创意设计、前端HTML5制作、后台程序开发等。成都网站设计热线：13518219792

2、利用集合，直接将列表转化为集合，自动去重后转回列表。有一个问题，转换为集合的同时，数据无序了。

3、用列表的推导式

python用drop_duplicates()函数保留数据集的重复行

前两天处理数据的时候，需要得到两个数据的交集数据，所以要去除数据中非重复部分，只保留数据中的重复部分。

网上看了一下大家的教程，大部分都是教去除重复行，很少有说到仅保留重复行的。所以在这里用drop_duplicates这个去重函数来实现这个功能。

drop_duplicates函数介绍：

data.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

#subset对应的值是列名，表示只考虑这两列，将这两列对应值相同的行进行去重。

默认值为subset=None表示考虑所有列。

keep='first’表示保留第一次出现的重复行，是默认值。

keep另外两个取值为"last"和False，分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本。

要用函数取得数据集data中的重复列，分三个步骤：

（提前导入pandas模块）

data0_1 = data.drop_duplicates() #保留第一个重复行

data0_2 = data.drop_duplicates(keep=False) #去除所有重复行

data0_3=pd.concat([data0_1,data0_2]).drop_duplicates(keep=False)

#合并起来再去重，只剩下真的重复行。

举例：data中wangwu行和tony行重复，需要把它们两行取出。

第一步：#保留第一个重复行

第二步：#去除所有重复行

第三步：#合并起来再去重

通过以上步骤实现取出数据中的重复行。

Python。重复元素判定。编写一个函数，接受列表作为参数

代码如下：

def func1(num_list):

if len(num_list) != len(set(num_list)):

return True

else:

return False

if __name__ == '__main__':

num_list = [[1, 2, 3, 4], [6, 7, 8], [4, 5, 6, 6, 6]]

for one_list in num_list:

print(func1(one_list))

运行结果：

扩展资料

python对列表去重的几种方式：

1、直观方法，先建立一个新的空列表，通过遍历原来的列表，再利用逻辑关系not in 来去重。总结：这样可以做出来，但是过程不够简单。但是此方法保证了列表的顺序性。

2、利用set的自动去重功能，将列表转化为集合再转化为列表，利用集合的自动去重功能。简单快速。缺点是：使用set方法无法保证去重后的顺序。

参考资料：python官网-Doc语法文档

Python常用的几种去重方法

case1:用集合的特性set()，去重后顺序会改变

case1.1：可以通过列表中索引（index）的方法保证去重后的顺序不变

case2:使用循环查找的方式，不改变顺序

case3:通过删除索引

case4:itertools.groupby

case5:fromkeys

case6:reduce方法

Python 去重，统计，lambda函数

df.drop_duplicates('item_name')

方法一：

df.drop_duplicates('item_name').count()

方法二：

df['item_name'].nunique()

结果：50

附：nunique()和unique()的区别：

unique()是以数组形式（numpy.ndarray）返回列的所有唯一值（特征的所有唯一值）

nunique()即返回的是唯一值的个数

比如：df['item_name'].unique()

要求：将下表中经验列将按周统计的转换为经验不限，保留学历

df1['经验'] = df1['经验'].apply(lambda x: '经验不限'+ x[-2:] if '周' in x else x)

#解释：将‘5天/周6个月’变成‘经验不限’，然后保留学历‘本科’

方法二：定义函数

def dataInterval(ss):

if '周' in ss:

return '经验不限'+ ss[-2:]

return ss

df1['经验'] = df1['经验'].apply(dataInterval)