drop_duplicates方法 df.drop_duplicates(subset=, keep=, inplace=, ignore_index= ) subset=None:指定哪些列参与去重,默认为 None,即考虑所有列。 keep='first':指定保留哪一行。可选值有 ‘first’(默认,保留第一次出现的行)、’last’(保留最后一次出现的行)、False(删除所有重复行)。 inplace=False:是否就地修改 DataFrame,默认为 False,返回一个新的 DataFrame。 ignore_index=False:是否重新设置索引,默认为 False,保持原有索引不变。 # 对所有列去重 df_unique = df.drop_duplicates() # 保持第一次出现的行,删除之后的重复行 df_unique = df.drop_duplicates(keep='first') # 保持最后一次出现的行,删除之前的重复行 df_unique = df.drop_duplicates(keep='last') # 删除所有重复行,既不保留第一次也不保留最后一次出现的行 df_unique = df.drop_duplicates(keep=False) # 根据 'col' 列去重 df_unique = df.drop_duplicates(subset=['col']) # 根据 'col1' 和 'col2' 列去重 # 只有当'col1'和'col2'列的值完全相同时,才会被认为是重复 df_unique = df.drop_duplicates(subset=['col1', 'col2']) 示例 import pandas as pd data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice'], 'Age': [25, 30, 35, 25], 'Gender': ['Female', 'Male', 'Male', 'Female']} df = pd....