My New Hugo Site

drop_duplicates方法 df.drop_duplicates(subset=, keep=, inplace=, ignore_index= ) subset=None：指定哪些列参与去重，默认为 None，即考虑所有列。 keep='first'：指定保留哪一行。可选值有 ‘first’（默认，保留第一次出现的行）、’last’（保留最后一次出现的行）、False（删除所有重复行）。 inplace=False：是否就地修改 DataFrame，默认为 False，返回一个新的 DataFrame。 ignore_index=False：是否重新设置索引，默认为 False，保持原有索引不变。 # 对所有列去重 df_unique = df.drop_duplicates() # 保持第一次出现的行，删除之后的重复行 df_unique = df.drop_duplicates(keep='first') # 保持最后一次出现的行，删除之前的重复行 df_unique = df.drop_duplicates(keep='last') # 删除所有重复行，既不保留第一次也不保留最后一次出现的行 df_unique = df.drop_duplicates(keep=False) # 根据 'col' 列去重 df_unique = df.drop_duplicates(subset=['col']) # 根据 'col1' 和 'col2' 列去重 # 只有当'col1'和'col2'列的值完全相同时，才会被认为是重复 df_unique = df.drop_duplicates(subset=['col1', 'col2']) 示例 import pandas as pd data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice'], 'Age': [25, 30, 35, 25], 'Gender': ['Female', 'Male', 'Male', 'Female']} df = pd....