天天要闻

不管你的数据有多少，用python做数据合并就是这么简单！

分类：科技

浏览数：1947

2024-03-09

在Python数据分析领域，pandas库以其强大的数据处理能力而闻名。其中，DataFrame的合并与连接操作是数据整合与分析过程中的关键步骤。本文将详细介绍如何利用Pandas提供的concat和merge方法进行DataFrame的合并与连接，并通过实际代码示例展示其应用场景。

使用pd.concat()进行DataFrame的合并

1.水平（横向）合并

pd.concat()函数可以用于水平方向上拼接多个DataFrame。当DataFrames的列名相同或互补时，可通过此方法实现行的堆叠：

import pandas as pd

# 创建两个具有相同列名的DataFrame
df1 = pd.DataFrame({'Name': ['John', 'Anna'], 'Age': [28, 30]})
df2 = pd.DataFrame({'Name': ['Peter', 'Linda'], 'Age': [25, 35]})

# 使用pd.concat()进行水平合并
merged_df = pd.concat([df1, df2], ignore_index=True)  # 忽略原索引并生成新索引
print(merged_df)

2.垂直（纵向）合并

当需要根据DataFrame的索引进行合并时，可以通过设置axis=1来实现垂直方向上的合并：

df3 = pd.DataFrame({'Country': ['USA', 'Canada']}, index=['John', 'Anna'])
df4 = pd.DataFrame({'City': ['New York', 'Toronto']}, index=['John', 'Anna'])

# 垂直方向合并
vertical_merged_df = pd.concat([df3, df4], axis=1)
print(vertical_merged_df)

使用pd.merge()进行DataFrame的连接

pd.merge()函数基于指定键（key）对DataFrame进行连接操作，适用于具有共同列名或者索引的情况。主要有以下几种连接类型：

内连接（inner join）：默认情况下，pd.merge()执行的是内连接，只保留两个DataFrame中键值匹配的行。

df5 = pd.DataFrame({'Name': ['John', 'Peter'], 'Department': ['Sales', 'IT']})
df6 = pd.DataFrame({'Name': ['John', 'Anna'], 'Salary': [50000, 60000]})

# 内连接
inner_joined_df = pd.merge(df5, df6, on='Name')
print(inner_joined_df)

左连接（left join）：保留左侧DataFrame的所有记录，右侧DataFrame仅包含与左侧键值匹配的记录。

left_joined_df = pd.merge(df5, df6, on='Name', how='left')
print(left_joined_df)

右连接（right join）：保留右侧DataFrame的所有记录，左侧DataFrame仅包含与右侧键值匹配的记录。

right_joined_df = pd.merge(df5, df6, on='Name', how='right')
print(right_joined_df)

全连接（outer join）：保留两个DataFrame中所有记录，未匹配的键值用NaN填充。

outer_joined_df = pd.merge(df5, df6, on='Name', how='outer')
print(outer_joined_df)

进阶应用及注意事项

多键连接：可以同时指定多个键进行连接，只需将键名称以列表形式传入on参数即可。
连接顺序与效率：对于大数据集，连接操作可能会消耗大量计算资源。合理安排连接顺序和选择合适的连接类型能够有效提升性能。
处理重复键值：在进行连接时，如果存在重复键值，需考虑如何处理这些重复项，以避免结果集出现冗余或混淆。

总结

掌握Pandas DataFrame的合并与连接操作是进行复杂数据处理和分析的关键技能。无论是Web开发中的API响应集成，还是数据分析项目中的多源数据融合，灵活运用pd.concat()与pd.merge()都能显著提高工作效率，确保数据处理流程的准确性和完整性。

关注我，手把手带你快速入门 AI 机器学习编程！

科技分类资讯推荐

↑