从wind上面搞到一批股票数据后发现:本来是一个类型的数据,但是由于季度不同,列名也不同,导致使用pandas合并多个报表的时候总是出现一大堆NaN,所以这里我写了一个函数,专门针对这样的表
它的思路是:
生成一堆单词,然后把这些表的列索引全部替换为这些单词,然后调用 pd.concat() 把这些dataframe全部合并后再把列索引改回来,当然,这里也可以手动指定列索引。
使用方法见代码的最后一行,传入一个dataframe的list就可以了。
import pandas as pd
from random import Random
# 随机生成一堆单词作为公共的列名
def random_list(random_str_count, randomlengtd=6):
result_list = []
random = Random()
chars = "qwertyuiopasdfghjklzxcvbnm"
for str_count in range(random_str_count):
ranstr = ""
lengtd = len(chars) - 1
for str_lengtd in range(randomlengtd):
ranstr += chars[random.randint(0, lengtd)]
result_list.append(ranstr)
return result_list
def combine_as_data_location(pd_list, columns=''):
if not pd_list:
return None
old_columns = pd_list[0].columns
if columns:
new_columns = columns
else:
new_columns = random_list(pd_list[0].shape[1])
for data_df in pd_list:
# data is pandas Dataframe
data_df.columns = new_columns
result_df = pd.concat(pd_list, ignore_index=True)
if columns:
return result_df
else:
result_df.columns = old_columns
return result_df
result_df = combine_as_data_location([df1,df2,df3])
补充:pandas.concat实现竖着拼接、横着拼接DataFrame
1、concat竖着拼接(默认的竖着,axis=0)
话不多说,直接看例子:
import pandas as pd
df1=pd.DataFrame([10,12,13])
df2=pd.DataFrame([22,33,44,55])
df3=pd.DataFrame([90,94])
df1
df2
df3
res= pd.concat([df1,df2,df3])
res
|
0 |
0 |
10 |
1 |
12 |
2 |
13 |
0 |
22 |
1 |
33 |
2 |
44 |
3 |
55 |
0 |
90 |
1 |
94 |
如果要生成新索引,忽略原来索引怎么办?
默认有个参数ignore_index= False,将其值改为True:
res2= pd.concat([df1,df2,df3], ignore_index=True)
res2
|
0 |
0 |
10 |
1 |
12 |
2 |
13 |
3 |
22 |
4 |
33 |
5 |
44 |
6 |
55 |
7 |
90 |
8 |
94 |
2、concat横着拼接
用参数axis= 1,看例子:
res_heng= pd.concat([df1,df2,df3], axis=1)
res_heng
|
0 |
0 |
0 |
0 |
10.0 |
22 |
90.0 |
1 |
12.0 |
33 |
94.0 |
2 |
13.0 |
44 |
NaN |
3 |
NaN |
55 |
NaN |
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。
您可能感兴趣的文章:- Pandas实现Dataframe的重排和旋转
- Pandas实现Dataframe的合并
- pandas中DataFrame数据合并连接(merge、join、concat)
- 教你漂亮打印Pandas DataFrames和Series
- pandas中DataFrame检测重复值的实现
- Pandas.DataFrame转置的实现
- Pandas中DataFrame交换列顺序的方法实现
- 详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据
- Pandas中两个dataframe的交集和差集的示例代码
- Pandas DataFrame求差集的示例代码
- 浅谈pandas dataframe对除数是零的处理
- Pandas中DataFrame数据删除详情