Python数据处理所需要的函数

Python数据处理所需要的函数

数据处理:pandas

读取Excel:

1
df = pd.read_excel()

导出Excel:

1
df.to_excel('路径')

筛选表格中非空的行:

1
df[(df['Europe'].notnull()) & (df['USA'].notnull())]

创建一个空数据框:

1
df = pd.DataFrame({})

去重

1
df['MakeVariant'].drop_duplicates()

重置索引

1
df.reset_index(drop=True)

列表重复

1
[1,2,3] * 3

数据框合并

1
df = pd.concat([df1, df2], axis=0)

数据分组合并求均值

1
df.groupby('列名').agg('mean')

删除数据框某一列

1
df.drop(columns='列名')

序列转列表

1
df['列名']。tolist()

数据框索引

1
2
3
4
5
6
7
8
# 行列标签(行、列、区域)
df[2:4] df[['Fruits','Price']] df[2:3,'Price':'Sales']

# loc(标签)
df.loc[:,['Fruits','Sales']]

# iloc(位置)
df.iloc[2:4,1:3] df.iloc[:,[0,2]]

深拷贝

1
df1 = df.loc['行名'].copy()

数据框条件筛选

1
num[(left > num) | (num > right) | (num < 0)]

统计个数

1
count = pd.value_counts(all_index)

重置列名

1
df.columns = ['F1', 'F2', 'F3']

统计缺失值

1
col_null = df.isnull().sum(axis=0)

缺省值判断

1
temp[~temp.isna().any(axis=1)]

矩阵处理:numpy

取对数(e为底):

1
np.log()

产生和已知数据维度相同的0矩阵:

1
np.zeros_like(data)

作图:matplotlib

多个图:

1
fig, axes = plt.subplots(3, 6)

解决图片显示不全的问题:

1
fig.tight_layout(pad=0.3, w_pad=-0.01, h_pad=0.8)

设置图片大小:

1
fig.set_size_inches(17, 9)

调整子图之间的间距:

1
plt.gcf().subplots_adjust(left=0.05,top=0.95,bottom=0.04,right=0.96)

保存svg图片:

1
plt.savefig('hist.svg')

直方图

纵轴为频率:

1
plt.hist(df, bins=50, weights=np.zeros_like(data) + 1 / len(data))  # 第一个参数是数据,第二个参数是箱子数量,第三个参数是权重

图的标题:

1
plt.title('内容', fontsize=20)

设置全局字体:

1
plt.rc('font',family='Times New Roman', size=15)

设置x轴刻度字体大小

1
plt.xticks(fontsize=ticksize)

显示中文

1
2
plt.rcParams['font.sans-serif']=['SimHei']   #这两行用来显示汉字
plt.rcParams['axes.unicode_minus'] = False
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!

扫一扫,分享到微信

微信分享二维码
  • Copyrights © 2022-2023 发现美的眼睛
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信