吏部侍郎

我见青山多妩媚,料青山见我应如是

0%

pandas中轴axis的问题理解

在学习删除方法drop时,碰到了,也突然想明白了,轴是什么意思。

引入:


import numpy as np
from pandas import Series,DataFrame#导入包
obj = Series(np.arange(5),index = ['a','b','c','d','e'])#创建Series obj
obj
Out[2]:
a 0
b 1
c 2
d 3
e 4
dtype: int32

new_obj = obj.drop('c')#删除'c'
new_obj
Out[5]:
a 0
b 1
d 3
e 4
dtype: int32

obj
Out[6]:
a 0
b 1
c 2
d 3
e 4
dtype: int32

obj.drop(['b','d'])#删除'b','d'
Out[7]:
a 0
c 2
e 4
dtype: int32

data = DataFrame(np.arange(25).reshape(5,5),index = ['bj','tj','heb','sjz','sh'],columns=['one','two','three','four','five'])#创建DataFrame
data
Out[9]:
one two three four five
bj 0 1 2 3 4
tj 5 6 7 8 9
heb 10 11 12 13 14
sjz 15 16 17 18 19
sh 20 21 22 23 24

data.drop(['bj','tj'])#删除某行
Out[10]:
one two three four five
heb 10 11 12 13 14
sjz 15 16 17 18 19
sh 20 21 22 23 24

data.drop('one',axis=1)#删除列
Out[11]:
two three four five
bj 1 2 3 4
tj 6 7 8 9
heb 11 12 13 14
sjz 16 17 18 19
sh 21 22 23 24

可已注意到的是,在上方使用drop时,删除列特意指明了axis=1. 而在查看drop的文档时,发现默认参数是axis =0 ,这说明:

  • axis = 0代表的是行。
  • axis = 1代表的是列。
    这样想就明白了。但是接着问题来了,
data
Out[29]:
lie one two three four five
city
bj 0 1 2 3 4
tj 5 6 7 8 9
heb 10 11 12 13 14
sjz 15 16 17 18 19
sh 20 21 22 23 24

data.mean(axis = 0)#求列平均
Out[30]:
lie
one 10.0
two 11.0
three 12.0
four 13.0
five 14.0
dtype: float64

data.mean(axis = 1)#求行平均
Out[31]:
city
bj 2.0
tj 7.0
heb 12.0
sjz 17.0
sh 22.0
dtype: float64

其实,我是有点蒙的,如果向上面那样理解的话。
发现问题了吗?
drop中使用axis=1实际上是删掉了一列,而在mean中实际上是计算的行平均值,而不是列的平均值。
蒙了。嗯,看了Stackoverflow中的解释,大概是明白了。现记录如下。

实际上axis = 1,指的是沿着行求所有列的平均值,代表了横轴,那axis = 0,就是沿着列求所有行的平均值,代表了纵轴。

示意图

那这样的话,drop就是沿着'two'的方向删除对应的轴标签为axis = 1的值。

又想到了numpy,pandas是以numpy为基础构造的库,因此,它保留了对于axis使用的方式。

参考:What does axis in pandas mean?

欢迎关注我的其它发布渠道