python中利用pandas怎么处理缺省值

发布网友发布时间：2022-04-20 03:07

我来回答

共2个回答

懂视网时间：2022-05-10 20:11

下面就为大家分享一篇python解决pandas处理缺失值为空字符串的问题，具有很好的参考价值，希望对大家有所帮助。一起过来看看吧

踩坑记录：

用pandas来做csv的缺失值处理时候发现奇怪BUG，就是excel打开csv文件，明明有的格子没有任何东西，当然，我就想到用pandas的dropna()或者fillna()来处理缺失值。

但是pandas读取csv文件后发现那个空的地方isnull()竟然是false，就是说那个地方有东西。。。

后来经过排查发现看似什么都没有的地方有空字符串，故pandas认为那儿不是缺失值，所以就不能用dropna()或者fillna()来处理。

解决思路：先用正则将空格匹配出来，然后全部替换为NULL，再在用pandas读取csv时候指定 read_csv（na_values='NULL'）就是将NULL认为是nan处理，接下来就可以用dropna()或者fillna()来处理了

以上这篇python解决pandas处理缺失值为空字符串的问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

热心网友时间：2022-05-10 17:19

null/None/NaN
null经常出现在数据库中
None是Python中的缺失值，类型是NoneType
NaN也是python中的缺失值，意思是不是一个数字，类型是float
在pandas和Numpy中会将None替换为NaN，而导入数据库中的时候则需要把NaN替换成None
找出空值
isnull()
notnull()
添加空值
numeric容器会把None转换为NaN
In [20]: s = pd.Series([1, 2, 3])

In [21]: s.loc[0] = None

In [22]: s
Out[22]:
0 NaN
1 2.0
2 3.0
dtype: float123456710123456710

object容器会储存None
In [23]: s = pd.Series(["a", "b", "c"])

In [24]: s.loc[0] = None

In [25]: s.loc[1] = np.nan

In [26]: s
Out[26]:
0 None
1 NaN
2 c
dtype: object12345671011121234567101112

空值计算
arithmetic operations(数学计算)
NaN运算的结果是NaN
statistics and computational methods(统计计算)
NaN会被当成空置
GroupBy
在分组中会忽略空值
清洗空值
填充空值
fillna
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
参数
value : scalar, dict, Series, or DataFrame
method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None(bfill使用后面的值填充,ffill相反）
axis : {0 or ‘index’, 1 or ‘columns’}
inplace : boolean, default False
limit : int, default None
downcast : dict, default is None
返回值
filled : DataFrame
Interpolation
replace
删除空值行或列
DataFrame.dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False)
参数
axis : {0 or ‘index’, 1 or ‘columns’}, or tuple/list thereof
how : {‘any’, ‘all’}
thresh : int, default None
subset : array-like
inplace : boolean, default False
返回
dropped : DataFrame

全部栏目

python中利用pandas怎么处理缺省值