平时的数据分析的时候经常需要用到pandas,简单整理一下pandas基础语法,方便查找。
pandas
作为一个python
语言中常用的数据处理库,主要提供了两种数据结构,分别是dataframe
和series
。
dataframe
可以简单理解为一个二维数组,或者是excel表格。每个元素都有自己的行坐标和列坐标。
series
可以简单理解为一个一维数组,或者是list(两者可以实现互相转化)。此外,dataframe
的每一行和每一列都可以视为一个series
。
1 输入输出数据
1 | # 引入pandas库 |
2 遍历数据
1 | # 读入数据我们往往需要遍历我们获取的data,下面列举了集中遍历数据的方式 |
3 对数据排序
pandas
库也提供了很方便的对数据排序处理的函数
1 | # 表示按照xxx这个字段排序,inplace默认为False,如果该值为False,那么原来的pd顺序没变,只是返回的是排序的 |
4 根据已有的列添加新的列
这是我们平时在使用pandas
中经常会用到的一些小功能,我们可能会基于已有列的数据做一些运算,将得到的结果写到新的列中。我们可以借助pandas
中给dataframe
实现的apply
函数。apply
函数的作用是对dataframe
某一列或是某一行执行相同的函数操作。我们借助lambda
表达式传递了我们的参数,x也就是这一列的值。
1 | def get_rank(x): |
0xff 其他
这里记录一些尚不足以归类的方法。
1 | data.describe() #对每一列数据进行统计,包括计数,均值,std,各个分位数等。 |
其实pandas库实现了非常多强大的功能,日常会用到的数据处理函数(平均值、中位数、方差等等)早就已经实现好了。所以在实际应用中要多查询资料。上面列举的很多函数参数也不止上面这些,可以查询官方文档深入学习。
参考资料
- 10 minutes to pandas 是一个很好的上手pandas的材料,建议阅读。
- pandas.DataFrame.apply apply函数的文档