Skip to content

Latest commit

 

History

History
73 lines (71 loc) · 3.86 KB

File metadata and controls

73 lines (71 loc) · 3.86 KB

Python Pandas库笔记

这是我学习过程的阅读资料及自己的总结。

1 自己的总结

DataFrame类型的变量df内容如下:

dfabc
a012
b345
c678

各种查看方式如下表:

df[]df.loc[]df.iloc[]
索引 ‘b’第二列第二行Error
位置 1ErrorError第二行
范围索引 ‘a’:’c’第一列到第二列第一行到第二行Error
范围位置 0:2第一行到第二行Error第一行到第二行
逗号隔开的索引 ‘b’,’b’Error第二行第二列Error
逗号隔开的位置 1,1ErrorError第二行第二列

常用函数:

import pandas as pd
data = pd.read_csv("/path/to/file.csv") # 从文件加载数据到DataFrame
data.columns # 返回数据的column
data.index # 返回index
data.info() # 查询DataFrame的概括信息
data.head(4)
data.tail(8)
data.sample(6) # 抽样6个样本
data.describe() # 返回对数据的统计
data.isnull() # 返回DataFrame,判断每个值是不是为空
data.isna() # 同上
data.notna() # 与上相反
data.isna().any() # 判断每列是否有空值
data.isna().sum() # 统计每列空值的个数
data['Sex'].value_counts() # 统计Sex列的值的个数,一般用于类别属性
data.columns[train.isna().any()] # 返回有空值的列名
data.values #取得DataFrame的内容,返回ndarray
data.hist(bins=50,figsize=(20,10)) # 绘制数据的直方图
# 绘制散点图
plt.scatter(data["Age"], data["Parch"], c=train_label, alpha=0.3)
# 绘制散点图
data.plot(kind='scatter',x='PassengerId',y='Fare')
data[['Survived', 'Sex']].groupby('Sex').mean()  # 查看不同Sex属性的属性Survival平均值
# 不同属性Fare的死亡与生存人数
plt.hist(x = [train[train['Survived']==1]['Fare'],
              train[train['Survived']==0]['Fare']
             ],
         stacked=True, color = ['g','r'],
         label = ['Survived','Dead']
        )

2 NoteBooks-Statistics-and-MachineLearning内容

这一节内容的大部分是leonvanbokhorst的Github帐号下词条NoteBooks-Statistics-and-MachineLearning 的内容,其余部分是自己的总结。原词条下的内容在我学习后会陆续加进来,更多关于统计学和机器学习的内容 请至原词条查看,这里是原项目地址

2.1 Series

2.2 DataFrame

3 pandas-tutorial内容

本节内容来自词条pandas-tutorial,更多内容请自行跳转。

3.1 Series and DataFrame