tips for pandas

2017-12-26 10:30:29来源:oschina作者:leiline人点击

分享

pandas是一个非常优秀,强大以及灵活的python数据处理包,使用pandas可以非常方便的读取,整理以及存储数据,同时搭配numpy和matplotlib,更显强大。


用好pandas可以非常节省时间。


读取csv文件
import pandas as pd
data = pd.read_csv(path_to_dataset, delimiter=',')

delimiter:识别csv文件分隔符
api说明


显示数据前n行
data.head(n)按列查询数据
data[column_name]
data[column_name].drop_duplicates()
course_time = date[date["course_id"]==course_id]

dorp_duplicates()的作用是去除重复
第三行代码按照course_id去查询数据(条件查询)


按行查询数据
for index, row in data.iterrows():
id = row[0]
username = row[1]
course_id = row[2]
time = row[3]
source = row[4]
event = row[5]
object = row[6]

其实pandas中都是以列的方式查询数据,如果需要按行的方式查询也不是不可以。pandas中提供了迭代的方式查询,其中index指行数,row指每一行的内容,以list的形式存储。如果需要找到具体的数据,需要对list进行解析。


时间数据转换
course_from = pd.to_datetime(course_from)
time_from_value = time_from.components.days * 12 * 3600 + time_from.components.hours * 3600 + time_from.components.minutes * 60 + time_from.components.seconds

在计算时间差的时候,time_from_value的形式为timeObject类型,有components方法可以解析。


详细说明查看pandas: powerful Python data analysis toolkit

微信扫一扫

第七城市微信公众平台