pandas数据处理——时间差计算

计算两列数据的时间差，按天数返回。源数据的格式如下：为防止两列出现空值情况，先对其进行空值填充(可选)# 时间空值填充time=date(2000,1,1)data[["l_call_time3","l_call_time2"]]=data[["l_call_time3","l_call_time2"]].fillna(time)调用pandas.to_datetime()函数将数据转换为日期时间

是阿采哦

14567人浏览 · 2021-02-02 12:13:36

是阿采哦 · 2021-02-02 12:13:36 发布

计算两列数据的时间差，按天数返回。

源数据的格式如下：

为防止两列出现空值情况，先对其进行空值填充(可选)

# 时间空值填充
time=date(2000,1,1)
data[["l_call_time3","l_call_time2"]]=data[["l_call_time3","l_call_time2"]].fillna(time)

调用pandas.to_datetime()函数将数据转换为日期时间，再进行时间差计算。

data["l_call_time23"]=pd.to_datetime(data["l_call_time2"])-pd.to_datetime(data["l_call_time3"])

处理后的数据形式如下：

再提取days之前的数据：

# 提取days之前的数
data["l_call_time23"]=data["l_call_time23"].map(lambda x:x.days)

处理后数据形式：

pd.to_datetime参数介绍

#参数如下
pd.to_datetime(arg, 
               errors='raise', 
               dayfirst=False, 
               yearfirst=False, 
               utc=None, 
               box=True, 
               format=None, 
               exact=True, 
               unit=None, 
               infer_datetime_format=False, 
               origin='unix', 
               cache=True)

参数：

（1）arg：int，float，str，datetime，list，tuple，1-d数组，Series，DataFrame / dict-like，要转换为日期时间的对象

（2）errors：{'ignore'，'raise'，'coerce'}，默认为'raise'

如果为“ raise”，则无效的解析将引发异常
如果为“coerce”，则将无效解析设置为NaT
如果为“ ignore”，则无效的解析将返回输入

（3）dayfirst：bool，默认为False，

如果arg是str或类似列表，则指定日期解析顺序。
如果为True，则首先解析日期，例如12/10/11解析为2011-10-12。
警告：dayfirst = True并不严格，但更喜欢使用day first进行解析（这是一个已知的错误，基于dateutil的行为）

（4）yearfirst：布尔值，默认为False，

如果arg是str或类似列表，则指定日期解析顺序。
如果True解析日期以年份为第一，则将10/11/12解析为2010-11-12。
如果dayfirst和yearfirst均为True，则在yearfirst之后（与dateutil相同）。
警告：yearfirst = True并不严格，但更喜欢使用year first进行解析（这是一个已知的错误，基于dateutil的行为）。

（5）utc： bool，默认值 None，如果为True，则返回UTC DatetimeIndex（也转换任何支持tz的datetime.datetime对象）

（6）format：str，格式，default None，解析时间的strftime，例如“％d /％m /％Y”，请注意，“％f”将一直解析直至纳秒。有关选择的更多信息，请参见strftime文档：https : //docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior。

（7）exact：精度，bool：True by default，表现为：如果为True，则需要精确的格式匹配。如果为False，则允许格式匹配目标字符串中的任何位置。

（8）unit： str，单位，default ‘ns’，arg的单位（D，s，ms，us，ns）表示单位，它是整数或浮点数。这将基于原点。例如，在unit ='ms'和origin ='unix'（默认值）的情况下，这将计算到unix纪元开始的毫秒数

（9）infer_datetime_format：bool，默认为False，如果为True且未给出格式，请尝试根据第一个非NaN元素推断日期时间字符串的格式，如果可以推断出日期时间字符串的格式，请切换到解析它们的更快方法。在某些情况下，这可以使解析速度提高约5-10倍。

（10）origin：标量, default ‘unix’，

定义参考日期。自该参考日期以来，数值将被解析为单位数（由unit定义）。

如果是“ unix”（或POSIX）时间；原点设置为1970-01-01。
如果为'julian'，则单位必须为'D'，并且原点设置为Julian Calendar的开头。朱利安天数0被指定为从4713年1月1日中午开始的那一天。
如果时间戳可转换，则将原点设置为由原点标识的时间戳。

（11）cache：布尔值，默认为True

如果为True，则使用唯一的转换日期缓存来应用datetime转换。解析重复的日期字符串时，尤其是带有时区偏移的日期字符串时，可能会大大提高速度。仅当至少有50个值时才使用缓存。越界值的存在将使高速缓存不可用，并可能减慢解析速度
0.23.0版中的新功能。在0.25.0版中进行了更改： -将默认值从False更改为True。