使用.loc访问器的pandas日期时间索引的布尔掩码-python技术脚本

Boolean mask from pandas datetime index using .loc accessor

假设以下玩具代码：

import numpy as np

import pandas as pd

rng = pd.date_range('1/1/2011', periods=72, freq='H')

avec = np.random.rand(len(rng))

bvec = np.random.rand(len(rng))

df = pd.DataFrame({"A":avec,"B":bvec}, index=rng)
df.loc["2011-01-02",:]

array([False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False], dtype=bool)

(df.index >="2011-01-02") & (df.index <"2011-01-03")

import numpy as np

from datetime import datetime



(df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

(df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))
df = pd.concat([df]*1000)



%timeit (df.index >="2011-01-02") & (df.index <"2011-01-03")



%timeit (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))



assert ((df.index >="2011-01-02") & (df.index <"2011-01-03") == \\

    (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))).all()



# 1.21 ms ± 23 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# 527 μs ± 11.3 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
df.index.isin(df.loc["2011-01-02",:].index)



array([False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False], dtype=bool)

# named slice of your original dataframe:

sliced_df = df.loc["2011-01-02",:]

# get boolean array:

df.index.isin(sliced_df.index)

我现在可以用

选择时间间隔的一部分

import numpy as np

import pandas as pd

rng = pd.date_range('1/1/2011', periods=72, freq='H')

avec = np.random.rand(len(rng))

bvec = np.random.rand(len(rng))

df = pd.DataFrame({"A":avec,"B":bvec}, index=rng)
df.loc["2011-01-02",:]

array([False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False], dtype=bool)

(df.index >="2011-01-02") & (df.index <"2011-01-03")

import numpy as np

from datetime import datetime



(df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

(df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))
df = pd.concat([df]*1000)



%timeit (df.index >="2011-01-02") & (df.index <"2011-01-03")



%timeit (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))



assert ((df.index >="2011-01-02") & (df.index <"2011-01-03") == \\

    (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))).all()



# 1.21 ms ± 23 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# 527 μs ± 11.3 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
df.index.isin(df.loc["2011-01-02",:].index)



array([False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False], dtype=bool)

# named slice of your original dataframe:

sliced_df = df.loc["2011-01-02",:]

# get boolean array:

df.index.isin(sliced_df.index)

有没有办法有效地访问对应于结果切片的布尔掩码，即：

import numpy as np

import pandas as pd

rng = pd.date_range('1/1/2011', periods=72, freq='H')

avec = np.random.rand(len(rng))

bvec = np.random.rand(len(rng))

df = pd.DataFrame({"A":avec,"B":bvec}, index=rng)
df.loc["2011-01-02",:]

array([False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False], dtype=bool)

(df.index >="2011-01-02") & (df.index <"2011-01-03")

import numpy as np

from datetime import datetime



(df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

(df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))
df = pd.concat([df]*1000)



%timeit (df.index >="2011-01-02") & (df.index <"2011-01-03")



%timeit (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))



assert ((df.index >="2011-01-02") & (df.index <"2011-01-03") == \\

    (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))).all()



# 1.21 ms ± 23 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# 527 μs ± 11.3 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
df.index.isin(df.loc["2011-01-02",:].index)



array([False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False], dtype=bool)

# named slice of your original dataframe:

sliced_df = df.loc["2011-01-02",:]

# get boolean array:

df.index.isin(sliced_df.index)

我已经尝试过早期 stackoverflow 答案中的建议，但 df.index.date 需要很长时间才能在我的数据集上运行...

如果性能很重要，链 2 布尔掩码：

import numpy as np

import pandas as pd

rng = pd.date_range('1/1/2011', periods=72, freq='H')

avec = np.random.rand(len(rng))

bvec = np.random.rand(len(rng))

df = pd.DataFrame({"A":avec,"B":bvec}, index=rng)
df.loc["2011-01-02",:]

array([False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False], dtype=bool)

(df.index >="2011-01-02") & (df.index <"2011-01-03")

import numpy as np

from datetime import datetime



(df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

(df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))
df = pd.concat([df]*1000)



%timeit (df.index >="2011-01-02") & (df.index <"2011-01-03")



%timeit (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))



assert ((df.index >="2011-01-02") & (df.index <"2011-01-03") == \\

    (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))).all()



# 1.21 ms ± 23 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# 527 μs ± 11.3 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
df.index.isin(df.loc["2011-01-02",:].index)



array([False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False], dtype=bool)

# named slice of your original dataframe:

sliced_df = df.loc["2011-01-02",:]

# get boolean array:

df.index.isin(sliced_df.index)

您可以提取索引的 numpy 表示并与 np.datetime64 对象进行比较：

import numpy as np

import pandas as pd

rng = pd.date_range('1/1/2011', periods=72, freq='H')

avec = np.random.rand(len(rng))

bvec = np.random.rand(len(rng))

df = pd.DataFrame({"A":avec,"B":bvec}, index=rng)
df.loc["2011-01-02",:]

array([False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False], dtype=bool)

(df.index >="2011-01-02") & (df.index <"2011-01-03")

import numpy as np

from datetime import datetime



(df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

(df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))
df = pd.concat([df]*1000)



%timeit (df.index >="2011-01-02") & (df.index <"2011-01-03")



%timeit (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))



assert ((df.index >="2011-01-02") & (df.index <"2011-01-03") == \\

    (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))).all()



# 1.21 ms ± 23 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# 527 μs ± 11.3 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
df.index.isin(df.loc["2011-01-02",:].index)



array([False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False], dtype=bool)

# named slice of your original dataframe:

sliced_df = df.loc["2011-01-02",:]

# get boolean array:

df.index.isin(sliced_df.index)

行为注意事项

上述解决方案特定于问题中的查询。正如@Jeff 指出的那样， datetime 的字符串表示使用部分索引。所以使用 numpy 应该只在特定情况下使用。

有关详细信息，请参阅关于 datetime 索引的 pandas 文档。

性能基准测试

import numpy as np

import pandas as pd

rng = pd.date_range('1/1/2011', periods=72, freq='H')

avec = np.random.rand(len(rng))

bvec = np.random.rand(len(rng))

df = pd.DataFrame({"A":avec,"B":bvec}, index=rng)
df.loc["2011-01-02",:]

array([False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False], dtype=bool)

(df.index >="2011-01-02") & (df.index <"2011-01-03")

import numpy as np

from datetime import datetime



(df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

(df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))
df = pd.concat([df]*1000)



%timeit (df.index >="2011-01-02") & (df.index <"2011-01-03")



%timeit (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))



assert ((df.index >="2011-01-02") & (df.index <"2011-01-03") == \\

    (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))).all()



# 1.21 ms ± 23 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# 527 μs ± 11.3 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
df.index.isin(df.loc["2011-01-02",:].index)



array([False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False], dtype=bool)

# named slice of your original dataframe:

sliced_df = df.loc["2011-01-02",:]

# get boolean array:

df.index.isin(sliced_df.index)

IIUC，你可以这样做：

import numpy as np

import pandas as pd

rng = pd.date_range('1/1/2011', periods=72, freq='H')

avec = np.random.rand(len(rng))

bvec = np.random.rand(len(rng))

df = pd.DataFrame({"A":avec,"B":bvec}, index=rng)
df.loc["2011-01-02",:]

array([False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False], dtype=bool)

(df.index >="2011-01-02") & (df.index <"2011-01-03")

import numpy as np

from datetime import datetime



(df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

(df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))
df = pd.concat([df]*1000)



%timeit (df.index >="2011-01-02") & (df.index <"2011-01-03")



%timeit (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))



assert ((df.index >="2011-01-02") & (df.index <"2011-01-03") == \\

    (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))).all()



# 1.21 ms ± 23 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# 527 μs ± 11.3 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
df.index.isin(df.loc["2011-01-02",:].index)



array([False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False], dtype=bool)

# named slice of your original dataframe:

sliced_df = df.loc["2011-01-02",:]

# get boolean array:

df.index.isin(sliced_df.index)

但是，@jezrael 的回答更快。我将此作为替代解决方案。这提供的唯一便利是如果您想按名称而不是日期字符串引用切片数据帧，例如：

import numpy as np

import pandas as pd

rng = pd.date_range('1/1/2011', periods=72, freq='H')

avec = np.random.rand(len(rng))

bvec = np.random.rand(len(rng))

df = pd.DataFrame({"A":avec,"B":bvec}, index=rng)
df.loc["2011-01-02",:]

array([False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, True, True, True, True, True, True,

    True, True, True, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False,

   False, False, False, False, False, False, False, False, False], dtype=bool)

(df.index >="2011-01-02") & (df.index <"2011-01-03")

import numpy as np

from datetime import datetime



(df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

(df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))
df = pd.concat([df]*1000)



%timeit (df.index >="2011-01-02") & (df.index <"2011-01-03")



%timeit (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))



assert ((df.index >="2011-01-02") & (df.index <"2011-01-03") == \\

    (df.index.values >= np.datetime64(datetime.strptime("2011-01-02", '%Y-%m-%d'))) & \\

    (df.index.values < np.datetime64(datetime.strptime("2011-01-03", '%Y-%m-%d')))).all()



# 1.21 ms ± 23 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# 527 μs ± 11.3 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
df.index.isin(df.loc["2011-01-02",:].index)



array([False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, True, True, True, True, True, True,

  True, True, True, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False,

 False, False, False, False, False, False, False, False, False], dtype=bool)

# named slice of your original dataframe:

sliced_df = df.loc["2011-01-02",:]

# get boolean array:

df.index.isin(sliced_df.index)

使用.loc访问器的pandas日期时间索引的布尔掩码

Boolean mask from pandas datetime index using .loc accessor

相关推荐

Spring部署设置openshift

检查Java中正则表达式中模式的第n次出现

如何让 JTable 停留在已编辑的单元格上

Weblogic 12c 部署

Resteasy Content-Type 默认值

代码不会停止运行，在 Java 中

Out of memory java heap space

Log4j 记录到共享日志文件