PERF: avoid zeros_like in groupby.pyx #40194

jorisvandenbossche · 2021-03-03T08:55:27Z

Apparently calling np.zeros_like has quite some overhead:

In [7]: arr = np.random.randn(1000)

In [8]: %timeit np.zeros_like(arr)
3.14 µs ± 44.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

In [9]: %timeit np.zeros(arr.shape, dtype=arr.dtype)
662 ns ± 41.9 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

So this PR replaces a few (recently added) occurences in groupby.pyx.

Using the same benchmarks case as in #40178 (comment), this gives:

In [2]: %timeit df_am.groupby(labels).sum()
66.5 ms ± 876 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)   <--- master
54.6 ms ± 958 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)   <--- PR

PERF: avoid zeros_like in groupby.pyx

224779b

jorisvandenbossche added Groupby Performance Memory or execution speed performance labels Mar 3, 2021

add var/prod as well

7800b70

jreback added this to the 1.3 milestone Mar 3, 2021

jreback merged commit b50a2e2 into pandas-dev:master Mar 3, 2021

jorisvandenbossche deleted the perf-groupby-zeros_like branch March 3, 2021 14:59

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PERF: avoid zeros_like in groupby.pyx #40194

PERF: avoid zeros_like in groupby.pyx #40194

jorisvandenbossche commented Mar 3, 2021

PERF: avoid zeros_like in groupby.pyx #40194

PERF: avoid zeros_like in groupby.pyx #40194

Conversation

jorisvandenbossche commented Mar 3, 2021