perf!: use larger buffers for blob_io and ephemeral_file #7485

problame · 2024-04-23T14:20:40Z

part of #7124

Problem

(Re-stating the problem from #7124 for posterity)

The test_bulk_ingest benchmark shows about 2x lower throughput with tokio-epoll-uring compared to std-fs.
That's why we temporarily disabled it in #7238.

The reason for this regression is that the benchmark runs on a system without memory pressure and thus std-fs writes don't block on disk IO but only copy the data into the kernel page cache.
tokio-epoll-uring cannot beat that at this time, and possibly never.
(However, under memory pressure, std-fs would stall the executor thread on kernel page cache writeback disk IO. That's why we want to use tokio-epoll-uring. And we likely want to use O_DIRECT in the future, at which point std-fs becomes an absolute show-stopper.)

More elaborate analysis: https://neondatabase.notion.site/Why-test_bulk_ingest-is-slower-with-tokio-epoll-uring-918c5e619df045a7bd7b5f806cfbd53f?pvs=4

Changes

This PR increases the buffer size of blob_io and EphemeralFile from PAGE_SZ=8k to 64k.

Longer-term, we probably want to do double-buffering / pipelined IO.

Resource Usage

We currently do not flush the buffer when freezing the InMemoryLayer.
That means a single Timeline can have multiple 64k buffers alive, esp if flushing is slow.
This poses an OOM risk.

We should either bound the number of frozen layers (#7317).

Or we should change the freezing code to flush the buffer and drop the allocation.

However, that's future work.

Performance

(Measurements done on i3en.3xlarge.)

The test_bulk_insert.py is too noisy, even with instance storage. It varies by 30-40%. I suspect that's due to compaction. Raising amount of data by 10x doesn't help with the noisiness.)

So, I used the bench_ingest from @jcsp 's #7409 .
Specifically, the ingest-small-values/ingest 128MB/100b seq and ingest-small-values/ingest 128MB/100b seq, no delta benchmarks.

		seq	seq, no delta
8k	std-fs	55	165
8k	tokio-epoll-uring	37	107
64k	std-fs	55	180
64k	tokio-epoll-uring	48	164

The 8k is from before this PR, the 64k is with this PR.
The values are the throughput reported by the benchmark (MiB/s).

We see that this PR gets tokio-epoll-uring from 67% to 87% of std-fs performance in the seq benchmark. Notably, seq appears to hit some other bottleneck at 55 MiB/s. CC'ing #7418 due to the apparent bottlenecks in writing delta layers.

For seq, no delta, this PR gets tokio-epoll-uring from 64% to 91% of std-fs performance.

…of buffer

…rs-io/refactor-buffered-writer

…ver underlying writer

…op cache-on-write

github-actions · 2024-04-23T14:27:32Z

2796 tests run: 2675 passed, 0 failed, 121 skipped (full report)

Flaky tests (2)

Postgres 15

test_partial_evict_tenant[relative_spare]: release

Postgres 14

test_partial_evict_tenant[relative_spare]: release

Code coverage* (full report)

functions: 28.3% (6547 of 23138 functions)
lines: 47.0% (46239 of 98432 lines)

* collected from Rust tests only

_{The comment gets automatically updated with the latest test results
42bb9cd at 2024-04-26T11:41:43.782Z :recycle:}

…r' into problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io

…e-buffered-io' into problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file

…rs-io/refactor-buffered-writer

…to problame/larger-buffers-io/refactor-size-tracking-writer

…r' into problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io

…or-ephemeral-file-reuse-buffered-io' into problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io--with-write-path-prewarming

…rs-io/refactor-buffered-writer

…to problame/larger-buffers-io/refactor-size-tracking-writer

…r' into problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io

…e-buffered-io' into problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io--with-write-path-prewarming

…e-buffered-io--with-write-path-prewarming' into problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file

…/refactor-ephemeral-file-reuse-buffered-io--with-write-path-prewarming refactor(ephemeral_file): bring back pre-warming of PS page cache on write

…tor-ephemeral-file-reuse-buffered-io' into problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file

…rs-io/refactor-buffered-writer

…to problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file

problame added 5 commits April 23, 2024 14:01

refactor(owned_buffers_io::BufferedWriter): be generic over the type …

9a9aed6

…of buffer

Merge remote-tracking branch 'origin/main' into problame/larger-buffe…

0396b2b

…rs-io/refactor-buffered-writer

refactor(owned_buffer_io::util::size_tracking_writer): make generic o…

e41e777

…ver underlying writer

refactor(ephemeral_file): reuse owned_buffers_io::BufferedWriter & dr…

885ac30

…op cache-on-write

perf!: use 64k insteadn of 8k buffers for blob_io and ephemeral_file

f260464

problame requested review from jcsp and VladLazar April 23, 2024 14:20

problame requested a review from a team as a code owner April 23, 2024 14:20

problame mentioned this pull request Apr 23, 2024

test_bulk_insert / walingest generally is slower with tokio-epoll-uring #7124

Closed

2 tasks

problame changed the title ~~perf!: use 64k insteadn of 8k buffers for blob_io and ephemeral_file~~ perf!: use 64k instead of 8k buffers for blob_io and ephemeral_file Apr 23, 2024

problame marked this pull request as draft April 23, 2024 14:36

problame added 6 commits April 23, 2024 14:56

fixups from splitting the patch stack

c9f2bcb

BytesMut only needed on linux

7cdf284

Merge branch 'problame/larger-buffers-io/refactor-size-tracking-write…

666b47d

…r' into problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io

fixup after splitting up the patch series

516f80b

fix bug in zero_padded_buffer::Buf::enxtend_from_slice

06ccbea

Merge branch 'problame/larger-buffers-io/refactor-ephemeral-file-reus…

64a2473

…e-buffered-io' into problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file

problame changed the title ~~perf!: use 64k instead of 8k buffers for blob_io and ephemeral_file~~ perf!: use larger buffers for blob_io and ephemeral_file Apr 23, 2024

problame added 11 commits April 24, 2024 15:48

apply suggestion from #7484 (comment)

35b7334

return an error when reading past the trailing block; #7484 (comment)

e3df4ef

improve docs on zero_padded_buffer

dbd1773

WIP: bit hacky write-path pre-warming of page cache

2298e6e

no-module-prefixes rule for zero_padded_buffer; #7484 (comment)

980b9ec

Merge remote-tracking branch 'origin/main' into problame/larger-buffe…

2908ee1

…rs-io/refactor-buffered-writer

Merge branch 'problame/larger-buffers-io/refactor-buffered-writer' in…

eda1857

…to problame/larger-buffers-io/refactor-size-tracking-writer

Merge branch 'problame/larger-buffers-io/refactor-size-tracking-write…

a9cfa9b

…r' into problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io

improve page_aching + Merge branch 'problame/larger-buffers-io/refact…

9faef8c

…or-ephemeral-file-reuse-buffered-io' into problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io--with-write-path-prewarming

doc comment fixes

c9071e0

Merge remote-tracking branch 'origin/main' into problame/larger-buffe…

e3e43c5

…rs-io/refactor-buffered-writer

problame added 4 commits April 25, 2024 10:59

Merge branch 'problame/larger-buffers-io/refactor-buffered-writer' in…

d1382e6

…to problame/larger-buffers-io/refactor-size-tracking-writer

Merge branch 'problame/larger-buffers-io/refactor-size-tracking-write…

6acb89f

…r' into problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io

Merge branch 'problame/larger-buffers-io/refactor-ephemeral-file-reus…

01ffe9e

…e-buffered-io' into problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io--with-write-path-prewarming

Merge branch 'problame/larger-buffers-io/refactor-ephemeral-file-reus…

bfcba3f

…e-buffered-io--with-write-path-prewarming' into problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file

problame force-pushed the problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file branch from 72f9904 to bfcba3f Compare April 25, 2024 13:52

problame added 6 commits April 25, 2024 13:53

remove accidentally committed file

3b54288

improve the commentary

d928ad6

Merge branch 'problame/larger-buffers-io/refactor-ephemeral-file-reus…

c52d064

…e-buffered-io--with-write-path-prewarming' into problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file

Merge pull request #7511 from neondatabase/problame/larger-buffers-io…

287d1bf

…/refactor-ephemeral-file-reuse-buffered-io--with-write-path-prewarming refactor(ephemeral_file): bring back pre-warming of PS page cache on write

wrong regress test name

17e7034

Merge remote-tracking branch 'origin/problame/larger-buffers-io/refac…

33aa110

…tor-ephemeral-file-reuse-buffered-io' into problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file

problame marked this pull request as ready for review April 25, 2024 22:32

Merge remote-tracking branch 'origin/main' into problame/larger-buffe…

8025fb0

…rs-io/refactor-buffered-writer

Base automatically changed from problame/larger-buffers-io/refactor-ephemeral-file-reuse-buffered-io to main April 26, 2024 11:01

problame added 2 commits April 26, 2024 11:01

Merge remote-tracking branch 'origin/main' into problame/larger-buffe…

34f6551

…rs-io/refactor-buffered-writer

Merge branch 'problame/larger-buffers-io/refactor-buffered-writer' in…

42bb9cd

…to problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file

problame enabled auto-merge (squash) April 26, 2024 11:02

jcsp approved these changes Apr 26, 2024

View reviewed changes

problame merged commit ed57772 into main Apr 26, 2024
47 of 48 checks passed

problame deleted the problame/larger-buffers-io/perf-use-larger-buffers-in-blob_io-and_ephemeral_file branch April 26, 2024 11:34

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

perf!: use larger buffers for blob_io and ephemeral_file #7485

perf!: use larger buffers for blob_io and ephemeral_file #7485

problame commented Apr 23, 2024 •

edited

Loading

github-actions bot commented Apr 23, 2024 •

edited

Loading

Postgres 15

Postgres 14

perf!: use larger buffers for blob_io and ephemeral_file #7485

perf!: use larger buffers for blob_io and ephemeral_file #7485

Conversation

problame commented Apr 23, 2024 • edited Loading

Problem

Changes

Resource Usage

Performance

github-actions bot commented Apr 23, 2024 • edited Loading

2796 tests run: 2675 passed, 0 failed, 121 skipped (full report)

Postgres 15

Postgres 14

Code coverage* (full report)

problame commented Apr 23, 2024 •

edited

Loading

github-actions bot commented Apr 23, 2024 •

edited

Loading