Adaptive batch sizing #181

casper-hansen · 2023-11-09T20:18:09Z

Implements adaptive batch sizing, so you can pass in any batch size at any point. Resolves #173

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

quant_path = "TheBloke/zephyr-7B-beta-AWQ"

# Load model
model = AutoAWQForCausalLM.from_quantized(quant_path, fuse_layers=True)
tokenizer = AutoTokenizer.from_pretrained(quant_path, trust_remote_code=True)

# Convert prompt to tokens
prompt_template = """\
<|system|>
</s>
<|user|>
{prompt}</s>
<|assistant|>"""

tokens1 = tokenizer(
    [prompt_template.format(prompt="Capital of France is")], 
    return_tensors='pt',
    padding=True
).input_ids.cuda()

tokens2 = tokenizer(
    [prompt_template.format(prompt="And you are"), prompt_template.format(prompt="Favorite Beatles song?"), prompt_template.format(prompt="Hottest place on earth is")],
    return_tensors='pt',
    padding=True
).input_ids.cuda()

tokens3 = tokenizer(
    [prompt_template.format(prompt="How to test a new car?"), prompt_template.format(prompt="Tell me how amazing Earth is")],
    return_tensors='pt',
    padding=True
).input_ids.cuda()

# Generate output
for tokens in [tokens1, tokens2, tokens3]:
    print(tokens.shape)
    generation_output = model.generate(
        tokens,
        max_new_tokens=128
    )

    for output in generation_output:
        print('###')
        print(tokenizer.decode(output))

casper-hansen added 5 commits November 9, 2023 20:17

Adaptive batch sizing

10bc105

Add comment

de41a2a

Remove unused variable

3451b42

Remove unused import

2d51c97

Merge branch 'main' into adaptive_batch_size

b068723

casper-hansen merged commit c5581b2 into main Nov 11, 2023

younesbelkada mentioned this pull request Nov 13, 2023

Faster generation using AWQ + Fused modules huggingface/transformers#27411

Merged

7 tasks

casper-hansen deleted the adaptive_batch_size branch November 14, 2023 20:53

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Adaptive batch sizing #181

Adaptive batch sizing #181

casper-hansen commented Nov 9, 2023 •

edited

Loading

Adaptive batch sizing #181

Adaptive batch sizing #181

Conversation

casper-hansen commented Nov 9, 2023 • edited Loading

casper-hansen commented Nov 9, 2023 •

edited

Loading