Add sequence post processor #771

xenova · 2024-05-23T01:05:50Z

Adds support for updated Llama 3 tokenizer.

Closes #739

Example JavaScript code:

import { AutoTokenizer } from "@xenova/transformers";
const tokenizer = await AutoTokenizer.from_pretrained("Xenova/llama3-tokenizer-new");

console.log(tokenizer.encode('hello world')); // [128000, 15339, 1917]
console.log(tokenizer.encode('hello', 'world')); // [128000, 15339, 128000, 14957]

console.log(tokenizer('hello world', { return_tensor: false })); // { input_ids: [ 128000, 15339, 1917 ], attention_mask: [ 1, 1, 1 ] }
console.log(tokenizer('hello', { text_pair: 'world', return_tensor: false })); // { input_ids: [128000, 15339, 128000, 14957], attention_mask: [1, 1, 1, 1] }

console.log(tokenizer('hello world', { return_token_type_ids: true, return_tensor: false })); // { input_ids: [128000, 15339, 1917], attention_mask: [1, 1, 1], token_type_ids: [0, 0, 0] }
console.log(tokenizer('hello', { text_pair: 'world', return_token_type_ids: true, return_tensor: false })); // { input_ids: [128000, 15339, 128000, 14957], attention_mask: [1, 1, 1, 1], token_type_ids: [0, 0, 1, 1] }

Equivalent Python code:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('Xenova/llama-3-tokenizer-new')

print(tokenizer.encode('hello world')) # [128000, 15339, 1917]
print(tokenizer.encode('hello', 'world')) # [128000, 15339, 128000, 14957]

print(tokenizer('hello world')) # {'input_ids': [128000, 15339, 1917], 'attention_mask': [1, 1, 1]}
print(tokenizer('hello', 'world')) # {'input_ids': [128000, 15339, 128000, 14957], 'attention_mask': [1, 1, 1, 1]}

print(tokenizer('hello world', return_token_type_ids=True)) # {'input_ids': [128000, 15339, 1917], 'token_type_ids': [0, 0, 0], 'attention_mask': [1, 1, 1]}
print(tokenizer('hello', 'world', return_token_type_ids=True)) # {'input_ids': [128000, 15339, 128000, 14957], 'token_type_ids': [0, 0, 1, 1], 'attention_mask': [1, 1, 1, 1]}

Required by https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/

HuggingFaceDocBuilderDev · 2024-05-23T01:07:36Z

The docs for this PR live here. All of your documentation changes will be reflected on that endpoint. The docs are available until 30 days after the last update.

xenova added 5 commits May 23, 2024 02:47

Add Sequence PostProcessor

c1332f8

Required by https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/

Support return_token_type_ids

c018f27

Add llama3 tokenizer to unit tests

d68afe2

Add test for allowing user to request for token type ids

0e5fb41

Add JSDoc

3b2f5cd

xenova mentioned this pull request May 23, 2024

Unknown PostProcessor type: Sequence #739

Closed

5 tasks

Update generate_tests.py

078672b

xenova merged commit db9250b into main May 23, 2024
4 checks passed

xenova deleted the add-sequence-post-processor branch May 23, 2024 09:42

zcbenz mentioned this pull request Aug 4, 2024

Update to transformers.js 2.17.2 lenML/tokenizers#3

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add sequence post processor #771

Add sequence post processor #771

xenova commented May 23, 2024 •

edited

Loading

HuggingFaceDocBuilderDev commented May 23, 2024

Add sequence post processor #771

Add sequence post processor #771

Conversation

xenova commented May 23, 2024 • edited Loading

HuggingFaceDocBuilderDev commented May 23, 2024

xenova commented May 23, 2024 •

edited

Loading