From 187d640eb9cd1ae6f516f9d2945ca5c00a7109e8 Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Mon, 24 Apr 2023 20:26:32 +0900 Subject: [PATCH 01/13] docs: ko: fast_tokenizer.mdx content - translated Co-Authored-By: Gabriel Yang Co-Authored-By: Nayeon Han Co-Authored-By: Hyeonseo Yun <0525_hhgus@naver.com> Co-Authored-By: Sohyun Sim <96299403+sim-so@users.noreply.github.com> Co-Authored-By: Jungnerd <46880056+jungnerd@users.noreply.github.com> Co-Authored-By: Wonhyeong Seo --- docs/source/ko/_toctree.yml | 4 +- docs/source/ko/fast_tokenizers.mdx | 67 ++++++++++++++++++++++++++++++ 2 files changed, 69 insertions(+), 2 deletions(-) create mode 100644 docs/source/ko/fast_tokenizers.mdx diff --git a/docs/source/ko/_toctree.yml b/docs/source/ko/_toctree.yml index 9ef13724a8ae13..1298f42f4aa2c0 100644 --- a/docs/source/ko/_toctree.yml +++ b/docs/source/ko/_toctree.yml @@ -42,8 +42,8 @@ title: (번역중) Troubleshoot title: (번역중) 일반적인 사용방법 - sections: - - local: in_translation - title: (번역중) Use tokenizers from 🤗 Tokenizers + - local: fast_tokenizers + title: 🤗 Tokenizers 라이브러리에서 토크나이저 사용하기 - local: in_translation title: (번역중) Inference for multilingual models - local: in_translation diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx new file mode 100644 index 00000000000000..1c621189184ac1 --- /dev/null +++ b/docs/source/ko/fast_tokenizers.mdx @@ -0,0 +1,67 @@ + + +# 🤗 Tokenizers 라이브러리의 토크나이저 사용하기 + +[PreTrainedTokenizerFast]는 🤗 Tokenizers 라이브러리에 기반합니다. 🤗 Tokenizers 라이브러리의 토크나이저는 +🤗 Transformers로 매우 간단하게 불러올 수 있습니다. + +구체적인 내용에 들어가기 전에, 몇 줄의 코드로 더미 토크나이저를 만들어 보겠습니다: + +```python +>>> from tokenizers import Tokenizer +>>> from tokenizers.models import BPE +>>> from tokenizers.trainers import BpeTrainer +>>> from tokenizers.pre_tokenizers import Whitespace + +>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]")) +>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]) + +>>> tokenizer.pre_tokenizer = Whitespace() +>>> files = [...] +>>> tokenizer.train(files, trainer) +``` + +우리가 정의한 파일을 통해 학습 된 토크나이저를 이제 갖게 되었습니다. 이 런타임에서 계속 사용하거나 JSON 파일로 저장하여 나중에 사용할 수 있습니다. + +## 토크자이저 객체로부터 직접 불러오기 + +🤗 Transformers 라이브러리에서 이 토크나이저 객체를 활용하는 방법을 살펴보겠습니다. +[PreTrainedTokenizerFast] 클래스는 인스턴스화된 토크나이저 객체를 인수로 받아 쉽게 인스턴스화할 수 있습니다: + +```python +>>> from transformers import PreTrainedTokenizerFast + +>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer) +``` + +이제 fast_tokenizer 객체는 🤗 Transformers 토크나이저에서 공유하는 모든 메소드와 함께 사용할 수 있습니다! 자세한 내용은 토크나이저 페이지를 참조하세요. + +## JSON 파일에서 불러오기 + + + +JSON 파일에서 토크나이저를 불러오기 위해, 먼저 토크나이저를 저장해 보겠습니다: + +```python +>>> tokenizer.save("tokenizer.json") +``` + +JSON 파일을 저장한 경로는 tokenizer_file 매개변수를 사용하여 [PreTrainedTokenizerFast] 초기화 메소드에 전달할 수 있습니다: + +```python +>>> from transformers import PreTrainedTokenizerFast + +>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json") +``` + +이제 fast_tokenizer 객체는 🤗 Transformers 토크나이저에서 공유하는 모든 메소드와 함께 사용할 수 있습니다! 자세한 내용은 토크나이저 페이지를 참조하세요. From b23f0605c0beb9edbeb696ad291ca33265cb6adf Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Mon, 24 Apr 2023 22:40:55 +0900 Subject: [PATCH 02/13] Update docs/source/ko/fast_tokenizers.mdx Co-authored-by: Sohyun Sim <96299403+sim-so@users.noreply.github.com> --- docs/source/ko/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index 1c621189184ac1..bcf705a295dee8 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -12,7 +12,7 @@ specific language governing permissions and limitations under the License. # 🤗 Tokenizers 라이브러리의 토크나이저 사용하기 -[PreTrainedTokenizerFast]는 🤗 Tokenizers 라이브러리에 기반합니다. 🤗 Tokenizers 라이브러리의 토크나이저는 +[`PreTrainedTokenizerFast`]는 🤗 Tokenizers 라이브러리에 기반합니다. 🤗 Tokenizers 라이브러리의 토크나이저는 🤗 Transformers로 매우 간단하게 불러올 수 있습니다. 구체적인 내용에 들어가기 전에, 몇 줄의 코드로 더미 토크나이저를 만들어 보겠습니다: From f70cf016d4e7f12ced43f1da26351ec6f8e75159 Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Mon, 24 Apr 2023 22:41:19 +0900 Subject: [PATCH 03/13] Update docs/source/ko/fast_tokenizers.mdx Co-authored-by: Sohyun Sim <96299403+sim-so@users.noreply.github.com> --- docs/source/ko/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index bcf705a295dee8..724f087104b4eb 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -31,7 +31,7 @@ specific language governing permissions and limitations under the License. >>> tokenizer.train(files, trainer) ``` -우리가 정의한 파일을 통해 학습 된 토크나이저를 이제 갖게 되었습니다. 이 런타임에서 계속 사용하거나 JSON 파일로 저장하여 나중에 사용할 수 있습니다. +우리가 정의한 파일을 통해 이제 학습된 토크나이저를 갖게 되었습니다. 이 런타임에서 계속 사용하거나 JSON 파일로 저장하여 나중에 사용할 수 있습니다. ## 토크자이저 객체로부터 직접 불러오기 From 2f5b2d6a9a4b85f361b4a348f6eddbb01eaf09db Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Mon, 24 Apr 2023 22:41:34 +0900 Subject: [PATCH 04/13] Update docs/source/ko/fast_tokenizers.mdx Co-authored-by: Sohyun Sim <96299403+sim-so@users.noreply.github.com> --- docs/source/ko/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index 724f087104b4eb..690c8717f126ae 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -36,7 +36,7 @@ specific language governing permissions and limitations under the License. ## 토크자이저 객체로부터 직접 불러오기 🤗 Transformers 라이브러리에서 이 토크나이저 객체를 활용하는 방법을 살펴보겠습니다. -[PreTrainedTokenizerFast] 클래스는 인스턴스화된 토크나이저 객체를 인수로 받아 쉽게 인스턴스화할 수 있습니다: +[`PreTrainedTokenizerFast`] 클래스는 인스턴스화된 *토크나이저* 객체를 인수로 받아 쉽게 인스턴스화할 수 있습니다: ```python >>> from transformers import PreTrainedTokenizerFast From 7e9a6dba44093bf98367280401507186aabc4783 Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Mon, 24 Apr 2023 22:41:44 +0900 Subject: [PATCH 05/13] Update docs/source/ko/fast_tokenizers.mdx Co-authored-by: Sohyun Sim <96299403+sim-so@users.noreply.github.com> --- docs/source/ko/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index 690c8717f126ae..5c6a4e3a683368 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -44,7 +44,7 @@ specific language governing permissions and limitations under the License. >>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer) ``` -이제 fast_tokenizer 객체는 🤗 Transformers 토크나이저에서 공유하는 모든 메소드와 함께 사용할 수 있습니다! 자세한 내용은 토크나이저 페이지를 참조하세요. +이제 `fast_tokenizer` 객체는 🤗 Transformers 토크나이저에서 공유하는 모든 메소드와 함께 사용할 수 있습니다! 자세한 내용은 [토크나이저 페이지](main_classes/tokenizer)를 참조하세요. ## JSON 파일에서 불러오기 From 7cbe230947e10001378a0177bf43516a0583d88f Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Mon, 24 Apr 2023 22:42:02 +0900 Subject: [PATCH 06/13] Update docs/source/ko/fast_tokenizers.mdx Co-authored-by: Sohyun Sim <96299403+sim-so@users.noreply.github.com> --- docs/source/ko/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index 5c6a4e3a683368..25e54df2a16a3c 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -56,7 +56,7 @@ JSON 파일에서 토크나이저를 불러오기 위해, 먼저 토크나이저 >>> tokenizer.save("tokenizer.json") ``` -JSON 파일을 저장한 경로는 tokenizer_file 매개변수를 사용하여 [PreTrainedTokenizerFast] 초기화 메소드에 전달할 수 있습니다: +JSON 파일을 저장한 경로는 `tokenizer_file` 매개변수를 사용하여 [`PreTrainedTokenizerFast`] 초기화 메소드에 전달할 수 있습니다: ```python >>> from transformers import PreTrainedTokenizerFast From a153ff8d29b2d6df82ab2ac8b7b482c72a171339 Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Wed, 26 Apr 2023 15:00:33 +0900 Subject: [PATCH 07/13] Update docs/source/ko/fast_tokenizers.mdx Co-authored-by: Sohyun Sim <96299403+sim-so@users.noreply.github.com> --- docs/source/ko/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index 25e54df2a16a3c..42bca809f12cf7 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -64,4 +64,4 @@ JSON 파일을 저장한 경로는 `tokenizer_file` 매개변수를 사용하여 >>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json") ``` -이제 fast_tokenizer 객체는 🤗 Transformers 토크나이저에서 공유하는 모든 메소드와 함께 사용할 수 있습니다! 자세한 내용은 토크나이저 페이지를 참조하세요. +이제 `fast_tokenizer` 객체는 🤗 Transformers 토크나이저에서 공유하는 모든 메소드와 함께 사용할 수 있습니다! 자세한 내용은 [토크나이저 페이지](main_classes/tokenizer)를 참조하세요. From a23063a899696dd45c59324cd102e9dbb12ae5ff Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Wed, 26 Apr 2023 15:06:54 +0900 Subject: [PATCH 08/13] Update docs/source/ko/fast_tokenizers.mdx Co-authored-by: Hyeonseo Yun <0525yhs@gmail.com> --- docs/source/ko/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index 42bca809f12cf7..0e3323a9a286c1 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -12,7 +12,7 @@ specific language governing permissions and limitations under the License. # 🤗 Tokenizers 라이브러리의 토크나이저 사용하기 -[`PreTrainedTokenizerFast`]는 🤗 Tokenizers 라이브러리에 기반합니다. 🤗 Tokenizers 라이브러리의 토크나이저는 +[`PreTrainedTokenizerFast`]는 [🤗 Tokenizers](https://huggingface.co/docs/tokenizers) 라이브러리에 기반합니다. 🤗 Tokenizers 라이브러리의 토크나이저는 🤗 Transformers로 매우 간단하게 불러올 수 있습니다. 구체적인 내용에 들어가기 전에, 몇 줄의 코드로 더미 토크나이저를 만들어 보겠습니다: From e2bfdb00c8126fb09b8eb88e9751d56a6f909394 Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Wed, 26 Apr 2023 15:08:37 +0900 Subject: [PATCH 09/13] Update fast_tokenizers.mdx --- docs/source/ko/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index 0e3323a9a286c1..2334d635caf8a0 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -10,7 +10,7 @@ an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express o specific language governing permissions and limitations under the License. --> -# 🤗 Tokenizers 라이브러리의 토크나이저 사용하기 +# [[🤗Tokenizers]] 라이브러리의 토크나이저 사용하기 [`PreTrainedTokenizerFast`]는 [🤗 Tokenizers](https://huggingface.co/docs/tokenizers) 라이브러리에 기반합니다. 🤗 Tokenizers 라이브러리의 토크나이저는 🤗 Transformers로 매우 간단하게 불러올 수 있습니다. From 2e35d38fc9a5eb8c4c215e4657063e09ef24b441 Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Wed, 26 Apr 2023 15:09:39 +0900 Subject: [PATCH 10/13] Update fast_tokenizers.mdx --- docs/source/ko/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index 2334d635caf8a0..df7cf2c533760e 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -33,7 +33,7 @@ specific language governing permissions and limitations under the License. 우리가 정의한 파일을 통해 이제 학습된 토크나이저를 갖게 되었습니다. 이 런타임에서 계속 사용하거나 JSON 파일로 저장하여 나중에 사용할 수 있습니다. -## 토크자이저 객체로부터 직접 불러오기 +## 토크나이저 객체로부터 직접 불러오기 🤗 Transformers 라이브러리에서 이 토크나이저 객체를 활용하는 방법을 살펴보겠습니다. [`PreTrainedTokenizerFast`] 클래스는 인스턴스화된 *토크나이저* 객체를 인수로 받아 쉽게 인스턴스화할 수 있습니다: From 047aef848fcf7322909e785997aa66f011a458c4 Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Wed, 26 Apr 2023 15:34:57 +0900 Subject: [PATCH 11/13] Update fast_tokenizers.mdx --- docs/source/ko/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index df7cf2c533760e..95906e82242e43 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -10,7 +10,7 @@ an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express o specific language governing permissions and limitations under the License. --> -# [[🤗Tokenizers]] 라이브러리의 토크나이저 사용하기 +# 🤗 [[Tokenizers]] 라이브러리의 토크나이저 사용하기 [`PreTrainedTokenizerFast`]는 [🤗 Tokenizers](https://huggingface.co/docs/tokenizers) 라이브러리에 기반합니다. 🤗 Tokenizers 라이브러리의 토크나이저는 🤗 Transformers로 매우 간단하게 불러올 수 있습니다. From 8ecb7d8816869e510114eda26a1421892063e029 Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Wed, 26 Apr 2023 15:58:26 +0900 Subject: [PATCH 12/13] Update fast_tokenizers.mdx --- docs/source/ko/fast_tokenizers.mdx | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/docs/source/ko/fast_tokenizers.mdx b/docs/source/ko/fast_tokenizers.mdx index 95906e82242e43..bef75686ecb0c4 100644 --- a/docs/source/ko/fast_tokenizers.mdx +++ b/docs/source/ko/fast_tokenizers.mdx @@ -10,7 +10,7 @@ an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express o specific language governing permissions and limitations under the License. --> -# 🤗 [[Tokenizers]] 라이브러리의 토크나이저 사용하기 +# 🤗 Tokenizers 라이브러리의 토크나이저 사용하기[[use-tokenizers-from-tokenizers]] [`PreTrainedTokenizerFast`]는 [🤗 Tokenizers](https://huggingface.co/docs/tokenizers) 라이브러리에 기반합니다. 🤗 Tokenizers 라이브러리의 토크나이저는 🤗 Transformers로 매우 간단하게 불러올 수 있습니다. @@ -33,7 +33,7 @@ specific language governing permissions and limitations under the License. 우리가 정의한 파일을 통해 이제 학습된 토크나이저를 갖게 되었습니다. 이 런타임에서 계속 사용하거나 JSON 파일로 저장하여 나중에 사용할 수 있습니다. -## 토크나이저 객체로부터 직접 불러오기 +## 토크나이저 객체로부터 직접 불러오기[[loading-directly-from-the-tokenizer-object]] 🤗 Transformers 라이브러리에서 이 토크나이저 객체를 활용하는 방법을 살펴보겠습니다. [`PreTrainedTokenizerFast`] 클래스는 인스턴스화된 *토크나이저* 객체를 인수로 받아 쉽게 인스턴스화할 수 있습니다: @@ -46,7 +46,7 @@ specific language governing permissions and limitations under the License. 이제 `fast_tokenizer` 객체는 🤗 Transformers 토크나이저에서 공유하는 모든 메소드와 함께 사용할 수 있습니다! 자세한 내용은 [토크나이저 페이지](main_classes/tokenizer)를 참조하세요. -## JSON 파일에서 불러오기 +## JSON 파일에서 불러오기[[loading-from-a-JSON-file]] From 736a47d4335b7d7e5c792c38075b44ce021b2e07 Mon Sep 17 00:00:00 2001 From: Kihoon Son <75935546+KIHOON71@users.noreply.github.com> Date: Mon, 29 May 2023 16:34:40 +0900 Subject: [PATCH 13/13] Update _toctree.yml --- docs/source/ko/_toctree.yml | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/source/ko/_toctree.yml b/docs/source/ko/_toctree.yml index 9fc33f8a0d7e08..82f7c8d527894c 100644 --- a/docs/source/ko/_toctree.yml +++ b/docs/source/ko/_toctree.yml @@ -75,7 +75,7 @@ isExpanded: false title: 태스크 가이드 - sections: - - local: fast_tokenizer + - local: fast_tokenizers title: 🤗 Tokenizers 라이브러리에서 토크나이저 사용하기 - local: multilingual title: 다국어 모델 추론하기 @@ -673,4 +673,4 @@ - local: in_translation title: (번역중) Utilities for Time Series title: (번역중) Internal Helpers - title: (번역중) API \ No newline at end of file + title: (번역중) API