awesome-japanese-nlp-resources

專用於 Python 庫、預訓練模型、詞典和日語 NLP 語料庫的精選資源列表

English | 日本語 (Japanese) | 繁體中文 (Chinese) | 简体中文 (Chinese)

The latest additions 🎉

Improve slow page loading issues

Removed the statistics table from README.md. Please refer to README.full.md for the previous pages.

Hugging Face 🤗

Updated huggingface pages

Dictionary and IME

azookey-desktop - 日文輸入法azooKey桌面版，支援macOS
fcitx5-hazkey - 由azooKey引擎提供支援的fcitx5日文輸入法由azooKey引擎提供支援的fcitx5日文輸入法

Python

Jusho - 日本郵政編碼數據的簡單封裝

Updated on Aug 07, 2024

Contents

Hugging Face
- Models
- Datasets
Python library
C++
Rust crate
JavaScript
- Morphology analysis
- Converter
- Others
Go
- Morphology analysis
- Others
Java
- Morphology analysis
- Others
Pretrained model
- Word2Vec
- Transformer based models
ChatGPT
Dictionary and IME
Corpus
Tutorial
Research summary
Reference
Contributors

Python library

Morphology analysis

sudachi.rs - SudachiPy 0.6*及以上版本已開發為Sudachi.rs。
Janome - 純Python編寫的日語形態分析引擎
mecab-python3 - mecab-python。mecab-python。您可以在此處找到原始版本：http://taku910.github.io/mecab/。
mecab - 這個存儲庫是用於構建Windows 64位MeCab二進制文件和改進MeCab Python綁定的。
fugashi - 一個Cython MeCab包裝器，用於快速、Python式的日語分詞和形態分析。
nagisa - 基於循環神經網絡的日語分詞器
pyknp - 一個用於 JUMAN++/KNP 的 Python 模組
Mykytea-python - KyTea 的 Python 封裝程式
konoha - 木葉：日本分詞器的簡單封裝
natto-py - natto-py 將 Python 程式語言與 MeCab 結合，後者是日語詞性和形態分析器。
rakutenma-python - 樂天 MA（Python 版本）
python-vaporetto - Vaporetto 是一個快速且輕量級的基於點預測的分詞器。這是 Vaporetto 的 Python 封裝。
dango - 一個易於使用的日文分詞器，針對語言學習者和非語言學家。
rhoknp - 又一個 Juman++/KNP 的 Python 綁定程式
python-vibrato - 基於維特比算法的加速分詞器（Python封裝）
jagger-python - Jagger的Python綁定（基於模式的日語形態分析器的C++實現）

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Parsing

ginza - 一個基於Universal Dependencies的spaCy框架的日本NLP庫
cabocha - 另一個日本依存結構分析器
UniDic2UD - 現代和當代日語的分詞器、詞性標記器、詞形還原器和依存句法分析器
camphr - Camphr - 用於創建管道組件的 NLP 庫
SuPar-UniDic - 使用BERT模型的現代和當代日語分詞器、詞性標記器、詞形還原器和依存句法分析器
depccg - 具有超標記和依存因素模型的A* CCG解析器
bertknp - 基於BERT的日語依存句法分析器
esupar - 使用BERT/RoBERTa/DeBERTa模型的分詞器POS-標記器和依存句法分析器，適用於日語和其他語言。
yomikata - 使用微調的BERT模型進行異音詞消歧的程式庫。
jdepp-python - J.DepP的Python綁定（日本依存句法分析器的C++實現）

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Converter

pykakasi - 輕量級的轉換器，可將日文假名漢字句子轉換為假名羅馬字。
cutlet - Python中的日文轉羅馬字轉換器
alphabet2kana - 將英文字母轉換為片假名
Convert-Numbers-to-Japanese - 將阿拉伯數字或「西方」風格的數字轉換為日本上下文。
mozcpy - Python的Mozc：假名漢字轉換器
jamorasep - 日文文本解析器，將平假名/片假名字符串分離成音節（拼音）。
text2phoneme - 將日文轉換為音素序列的腳本
jntajis-python - 一個快速的字符轉換和音譯庫，基於日本國稅廳的法人番號系統定義的方案。
wiredify - 將日文假名從ba-bi-bu-be-bo轉換為va-vi-vu-ve-vo 將日文假名從ba-bi-bu-be-bo轉換為va-vi-vu-ve-vo
mecab-text-cleaner - 使用MeCab獲取日文讀音（yomigana）和重音的簡單Python套件（CLI/Python API）。
pynormalizenumexp - 執行NormalizeNumexp的Python實作，進行數量表達和時間表達的提取和規範化。
Jusho - 日本郵政編碼數據的簡單封裝

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Preprocessor

neologdn - mecab-neologd 的日文文本正規化工具
jaconv - 純Python日文字符互轉器，支援平假名、片假名、半角和全角。
mojimoji - 一個快速轉換日文半角和全角字符的轉換器
text-cleaning - 一款強大的日文網頁文本清理工具
HojiChar - 構成並管理多個前處理的文字前處理工具
utsuho - Utsuho是一個Python模組，用於在日語中半角片假名和全角片假名之間進行雙向轉換。
python-habachen - 另一個快速的日本字符串轉換器

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Sentence spliter

Bunkai - 日本語文境界判定工具
japanese-sentence-breaker - 日本語句子分解器
sengiri - 另一個針對日文文本的句子級分詞器
budoux - 獨立的。小巧的。語言中立的。BudouX 是機器學習驅動的斷行整理工具 Budou 的後繼者。
ja_sentence_segmenter - Python 的日文句子分割程式庫
hasami - 一個用於對日文文本進行句子分割的工具
kuzukiri - 用 Rust 編寫的 Python 日文文本分割器
ja-senter-benchmark - 日本語句子分割工具比較

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Sentiment analysis

oseti - 基於詞典的日語情感分析
negapoji - 日本語文書的正負面分類。
pymlask - 日文文本情感分析器
asari - 使用Python實現的日語情感分析器。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Machine translation

jparacrawl-finetune - JParaCrawl 預訓練神經機器翻譯 (NMT) 模型的使用示例。
JASS - JASS：針對日本特定序列的序列到序列預訓練，用於神經機器翻譯（LREC2020）和基於語言學的多任務預訓練，用於低資源神經機器翻譯（ACM TALLIP）。
PheMT - 一個針對日英機器翻譯韌性的現象級評估數據集。該數據集基於MTNT數據集，並附加了四種語言現象的註釋；專有名詞、縮寫名詞、口語表達和變體。COLING 2020。
VISA - 一個用於視覺場景感知機器翻譯的模糊字幕數據集

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Named entity recognition

namaco - 基於字元的命名實體識別。
entitypedia - Entitypedia是一個從維基百科擴展出來的命名實體詞典。
noyaki - 將字符跨度標籤信息轉換為基於分詞文本的標籤信息。
bert-japanese-ner-finetuning - 用於BERT模型微調的代碼。這是用於創建和使用用於實體識別任務的模型的BERT模型微調示例。
joint-information-extraction-hs - 從基於詳細註釋標準的病例報告語料庫中進行固有表達和關係抽取精度推論的代碼。
pygeonlp - pygeonlp，一個用於對日文文本進行地理標記的Python模塊。
bert-ner-japanese - BERT進行日語固有表現抽取的微調程式

To check the statistics table (GitHub stars/Downloads), please refer to this page.

OCR

Manga OCR - 關於日文文字的光學字符識別，主要聚焦於日本漫畫。
mokuro - 在瀏覽器中閱讀日本漫畫，並可選擇文字。
handwritten-japanese-ocr - 手寫日文OCR演示，使用觸控面板繪製輸入文本，使用Intel OpenVINO工具包。
OCR_Japanease - 日本語OCR
ndlocr_cli - NDLOCR的應用程式
donut - OCR-free文件理解轉換器（Donut）和合成文件生成器（SynthDoG）的官方實施，ECCV 2022
JMTrans - 漫畫翻譯器 - 從網址獲取日本漫畫以翻譯漫畫圖像
Kindai-OCR - 識別現代日本雜誌的OCR系統
text_recognition - NDLOCR使用文字識別模組
Poricom - 漫畫圖像的光學字符識別。漫畫OCR桌面應用程式。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Tool for pretrained models

JGLUE - JGLUE：日本通用語言理解評估
ginza-transformers - 在spacy-transformers中使用自定義分詞器
t5_japanese_dialogue_generation - 使用T5生成對話
japanese_text_classification - 調查各種DNN文本分類器，包括MLP、CNN、RNN、BERT方法。
Japanese-BERT-Sentiment-Analyzer - 使用FastAPI和BERT部署情感分析伺服器
jmlm_scoring - 基於遮蔽語言模型的日語和越南語評分
allennlp-shiba-model - Shiba 的 AllenNLP 整合：日本 CANINE 模型
evaluate_japanese_w2v - 用於評估預先訓練的日語word2vec模型的日語相似性數據集腳本
gector-ja - 基於BERT的日語GEC標記
Japanese-BPEEncoder - 日本語-BPE編碼器
Japanese-BPEEncoder_V2 - 日本語-BPE編碼器版本2
transformer-copy - 日本語文法錯誤訂正工具
japanese-stable-diffusion - 日本穩定擴散是一種日本特有的潛在文本到圖像擴散模型，能夠生成逼真的照片般的圖像，並接受任何文本輸入。
nagisa_bert - 一個針對nagisa的BERT模型
prefix-tuning-gpt - 前綴調整 GPT/GPT-NeoX 模型的範例代碼以及使用訓練過的前綴進行推論的代碼。
JGLUE-benchmark - JGLUE的訓練和評估腳本，這是一個日語理解基準測試。
jptranstokenizer - Transformers 库的日语分词器
jp-stable - JP 語言模型評估工具
compare-ja-tokenizer - 不同的分詞器在連續書寫語言的下游任務中表現如何？：以日語為例的案例研究 - ACL SRW 2023
lm-evaluation-harness-jp-stable - 一個用於少樣本評估自回歸語言模型的框架。
llm-lora-classification - llm-lora-classification
jp-stable - JP 語言模型評估工具
rinna_gpt-neox_ggml-lora - 該存儲庫包含已修改的腳本和合併腳本，用於將Alpaca-Lora適配器調整為支持LoRA調諧，假設使用了“rinna/japanese-gpt-neox...” [gpt-neox]模型轉換為ggml。
japanese-llm-roleplay-benchmark - 這個存儲庫是為了評估日本語LLM的角色扮演性能而創建的。
japanese-llm-ranking - 這個儲存庫支援YuzuAI的Rakuda排行榜，該排行榜是日本語言模型的日本專用版本，類似於LMSYS的Vicuna評估。
llm-jp-eval - 這個工具可以跨多個數據集對日語大規模語言模型進行自動評估。
llm-jp-sft - 此存儲庫包含了LLM-jp模型的監督微調代碼。
llm-jp-tokenizer - 這是一個整理了在LLM勉強會（LLM-jp）中開發的與LLM用戶端相關的分詞器的存儲庫。
japanese-lm-fin-harness - 日語語言模型金融評估工具
ja-vicuna-qa-benchmark - 日本維卡尼亞QA基準
swallow-evaluation - 燕子項目大規模語言模型評估腳本

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

namedivider-python - 一個將日本全名分為姓氏和名字的工具。
asa-python - 一個精選的資源清單，專門為日語自然語言處理的Python庫而設。
python_asa - Python版日本語意味角色賦予系統（ASA）
toiro - 日本語分詞器比較工具
ja-timex - 基於規則的解析器，用於提取/規範自然語言中的時間信息表達。
JapaneseTokenizers - 從文本數據中選擇特徵的一組度量標準
daaja - 這個存儲庫包含了針對日語自然語言處理的數據增強實現。
accel-brain-code - 這個存儲庫的目的是在概念證明（PoC）和研究開發（R＆D）的背景下製作原型作為案例研究，這些案例研究已經在我的網站上寫出來。主要研究主題是與表示學習相關的自動編碼器，基於能量模型的統計機器學習，對抗生成網絡...
kyoto-reader - 一個用於KyotoCorpus、KWDLC和AnnotatedFKCCorpus的處理器
nlplot - 自然語言處理的可視化模組
rake-ja - 日語快速自動關鍵詞提取演算法
jel - 日本實體連結器。
MedNER-J - 最新版本的MedEX/J（日本疾病名稱提取器）
zunda-python - Zunda：Python 的日本增強型情態分析器客戶端。
AIO2_DPR_baseline - https://www.nlp.ecei.tohoku.ac.jp/projects/aio/

https://www.nlp.ecei.tohoku.ac.jp/projects/aio/

showcase - 一個PyTorch實現的日本述語-參數結構（PAS）分析器，該分析器在Matsubayashi＆Inui（2018）的論文中提出，並進行了一些改進。
darts-clone-python - 飛鏢克隆 Python 綁定
jrte-corpus_example - 日本寫實文本蘊含語料庫的範例代碼
desuwa - 基於KNP規則文件的特徵標註器，可將單詞和詞組轉換為形態素（純Python）
HotPepperGourmetDialogue - 通過日語對話的餐廳搜索系統。
nlp-recipes-ja - 日語自然語言處理的樣本程式碼
Japanese_nlp_scripts - 在Python中處理日文文本的小例子腳本
DNorm-J - DNorm的日文版本
pyknp-eventgraph - EventGraph是一個針對高階日語自然語言處理應用的開發平台。
ishi - 石：日語意志分類器
python-npylm - 利用貝葉斯階層語言模型進行無監督詞素分析
python-npycrf - 條件付機率場和貝葉斯階層語言模型的整合，實現半監督形態素分析。
unsupervised-pos-tagging - 教師無品詞標記推斷
negima - Negima是一個Python套件，可以通過使用您定義的基於詞性的規則來提取日文文本中的短語。
YouyakuMan - 使用BertSum作為摘要模型的提取式摘要器
japanese-numbers-python - 一個自然語言中的日本數字（漢字、阿拉伯數字）解析器。
kantan - 按部首模式查找日語單詞
make-meidai-dialogue - 獲取日語對話語料庫
japanese_summarizer - 日本文章摘要器。
chirptext - ChirpText 是一個針對 Python 的文本處理工具集合。
yubin - 日本地址 Munger
jawiki-cleaner - 日本維基百科清潔工具
japanese2phoneme - 一個將日文轉換為音素的Python庫。
anlp_nlp2021_d3-1 - 這個存儲庫包含與“基於情感的文本分類的日語分詞器的實驗評估”相關的代碼。
aozora_classification - 關於 This project aims to classify Japanese sentence to how well similar to some Japanese classical writers, such as Soseki Natsume, Ogai Mori, Ryunosuke Akutagawa and so on.
aozora-corpus-generator - 從青空文庫生成純文本或標記化文本文件
JLM - 一個快速的LSTM語言模型，適用於日語和中文等大詞彙語言。
NTM - 日本文章的神經主題建模測試
EN-JP-ML-Lexicon - 這是一個機器學習和深度學習術語的英日詞彙表。
text-generation - 易於使用的腳本，可調整GPT-2-JA與您自己的文本，生成句子並自動發推文。
chainer_nic - 在Chainer上的神經圖像標題（NIC），其預訓練模型適用於英語和日語圖像標題數據集。
unihan-lm - 「UnihanLM：使用Unihan數據庫進行粗到細的中日語言模型預訓練」的官方存儲庫，AACL-IJCNLP 2020
mbart-finetuning - 執行 mBART 模型微調的程式碼。
xvector_jtubespeech - 在jtubespeech上的xvector模型
TinySegmenterMaker - 自製TinySegmenter學習模型的工具。
Grongish - 日本語和格隆基語的相互轉換腳本
WordCloud-Japanese - 使用WordCloud製作日文文章的腳本，實現形態素解析式的顯示，不需使用Mecab（形態素解析引擎）。
snark - 利用日本語詞彙網路的資料庫存取程式庫
toEmoji - 將日文轉換為僅由表情符號組成的文本的工具
termextract - - 專門用語抽出演算法的實現練習
JDT-with-KenLM-scoring - 對於Japanese-Dialog-Transformer的回應候選，使用KenLM的N-gram語言模型進行評分，進行過濾或重新排序。
mixture-of-unigram-model - Python中的混合Unigram模型和无限混合Unigram模型。 (混合單詞模型和無限混合單詞模型在Python中。)
hidden-markov-model - Python中的隱藏馬可夫模型（HMM）和無限隱藏馬可夫模型（iHMM）。
Ngram-language-model - Python中的Ngram語言模型。 (N-gram語言模型)
ASRDeepSpeech - 使用PyTorch中的deepspeech2模型和Zakuro AI的支援進行自動語音識別。
neural_ime - 神經輸入法引擎：神經輸入法引擎
neural_japanese_transliterator - 神經網路能正確地將羅馬字轉寫成日文嗎？
tinysegmenter - 針對日語指定的分詞器
AugLy-jp - 在AugLy上進行日文文本的數據增強
furigana4epub - 一個使用Mecab和Unidic將振仮名添加到日語epub書籍的Python腳本。
PyKatsuyou - 日語動詞/形容詞變化工具
jageocoder - 純Python日本地址地理編碼器
pygeonlp - pygeonlp，一個用於對日文文本進行地理標記的Python模塊。
nksnd - 新的假名漢字轉換引擎
JaMIE - 一個日本醫學信息提取工具箱
fasttext-vs-word2vec-on-twitter-data - 這是有關 fasttext 和 word2vec 的比較，以及執行腳本和學習腳本。
minimal-search-engine - 最小的搜尋引擎/PageRank/tf-idf
5ch-analysis - 利用網路爬蟲技術，對5ch的歷史紀錄進行擷取，追蹤調查過去流行的詞語（例如：香具師、orz等）。
tweet_extructor - Twitter日語評價分析資料集的推文下載器
japanese-word-aggregation - 基於Juman++和ConceptNet5.5的日語詞匯聚合
jinf - 一個日語變化轉換器
kwja - 一個統一的日語語言分析器
mlm-scoring-transformers - 基於遮蔽語言模型評分的複製套件（ACL2020）。
ClipCap-for-Japanese - [PyTorch] 日語 ClipCap
SAT-for-Japanese - [PyTorch] 展示、關注和講述日語
cihai - Python CJK（中文、日文、韓文）語言字典庫
marine - MARINE：基於多任務學習的日語口音估計
whisper-asr-finetune - 微調Whisper ASR模型
japanese_chatbot - 使用BERT和Transformer解碼器的日語聊天機器人的PyTorch實現
radicalchar - 部首文字正規化程式庫
akaza - 又一個針對IBus/Linux的日文輸入法
posuto - 日本郵遞區號資料。
tacotron2-japanese - Tacotron2 日語實現
ibus-hiragana - IBus 平假名輸入法
furiganapad - 注音輸入板
chikkarpy - 日語同義詞庫
ja-tokenizer-docker-py - Mecab + NEologd + Docker + Python3 Mecab + NEologd + Docker + Python3
JapaneseEmbeddingEval - 日本嵌入評估
gptuber-by-langchain - GPT會當YouTuber
shuwa - 擴展 GNOME 螢幕鍵盤以支援輸入法
japanese-nli-model - 這個存儲庫提供了日語NLI模型的代碼，一個經過微調的遮蔽語言模型。
tra-fugu - 使用FuguMT進行日英翻譯和英日翻譯的工具
fugumt - 這是一個使用在ぷるーふおぶこんせぷと上公開的機器翻譯引擎的翻譯環境。可以翻譯輸入在表格中的文字，以及 PDF 文件的翻譯。
JaSPICE - JaSPICE：使用謂詞-參數結構自動評估圖像標題模型的評估指標
Retrieval-based-Voice-Conversion-WebUI-JP-localization - 日本本地化
pyopenjtalk - Python 封裝 OpenJTalk
yomigana-ebook - 在電子書中為每個漢字添加讀音，讓學習日語更容易。
N46Whisper - 基於耳語的日文字幕生成器
japanese_llm_simple_webui - Rinna-3.6B、OpenCALM等的日本語對應LLM(大規模言語模型)用的簡易Web介面是。
pdf-translator - pdf-translator 將英文 PDF 檔案翻譯成日文，並保留原始的版面配置。
japanese_qa_demo_with_haystack_and_es - 使用Haystack + Elasticsearch + wikipedia(ja)構建的日語問答系統的示例
mozc-devices - 自動從code.google.com/p/mozc-morse匯出
natsume - 一個日文文本前端處理工具包
vits-japros-webui - 日本語TTS（VITS）的學習和音訊合成的Gradio WebUI 日本語TTS（VITS）的學習和音訊合成的Gradio WebUI
ja-law-parser - 一個日本法律解析器
dictation-kit - 使用Julius的日語口述套件
julius4seg - 使用Julius的分割支援工具
voicevox_engine - 免費使用的中等品質文字朗讀軟體，VOICEVOX的語音合成引擎
LLaVA-JP - LLaVA-JP 是一個由 LLaVA 方法訓練的日本 VLM。
RAG-Japanese - 用於低資源環境下的日本LLM的開源RAG與Llama指數
bertjsc - 使用BERT（遮罩語言模型）的日語拼寫錯誤修正器。基於BERT的日語校正。
llm-leaderboard - 日本任務的llm評估項目
jglue-evaluation-scripts - 關於JGLUE的培訓和評估腳本，這是一個日語理解基準的項目。 Training and evaluation scripts for JGLUE, a Japanese language understanding benchmark
BLIP2-Japanese - 使用在日本數據集上預訓練的模型，修改LAVIS的BLIP2 Q-former。
wikipedia-passages-jawiki-embeddings-utils - 將維基百科的日文句子轉換為各種日文嵌入和faiss索引的腳本等。
simple-simcse-ja - 探索日本SimCSE
wikipedia-japanese-open-rag - 根據Wikipedia的日文文章，回答用戶問題的Gradio基於RAG的示例。
gpt4-autoeval - 使用GPT-4來自動評估語言模型的回應腳本
t5-japanese - 日語T5模型
japanese_llm_eval - 用於評估日本語LLM的存儲庫・評估日本語LLM的存儲庫
jmteb - JMTEB（日本大规模文本嵌入基准测试）的评估脚本
pydomino - 這是一個用於對日語語音進行音素標籤對齊的工具。
easynovelassistant - 輕量且無規制和審查的日語本地 LLM『LightChatAssistant-TypeB』所提供的簡單小說生成助手。利用本地特權永久生成，堆積中獎的 Gacha。支援朗讀功能。
clip-japanese - 日語CLIP模型
rime-jaroomaji - Rime IME 的日文羅馬拼音輸入方案
deep-question-generation - 使用深度學習生成的測驗（日語T5模型）
magpie-nemotron - 使用Magpie技術和Nemotron-4-340B-Instruct來創建合成對話數據集的代碼
qlora_ja - 在日本語數據集中進行qlora指令調整學習的示例代碼
mozcdic-ut-jawiki - Mozc UT Jawiki 字典是從日文維基百科生成的字典，用於 Mozc。
shisa-v2 - 日英雙語法學碩士
llm-translator - 基於Mixtral的Ja-En（En-Ja）翻譯模型

To check the statistics table (GitHub stars/Downloads), please refer to this page.

C++

Morphology analysis

mecab - 又一個日本語形態分析器
jumanpp - Juman++（一個形態學分析工具包）
kytea - 京都文本分析工具箱，可用於詞語分割和發音估計等。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Parsing

cabocha - 另一個日本依存結構分析器
knp - 一個日語解析器

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

jsc - 日文假名漢字轉換、中文拼音輸入和CJE混合輸入的聯合源通道模型。
aquaskk - 沒有形態學分析的輸入法。
mozc - Mozc - 一款為多平台設計的日本輸入法編輯器
trimatch - Trimatch：一個（精確|前綴|近似）字串匹配庫
resembla - Resembla：基於單詞的日語相似句子搜索庫
corvusskk - ▽▼ Windows 的 SKK-like 日文輸入法編輯器

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Rust crate

Morphology analysis

lindera - 一個形態學分析庫。
vaporetto - Vaporetto：基於點預測的高速分詞器
goya - 用 Rust 寫的日語形態分析
vibrato - 顫音：基於維特比加速的分詞器
yoin - 一個用純 Rust 編寫的日語形態分析器
mecab-rs - 安全的 Rust 綁定，用於 mecab 詞性和形態分析庫。
awabi - 一個使用mecab字典的形態分析器

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Converter

wana_kana_rust - 檢查和轉換日文字符（平假名、片假名）和羅馬字的實用程式庫
unicode-jp-rs - 一個 Rust 函式庫，可將日文半角ｶﾅ和全角英數轉換為正常字符。
kana - [鏡像] CLI 程序，可將羅馬字文本轉寫為平假名或片假名。
kanaria - 這個程式庫提供了平假名、片假名、半形和全形之間的互相轉換和識別功能。
japanese-address-parser - 日本的地址分割成都道府県/市區町村/町名/其他的程式庫

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Search engine library

lindera-tantivy - Lindera tokenizer for Tantivy.

林德拉分詞器用於Tantivy。

tantivy-vibrato - 使用 Vibrato 的 Tantivy 分詞器。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

daachorse - 一個在 Rust 中使用緊湊的雙陣列資料結構實現 Aho-Corasick 算法的快速實現。
find-simdoc - 以時間和記憶體效率找出所有相似文件的配對
crawdad - 使用字符雙陣列嘗試的自然語言字典的 Rust 函式庫。
tokenizer-speed-bench - 各種分詞器的比較代碼
stringmatch-bench - 這裡提供基準工具，用於比較字串匹配的資料結構效能。
vime - 使用Vim作為X11應用程式的輸入法
voicevox_core - 免費使用的中等質量的文字朗讀軟件，VOICEVOX的核心
akaza - 又一個針對IBus/Linux的日文輸入法
Jotoba - 一個免費的在線自主托管的多語言日語詞典。
dvorakjp-romantable - Google 日本語輸入用 DvorakJP 羅馬字表 / DvorakJP Roman Table for Google Japanese Input
niinii - 使用一個日語注釋器來輔助閱讀文本，使用「一覧」。
cskk - SKK（簡易假名漢字轉換）程式庫
japanki - 通過在CLI上進行測驗來學習日語詞彙🇯🇵！
jpreprocess - 用於文本轉語音應用的日文文本預處理器（OpenJTalk在Rust語言中的重寫）
listup_precedent - 裁判例資料列表生成軟體，可透過網址(https://www.courts.go.jp/index.html) 對法院網站進行爬蟲。
jisho - Jisho 是一個提供日英詞典的 CLI 工具和 Rust 函式庫。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

JavaScript

Morphology analysis

kuromoji.js - 日本語形態素解析器的JavaScript實現
rakutenma - Rakuten MA - 一款純粹使用 JavaScript 編寫的中日文形態分析器（詞分割器 + 詞性標記器）。 Resources
node-mecab-ya - 另一個用於 Node.js 的 MeCab 封裝程式
juman-bin - 一個可擴展的日本語形態素解析器。日本語形態素解析系統。
node-mecab-async - 使用MeCab的非同步日語形態分析器。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Converter

kuroshiro - 日語語言庫，可將日語句子轉換為平假名、片假名或羅馬字，支持振り仮名和送り仮名模式。
kuroshiro-analyzer-kuromoji - Kuroshiro 的 Kuromoji 形態分析器。
hepburn - 使用 Hepburn 羅馬拼音將日文平假名和片假名轉換為羅馬字的 Node.js 模組。
japanese-numerals-to-number - 將日本數字轉換為數字
jslingua - 處理文本的Javascript庫：阿拉伯語，日語等。
WanaKana - JavaScript 庫，用於檢測和轉寫平假名 <--> 片假名 <--> 羅馬字。
node-romaji-name - 將基於羅馬字的日本名字進行標準化和修復常見問題。
kyujitai.js - 製作日本古風文本的實用集合
normalize-japanese-addresses - 開源的地址規範化程式庫。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

bangumi-data - 日本動畫的原始數據
yomichan - Chrome和Firefox的日語彈出詞典擴展。
proofreading-tool - GUI工具，用於文本校對。
kanjigrid - 一個網頁應用程式，顯示詹姆斯·海西格《漢字憶起》第六版所教授的2200個漢字。
japanese-toolkit - 單一存儲庫用於漢字、假名、日語數據庫等。
analyze-desumasu-dearu - 解析敬體（敬語）和常體（平語）的JavaScript程式庫
hatsuon - 日語音高工具
sentiment_ja_js - 使用JavaScript進行日語情感分析，sentiment_ja。
mecab-ipadic-seed - mecab-ipadic種子詞典閱讀器
Japanese-Word-Of-The-Day - 每天一個不同的日語單詞。
oskim - 擴展 GNOME 螢幕鍵盤以支援輸入法
tweetMapping - 這是東日本大地震發生後24小時內帶有地理標籤的推文的數字檔案。
pitch-accent - 預測日語的音高重音
kana2ipa - 將「ひらがな」或「カタカナ」轉換為日語發音時的音標(IPA)的指令
voicevox - 免費使用的中等品質文字朗讀軟體，VOICEVOX的編輯器

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Go

Morphology analysis

kagome - 純Go編寫的自包含日語形態分析器

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

ojosama - 將文字轉換為百滿天原薩洛美小姐風格的口吻。
nihongo - 日本語詞典
yomichan-import - Yomichan 的外部詞典導入工具。
imas-ime-dic - THE IDOLM@STER 日文輸入法詞彙表（由imas-db.jp提供）
go-kakasi - 在Go中將漢字音譯為平假名/片假名/羅馬字將漢字音譯為平假名/片假名/羅馬字，在Go中
go-moji - 一個用於全角/半角轉換的 Go 函式庫
ojichat - 生成一些看起来像叔叔会通过LINE或邮件发送的文本

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Java

Morphology analysis

kuromoji - Kuromoji是一個自包含且非常易於使用的日語形態分析器，專為搜索而設計。
Sudachi -　A Japanese Tokenizer for Business
SudachiDict - Sudachi詞彙表

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

kanjitomo-ocr - 從圖像中識別日文字符的Java庫
jakaroma - 將日本漢字轉換為羅馬字（拉丁字母）的Java庫和命令行工具
kakasi-java - Java中的漢字轉假名/片假名/羅馬字輸出
Kamite - 一款桌面式的日語學習輔助工具
react-native-japanese-tokenizer - React Native 的非同步日本語分詞原生插件，適用於 iOS 和 Android。
elasticsearch-analysis-japanese - 日本語分析器使用Kuromoji日本語分詞器進行ElasticSearch。
moji4j - 一個Java庫，可在日文平假名、片假名和羅馬字之間進行轉換。
neologdn-java - mecab-neologd 的日文文本正規化工具
elasticsearch-sudachi - 日本的elasticsearch分析插件

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Pretrained model

Word2Vec

japanese-words-to-vectors - 使用Gensim和Mecab的日語Word2vec（單詞到向量）方法。
chiVe - 使用Sudachi和NWJC的日語詞嵌入
elmo-japanese - 艾摩日文
embedrank - EmbedRank 的 Python 實現
aovec - 簡易青空文庫Word2Vec建構器 - 青空文庫全書籍的Word2Vec建構器+已建構模型
dependency-based-japanese-word-embeddings - 這是 AI LAB 文章「係り受けに基づく日本語単語埋込 (Dependency-based Japanese Word Embeddings)」的儲存庫 (文章網址 https://ai-lab.lapras.com/nlp/japanese-word-embedding/)。
jawikivec - 另一個日本維基百科實體向量
jawiki_word_vector_updater - 從最新的日本語Wikipedia傾印數據中，使用MeCab在IPA詞典和最新的Neologd詞典中進行形態素分析，並基於該結果學習word2vec、fastText和GloVe的詞向量表示的腳本。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Transformer based models

bert-japanese - 日文文本的BERT模型。
japanese-pretrained-models - 由rinna株式會社提供的生成日語預訓練模型的代碼。
bert-japanese - 使用SentencePiece的BERT模型進行日文文本處理。
SudachiTra - Transformer 的日語分詞器
japanese-dialog-transformers - NTT有限公司提供的評估日語預訓練模型的代碼。
shiba - CANINE是一種高效的字符級別轉換器，我們提供了Pytorch實現和預訓練的日語模型。
Dialog - 使用BERT和Transformer解碼器的日本聊天機器人的PyTorch實現
language-pretraining - PyTorch 實現的 BERT 和 ELECTRA 模型，適用於日文文本。
medbertjp - 在日本醫學領域中，預訓練BERT模型的試驗。
ILYS-aoba-chatbot - ILYS-aoba聊天機器人
t5-japanese - 預訓練日語T5模型的代碼
pytorch_bert_japanese - 使用Pytorch來使用BERT的日文預訓練模型。
Laboro-BERT-Japanese - Laboro BERT 日語：使用 Web-Corpus 預訓練的日語 BERT
RoBERTa-japanese - 日本BERT預訓練模型
aMLP-japanese - 日本語的aMLP Transformer模型
bert-japanese-aozora - 使用UniDic和SudachiPy預先分詞，並在青空文庫和維基百科上訓練的日語BERT。
sbert-ja - 用於 Hugging Face Model Hub 的句子 BERT 日語模型訓練代碼
BERT-Japan-vaccination - 「日本推文情緒分析與疫苗接種比較」官方微調程式碼
gpt2-japanese - 日本語GPT2生成モデル
text2text-japanese - 基於gpt-2的文本轉換模型
gpt-ja - HuggingFace 的 transformers 的 GPT-2 日本模型
friendly_JA-Model - 使用friendly_JA語料庫訓練的MT模型，嘗試通過使用拉丁/英語衍生的片假名詞彙表，而不是標準的漢日詞彙表，使日語對西方人更加容易/易於理解。
albert-japanese - 使用SentencePiece的BERT模型進行日文文本處理。
ja_text_bert - 在日語Wikipedia語料庫中生成BERT預訓練模型的存儲庫
DistilBERT-base-jp - 一個在維基百科上訓練的日本DistilBERT預訓練模型。
bert - 這個存儲庫提供了使用 RoBERTa 預訓練於日本語語料庫的片段。我們的數據集包括日本維基百科和網頁滾動文章，總共 25GB。釋出的模型是基於 HuggingFace 的模型構建的。
Laboro-DistilBERT-Japanese - 勞羅 DistilBERT 日文
luke - LUKE -- 基於知識嵌入的語言理解
GPTSAN - 通用開關變壓器基於日語模式
japanese-clip - 日本CLIP由rinna有限公司開發。
AcademicBART - 我們在學術數據庫CiNii Articles的論文摘要上，預先訓練了一個基於BART的日語遮罩語言模型。
AcademicRoBERTa - 我們在學術數據庫CiNii Articles的論文摘要上預訓練了一個基於RoBERTa的日語遮罩語言模型。
LINE-DistilBERT-Japanese - DistilBERT模型預先在131 GB的日本網頁文本上進行了預訓練。教師模型是LINE內部建立的BERT-base模型。
Japanese-Alpaca-LoRA - 使用經過日語翻譯的Stanford Alpaca資料集，進行LLaMA的微調並創建了Low-Rank Adapter，以下是其連結和生成樣本程式碼。
albert-japanese-tinysegmenter - 提供預訓練模型、程式碼和指導文件，以在日本維基百科資源上預訓練官方ALBERT（https://github.com/google-research/albert）。
japanese-llama-experiment - 日本的LLaMa實驗
easylightchatassistant - EasyLightChatAssistant 是一個輕量級的環境，用於輕鬆測試不受審查或規範的本地日語模型LightChatAssistant，使用KoboldCpp。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

ChatGPT

VRChatGPT - 使用ChatGPT的程式，讓您可以在VRChat上聊天。
AITuberDegikkoMirii - 我們正在開發AITuber的基礎部分。
wanna - 具有自然語言的Shell命令啟動器
ChatdollKit - ChatdollKit 可以讓您將您的 3D 模型製作成聊天機器人。
ChuanhuChatGPTJapanese - ChatGPT API 日文版的 GUI
AISisterAIChan - 這是搭載了ChatGPT3.5的伺か鬼「AI妹アイちゃん」。使用需要另外準備ChatGPT的API金鑰。
vrchatbot - 建立VRChat AI Bot的存儲庫
gptuber-by-langchain - GPT會當YouTuber
openai-chatfriend - 一個使用 Nuxt 3 構建的聊天框應用程序，由 Open AI 文本完成端點提供支持。您可以選擇不同的 AI 朋友個性。默認情況下，它會用日語回答。您可以使用此應用程序練習您的日語技能！
chrome-ext-translate-to-hiragana-with-chatgpt - 這個 Chrome 擴充功能可以使用 ChatGPT 將選定的日文文本翻譯成平假名。
azure-search-openai-demo - 在這個範例中，我們使用檢索增強生成模式，展示了一些創建類似ChatGPT體驗的方法，以應用於自己的數據。
chatvrm - ChatVRM是一個可以在瀏覽器中輕鬆與3D角色對話的演示應用程式。
sftly-replace - 一個Chrome擴展程序，可以輕鬆替換所選文本
summarize_arxv - 用圖表總結arXiv論文
aiavatarkit - 快速建立基於人工智慧的對話化頭像
pva-aoai-integration-solution - 這個存儲庫是為了將在神戶市政府進行的ChatGPT試行使用所創建的流程等進行解決方案化並公開。
jp-azureopenai-samples - 為了提供使用Azure OpenAI進行應用程式實作的參考，我們免費提供應用程式的範例（參考架構、範例程式碼和部署步驟）。
character_chat - 這是一個使用OpenAI API的聊天腳本，可以與設定的角色用日語進行對話。
chatgpt-slackbot - 用於在Slack上使用OpenAI的ChatGPT API的Slackbot腳本（假設使用日語）用於在Slack上使用OpenAI的ChatGPT API的Slackbot腳本（假設使用日語）
chatgpt-prompt-sample-japanese - 這是ChatGPT的提示示例。 ChatGPT的提示示例。
kanji-flashcard-app-gpt4 - 一個使用Python和Langchain構建的日語漢字閃卡應用程序，並搭載了GPT-4的智能增強功能。
IgakuQA - 評估GPT-4和ChatGPT在日本醫學執照考試上的表現
japagen - 使用LLM在日語任務中生成虛擬學習數據的研究

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Dictionary and IME

mecab-ipadic-neologd - 基於網絡語言資源的新詞典，適用於mecab-ipadic。
tdmelodic - 一個日本口音字典生成器
jamdict - Python 3 庫，用於操作Jim Breen的JMdict、KanjiDic2、JMnedict和漢字-部首映射。
unidic-py - 透過pip安裝的Unidic打包。
Japanese-Company-Lexicon - 日本公司用語辭典（JCLdic）
manbyo-sudachi - 酸橙專用萬病辭書
jawiki-kana-kanji-dict - 從維基百科（日文版）生成SKK / MeCab詞典
JIWC-Dictionary - 字典以尋找與文本相關的情感
JumanDIC - 這個存儲庫包含源字典文件，用於構建 JUMAN 和 Juman++ 的字典。
ipadic-py - IPAdic打包成Python易於使用的套件。
unidic-lite - 一個小型的UniDic版本，方便進行pip安裝。
emoji-ime-dictionary - 日本語輸入表情符號的 IME 附加詞典 orange_book，Google 日本語輸入等可將日本語轉換為表情符號的 IME 擴展詞典。
google-ime-dictionary - 日英轉換・英語縮寫展開的 IME 追加詞典 orange_book，可在 Google 日本語輸入法或 ATOK 等輸入法中實現從日語到英語的和英轉換和英語縮寫展開的 IME 擴展詞典。
dic-nico-intersection-pixiv - NicoNico大百科和Pixiv百科全書共同部分的IME詞典
google-ime-user-dictionary-ja-en - 這是GoogleIME用片假名詞彙字典專案的存檔，從日語外來詞的片假名詞彙轉換為英語。
emoticon - Google日本語輸入的表情符號字典∩(,,Ò‿Ó,,)∩
mecab-mozcdic - 這是將開源mozc字典轉換為MeCab字典格式的結果。
denonbu-ime-dic - 電音IME：針對Microsoft IME等輸入法所設計的「電音部」相關用語詞典。
nijisanji-ime-dic - 這是一個針對 Microsoft IME 等輸入法所設計的「にじさんじ」相關用語詞典。
pokemon-ime-dic - 這是一個包含目前已知所有寶可夢名稱的用語詞典，旨在供Microsoft IME等輸入法使用。
EJDict - 英日辭典數據（公共領域）EJDict-hand
Ayashiy-Nipongo-Dic - 利用貴公司提供的輸入法，可以正確地使用日語。
genshin-dict - 這是可用於 Windows/macOS 的原神詞彙字典。
jmdict-simplified - JMdict和JMnedict的JSON格式
mozcdict-ext - 將外部單詞轉換為Mozc系統詞典
mh-dict-jp - 想要創建Monster Hunter的用戶詞典...
jitenbot - 將日本字典網站和應用程式的資料轉換為可攜式檔案格式。
mecab-unidic-neologd - 基於網絡語言資源的mecab-unidic新詞典
hololive-dictionary - 這是關於Hololive（Hololive Production）的字典文件。您可以使用./dictionary文件夾中的文本文件將單詞添加到IME中。詳情請參閱README.md。
jmdict-yomitan - Yomitan/Yomichan的JMdict、JMnedict和KANJIDIC。
yomichan-jlpt-vocab - Yomichan中單詞的JLPT級別標籤
Jitendex - 一個免費且開放授權的日英詞典，可與多個詞典客戶端兼容。
jiten - 基於jmdict/kanjidic的日本Android/CLI/Web字典 - 日語辭典、和英辭典、漢英字典、和德辭典、和蘭辭典
pixiv-yomitan - Pixiv 百科全書對於讀谷村的詞典
uchinaaguchi_dict - 琉球語辭典（沖繩語辭典）
yomitan-dictionaries - 讀取：讀取日本和中文詞典對於讀取。
mouse_over_dictionary - 滑鼠懸停在單字上時，自動讀取的通用辭典工具
jisyo - 為SKK的新辭典格式的假名漢字轉換引擎
skk-jisyo.emoji-ja - 日本語的讀音轉換為 Emoji 的 SKK 字典 😂
anthy - Anthy是一個日文的假名漢字轉換引擎。它將羅馬字轉換為假名，並將假名文本轉換為混合假名和漢字。
aws_dic_for_google_ime - AWS服務名稱的Google日文輸入詞典
cl-skkserv - 使用Common Lisp構建的SKK詞典伺服器及其擴展
anthy - 安西維護
anthy-unicode - 安西Unicode - 另一個安西
azooKey - azooKey：一個完全使用Swift開發的日本鍵盤iOS應用程式
azookey-desktop - 日文輸入法azooKey桌面版，支援macOS
fcitx5-hazkey - 由azooKey引擎提供支援的fcitx5日文輸入法由azooKey引擎提供支援的fcitx5日文輸入法

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Corpus

Part-of-speech tagging / Named entity recognition

ner-wikipedia-dataset - 使用維基百科進行日語固有表現抽取的資料集
IOB2Corpus - 用於命名實體識別的日語IOB2標記語料庫。
TwitterCorpus - 首都大日本語 Twitter 語料庫
UD_Japanese-PUD - 平行通用依存句法。
UD_Japanese-GSD - 從Google UDT 2.0輸入的日本數據。
KWDLC - 京都大學網頁文件引導語料庫
AnnotatedFKCCorpus - 註釋版的富滿開取中心語料庫

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Parallel corpus

small_parallel_enja - 50k 英日平行語料庫，用於機器翻譯基準測試。
Web-Crawled-Corpus-for-Japanese-Chinese-NMT - 一個用於日中機器翻譯的網絡爬蟲語料庫
CourseraParallelCorpusMining - Coursera 課程挖掘和多階段微調，以改善講座翻譯
JESC - 一個大型的英日平行語料庫
AMI-Meeting-Parallel-Corpus - AMI會議平行語料庫
giant_ja-en_parallel_corpus - 這個目錄包含一個龐大的日英字幕語料庫。原始數據來自斯坦福大學的JESC項目。
jesc_small - 小型日英字幕語料庫
graded-enja-corpus - 禁止用語或單詞級別考慮的日英對譯語料庫。
cjk-compsci-terms - 中日韓電腦科學術語對照 / 日中韓的電腦科學用語對照 / 韓中日電腦科學術語對照 / 한중일 컴퓨터 과학 용어 대조
Laboro-ParaCorpus - 創建日英平行語料庫和訓練NMT模型的腳本
google-vs-deepl-je - 谷歌 vs DeepL JE

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Dialog corpus

JMRD - 日本電影推薦對話數據集
open2ch-dialogue-corpus - 透過爬蟲從Open 2ch網站建立的對話語料庫
BSD - 商業場景對話語料庫
asdc - 住宿搜索對話語料庫 (宿泊施設探索對話語料庫)
japanese-corpus - 日語對話資料，適用於seq2seq等。
BPersona-chat - 這個存儲庫包含了在AACL-IJCNLP 2022的Eval4NLP 2022研討會上發表的論文《Chat Translation Error Detection for Assisting Cross-lingual Communications》中所發布的日英雙語聊天語料庫BPersona-chat。
japanese-daily-dialogue - 日本語日常対話コーパス是一個高品質的多輪對話數據集，包含五個主題的日常對話：生活、學校、旅行、健康和娛樂。
llm-japanese-dataset - LLM構築用的日本語聊天資料集

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

jrte-corpus - 日本現實文本蘊含語料庫（NLP 2020，LREC 2020）
kanji-data - 一個包含更新的JLPT級別和WaniKani信息的JSON漢字數據集。
JapaneseWordSimilarityDataset - 日本語詞語相似度資料集
simple-jppdb - 一個用於日文簡化的改述資料庫
chABSA-dataset - 翻譯：chakki的基於方面的情感分析數據集
JaQuAD - JaQuAD：日本機器閱讀理解問答資料集（2022年，Skelter Labs）
JaNLI - 日本對抗自然語言推論數據集
ebe-dataset - 基於證據的解釋數據集（AACL-IJCNLP 2020）
emoji-ja - UNICODE繪文字的日本語讀音/關鍵字/分類詞典
nayose-wikipedia-ja - 從維基百科創建的日語名稱對齊數據集
ja.text8 - 用於詞向量嵌入的日文文本8語料庫。
ThreeLineSummaryDataset - 3行要約資料集
japanese - 這個存儲庫包含由利茲大學語料庫確定頻率排序的44,998個最常見的日語單詞列表。
kanji-frequency - 從各種來源收集的漢字使用頻率數據
TEDxJP-10K - TEDxJP-10K 語音辨識評估數據集
CoARiJ - 日本年報語料庫
technological-book-corpus-ja - 收集了用日語撰寫的技術書籍的生語料庫/工具
ita-corpus-chuwa - ITA語料庫的分塊詞註釋
wikipedia-utils - 用於自然語言處理的預處理維基百科文本的實用腳本
inappropriate-words-ja - 收集日語中不適當的表達方式。可用於自然語言處理時的數據清理等。
house-of-councillors - 從參議院官方網站整理了會派、議員、議案、質問主意書的數據。
house-of-representatives - 國會議案資料庫：衆議院
STAIR-captions - STAIR字幕：大規模日本圖像字幕數據集
Winograd-Schema-Challenge-Ja - Winograd模式挑戰的日本翻譯
speechBSD - 一個包含音訊和說話者屬性信息的BSD語料庫擴展版。
ita-corpus - ITA語料庫的文章清單
rohan4600 - 莫拉平衡型日本語語料庫
anlp-jp-history - 語言處理學會年度大會演講的完整列表和機器可讀版本等。
keigo_transfer_task - 敬語轉換任務中的評估數據集
loanwords_gairaigo - 日本中的英語借詞
jawikicorpus - 日本維基百科鏈接化語料庫
GeneralPolicySpeechOfPrimeMinisterOfJapan - 這是日本總理一般政策演說的語料庫。
wrime - WRIME：主觀與客觀情感分析資料集
jtubespeech - JTubeSpeech：從YouTube收集的日語語音語料庫
WikipediaWordFrequencyList - 在日語Wikipedia中常用的單詞列表
kokkosho_data - 車輛不具合情報相關資料集
pdmocrdataset-part1 - 在數位化資料OCR文字化業務中所創建的OCR學習用資料集。
huriganacorpus-ndlbib - 從全國書目資料中創建的假名數據集
jvs_hiho - JVS（日本語多目的話者）語料庫的自製標籤
hirakanadic - 允許Sudachi從任何複合詞列表中將平假名轉換為片假名。
animedb - 約100年的動畫作品清單資料庫
security_words - 與網路安全相關的公共組織的日英對應
Data-on-Japanese-Diet-Members - 日本國會議員的資料
honkoku-data - 這是歷史資料的市民參與型翻刻平台「大家一起翻刻」的文本數據存放處。/ 這些文本是在「大家一起翻刻」（https://honkoku.org）這個為日本歷史文獻提供群眾翻刻的平台上創建的。
wikihow_japanese - wikiHow數據集（日語版）
engineer-vocabulary-list - 日英工程師詞彙表
JSICK - 日本語組成知識（JSICK）資料集/JSICK壓力測試集
phishurl-list - JPCERT/CC 的釣魚網址數據集
jcms - 一個日本多個專業領域的語料庫 (JCMS)
aozorabunko_text - www.aozora.gr.jp 的純文字檔案存檔
friendly_JA-Corpus - friendly_JA 是一個平行的日語對日語語料庫，旨在通過使用拉丁/英語衍生的片假名詞彙表，而不是標準的漢日詞彙表，使日語更容易。
topokanji - 有效學習漢字的拓撲排序列表
isbn4groups - 關於ISBN-13中以日語出版的出版物（978-4-XXXXXXXXX）相關的數據等。
NMeCab - NMeCab：關於在.NET上的日語形態分析器
ndlngramdata - 由數位化資料製作的OCR文字資料的ngram頻率統計資訊資料集。
ndlngramviewer_v2 - 2023年1月重新設計的NDL Ngram Viewer源代碼等一套
data_set - 法律・判例相關的資料集
huggingface-datasets_wrime - WRIME 的 HuggingFace 資料集
ndl-minhon-ocrdataset - NDL古典籍OCR學習用數據集（大家一起翻刻加工數據）
PAX_SAPIENTICA - GIS和考古模擬器。2023年開發中。
j-liwc2015 - LIWC2015的日文版本
huggingface-datasets_livedoor-news-corpus - 日本Livedoor新聞語料庫，用於huggingface數據集。
huggingface-datasets_JGLUE - JGLUE：用於huggingface數據集的日語通用語言理解評估
commonsense-moral-ja - JCommonsenseMorality是一個通過眾包創建的數據集，反映了日本標註者的常識道德。
comet-atomic-ja - COMET-ATOMIC ja 彗星原子 ja
dcsg-ja - 日語對話常識圖表
japanese-toxic-dataset - 「日本語毒性スキーマの提案と評価」は、日本語の毒性に関するスキーマとデータセットを提供します。
camera - CAMERA（CyberAgent多模態評估廣告文本生成）是日本的廣告文本生成數據集。
Japanese-Fakenews-Dataset - 日本語假新聞資料庫
jpn_explainable_qa_dataset - jpn可解釋問答數據集
copa-japanese - 日本語的 COPA 資料集
WLSP-familiarity - 「按語義原則分類的單詞列表（WLSP）」的詞語熟悉度率
ProSub - 代詞替代和稱呼詞的跨語言研究
commonsense-moral-ja - JCommonsenseMorality是一個通過眾包創建的數據集，反映了日本標註者的常識道德。
ramendb - 從なんとか資料庫(https://supleks.jp/)的網頁爬蟲工具和收集的資料。
huggingface-datasets_CAMERA - 相機（CyberAgent多模態評估廣告文本生成）用於huggingface數據集
FactCheckSentenceNLI-FCSNLI- - 事實檢查句子NLI數據集
databricks-dolly-15k-ja - 這是將用於databricks/dolly-v2-12b的學習數據中使用的databricks-dolly-15k.jsonl翻譯成日語的數據集。
EaST-MELD - EaST-MELD是基於MELD的情感感知語音翻譯的英日數據集。
meconaudio - Mecon Audio（醫學會議音頻）是厚生勞動省主辦的先進醫療會議議事錄的朗讀數據集。
japanese-addresses - 全國的町丁目級別（277,191項）住址數據的開放數據
aozorasearch - Groonga的青空文庫全文檢索系統。青空文庫全文檢索庫兼Web應用程式。
llm-jp-corpus - 此存儲庫包含重現LLM-jp語料庫的腳本。
alpaca_ja - 這是將alpaca數據集翻譯成日文的內容。
instruction_ja - 日本語指示データ
japanese-family-names - 按頻率排序的前5000個日本姓氏，附帶讀音。
kanji-data-media - 來自Kanji alive的漢字、部首、媒體文件、字體和相關資源的日語語言數據
reazonspeech - 在家建立大规模的日语音频语料库
huriganacorpus-aozora - 從青空文庫和Sapie點字數據創建的假名數據集從青空文庫及及サピエ的點字數據創建的振り仮名的數據集
koniwa - 一個包含日語註釋聲音的開放收藏。
JMMLU - 日本語大規模マルチタスク言語理解ベンチマーク
hurigana-speech-corpus-aozora - 青空文庫振り仮名註釋附音訊語料庫的數據集
jqara - JQaRA：具有檢索增強功能的日本問答系統 - 用於檢索增強(RAG)評估的日語問答資料集
jemhopqa - JEMHopQA（日本語説明可能なマルチホップ質問応答）は、内部推論を評価できる日本語マルチホップQAデータセットです。
jacred - 用於日文文件級關係提取數據集的存儲庫（計劃在三月份發布）。用於日文文件級關係提取數據集的存儲庫（計劃在三月份發布）。
jades - JADES是一個針對非母語使用者的日文文本簡化數據集，詳細介紹在《JADES:針對非母語使用者的日文新文本簡化數據集》（論文即將發表）。
do-not-answer-ja - 2023年8月，墨爾本大學公開了安全性評估數據集『Do-Not-Answer』，該數據集已經被自動翻譯成日語，並且考慮了日本文化進行了修正，以便在日語LLM評估中使用。
oasst1-89k-ja - OpenAssistant 的開源數據 OASST1 已經被翻譯成日文的數據集。
jacwir - JaCWIR: 日本語休閒網路資訊檢索（Web IR）日本語情報檢索評估的小型休閒Web標題和摘要資料集
japanese-technical-dict - 日本語學習者的科學技術業界常用片假名與原始單字對照表
j-unimorph - UniMorph的日文數據集
GazeVQA - LREC-COLING 2024論文的數據集《針對澄清日語問題的凝視導向視覺問答數據集》
J-CRe3 - J-CRe3 實驗代碼（上田等人，LREC-COLING，2024）
jmed-llm - JMED-LLM：大型語言模型的日本醫學評估數據集
lawtext - 日本法律的純文本格式日本法律的純文本格式
pdmocrdataset-part2 - OCR處理程式研究開發項目中所建立的OCR學習用數據集。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Tutorial

spacy_tutorial - spaCy英文和日文教程。spacy-transformers、BERT、GiNZA。
fastTextJapaneseTutorial - 使用日語語料庫訓練fastText的教程
allennlp-NER-ja - AllenNLP-NER-ja：使用AllenNLP進行針對日語的專有名詞識別。
chariot-PyTorch-Japanese-text-classification - 使用 chariot 和 PyTorch 进行日文文本分类的实验
ginza-examples - 日本語NLP程式庫GiNZA的推薦
DocumentClassificationUsingBERT-Japanese - 使用BERT進行文件分類-日文
BERT_Japanese_Google_Colaboratory - 這是在 Google Colaboratory 上運行日本語 BERT 的方法。
bert-book - 「BERT自然語言處理入門：使用Transformers的實踐編程」支援頁面
janome-tutorial - 這是使用Janome進行文本探勘的入門教程。
handson-language-models - 這是日語語言模型的實作指南資料。
JapaneseNLI - 嘗試在Google Colab進行日文文本推論。
deep-learning-with-pytorch-ja - 這是 deep-learning-with-pytorch 的日文版 repository。
bert-classification-tutorial -【2023年版】BERTによるテキスト分類
python-nlp-book - 透過深度學習的自然語言處理（共立出版）支援頁面。
llm-book - 「大規模言語模型入門」（技術評論社，2023）的GitHub存儲庫
nlp2024-tutorial-3 - NLP2024 教程三創建並學習日語大規模語言模型 - 環境構建步驟與源代碼
japanese-ir-tutorial - 日本語資訊檢索教學
nlpbook - 「自然語言處理教科書」支援網站
kantan-regex-book - 製作並學習正規表達式引擎
bert-classification-tutorial-2024 - 【2024年版】BERT進行文本分類

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Research summary

awesome-bert-japanese - 一份預先訓練的BERT模型清單，包括日語的單詞/子詞分詞和詞彙構建算法信息。
GEC-Info-ja - 收集和分类有关日语文法错误修正的文献的存储库
dataset-list - 文本語料庫列表及更多（主要為日語）
tuning_playbook_ja - 系統地最大化深度學習模型性能的策略手冊
japanese-pitch-accent-resources - 嘗試將日語音韻，特別是音高重音資源整合成一個清單。
awesome-japanese-llm - 開源的日本語LLM總結

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Reference

Contributors