Skip to content

Latest commit

 

History

History
947 lines (783 loc) · 105 KB

README.ja.md

File metadata and controls

947 lines (783 loc) · 105 KB

awesome-japanese-nlp-resources

Awesome License: CC0-1.0 CC0

日本語の自然言語処理に関するPythonライブラリ、学習済みモデル、辞書、およびコーパスの厳選リストです。

English | 日本語 (Japanese) | 繁體中文 (Chinese) | 简体中文 (Chinese)

The latest additions 🎉

Improve slow page loading issues

Removed the statistics table from README.md. Please refer to README.full.md for the previous pages.

Hugging Face 🤗

Dictionary and IME

  • azookey-desktop - デスクトップ用の日本語入力メソッドazooKey、macOSをサポート
  • fcitx5-hazkey - fcitx5用の日本語入力メソッド、azooKeyエンジンによって提供されています。

Python

  • Jusho - 日本の郵便番号データの簡単なラッパー

Updated on Aug 07, 2024

Contents

Python library

Morphology analysis

  • sudachi.rs - SudachiPy 0.6以上はSudachi.rsとして開発されています。
  • Janome - 純粋なPythonで書かれた日本語形態素解析エンジン
  • mecab-python3 - mecab-pythonです。mecab-pythonです。オリジナルバージョンはこちらから見つけることができます:http://taku910.github.io/mecab/。
  • mecab - このリポジトリは、Windows 64ビット用のMeCabバイナリのビルドと、MeCab Pythonバインディングの改善に使用されます。
  • fugashi - 高速でPythonicな日本語トークナイズと形態素解析のためのCython MeCabラッパー。
  • nagisa - 再帰型ニューラルネットワークに基づく日本語トークナイザー
  • pyknp - JUMAN++/KNP用のPythonモジュール
  • Mykytea-python - KyTeaのPythonラッパー
  • konoha - Konoha:日本語トークナイザーのシンプルなラッパー
  • natto-py - natto-pyは、Pythonプログラミング言語と日本語の品詞や形態素解析器であるMeCabを組み合わせたものです。
  • rakutenma-python - 楽天MA(Python版)
  • python-vaporetto - Vaporettoは、高速で軽量なポイントワイズ予測ベースのトークナイザーです。これはVaporettoのPythonラッパーです。
  • dango - 日本語テキスト用の使いやすいトークナイザー。言語学習者や非言語学者を対象としています。
  • rhoknp - Juman++/KNPのための別のPythonバインディング
  • python-vibrato - Viterbiベースの高速トークナイザー(Pythonラッパー)
  • jagger-python - JaggerのPythonバインディング(パターンベースの日本語形態素解析器のC++実装)

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Parsing

  • ginza - ユニバーサル依存関係に基づくspaCyフレームワークを使用した日本語NLPライブラリ
  • cabocha - もう一つの日本語依存構造解析ツール
  • UniDic2UD - 現代日本語のためのトークナイザー、POSタガー、レンマ化器、依存構造解析器
  • camphr - Camphr - パイプラインコンポーネントを作成するためのNLPライブラリ
  • SuPar-UniDic - モダン・コンテンポラリー日本語用のTokenizer、POS-tagger、Lemmatizer、およびDependency-parserには、BERTモデルが使用されます。
  • depccg - スーパータグと依存関係ファクタリングモデルを備えたA* CCGパーサー
  • bertknp - BERTに基づく日本語依存構造解析器
  • esupar - 日本語や他の言語に対応したBERT/RoBERTa/DeBERTaモデルを使用したトークナイザー、POSタガー、依存構造解析器。
  • yomikata - 微調整されたBERTモデルを使用した異音異義語の曖昧性解消ライブラリ。
  • jdepp-python - J.DepPのPythonバインディング(日本語依存構造解析器のC++実装)

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Converter

  • pykakasi - 日本語の仮名漢字文から仮名ローマ字文に変換する軽量コンバーター。
  • cutlet - Pythonでの日本語からローマ字への変換ツール
  • alphabet2kana - 英語アルファベットをカタカナに変換してください。
  • Convert-Numbers-to-Japanese - アラビア数字、または「西洋式」の数字を日本の文脈に変換します。
  • mozcpy - Python用Mozc:かな漢字変換器
  • jamorasep - ひらがな/カタカナの文字列をモーラ(音節)に分割する日本語テキストパーサー。
  • text2phoneme - 日本語文を音素列へ変換するスクリプト
  • jntajis-python - 日本国税庁の法人番号システムで定義されたスキームに基づく、高速な文字変換および転写ライブラリ。
  • wiredify - 「ばびぶべぼ」から「ヴァヴィヴヴェヴォ」に変換してください。
  • mecab-text-cleaner - MeCabを使用して、日本語の読み仮名とアクセントを取得するためのシンプルなPythonパッケージ(CLI/Python API)。
  • pynormalizenumexp - 数量表現や時間表現の抽出・正規化を行うNormalizeNumexpのPython実装

数量表現や時間表現の抽出・正規化を行うNormalizeNumexpのPython実装

  • Jusho - 日本の郵便番号データの簡単なラッパー

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Preprocessor

  • neologdn - mecab-neologd用の日本語テキスト正規化ツール
  • jaconv - ひらがな、カタカナ、半角、全角のための純粋なPython日本語文字相互変換器
  • mojimoji - 日本語半角と全角の素早い変換ツール
  • text-cleaning - 日本語のウェブテキスト用の強力なテキストクリーナー
  • HojiChar - 複数の前処理を構成して管理するテキスト前処理ツール
  • utsuho - Utsuhoは、日本語の半角カタカナと全角カタカナの間で双方向変換を容易にするPythonモジュールです。
  • python-habachen - もう一つの高速な日本語文字列変換ツール

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Sentence spliter

  • Bunkai - 日本語テキストの文境界曖昧性解消ツール (にほんごぶんきょうかいはんていき)
  • japanese-sentence-breaker - 日本語の文分割器
  • sengiri - 日本語テキストのための別の文レベルのトークナイザー
  • budoux - スタンドアロン。小さい。言語に依存しない。BudouXは、機械学習による行の整理ツールであるBudouの後継者です。
  • ja_sentence_segmenter - Python用の日本語文分割ライブラリ
  • hasami - 日本語テキストの文分割を実行するツール
  • kuzukiri - Rustで書かれたPython用の日本語テキストセグメンター
  • ja-senter-benchmark - 日本語文分割ツールの比較

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Sentiment analysis

  • oseti - 日本語の辞書ベースの感情分析
  • negapoji - 日本語のネガティブ・ポジティブの分類。日本語の文章のネガティブ・ポジティブを判定します。
  • pymlask - 日本語テキストの感情分析ツール
  • asari - Pythonで実装された日本語感情分析器。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Machine translation

  • jparacrawl-finetune - JParaCrawlの事前学習済みニューラル機械翻訳(NMT)モデルの使用例。
  • JASS - JASS:ニューラル機械翻訳のための日本語固有のシーケンス・トゥ・シーケンス事前学習(LREC2020)&言語学的に駆動された低リソースニューラル機械翻訳のためのマルチタスク事前学習(ACM TALLIP)
  • PheMT - 日英機械翻訳の堅牢性に関する現象別評価データセット。このデータセットは、MTNTデータセットをベースに、固有名詞、略語、口語表現、および変異形の4つの言語現象の追加注釈を含んでいます。COLING 2020。
  • VISA - 視覚シーンに関する機械翻訳のための曖昧な字幕データセット

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Named entity recognition

  • namaco - 文字ベースの固有表現認識。
  • entitypedia - Entitypediaは、Wikipediaからの拡張された固有名詞辞書です。
  • noyaki - 文字の範囲ラベル情報をトークン化されたテキストベースのラベル情報に変換します。
  • bert-japanese-ner-finetuning - Code to perform finetuning of the BERT model. BERTモデルのファインチューニングで固有表現抽出用タスクのモデルを作成・使用するサンプルです
  • joint-information-extraction-hs - 詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び関係の抽出精度の推論を行うコード
  • pygeonlp - pygeonlpは、日本語テキストのジオタギングに使用するPythonモジュールです。
  • bert-ner-japanese - BERTによる日本語固有表現抽出のファインチューニング用プログラム

To check the statistics table (GitHub stars/Downloads), please refer to this page.

OCR

  • Manga OCR - 日本語のマンガを中心に、光学文字認識についての説明。
  • mokuro - ブラウザ内で選択可能なテキストで日本のマンガを読む。
  • handwritten-japanese-ocr - インテルのOpenVINOツールキットを使用して、タッチパネルを使って入力テキストを描画する手書き日本語OCRデモ
  • OCR_Japanease - Japanese OCR
  • ndlocr_cli - NDLOCRのアプリケーション
  • donut - OCRフリー文書理解トランスフォーマー(Donut)および合成文書ジェネレーター(SynthDoG)の公式実装、ECCV 2022
  • JMTrans - マンガ翻訳者 - URLから日本のマンガを取得してマンガ画像を翻訳する
  • Kindai-OCR - 現代日本の雑誌を認識するOCRシステム
  • text_recognition - NDLOCR用テキスト認識モジュール
  • Poricom - 漫画画像の光学文字認識。漫画OCRデスクトップアプリケーション。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Tool for pretrained models

  • JGLUE - JGLUE:日本語一般言語理解評価
  • ginza-transformers - spacy-transformersでカスタムトークナイザーを使用する
  • t5_japanese_dialogue_generation - T5による会話生成
  • japanese_text_classification - MLP、CNN、RNN、BERTアプローチを含む様々なDNNテキスト分類器を調査する。
  • Japanese-BERT-Sentiment-Analyzer - FastAPIとBERTを使用して感情分析サーバーを展開する
  • jmlm_scoring - 日本語とベトナム語のためのマスクされた言語モデルに基づくスコアリング
  • allennlp-shiba-model - ShibaのためのAllenNLP統合:日本のCANINEモデル
  • evaluate_japanese_w2v - 日本語の類似度データセットで事前学習された日本語word2vecモデルを評価するスクリプト
  • gector-ja - 日本語のBERTベースのGECタグ付け
  • Japanese-BPEEncoder - 日本語-BPEエンコーダー
  • Japanese-BPEEncoder_V2 - 日本語-BPEエンコーダー バージョン2
  • transformer-copy - 日本語文法誤り訂正ツール
  • japanese-stable-diffusion - 日本語ステーブル拡散は、任意のテキスト入力に対して写真のようなリアルな画像を生成することができる、日本特有の潜在的なテキストから画像への拡散モデルです。
  • nagisa_bert - nagisa用のBERTモデル
  • prefix-tuning-gpt - トレーニング済みのプレフィックスを使用したGPT/GPT-NeoXモデルのプレフィックスチューニングの例コードと推論のためのコード。
  • JGLUE-benchmark - JGLUEのトレーニングと評価スクリプト、日本語理解ベンチマーク用
  • jptranstokenizer - トランスフォーマーライブラリの日本語トークナイザー
  • jp-stable - JP言語モデル評価ハーネス
  • compare-ja-tokenizer - 異なるトークナイザーは、スクリプト連続言語における下流タスクでどのように機能するか?:日本語のケーススタディ - ACL SRW 2023
  • lm-evaluation-harness-jp-stable - 自己回帰言語モデルの少数ショット評価のためのフレームワーク。
  • llm-lora-classification - llm-lora-classification llm-lora-分類
  • jp-stable - JP言語モデル評価ハーネス
  • rinna_gpt-neox_ggml-lora - このリポジトリには、"rinna/japanese-gpt-neox..." [gpt-neox] モデルをggmlに変換した場合に、Alpaca-LoraアダプターをLoRAチューニングに適応させるために修正されたスクリプトとマージスクリプトが含まれています。
  • japanese-llm-roleplay-benchmark - このリポジトリは日本語LLMのキャラクターロールプレイに関する性能を評価するために作成しました。
  • japanese-llm-ranking - このリポジトリは、YuzuAIのラクダリーダーボードをサポートしています。ラクダリーダーボードは、LMSYSのビクーナ評価の日本に特化した類似物です。
  • llm-jp-eval - このツールは、複数のデータセットを横断して日本語の大規模言語モデルを自動評価するものです.
  • llm-jp-sft - このリポジトリには、LLM-jpモデルの教師ありファインチューニングのためのコードが含まれています。
  • llm-jp-tokenizer - LLM勉強会(LLM-jp)で開発しているLLM用のトークナイザー関連をまとめたリポジトリです.
  • japanese-lm-fin-harness - 日本語言語モデルの金融評価ハーネス
  • ja-vicuna-qa-benchmark - 日本のビクーニャQAベンチマーク
  • swallow-evaluation - Swallowプロジェクト 大規模言語モデル 評価スクリプト

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

  • namedivider-python - 日本のフルネームを姓と名に分けるためのツール。
  • asa-python - 日本語の自然言語処理のPythonライブラリに特化したリソースの厳選リスト
  • python_asa - python版日本語意味役割付与システム(ASA)
  • toiro - 日本語トークナイザーの比較ツール
  • ja-timex - 自然言語で書かれた時間情報表現を抽出/規格化するルールベースの解析器
  • JapaneseTokenizers - テキストデータからの特徴選択のためのメトリックのセット
  • daaja - このリポジトリには、日本語のNLPのためのデータ拡張の実装が含まれています。
  • accel-brain-code - このリポジトリの目的は、私がウェブサイトで書いた概念実証(PoC)および研究開発(R&D)の文脈でプロトタイプをケーススタディとして作成することです。主な研究トピックは、表現学習に関連するオートエンコーダー、エネルギーベースモデルの統計的機械学習、敵対的生成ネットワークなどです...
  • kyoto-reader - 京都コーパス、KWDLC、および注釈付きFKCコーパス用のプロセッサー
  • nlplot - 自然言語処理の可視化モジュール
  • rake-ja - 日本語の高速自動キーワード抽出アルゴリズム
  • jel - 日本語エンティティリンカー。
  • MedNER-J - 最新版のMedEX/J(日本語疾患名抽出ツール)
  • zunda-python - Python用の日本語強調モダリティ解析クライアント「Zunda」。
  • AIO2_DPR_baseline - https://www.nlp.ecei.tohoku.ac.jp/projects/aio/ を入力してください。
  • showcase - Matsubayashi&Inui(2018)の論文で紹介された日本語述語引数構造(PAS)解析器のPyTorch実装にいくつかの改良を加えました。
  • darts-clone-python - ダーツクローンのPythonバインディング
  • jrte-corpus_example - 日本の現実的なテキスト推論コーパスの例コード
  • desuwa - KNPルールファイルに基づく形態素とフレーズの特徴注釈ツール(純粋なPython)
  • HotPepperGourmetDialogue - 日本語による対話を通じたレストラン検索システム。
  • nlp-recipes-ja - 日本語の自然言語処理のサンプルコード
  • Japanese_nlp_scripts - Pythonで日本語テキストを扱うための小さなサンプルスクリプト
  • DNorm-J - DNormの日本語版
  • pyknp-eventgraph - EventGraphは、日本語の高度なNLPアプリケーションの開発プラットフォームです。
  • ishi - 石:日本語の意志分類器
  • python-npylm - ベイズ階層言語モデルによる教師なし形態素解析
  • python-npycrf - 条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析
  • unsupervised-pos-tagging - 教師なし品詞タグ推定
  • negima - Negimaは、定義した品詞ベースのルールを使用して、日本語テキストからフレーズを抽出するためのPythonパッケージです。
  • YouyakuMan - BertSumを要約モデルとして使用する抽出型要約器
  • japanese-numbers-python - 自然言語での日本語数字(漢字、アラビア数字)のパーサー。
  • kantan - 部首のパターンで日本語の単語を検索する
  • make-meidai-dialogue - 日本語の会話コーパスを取得する。
  • japanese_summarizer - 日本語記事の要約ツール。
  • chirptext - ChirpTextはPythonのテキスト処理ツールのコレクションです。
  • yubin - 日本の住所マンガー
  • jawiki-cleaner - 日本語ウィキペディアクリーナー
  • japanese2phoneme - 日本語を音素に変換するためのPythonライブラリ。
  • anlp_nlp2021_d3-1 - このリポジトリには、「感情に基づくテキスト分類のための日本語トークナイザーの実験的評価」に関連するコードが含まれています。
  • aozora_classification - 約について This project aims to classify Japanese sentence to how well similar to some Japanese classical writers, such as Soseki Natsume, Ogai Mori, Ryunosuke Akutagawa and so on.
  • aozora-corpus-generator - 青空文庫からプレーンテキストまたはトークン化されたテキストファイルを生成します。
  • JLM - 日本語や中国語のような大語彙言語に対応した高速なLSTM言語モデル
  • NTM - 日本語記事のニューラルトピックモデリングのテスト
  • EN-JP-ML-Lexicon - これは、機械学習とディープラーニングの用語に関する英日語辞典です。
  • text-generation - あなた自身のテキストでGPT-2-JAを微調整し、文章を生成し、自動的にツイートするための使いやすいスクリプト。
  • chainer_nic - Chainer上のニューラル画像キャプション(NIC)、英語と日本語の画像キャプションデータセットの事前学習済みモデル。
  • unihan-lm - 「UnihanLM:Unihanデータベースを用いた粗-細分割の中国語-日本語言語モデル事前学習」の公式リポジトリ、AACL-IJCNLP 2020
  • mbart-finetuning - mBARTモデルのファインチューニングを実行するためのコード。
  • xvector_jtubespeech - jtubespeech上のxvectorモデル
  • TinySegmenterMaker - TinySegmenter用の学習モデルを自作するためのツール.
  • Grongish - 日本語とグロンギ語の相互変換スクリプト
  • WordCloud-Japanese - WordCloudでの日本語文章をMecab(形態素解析エンジン)を使用せずに形態素解析チックな表示を実現するスクリプト
  • snark - 日本語ワードネットを利用したDBアクセスライブラリ
  • toEmoji - 日本語文を絵文字だけの文に変換するなにか
  • termextract - - 専門用語抽出アルゴリズムの実装の練習
  • JDT-with-KenLM-scoring - Japanese-Dialog-Transformerの応答候補に対して、KenLMによるN-gram言語モデルでスコアリングし、フィルタリング若しくはリランキングを行う。
  • mixture-of-unigram-model - Pythonにおける混合ユニグラムモデルと無限混合ユニグラムモデルの組み合わせ。
  • hidden-markov-model - Pythonにおける隠れマルコフモデル(HMM)と無限隠れマルコフモデル(iHMM)。
  • Ngram-language-model - PythonにおけるNグラム言語モデル。
  • ASRDeepSpeech - 自動音声認識は、Zakuro AIのサポートを受けたpytorchのdeepspeech2モデルを使用しています。
  • neural_ime - ニューラルIME:ニューラル入力方式エンジン
  • neural_japanese_transliterator - ニューラルネットワークはローマ字を正しく日本語に転写できますか?
  • tinysegmenter - 日本語用のトークナイザーが指定されました。
  • AugLy-jp - AugLyにおける日本語テキストのデータ拡張
  • furigana4epub - MecabとUnidicを使用して日本語のepub書籍にフリガナを追加するためのPythonスクリプト。
  • PyKatsuyou - 日本語の動詞/形容詞の活用ツール
  • jageocoder - 純粋なPythonの日本の住所ジオコーダー
  • pygeonlp - pygeonlpは、日本語テキストのジオタギングに使用するPythonモジュールです。
  • nksnd - 新しいかな漢字変換エンジン
  • JaMIE - 日本語医療情報抽出ツールキット
  • fasttext-vs-word2vec-on-twitter-data - fasttextとword2vecの比較と、実行スクリプト、学習スクリプトです
  • minimal-search-engine - 最小のサーチエンジン/PageRank/tf-idf
  • 5ch-analysis - 5chの過去ログをスクレイピングして、過去流行った単語(ex, 香具師, orz)などを追跡調査
  • tweet_extructor - Twitter日本語評判分析データセットのためのツイートダウンローダ
  • japanese-word-aggregation - Juman++とConceptNet5.5に基づいて日本語の単語を集約する。
  • jinf - 日本語活用変換ツール
  • kwja - 日本語の統一された言語解析器
  • mlm-scoring-transformers - マスクされた言語モデルスコアリングに基づく再現パッケージ(ACL2020)。
  • ClipCap-for-Japanese - [PyTorch] 日本語のClipCap
  • SAT-for-Japanese - [PyTorch] 日本語のための Show, Attend and Tell
  • cihai - CJK(中国語、日本語、韓国語)言語辞書のためのPythonライブラリ
  • marine - MARINE:マルチタスク学習に基づく日本語アクセント推定
  • whisper-asr-finetune - Whisper ASRモデルの微調整
  • japanese_chatbot - BERTとTransformerのデコーダーを使用した日本語チャットボットのPyTorch実装
  • radicalchar - 部首文字正規化ライブラリ
  • akaza - IBus/Linux用のもう一つの日本語IME
  • posuto - 日本の郵便番号データ。
  • tacotron2-japanese - 日本語のTacotron2の実装
  • ibus-hiragana - ひらがなIME for IBus
  • furiganapad - ふりがなパッド
  • chikkarpy - 日本語類語辞書
  • ja-tokenizer-docker-py - Mecab + NEologd + Docker + Python3 の入力となります。
  • JapaneseEmbeddingEval - 日本語埋め込み評価
  • gptuber-by-langchain - GPTがYouTuberをやります
  • shuwa - 入力方法のためにGNOMEオンスクリーンキーボードを拡張する
  • japanese-nli-model - このリポジトリは、日本語NLIモデルのコードを提供しており、ファインチューニングされたマスク言語モデルです。
  • tra-fugu - FuguMTを使用した日本語-英語翻訳および英語-日本語翻訳のためのツール。
  • fugumt - ぷるーふおぶこんせぷと で公開した機械翻訳エンジンを利用する翻訳環境です。 フォームに入力された文字列の翻訳、PDFの翻訳が可能です。
  • JaSPICE - JaSPICE:画像キャプショニングモデルの述語引数構造を使用した自動評価メトリック
  • Retrieval-based-Voice-Conversion-WebUI-JP-localization - 日本語ローカライゼーション
  • pyopenjtalk - OpenJTalkのPythonラッパー
  • yomigana-ebook - 電子書籍に漢字の読み方を追加することで、日本語の学習をより簡単にすることができます。
  • N46Whisper - ささやきベースの日本語字幕生成ツール
  • japanese_llm_simple_webui - Rinna-3.6B、OpenCALM等の日本語対応LLM(大規模言語モデル)用の簡易Webインタフェースです
  • pdf-translator - pdf-translatorは、英語のPDFファイルを日本語に翻訳し、元のレイアウトを保持します。
  • japanese_qa_demo_with_haystack_and_es - Haystack + Elasticsearch + wikipedia(ja) を用いた、日本語の質問応答システムのサンプル ヘイスタック + エラスティックサーチ + Wikipedia(ja) を使用した、日本語の質問応答システムのサンプル
  • mozc-devices - 自動的にcode.google.com/p/mozc-morseからエクスポートされました。
  • natsume - 日本語テキストフロントエンド処理ツールキット
  • vits-japros-webui - 日本語TTS(VITS)の学習と音声合成のGradio WebUI
  • ja-law-parser - 日本の法律パーサー
  • dictation-kit - Juliusを使用した日本語音声認識キット
  • julius4seg - Juliusを使ったセグメンテーション支援ツール
  • voicevox_engine - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXの音声合成エンジン
  • LLaVA-JP - LLaVA-JPは、LLaVAメソッドで訓練された日本のVLMです。
  • RAG-Japanese - 日本の低資源設定での日本語LLM用のオープンソースRAGとLlama Index
  • bertjsc - BERTを使用した日本語スペルエラー修正ツール
  • llm-leaderboard - 日本のタスクのLLM評価プロジェクト
  • jglue-evaluation-scripts - JGLUEのトレーニングと評価スクリプトについて、日本語理解のベンチマークに関して JGLUEは、日本語理解のベンチマークのためのトレーニングと評価スクリプトについての情報です。 Training and evaluation scripts for JGLUE, a Japanese language understanding benchmark
  • BLIP2-Japanese - 日本のデータセットで事前学習されたモデルを使用して、LAVISのBLIP2 Q-formerを修正します。 LAVISのBLIP2 Q-formerを日本のデータセットで事前学習されたモデルを用いて修正します。
  • wikipedia-passages-jawiki-embeddings-utils - wikipedia 日本語の文を、各種日本語の embeddings や faiss index へと変換するスクリプト等。
  • simple-simcse-ja - 日本語のSimCSEを探索中
  • wikipedia-japanese-open-rag - Wikipediaの日本語記事を元に、ユーザの質問に回答するGradioベースのRAGのサンプル
  • gpt4-autoeval - GPT-4 を用いて、言語モデルの応答を自動評価するスクリプト
  • t5-japanese - 日本語T5モデル
  • japanese_llm_eval - 日本語LLMを評価するためのリポジトリ
  • jmteb - JMTEB(日本語大規模テキスト埋め込みベンチマーク)の評価スクリプト
  • pydomino - 日本語音声に対して音素ラベルをアラインメントするためのツールです
  • easynovelassistant - 軽量で規制も検閲もない日本語ローカル LLM『LightChatAssistant-TypeB』による、簡単なノベル生成アシスタントです。ローカル特権の永続生成 Generate forever で、当たりガチャを積み上げます。読み上げにも対応。
  • clip-japanese - 日本語CLIPモデル
  • rime-jaroomaji - Rime IMEのための日本語ローマ字入力スキーマ
  • deep-question-generation - 深層学習を用いたクイズ自動生成(日本語T5モデル)
  • magpie-nemotron - Magpieという手法とNemotron-4-340B-Instructを用いて合成対話データセットを作るコード
  • qlora_ja - 日本語データセットでのqlora instruction tuning学習サンプルコード
  • mozcdic-ut-jawiki - Mozc UT Jawiki辞書は、Mozc用に日本語のWikipediaから生成された辞書です。
  • shisa-v2 - 日本語/英語バイリンガルLLM
  • llm-translator - ミクストラルベースの日英(英日)翻訳モデル

To check the statistics table (GitHub stars/Downloads), please refer to this page.

C++

Morphology analysis

  • mecab - もう一つの日本語形態素解析器
  • jumanpp - Juman++(形態素解析ツールキット)
  • kytea - 京都テキスト分析ツールキット:単語分割や発音推定などに使用されます。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Parsing

  • cabocha - もう一つの日本語依存構造解析ツール
  • knp - 日本語パーサー

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

  • jsc - 日本語の仮名漢字変換、中国語のピンイン入力、CJE混合入力のための共通ソースチャネルモデル。
  • aquaskk - 形態素解析を行わない入力方法。
  • mozc - Mozc - マルチプラットフォームに対応した日本語入力システムエディター
  • trimatch - Trimatch:(完全|接頭辞|近似)文字列マッチングライブラリ
  • resembla - Resembla:単語ベースの日本語類似文検索ライブラリ
  • corvusskk - ▽▼ Windows用のSKK風日本語入力エディタ

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Rust crate

Morphology analysis

  • lindera - 形態素解析ライブラリ。
  • vaporetto - Vaporetto:非常に加速されたポイントワイズ予測に基づくトークナイザー
  • goya - Rustで書かれた日本語形態素解析
  • vibrato - バイブラート:Viterbiベースの高速トークナイザー
  • yoin - 純粋なRustで書かれた日本語形態素解析器
  • mecab-rs - 「mecab」の安全なRustバインディング。品詞と形態素解析ライブラリ。
  • awabi - MeCab辞書を使用する形態素解析器

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Converter

  • wana_kana_rust - 日本語の文字(ひらがな、カタカナ)とローマ字の間の変換とチェックを行うためのユーティリティライブラリ。
  • unicode-jp-rs - 日本語の半角カナと全角英数字を通常の文字に変換するためのRustライブラリ
  • kana - [ミラー] ローマ字テキストをひらがなまたはカタカナに変換するためのCLIプログラム
  • kanaria - このライブラリは、ひらがな・カタカナ、半角・全角の相互変換や判別を始めとした機能を提供します。
  • japanese-address-parser - 日本の住所を都道府県/市区町村/町名/その他に分割するライブラリです

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Search engine library

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

  • daachorse - Rustでコンパクトなダブル配列データ構造を使用したAho-Corasickアルゴリズムの高速実装。
  • find-simdoc - 効率的な時間とメモリを使って、類似したドキュメントのすべてのペアを見つける。
  • crawdad - 文字単位のダブル配列トライを使用した自然言語辞書のRustライブラリ。
  • tokenizer-speed-bench - 様々なトークナイザーの比較コード
  • stringmatch-bench - ここでは、文字列マッチングのデータ構造のパフォーマンスを比較するためのベンチマークツールが提供されています。
  • vime - X11アプリケーションの入力方法としてVimを使用する
  • voicevox_core - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのコア
  • akaza - IBus/Linux用のもう1つの日本語IME
  • Jotoba - 無料でオンラインで自己ホスト可能な、多言語対応の日本語辞書。
  • dvorakjp-romantable - Google日本語入力用のDvorakJPローマ字テーブル
  • niinii - 一覧を使用したテキストの補助読みのための日本語の注釈者
  • cskk - 出力: SKK(シンプルかな漢字変換)ライブラリ
  • japanki - CLIでクイズをすることで日本語の単語を学びましょう! 🇯🇵
  • jpreprocess - テキスト読み上げアプリケーション用の日本語テキストプリプロセッサ(Rust言語でのOpenJTalkの書き直し)
  • listup_precedent - 裁判例のデータ一覧を裁判所のホームページ(https://www.courts.go.jp/index.html) をスクレイピングして生成するソフトウェア
  • jisho - Jishoは、日本語-英語辞書を提供するCLIツールおよびRustライブラリです。 Jishoは、日本語-英語辞書を提供するCLIツール&Rustライブラリです。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

JavaScript

Morphology analysis

  • kuromoji.js - 日本語形態素解析器のJavaScript実装
  • rakutenma - 日本語と中国語の形態素解析器(単語分割器+品詞タガー)である「楽天MA」は、純粋にJavaScriptで書かれています。 Resources
  • node-mecab-ya - Nodejs用の別のmecabラッパー
  • juman-bin - 日本語形態素解析システムのユーザー拡張可能な解析器。
  • node-mecab-async - MeCabを使用した非同期日本語形態素解析器。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Converter

  • kuroshiro - ふりがなと送り仮名モードに対応した、日本語の文章をひらがな、カタカナ、ローマ字に変換するための日本語言語ライブラリ。
  • kuroshiro-analyzer-kuromoji - 黒白のためのKuromoji形態素解析器。
  • hepburn - ヘボン式ローマ字による、日本語のひらがなとカタカナを相互に変換するためのNode.jsモジュール
  • japanese-numerals-to-number - 日本の数字を数字に変換します。
  • jslingua - テキストを処理するためのJavascriptライブラリ:アラビア語、日本語など。
  • WanaKana - ひらがな<-->カタカナ<-->ローマ字の検出と転写のためのJavascriptライブラリ
  • node-romaji-name - ローマ字表記の日本人名における一般的な問題を正規化し修正する。
  • kyujitai.js - 日本語のテキストを古風にするためのユーティリティコレクション
  • normalize-japanese-addresses - オープンソースの住所正規化ライブラリ。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

  • bangumi-data - 日本のアニメの生データ
  • yomichan - ChromeとFirefox用の日本語ポップアップ辞書拡張機能。
  • proofreading-tool - テキストリントツールのGUIツール
  • kanjigrid - 「Remembering the Kanji」第6版で教えられる2200の漢字を表示するウェブアプリ。
  • japanese-toolkit - 漢字、ふりがな、日本語DBなどのためのモノレポ
  • analyze-desumasu-dearu - 文の敬体(ですます調)、常体(である調)を解析するJavaScriptライブラリ
  • hatsuon - 日本語のアクセントユーティリティ
  • sentiment_ja_js - 日本語の感情分析。JavaScriptでsentiment_ja。
  • mecab-ipadic-seed - mecab-ipadicのシード辞書リーダー
  • Japanese-Word-Of-The-Day - 毎日違う日本語の単語。
  • oskim - 入力方法のためにGNOMEオンスクリーンキーボードを拡張する
  • tweetMapping - 東日本大震災発生から24時間以内につぶやかれたジオタグ付きツイートのデジタルアーカイブです。
  • pitch-accent - 日本語のアクセントを予測する
  • kana2ipa - 「ひらがな」または「カタカナ」を日本語で発音する際の音声記号(IPA)に変換するコマンド
  • voicevox - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのエディター

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Go

Morphology analysis

  • kagome - 純粋なGoで書かれた自己完結型の日本語形態素解析器

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

  • ojosama - テキストを壱百満天原サロメお嬢様風の口調に変換します
  • nihongo - 日本語辞書
  • yomichan-import - Yomichan用の外部辞書インポーター。
  • imas-ime-dic - アイドルマスターの言葉辞書(imas-db.jpによる日本語IME用)
  • go-kakasi - Goで漢字の読み仮名/片仮名/ローマ字に変換
  • go-moji - 全角/半角変換のためのGoライブラリ
  • ojichat - おじさんがLINEやメールで送ってきそうな文を生成する

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Java

Morphology analysis

  • kuromoji - Kuromojiは、検索用に設計された自己完結型で非常に使いやすい日本語形態素解析器です。
  • Sudachi - A Japanese Tokenizer for Business
  • SudachiDict - すだちの語彙集

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

  • kanjitomo-ocr - 画像から日本語文字を識別するためのJavaライブラリ
  • jakaroma - 日本語の漢字をローマ字(ラテンアルファベット)に変換するためのJavaライブラリとコマンドラインツール。
  • kakasi-java - Javaにおける漢字のひらがな/カタカナ/ローマ字への転写
  • Kamite - 日本語学習者のためのデスクトップ言語浸透コンパニオン
  • react-native-japanese-tokenizer - React Native用の非同期日本語トークナイザーネイティブプラグイン(iOSおよびAndroid用)
  • elasticsearch-analysis-japanese - 日本語アナライザーは、ElasticSearch用にkuromoji日本語トークナイザーを使用しています。
  • moji4j - 日本語のひらがな、カタカナ、ローマ字のスクリプト間を変換するためのJavaライブラリ。
  • neologdn-java - mecab-neologd用の日本語テキスト正規化ツール
  • elasticsearch-sudachi - Elasticsearchのための日本語解析プラグイン

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Pretrained model

Word2Vec

  • japanese-words-to-vectors - GensimとMecabを使用した日本語のWord2vec(単語からベクトルへのアプローチ)手法。
  • chiVe - SudachiとNWJCを使用した日本語の単語埋め込み。
  • elmo-japanese - エルモ-日本語
  • embedrank - EmbedRankのPython実装
  • aovec - 簡単な青空文庫のWord2Vecビルダー - 青空文庫の全書籍を対象としたWord2Vecモデルの構築と構築済みモデル
  • dependency-based-japanese-word-embeddings - これはAI LABの記事「係り受けに基づく日本語単語埋込 (Dependency-based Japanese Word Embeddings)」のリポジトリです。(記事URL https://ai-lab.lapras.com/nlp/japanese-word-embedding/)
  • jawikivec - もう一つの日本語ウィキペディアエンティティベクトル
  • jawiki_word_vector_updater - 最新の日本語Wikipediaのダンプデータから,MeCabを用いてIPA辞書と最新のNeologd辞書の両方で形態素解析を実施し,その結果に基づいた word2vec,fastText,GloVeの単語分散表現を学習するためのスクリプト

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Transformer based models

  • bert-japanese - 日本語テキスト用のBERTモデル。
  • japanese-pretrained-models - りんな株式会社が提供する日本語事前学習モデルのコードを入力してください。
  • bert-japanese - 日本語テキスト用のSentencePieceを使用したBERT。
  • SudachiTra - トランスフォーマー用の日本語トークナイザー
  • japanese-dialog-transformers - NTT株式会社が提供する日本語事前学習モデルの評価コード。
  • shiba - CANINE、効率的な文字レベルトランスフォーマーのPytorch実装と事前学習済みの日本語モデル。
  • Dialog - BERTとTransformerのデコーダーを使用した日本語チャットボットのPyTorch実装
  • language-pretraining - 日本語テキストのPyTorch実装のBERTおよびELECTRAモデル。
  • medbertjp - 日本語の医療分野における事前学習済みBERTモデルの試験。
  • ILYS-aoba-chatbot - ILYS青葉チャットボット
  • t5-japanese - 日本語T5モデルの事前学習のためのコード
  • pytorch_bert_japanese - PytorchでBERTの日本語学習済みモデルを利用する
  • Laboro-BERT-Japanese - ラボロBERT日本語:Webコーパスで事前学習された日本語BERT
  • RoBERTa-japanese - 日本語BERT事前学習モデル
  • aMLP-japanese - 日本語用のaMLPトランスフォーマーモデル
  • bert-japanese-aozora - 青空文庫とウィキペディアでトレーニングされた日本語BERTで、UniDicとSudachiPyでプリトークナイズされました。
  • sbert-ja - ハギングフェイスモデルハブのSentence BERT日本語モデルをトレーニングするためのコード
  • BERT-Japan-vaccination - 「日本のツイートの感情分析と日本のワクチン接種との比較」の公式微調整コード
  • gpt2-japanese - 日本語GPT2生成モデル
  • text2text-japanese - GPT-2ベースのテキスト2テキスト変換モデル
  • gpt-ja - HuggingFaceのtransformers用のGPT-2日本語モデル
  • friendly_JA-Model - フレンドリー_JAコーパスを使用してトレーニングされたMTモデルは、標準的な漢字語彙の代わりにラテン語/英語由来のカタカナ語彙を使用することで、日本語を西洋人にとってより簡単/アクセスしやすくすることを目指しています。
  • albert-japanese - 日本語テキスト用のSentencePieceを使用したBERT。
  • ja_text_bert - 日本語WikipediaコーパスでBERTのPre-Trainedモデルを生成するためのリポジトリ
  • DistilBERT-base-jp - 日本語のDistilBERT事前学習モデルで、Wikipediaで訓練されました。
  • bert - このリポジトリは、日本語コーパスで事前学習されたRoBERTaを使用するためのスニペットを提供しています。私たちのデータセットは、日本語のWikipediaとWebスクロールされた記事で、合計25GBです。リリースされたモデルは、HuggingFaceからのものをベースに構築されています。
  • Laboro-DistilBERT-Japanese - ラボロ DistilBERT 日本語
  • luke - LUKE -- 知識ベース埋め込みを用いた言語理解
  • GPTSAN - 汎用スイッチトランスをベースにした日本語モード
  • japanese-clip - 株式会社りんなの日本語クリップ。
  • AcademicBART - 私たちは、学術データベースCiNii Articlesの論文要約を用いて、BARTベースの日本語マスク言語モデルを事前学習しました。
  • AcademicRoBERTa - 私たちは、学術データベースCiNii Articlesの論文要約を用いて、RoBERTaベースの日本語マスク言語モデルを事前学習しました。
  • LINE-DistilBERT-Japanese - 131 GBの日本語ウェブテキストで事前学習されたDistilBERTモデル。教師モデルは、LINE内で構築されたBERT-baseです。
  • Japanese-Alpaca-LoRA - 日本語に翻訳したStanford Alpacaのデータセットを用いてLLaMAをファインチューニングし作成したLow-Rank AdapterのリンクとGenerateサンプルコード
  • albert-japanese-tinysegmenter - 日本語のWikipediaリソースで公式ALBERT(https://github.com/google-research/albert)を事前学習するための事前学習済みモデル、コード、ガイダンスを提供します。
  • japanese-llama-experiment - 日本のLLaMa実験 日本のLLaMa実験
  • easylightchatassistant - EasyLightChatAssistantは、KoboldCppで簡単に試すことができる、軽量で検閲や規制のないローカル日本語モデルのLightChatAssistantです。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

ChatGPT

  • VRChatGPT - ChatGPTを使ってVRChat上でお喋り出来るようにするプログラム。
  • AITuberDegikkoMirii - AITuberの基礎となる部分を開発しています
  • wanna - 自然言語でのシェルコマンド起動ツール
  • ChatdollKit - ChatdollKitを使用すると、あなたの3Dモデルをチャットボットに変換できます。
  • ChuanhuChatGPTJapanese - 日本語のChatGPT API用GUI
  • AISisterAIChan - ChatGPT3.5を搭載した伺かゴースト「AI妹アイちゃん」です。利用には別途ChatGPTのAPIキーが必要です。
  • vrchatbot - VRChatにAI Botを作るためのリポジトリ
  • gptuber-by-langchain - GPTがYouTuberをやります
  • openai-chatfriend - Nuxt 3を使用して構築されたチャットボックスアプリケーションで、Open AIテキスト補完エンドポイントによって動作します。AIフレンドの異なるパーソナリティを選択できます。デフォルトでは日本語で応答します。このアプリを使用して、日本語のスキルを練習することができます!
  • chrome-ext-translate-to-hiragana-with-chatgpt - このChrome拡張機能は、ChatGPTを使用して選択した日本語テキストをひらがなに翻訳できます。
  • azure-search-openai-demo - このサンプルでは、Retrieval Augmented Generation パターンを使用して、独自のデータに対してChatGPT のような体験を作成するためのいくつかのアプローチを示しています。
  • chatvrm - ChatVRMはブラウザで簡単に3Dキャラクターと会話ができるデモアプリケーションです。
  • sftly-replace - 選択したテキストをやさしく置き換えるためのChrome拡張機能
  • summarize_arxv - 図を含むarXiv論文を要約する。
  • aiavatarkit - AIベースの会話型アバターを超高速で構築する
  • pva-aoai-integration-solution - このリポジトリは、神戸市役所でのChatGPTの試行利用に向けて作成したフロー等をソリューション化し公開するものです。
  • jp-azureopenai-samples - Azure OpenAIを活用したアプリケーション実装のリファレンスを目的として、アプリのサンプル(リファレンスアーキテクチャ、サンプルコードとデプロイ手順)を無償提供しています。
  • character_chat - OpenAIのAPIを利用して、設定したキャラクターと日本語で会話するチャットスクリプトです。
  • chatgpt-slackbot - OpenAIのChatGPT APIをSlack上で利用するためのSlackbotスクリプト (日本語での利用が前提)
  • chatgpt-prompt-sample-japanese - ChatGPT の Prompt のサンプルです。
  • kanji-flashcard-app-gpt4 - PythonとLangchainを使用して構築された日本語漢字フラッシュカードアプリで、GPT-4の知能が強化されています。
  • IgakuQA - 日本の医師免許試験におけるGPT-4とChatGPTの評価
  • japagen - 日本語タスクにおけるLLMを用いた疑似学習データ生成の検討

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Dictionary and IME

  • mecab-ipadic-neologd - 「mecab-ipadic」に基づくウェブ上の言語リソースに基づく新語辞典
  • tdmelodic - 日本語アクセント辞書ジェネレーター
  • jamdict - Jim Breen氏のJMdict、KanjiDic2、JMnedict、漢字ラジカルマッピングを操作するためのPython 3ライブラリ
  • unidic-py - pipを介してインストールするためにパッケージ化されたUnidic。
  • Japanese-Company-Lexicon - 日本企業用語辞典(JCLdic)
  • manbyo-sudachi - すだち向け万病辞書
  • jawiki-kana-kanji-dict - Wikipedia(日本語版)からSKK/MeCab辞書を生成する。
  • JIWC-Dictionary - テキストに関連する感情を見つけるための辞書
  • JumanDIC - このリポジトリには、JUMANとJuman ++の辞書を構築するためのソース辞書ファイルが含まれています。
  • ipadic-py - Pythonから簡単に使用できるようにパッケージ化されたIPAdic。
  • unidic-lite - 簡単なpipインストール用のUniDicの小さなバージョン。
  • emoji-ime-dictionary - 日本語で絵文字入力をするための IME 追加辞書 orange_book Google 日本語入力などで日本語から絵文字への変換を可能にする IME 拡張辞書
  • google-ime-dictionary - 日英変換・英語略語展開のための IME 追加辞書 orange_book 日本語から英語への和英変換や英語略語の展開を Google 日本語入力や ATOK などで可能にする IME 拡張辞書
  • dic-nico-intersection-pixiv - ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書
  • google-ime-user-dictionary-ja-en - これはGoogleIME用カタカナ語辞書プロジェクトのアーカイブです。日本語の外来語から英語へのGoogle IMEユーザー辞書のプロジェクトアーカイブです。
  • emoticon - Google日本語入力の顔文字辞書∩(,,Ò‿Ó,,)∩
  • mecab-mozcdic - open source mozc dictionaryをMeCab辞書のフォーマットに変換したものです。
  • denonbu-ime-dic - 電音IME: Microsoft IMEなどで利用することを想定した「電音部」関連用語の辞書
  • nijisanji-ime-dic - Microsoft IMEなどで利用することを想定した「にじさんじ」関連用語の用語辞書です。
  • pokemon-ime-dic - Microsoft IMEなどで利用することを想定した、現状判明している全てのポケモンの名前を網羅した用語辞書です。
  • EJDict - 英和辞書データ(パブリックドメイン)EJDict-hand
  • Ayashiy-Nipongo-Dic - 贵樣ばこゐ辞畫を使て正レい日本语を使ラことが出來ゑ。
  • genshin-dict - Windows/macOSで利用可能な原神の用語辞書です。
  • jmdict-simplified - JMdictとJMnedictをJSON形式で入力してください。
  • mozcdict-ext - 外部の単語をMozcシステム辞書に変換する。
  • mh-dict-jp - MonsterHunterのユーザー辞書を作りたい…
  • jitenbot - 日本語の辞書ウェブサイトやアプリからデータをポータブルなファイル形式に変換する
  • mecab-unidic-neologd - mecab-unidicの言語リソースに基づいたネオログ辞書
  • hololive-dictionary - ホロライブ(ホロライブプロダクション)に関する辞書ファイルです。./dictionary フォルダ内のテキストファイルを使って、IMEに単語を追加できます。詳細はREADME.mdをご覧ください。
  • jmdict-yomitan - Yomitan/YomichanのためのJMdict、JMnedict、KANJIDIC。
  • yomichan-jlpt-vocab - Yomichanの単語に対するJLPTレベルのタグ
  • Jitendex - 複数の辞書クライアントと互換性のある、無料でオープンライセンスの日本語-英語辞書
  • jiten - JMDict/Kanjidicに基づいた日本語のAndroid/CLI/Web辞書 — 日本語辞典、和英辞典、漢英字典、和独辞典、和蘭辞典
  • pixiv-yomitan - ピクシブ百科事典読谷のため
  • uchinaaguchi_dict - うちなーぐち辞典(沖縄語辞典)
  • yomitan-dictionaries - 読谷村のための日本語と中国語の辞書。
  • mouse_over_dictionary - マウスオーバーした単語を自動で読み取る汎用辞書ツール
  • jisyo - かな漢字変換エンジン SKKのための新しい辞書形式
  • skk-jisyo.emoji-ja - 日本語の読みから Emoji に変換するための SKK 辞書 😂
  • anthy - アンシーは日本語のかな漢字変換エンジンです。ローマ字をかなに変換し、かなテキストをかなと漢字の混合テキストに変換します。
  • aws_dic_for_google_ime - AWSサービス名のGoogle日本語入力向けの辞書
  • cl-skkserv - Common LispによるSKK辞書サーバーとその拡張
  • anthy - アンシーのメンテナンス
  • anthy-unicode - アンシーユニコード - アナザーアンシー
  • azooKey - Input: azooKey: Swiftで完全に開発された日本語キーボードiOSアプリケーション Output: azooKey:Swiftで完全に開発された日本語キーボードiOSアプリ
  • azookey-desktop - デスクトップ用の日本語入力メソッドazooKey、macOSをサポート
  • fcitx5-hazkey - fcitx5用の日本語入力メソッド、azooKeyエンジンによって提供されています。

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Corpus

Part-of-speech tagging / Named entity recognition

  • ner-wikipedia-dataset - Wikipediaを用いた日本語の固有表現抽出データセット
  • IOB2Corpus - 固有表現認識のための日本語IOB2タグ付きコーパス。
  • TwitterCorpus - 首都大日本語 Twitter コーパス
  • UD_Japanese-PUD - 並列の普遍的な依存関係。
  • UD_Japanese-GSD - Google UDT 2.0からの日本語データ。
  • KWDLC - 京都大学ウェブドキュメントリードコーパス
  • AnnotatedFKCCorpus - 注釈付きの普門買取センターのコーパス

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Parallel corpus

  • small_parallel_enja - 機械翻訳ベンチマーク用の50k英日並列コーパス。
  • Web-Crawled-Corpus-for-Japanese-Chinese-NMT - 日中NMTのためのWebクロールされたコーパス
  • CourseraParallelCorpusMining - Courseraのコーパスマイニングとマルチステージファインチューニングによる講義翻訳の改善
  • JESC - 英語と日本語の大規模な平行コーパス
  • AMI-Meeting-Parallel-Corpus - AMIミーティング並列コーパス
  • giant_ja-en_parallel_corpus - このディレクトリには、巨大な日英字幕コーパスが含まれています。生データは、スタンフォード大学のJESCプロジェクトから取得されています。
  • jesc_small - 小さな日英字幕コーパス
  • graded-enja-corpus - 禁止用語や単語レベルを考慮した日英対訳コーパスです。
  • cjk-compsci-terms - CJKコンピュータサイエンス用語比較 / 中日韓コンピュータサイエンス用語対照 / 日中韓コンピュータサイエンス用語比較 / 韓中日コンピュータサイエンス用語対照
  • Laboro-ParaCorpus - 日英並列コーパスの作成スクリプトとNMTモデルのトレーニングに関するスクリプト
  • google-vs-deepl-je - Google vs DeepL(日本語)

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Dialog corpus

  • JMRD - 日本映画のおすすめ対話データセット
  • open2ch-dialogue-corpus - おーぷん2ちゃんねるをクロールして作成した対話コーパス
  • BSD - ビジネスシーンの対話コーパス
  • asdc - 宿泊施設探索対話コーパス
  • japanese-corpus - seq2seqなどに使用する日本語の対話データ
  • BPersona-chat - このリポジトリには、AACL-IJCNLP 2022のWorkshop Eval4NLP 2022で発表された「Chat Translation Error Detection for Assisting Cross-lingual Communications」の論文で公開された日英バイリンガルチャットコーパスBPersna-chatが含まれています。
  • japanese-daily-dialogue - 「日本語日常対話コーパス」は、日常生活に関する会話を中心に、学校、旅行、健康、エンターテインメントの5つのトピックについての高品質なマルチターン対話データセットです。
  • llm-japanese-dataset - LLM構築用の日本語チャットデータセット

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Others

  • jrte-corpus - 日本の現実的なテキスト推論コーパス(NLP 2020、LREC 2020)
  • kanji-data - 更新されたJLPTレベルとWaniKani情報を含むJSON漢字データセット
  • JapaneseWordSimilarityDataset - 日本語単語類似度データセット
  • simple-jppdb - 日本語テキスト簡略化のための言い換えデータベース
  • chABSA-dataset - チャッキのアスペクトベースの感情分析データセット
  • JaQuAD - JaQuAD: 機械読解のための日本語質問応答データセット(2022年、Skelter Labs)
  • JaNLI - 日本語の敵対的自然言語推論データセット
  • ebe-dataset - エビデンスに基づく説明データセット(AACL-IJCNLP 2020)
  • emoji-ja - UNICODE絵文字の日本語読み/キーワード/分類辞書
  • nayose-wikipedia-ja - Wikipediaから作成した日本語名寄せデータセット
  • ja.text8 - 単語埋め込みのための日本語テキスト8コーパス。
  • ThreeLineSummaryDataset - 3行要約データセット
  • japanese - このリポジトリには、リーズ大学コーパスによって頻度順に決定された44,998の最も一般的な日本語単語のリストが含まれています。
  • kanji-frequency - 様々な情報源から収集された漢字使用頻度データ
  • TEDxJP-10K - TEDxJP-10K ASR 評価データセット
  • CoARiJ - 日本の年次報告書のコーパス
  • technological-book-corpus-ja - 日本語で書かれた技術書を収集した生コーパス/ツール
  • ita-corpus-chuwa - ITAコーパスのチャンク化された単語注釈
  • wikipedia-utils - NLPのためのWikipediaテキストの前処理のためのユーティリティスクリプト
  • inappropriate-words-ja - 日本語における不適切表現を収集します。自然言語処理の時のデータクリーニング用等に使えると思います。
  • house-of-councillors - 参議院の公式ウェブサイトから会派、議員、議案、質問主意書のデータを整理しました。
  • house-of-representatives - 国会議案データベース:衆議院
  • STAIR-captions - STAIRキャプション:大規模な日本語画像キャプションデータセット
  • Winograd-Schema-Challenge-Ja - ウィノグラード・スキーマ・チャレンジの日本語翻訳
  • speechBSD - 音声と話者属性情報を含むBSDコーパスの拡張版
  • ita-corpus - ITAコーパスの文章リスト
  • rohan4600 - モーラバランス型日本語コーパス
  • anlp-jp-history - 言語処理学会年次大会講演の全リスト・機械可読版など
  • keigo_transfer_task - 敬語変換タスクにおける評価用データセット
  • loanwords_gairaigo - 日本語における英語の借用語
  • jawikicorpus - 日本語ウィキペディアのウィキフィケーションコーパス
  • GeneralPolicySpeechOfPrimeMinisterOfJapan - これは日本の総理大臣の一般政策演説のコーパスです。
  • wrime - WRIME: 主観と客観の感情分析データセット
  • jtubespeech - JTubeSpeech:YouTubeから収集された日本語音声のコーパス
  • WikipediaWordFrequencyList - 日本語Wikipediaで使用される頻出単語のリスト
  • kokkosho_data - 車両不具合情報に関するデータセット
  • pdmocrdataset-part1 - デジタル化資料OCRテキスト化事業において作成されたOCR学習用データセット
  • huriganacorpus-ndlbib - 全国書誌データから作成した振り仮名のデータセット
  • jvs_hiho - JVS(日本語多目的話者)コーパスのラベルの自作
  • hirakanadic - 任意の複合語リストから、スダチをひらがなからカタカナに正規化することができます。
  • animedb - 約100年に渡るアニメ作品リストデータベース
  • security_words - サイバーセキュリティに関連する公的な組織の日英対応
  • Data-on-Japanese-Diet-Members - 日本の国会議員のデータ
  • honkoku-data - 「みんなで翻刻」は、歴史資料の市民参加型翻刻プラットフォームであり、ここはそのテキストデータの置き場所です。https://honkoku.org で作成された歴史的な日本の文書の転写テキストです。
  • wikihow_japanese - wikiHowデータセット(日本語版)
  • engineer-vocabulary-list - 日本語/英語のエンジニア用語リスト
  • JSICK - 日本語の構成的知識を含む文(JSICK)データセット/JSICKストレステストセット
  • phishurl-list - JPCERT/CCからのフィッシングURLデータセット
  • jcms - 多数の専門分野をカバーした日本語コーパス(JCMS)
  • aozorabunko_text - www.aozora.gr.jpのテキストのみのアーカイブ
  • friendly_JA-Corpus - friendly_JAは、標準的な漢語辞典の代わりに、ラテン語/英語由来のカタカナ語彙を使用して日本語をより簡単にすることを目的とした、日本語から日本語への並列コーパスです。
  • topokanji - 効果的な学習のためのトポロジカルに並べられた漢字リスト
  • isbn4groups - ISBN-13における日本語での出版物 (978-4-XXXXXXXXX) に関するデータ等
  • NMeCab - NMeCab: .NET上の日本語形態素解析器について
  • ndlngramdata - デジタル化資料から作成したOCRテキストデータのngram頻度統計情報のデータセット
  • ndlngramviewer_v2 - 2023年1月にリニューアルしたNDL Ngram Viewerのソースコード等一式
  • data_set - 法律・判例関係のデータセット
  • huggingface-datasets_wrime - huggingfaceのデータセットのためのWRIME
  • ndl-minhon-ocrdataset - NDL古典籍OCR学習用データセット(みんなで翻刻加工データ)
  • PAX_SAPIENTICA - GISと考古学シミュレーター。2023年開発中。
  • j-liwc2015 - LIWC2015の日本語版
  • huggingface-datasets_livedoor-news-corpus - ハグフェイスのデータセット用に、日本のライブドアニュースコーパスを入力してください。
  • huggingface-datasets_JGLUE - JGLUE:huggingfaceデータセットのための日本語一般言語理解評価
  • commonsense-moral-ja - JCommonsenseMoralityは、日本の注釈者の常識的な道徳を反映したクラウドソーシングによって作成されたデータセットです。
  • comet-atomic-ja - コメット-アトミック ja
  • dcsg-ja - 日本語での対話の常識グラフ
  • japanese-toxic-dataset - 「日本語毒性スキーマの提案と評価」は、日本語における毒性のスキーマとデータセットを提供します。
  • camera - CAMERA(CyberAgent Multimodal Evaluation for Ad Text GeneRAtion)は、日本の広告テキスト生成データセットです。
  • Japanese-Fakenews-Dataset - 日本語フェイクニュースデータセット
  • jpn_explainable_qa_dataset - jpn_explainable_qa_dataset
  • copa-japanese - 日本語のCOPAデータセット
  • WLSP-familiarity - 「意味原理に基づく単語リスト(WLSP)」の単語親しみ度率
  • ProSub - 代名詞の代替物と呼びかけの言葉に関する言語間比較研究
  • commonsense-moral-ja - JCommonsenseMoralityは、日本の注釈者の常識的な道徳を反映したクラウドソーシングによって作成されたデータセットです。
  • ramendb - なんとかデータベース( https://supleks.jp/ )からのスクレイピングツールと収集データ
  • huggingface-datasets_CAMERA - huggingfaceデータセットのためのCAMERA(CyberAgent Multimodal Evaluation for Ad Text GeneRAtion)
  • FactCheckSentenceNLI-FCSNLI- - ファクトチェック文NLIデータセット
  • databricks-dolly-15k-ja - databricks/dolly-v2-12b の学習データに使用されたdatabricks-dolly-15k.jsonl を日本語に翻訳したデータセットになります。
  • EaST-MELD - EaST-MELDは、MELDに基づく感情認識音声翻訳のための英日データセットです。
  • meconaudio - Mecon Audio(メディカル・カンファレンス・オーディオ)は、厚生労働省が主催する先進医療会議の議事録を読み上げるためのデータセットです。
  • japanese-addresses - 全国の町丁目レベル(277,191件)の住所データのオープンデータ
  • aozorasearch - グルンガによる青空文庫の全文検索システム。青空文庫全文検索ライブラリ兼Webアプリ。
  • llm-jp-corpus - このリポジトリには、LLM-jpコーパスを再現するためのスクリプトが含まれています。
  • alpaca_ja - alpacaデータセットを日本語化したものです
  • instruction_ja - 出力
  • japanese-family-names - 頻度順に並べられた読み付きの上位5000の日本の姓
  • kanji-data-media - 漢字アライブからの漢字、部首、メディアファイル、フォント、関連リソースに関する日本語データ
  • reazonspeech - 自宅で大規模な日本語音声コーパスを構築する
  • huriganacorpus-aozora - 青空文庫及びサピエの点字データから作成した振り仮名のデータセット
  • koniwa - 日本語のアノテーション付き声のオープンコレクション
  • JMMLU - 日本語マルチタスク言語理解ベンチマーク 日本語巨大マルチタスク言語理解ベンチマーク
  • hurigana-speech-corpus-aozora - 青空文庫振り仮名注釈付き音声コーパスのデータセット
  • jqara - JQaRA: 検索拡張(RAG)を活用した日本語質問応答データセット
  • jemhopqa - JEMHopQA(Japanese Explainable Multi-hop Question Answering)は、内部推論を評価できる日本語のマルチホップQAデータセットです。
  • jacred - 日本語文書レベルの関係抽出データセットのリポジトリ(3月にリリース予定)
  • jades - JADESは、日本語のテキスト簡素化のためのデータセットであり、『JADES: New Text Simplification Dataset in Japanese Targeted at Non-Native Speakers』で説明されています(論文は近日中に公開されます)。
  • do-not-answer-ja - 2023年8月にメルボルン大学から公開された安全性評価データセット『Do-Not-Answer』を日本語LLMの評価においても使用できるように日本語に自動翻訳し、さらに日本文化も考慮して修正したデータセット。
  • oasst1-89k-ja - OpenAssistant のオープンソースデータ OASST1 を日本語に翻訳したデータセットになります。
  • jacwir - JaCWIR: Japanese Casual Web IR 日本語情報検索評価のための小規模でカジュアルなWebタイトルと概要のデータセット
  • japanese-technical-dict - 日本語学習者のための科学技術業界でよく使われる片仮名と元の単語対照表
  • j-unimorph - 日本語のUniMorphデータセット
  • GazeVQA - LREC-COLING 2024論文用データセット、曖昧な日本語質問を明確にするための視線基準ビジュアル質問応答データセット LREC-COLING 2024論文用データセット、曖昧な日本語質問を明確にするための視線基準ビジュアル質問応答データセット
  • J-CRe3 - J-CRe3実験のコード(上田ら、LREC-COLING、2024)
  • jmed-llm - JMED-LLM: 大規模言語モデル向けの日本医学評価データセット
  • lawtext - 日本の法律のプレーンテキスト形式
  • pdmocrdataset-part2 - OCR処理プログラム研究開発事業において作成されたOCR学習用データセット

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Tutorial

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Research summary

  • awesome-bert-japanese - 日本語の事前学習済みBERTモデルのリストと、単語/サブワードトークン化+語彙構築アルゴリズム情報。
  • GEC-Info-ja - 文法誤り訂正に関する日本語文献を収集・分類するためのリポジトリ
  • dataset-list - テキストコーパスなどのリスト(主に日本語)
  • tuning_playbook_ja - ディープラーニングモデルの性能を体系的に最大化するためのプレイブック
  • japanese-pitch-accent-resources - 日本語の音声、特にアクセントに関するリソースを一つのリストにまとめようとしています。
  • awesome-japanese-llm - オープンソースの日本語LLMまとめ

To check the statistics table (GitHub stars/Downloads), please refer to this page.

Reference

Contributors