Skip to content

hibikaze-git/ucllm_nedo_prod

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

61 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LLM開発の標準コード・手順

以下、Geniac LLM開発案件におけるLLM開発コード・手順の標準化です。
利用しても利用しなくても構いません。ご自由にお使いください。
ただし「LLM評価手順」は必ず利用してください(開発したLLMのランキングに使うため)。

ジョブシステム利用手順

サーバにログインしてジョブシステムを利用する手順です。
こちら

データ収集加工手順

LLM学習用データを収集加工する手順です。
mC4(Japanese)のダウンロード、一連の加工処理を含みます。
こちら

LLM学習手順

LLM学習手順です。
トークナイザー学習、事前学習、事後学習(ファインチューニング)を含みます。
こちら

LLM評価手順

LLM評価手順です。
本企画の評価指標であるNejumi Leaderboard Neoにおける評価手順となります。
こちら

Contributors

@software{ucllm-nedo,
  author       = {Kawanishi, Hotsuyuki and
                  Shinozuka, Fumiya and
                  Harada, Keno and
                  Alfredo, Solano Martinez and
                  Noumi, Yoshihiro and
                  Yu, Zhenxuan and
                  Kobashi, Yohei and
                  Kojima, Takeshi},
  title        = {Standard Codes and Procedures for LLM Development},
  month        = 3,
  year         = 2024,
  url          = {https://github.com/matsuolab/ucllm_nedo_prod}
}

Acknowledgement

https://github.com/hatakeyama-llm-team/llm: ./load_datasetthe we built upon. Provided under the MIT license. Thanks for the authors.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Shell 71.5%
  • Python 26.3%
  • Jupyter Notebook 2.2%