Skip to content

tanreinama/Japanese-Fakenews-Dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

日本語フェイクニュースデータセット

日本語のニュース記事と、GPT-2日本語版のモデルで生成された、ディープフェイク記事からなるデータセットです。

内容は、クリエイティブ・コモンズ(改変可)ライセンスで公開されている、ウィキニュース日本語版の記事と、GPT-2日本語版のモデルが生成したディープフェイク記事を合わせた、混合コーパスです。

全てのデータは、オリジナルの記事かフェイク記事であるかのタグがつけられており、

  • オリジナルの記事(人間が執筆した)
  • 部分的にフェイク(記事の後半をGPT-2モデルが生成した)
  • 完全にフェイク(記事の全体をGPT-2モデルが生成した)

のいずれかに該当します。

CSVファイルのコラムは、以下の通りです。

コラム名 意味
id ユニークID
context 記事の文章(UTF-8エンコード)
isfake 記事がフェイクであるかどうかのタグ:
0:オリジナルの記事
1:部分的にフェイク
2:完全にフェイク
nchar_real 記事の中の、人間が執筆した部分の文字数
ncahr_fake 記事の中の、モデルが生成した部分の文字数

ウィキニュース日本語版は、「クリエイティブ・コモンズ-表示-2.5 CC-by-2.5 以降」(ただし2005年9月24日までに投稿されたものは「クリエイティブ・コモンズ-表示-2.1-日本 以降」(CC-by-2.1-jp or later))で公開されているため、記事を改編して、「途中までオリジナルで、残りはAIが生成した記事」というデータを作成することが出来ます。

「部分的にフェイク」な記事は、途中までウィキニュース日本語版のオリジナル記事で、途中からAIが生成した記事で置き換えられたものです。

このデータセットは、フェイクニュースを検出するAIの開発のために作成されました。

使用したGPT-2モデルは、GPT-2日本語版プロジェクトが公開しているmediumモデルそのままで、専用のファインチューニング等は行っていません。

ウィキニュース日本語版に特徴的な、「新聞によると~」のような接頭詞は、モデルとは別に追加されました。

Japanese FakeNews Dataset

This dataset consists of news articles in Japanese and deep fake articles generated by the GPT-2 Japanese model.

This is a mixed corpus, consisting of the original articles are from the Japanese version of Wikinews, which is released under a Creative Commons (modification allowed) license and the data generated by the GPT-2 Japanese model.

All data will be tagged as either original or fake articles and will fall into one of the following categories.

  • Original article (written by humans)
  • Partially fake (the second half of the article was generated by the GPT-2 model)
  • Completely fake (the entire article was generated by the GPT-2 model)

The columns in the CSV file are as follows.

Column name Meaning
id unique ID
context text of the article (UTF-8 encoded)
isfake Tag whether the article is fake or not:
0: Original article
1: Partially fake
2: Completely fake
nchar_real Number of characters in the human-authored part of the article.
ncahr_fake Number of characters in the model-generated part of the article.

Since the Japanese version of Wikinews is published under "Creative Commons Attribution 2.5 Generic (CC BY 2.5)" (however, articles posted before September 24, 2005 are published under "Creative Commons Attribution 2.1 Japan (CC BY 2.1 JP)"), it is possible to revise an article and create a data set that is "original until the middle, and the rest of the article is AI-generated".

The "Partially fake" article contains original articles on Japanese version of Wikinews until halfway through, when it is replaced by an AI-generated article.

This data set was created for the development of an AI to detect fake news.

The GPT-2 model used is the same as the medium model published by the GPT-2 Japanese project, and no special fine tuning was done.

The prefix "新聞によると~", which is characteristic of the Japanese version of Wikinews, has been added independently of the model.

About

日本語フェイクニュースデータセット

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published