这里存放着EeveeNet的代码和训练集,这里只有EeveeNet的核心——训练集
-
ImageSource文件夹内有3个压缩文件
train_data00.zip, train_data01.zip, test_data.zip
分别是第一期的训练集、第二期的训练集以及测试集。 Sample文件夹内是几张有标签的图片的样品。使用git clone需要安装git lfs 不然无法下载诺大的zip -
压缩包内根目录的
Path_List**.txt
记录各文件夹的相对地址,数据为这些目录内后缀为.png的图片文件,大小均为224*224。test_data测试集图片大小不是224*224,是未调整大小的较大图片,请使用例如cv2.resize进行拉伸后再使用(千万不要双线性插值,cv2.resize请设置interpolation=cv2.INTER_AREA
)
train_data01
内有两个Path List,分别是包括数据增强PathList_Manga_Enhanced.txt
和不包括数据增强PathList_Manga.txt
,选择一个即可
对于数据,文件名为aaa-****.png
,最前面三个数字aaa即是它的标签(python可以通过int(filename.split('-')[0])
获得)。
数字是按照每种伊布是否存在,将它们的正交二进制表示按位或起来得到的。例如
的文件名为130-0-01873-2.png
,130 = 128 or 2,其中按照下表,128代表月伊布,2代表日伊布,则该图片为明显可辨识出月伊布和日伊布。具体各个伊布的二进制表示和数据量见下表
- 截至目前共8k张带标签的数据,各类分布如下,数量表示含有该伊布的数据量,一张图可含有多种伊布(但是数量相对较少,大部分数据还是单类伊布的)
种类 | 伊布 | 月伊布 | 火伊布 | 水伊布 | 叶伊布 | 雷伊布 | 冰伊布 | 日伊布 | 仙子伊布 |
---|---|---|---|---|---|---|---|---|---|
二进制表示 | 256 | 128 | 64 | 32 | 16 | 8 | 4 | 2 | 1 |
数量 | 1590 | 1391 | 810 | 831 | 864 | 902 | 1079 | 1242 | 1687 |
-
数据来源包括手工从Pixiv、DeviantArt上搜寻得来,不会用于商业用途,未得到所有图片的原作者的同意。这部分数据集质量较高,形态多,分辨率高,形态清晰,适合做数据增强的对象。
-
另有一部分从Pokemon动画视频中截取,这些数据相对质量较低,并且会有多张形态相似的图片,可以认为已经自带数据增强了。
-
Manga文件夹内的数据我也觉得质量不是很高...
-
标签我检查了两遍以上,应该没有分类错误的数据。如有欢迎联系斧正,本人联系方式见最后。
QQ: 2465542858
mail: 2465542858@qq.com