[Feature] Support some downstream classification datasets. #1467

zzc98 · 2023-04-07T10:58:52Z

Motivation

Add some classification datasets. These datasets are listed below.

dataset	paper	classes	size(train/test)
Oxford 102 Flowers	Automated flower classification over a large number of classes	102	2,040/6,149
Caltech-101	Learning Generative Visual Models from Few Training Examples: An Incremental Bayesian Approach Tested on 101 Object Categories	102	3,060/6,084
Oxford-IIIT Pets	0/1 Deep Neural Networks via Block Coordinate Descent	37	3,680/3,369
Describable Textures (DTD)	Describing Textures in the Wild	47	3,760/1,880
FGVC Aircraft	Fine-Grained Visual Classification of Aircraft	100	6,667/3,333
Stanford Cars	3D Object Representations for Fine-Grained Categorization	196	8,144/8,041
SUN397	SUN Database: Large-scale Scene Recognition from Abbey to Zoo	397	19,850/19,850
Food-101	Food-101 – Mining Discriminative Components with Random Forests	101	75,750/25,250

Examples

Oxford 102 Flowers

>>> from mmpretrain.datasets import Flowers102
>>> train_cfg = dict(data_root='data/Flowers102', split='trainval')
>>> train = Flowers102(**train_cfg)
>>> train
Dataset Flowers102
    Number of samples:  2040
    Root of dataset:    data/Flowers102
>>> test_cfg = dict(data_root='data/Flowers102', split='test')
>>> test = Flowers102(**test_cfg)
>>> test
Dataset Flowers102
    Number of samples:  6149
    Root of dataset:    data/Flowers102

Caltech-101

>>> from mmpretrain.datasets import Caltech101
>>> train_cfg = dict(data_root='data/Caltech', split='train')
>>> train = Caltech101(**train_cfg)
>>> train
Dataset Caltech101
    Number of samples:  3060
    Number of categories:       102
    Root of dataset:    data/Caltech
>>> test_cfg = dict(data_root='data/Caltech', split='test')
>>> test = Caltech101(**test_cfg)
>>> test
Dataset Caltech101
    Number of samples:  6728
    Number of categories:       102
    Root of dataset:    data/Caltech

Oxford-IIIT Pets

>>> from mmpretrain.datasets import OxfordIIITPet
>>> train_cfg = dict(data_root='data/Oxford-IIIT_Pets', split='trainval')
>>> train = OxfordIIITPet(**train_cfg)
>>> train
Dataset OxfordIIITPet
    Number of samples:  3680
    Number of categories:       37
    Root of dataset:    data/Oxford-IIIT_Pets
>>> test_cfg = dict(data_root='data/Oxford-IIIT_Pets', split='test')
>>> test = OxfordIIITPet(**test_cfg)
>>> test
Dataset OxfordIIITPet
    Number of samples:  3669
    Number of categories:       37
    Root of dataset:    data/Oxford-IIIT_Pets

Describable Textures (DTD)

>>> from mmpretrain.datasets import DTD
>>> train_cfg = dict(data_root='data/dtd', split='trainval')
>>> train = DTD(**train_cfg)
>>> train
Dataset DTD
    Number of samples:  3760
    Number of categories:       47
    Root of dataset:    data/dtd
>>> test_cfg = dict(data_root='data/dtd', split='test')
>>> test = DTD(**test_cfg)
>>> test
Dataset DTD
    Number of samples:  1880
    Number of categories:       47
    Root of dataset:    data/dtd

FGVC Aircraft

>>> from mmpretrain.datasets import FGVCAircraft
>>> train_cfg = dict(data_root='data/fgvc-aircraft-2013b/data', split='trainval')
>>> train = FGVCAircraft(**train_cfg)
>>> train
Dataset FGVCAircraft
    Number of samples:  6667
    Number of categories:       100
    Root of dataset:    data/fgvc-aircraft-2013b/data
>>> test_cfg = dict(data_root='data/fgvc-aircraft-2013b/data', split='test')
>>> test = FGVCAircraft(**test_cfg)
>>> test
Dataset FGVCAircraft
    Number of samples:  3333
    Number of categories:       100
    Root of dataset:    data/fgvc-aircraft-2013b/data

Stanford Cars

>>> from mmpretrain.datasets import StanfordCars
>>> train_cfg = dict(data_root='data/Stanford_Cars', split='train')
>>> train = StanfordCars(**train_cfg)
>>> train
Dataset StanfordCars
    Number of samples:  8144
    Number of categories:       196
    Root of dataset:    data/Stanford_Cars
>>> test_cfg = dict(data_root='data/Stanford_Cars', split='test')
>>> test = StanfordCars(**test_cfg)
>>> test
Dataset StanfordCars
    Number of samples:  8041
    Number of categories:       196
    Root of dataset:    data/Stanford_Cars

SUN397

>>> from mmpretrain.datasets import SUN397
>>> train_cfg = dict(data_root='data/SUN397', split='train')
>>> train = SUN397(**train_cfg)
>>> train
Dataset SUN397
    Number of samples:  19824
    Number of categories:       397
    Root of dataset:    data/SUN397
>>> test_cfg = dict(data_root='data/SUN397', split='test')
>>> test = SUN397(**test_cfg)
>>> test
Dataset SUN397
    Number of samples:  19829
    Number of categories:       397
    Root of dataset:    data/SUN397

Food-101

>>> from mmpretrain.datasets import Food101
>>> train_cfg = dict(data_root='data/food-101', split='train')
>>> train = Food101(**train_cfg)
>>> train
Dataset Food101
    Number of samples:  75750
    Number of categories:       101
    Root of dataset:    data/food-101
>>> test_cfg = dict(data_root='data/food-101', split='test')
>>> test = Food101(**test_cfg)
>>> test
Dataset Food101
    Number of samples:  25250
    Number of categories:       101
    Root of dataset:    data/food-101

Checklist

Before PR:

Pre-commit or other linting tools are used to fix the potential lint issues.
Bug fixes are fully covered by unit tests, the case that causes the bug should be added in the unit tests.
The modification is covered by complete unit tests. If not, please add more unit test to ensure the correctness.
The documentation has been modified accordingly, like docstring or example tutorials.

After PR:

If the modification has potential influence on downstream or other related projects, this PR should be tested with those projects, like MMDet or MMSeg.
CLA has been signed and all committers have signed the CLA in this PR.

codecov · 2023-04-07T11:09:40Z

Codecov Report

Patch coverage has no change and project coverage change: +0.83 🎉

Comparison is base (c9a0cb0) 84.37% compared to head (4c12612) 85.21%.

❗ Current head 4c12612 differs from pull request most recent head ed6c9fe. Consider uploading reports for the commit ed6c9fe to get more accurate results

Additional details and impacted files

@@            Coverage Diff             @@
##              dev    #1467      +/-   ##
==========================================
+ Coverage   84.37%   85.21%   +0.83%     
==========================================
  Files         142      238      +96     
  Lines        9925    17898    +7973     
  Branches     1621     2796    +1175     
==========================================
+ Hits         8374    15251    +6877     
- Misses       1277     2130     +853     
- Partials      274      517     +243

Flag	Coverage Δ
unittests	`85.21% <ø> (+0.83%)`	⬆️

Flags with carried forward coverage won't be shown. Click here to find out more.

see 380 files with indirect coverage changes

☔ View full report in Codecov by Sentry.
📢 Do you have feedback about the report comment? Let us know in this issue.

wangbo-zhao · 2023-04-15T14:17:30Z

The number of categories in FGVC Aircraft should be 100

zzc98 · 2023-04-17T08:25:28Z

The number of categories in FGVC Aircraft should be 100

The number of categories has been modified. Thanks.

…ication into add-cls-datasets

Ezra-Yu

please rm the useless files.

mmpretrain/datasets/oxford102flowers.py

mmpretrain/datasets/oxfordiiitpet.py

mmpretrain/datasets/stanford_cars.py

mmpretrain/datasets/sun397.py

mmpretrain/datasets/dtd.py

mmpretrain/datasets/categories.py

Ezra-Yu

please recorrect this param doc.

mmpretrain/mmpretrain/datasets/base_dataset.py

Line 52 in e80418a

test_mode (bool): ``test_mode=True`` means in test phase.

docs/en/api/datasets.rst

mmpretrain/datasets/caltech101.py

mmpretrain/datasets/cifar.py

mmpretrain/datasets/fgvcaircraft.py

mmpretrain/datasets/dtd.py

mmpretrain/datasets/flowers102.py

mmpretrain/datasets/oxfordiiitpet.py

mmpretrain/datasets/stanfordcars.py

Ezra-Yu

LGTM.

feat: support some downstream classification datasets

0e03890

fangyixiao18 mentioned this pull request Apr 14, 2023

Roadmap of MMPreTrain #1487

Open

14 tasks

zzc98 added 3 commits April 19, 2023 16:57

update sun397

9c3ec61

sum

a4578a9

update sun397

b0fa77a

Ezra-Yu changed the base branch from main to dev April 23, 2023 06:42

mzr1996 and others added 20 commits April 23, 2023 14:54

[CI] Add test mim CI. (open-mmlab#879)

98b6d29

feat: support some downstream classification datasets

418db58

update sun397

4fa954c

sum

24a5d7a

update sun397

e1a58ab

rebase

107ddd8

feat: support some downstream classification datasets

553a661

update sun397

3b5c458

update sun397

a145463

update sun397

7d9758e

update sun397

c379e9b

Merge branch 'add-cls-datasets' of https://github.com/zzc98/mmclassif…

97aafcb

…ication into add-cls-datasets

fix unittest

d042f01

update docstring

dea9a8f

rm

7e55b5e

Merge branch 'add-cls-datasets' of https://github.com/zzc98/mmclassif…

9f28a93

…ication into add-cls-datasets

update

963177e

update

dcab928

refactor names of datasets

3209c34

Merge branch 'add-cls-datasets' of https://github.com/zzc98/mmclassif…

94866b4

…ication into add-cls-datasets

Ezra-Yu reviewed Apr 23, 2023

View reviewed changes

zzc98 added 7 commits April 24, 2023 14:43

refactor some implements of datasets

2c1ffc0

refactor some implements of datasets

2072b28

fix datasets unittest

6ebcb68

refactor cub and stanford cars

63dbff8

refactor cub and cifar

e6eaf73

refactor cub and cifar

e8061fc

refactor cub and cifar

c850a3a

Ezra-Yu requested a review from fangyixiao18 April 26, 2023 11:05

Ezra-Yu reviewed Apr 27, 2023

View reviewed changes

fangyixiao18 reviewed Apr 27, 2023

View reviewed changes

mmpretrain/datasets/flowers102.py Outdated Show resolved Hide resolved

mmpretrain/datasets/oxfordiiitpet.py Outdated Show resolved Hide resolved

mmpretrain/datasets/stanfordcars.py Outdated Show resolved Hide resolved

zzc98 and others added 2 commits April 27, 2023 16:31

update downstream datasets and docs

ea558f2

update docstring

ed6c9fe

Ezra-Yu approved these changes Apr 27, 2023

View reviewed changes

fangyixiao18 approved these changes May 5, 2023

View reviewed changes

fangyixiao18 merged commit 496e098 into open-mmlab:dev May 5, 2023

zzc98 deleted the add-cls-datasets branch May 5, 2023 10:54

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature] Support some downstream classification datasets. #1467

[Feature] Support some downstream classification datasets. #1467

zzc98 commented Apr 7, 2023 •

edited

Loading

codecov bot commented Apr 7, 2023 •

edited

Loading

wangbo-zhao commented Apr 15, 2023

zzc98 commented Apr 17, 2023

Ezra-Yu left a comment

Ezra-Yu left a comment

Ezra-Yu left a comment

[Feature] Support some downstream classification datasets. #1467

[Feature] Support some downstream classification datasets. #1467

Conversation

zzc98 commented Apr 7, 2023 • edited Loading

Motivation

Examples

Checklist

codecov bot commented Apr 7, 2023 • edited Loading

Codecov Report

wangbo-zhao commented Apr 15, 2023

zzc98 commented Apr 17, 2023

Ezra-Yu left a comment

Choose a reason for hiding this comment

Ezra-Yu left a comment

Choose a reason for hiding this comment

Ezra-Yu left a comment

Choose a reason for hiding this comment

zzc98 commented Apr 7, 2023 •

edited

Loading

codecov bot commented Apr 7, 2023 •

edited

Loading