Contributions `C`:

A NAS-like unified framework that can automate the search of ViT backbone design and scaling efficiently.

Takeaways

Quotes

ViTs can tolerate coarse tokenization in early training stages.

Attention maps of ViTs gradually become similar in deeper layers, leading to identical feature maps and saturated performance. NTK condition number ${\kappa_{\Theta}=\frac{\lambda_{max}}{\lambda_{min}}}$ to indicate the trainability of ViTs.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Auto-scaling Vision Transformers Without Training.md

Auto-scaling Vision Transformers Without Training.md

Contributions `C`:

Takeaways

Files

Auto-scaling Vision Transformers Without Training.md

Latest commit

History

Auto-scaling Vision Transformers Without Training.md

File metadata and controls

Contributions C:

Takeaways

Contributions `C`: