large-vision-language-models

A curated list of recent and past chart understanding work based on our survey paper: From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models.

awesome-list large-vision-language-models chart-understanding chart-question-answering chart-captioning chart-summarization

Updated Jul 13, 2024

Paranioar / Awesome_Matching_Pretraining_Transfering

Star

The Paper List of Large Multi-Modality Model, Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insight.

tutorial awesome-list vision-and-language video-text-recognition cross-modal-retrieval visual-semantic-embedding image-text-matching video-text-retrieval image-text-retrieval multimodal-pretraining large-language-models large-vision-language-models multimodal-large-language-models memory-efficient-tuning parameter-efficient-fine-tuning large-vision-models

Updated Jul 11, 2024

ys-zong / VLGuard

Star

[ICML 2024] Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models.

alignment safety large-language-models vision-language-model large-vision-language-models

Updated Jul 9, 2024
Python

ShareGPT4Omni / ShareGPT4Video

Star

An official implementation of ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

gpt sora text-to-video large-language-models chatgpt large-vision-language-models large-multimodal-models gpt-4v large-video-language-models

Updated Jul 8, 2024
Python

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

Star

🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

text-to-speech multimodality text-to-image text-to-audio text-to-video text-to-music multimodal-models aigc large-language-models text-to-3d multimodal-generation text-to-sound large-vision-language-models multimodal-large-language-models

Updated Jul 8, 2024
HTML

NKU-MetautoAI / awesome-large-vision-language-models

Star

Advances in recent large vision language models (LVLMs)

awesome-list large-language-models large-vision-language-models multimodal-large-language-models

Updated Jul 7, 2024

NVlabs / DoRA

Star

[ICML2024 (Oral)] Official PyTorch implementation of DoRA: Weight-Decomposed Low-Rank Adaptation

deep-neural-networks deep-learning lora commonsense-reasoning vision-and-language large-language-models parameter-efficient-tuning instruction-tuning large-vision-language-models parameter-efficient-fine-tuning

Updated Jul 6, 2024
Python

ShareGPT4Omni / ShareGPT4V

Star

[ECCV 2024] ShareGPT4V: Improving Large Multi-modal Models with Better Captions

gpt language-model large-language-models chatgpt instruction-tuning vision-language-model large-vision-language-models gpt4v large-multimodal-models gpt-4v eccv2024

Updated Jul 1, 2024
Python

BradyFU / Video-MME

Star

✨✨Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

video mme large-language-models large-vision-language-models multimodal-large-language-models video-mme

Updated Jun 18, 2024

bowen-upenn / Multi-Agent-VQA

Star

Multi-Agent VQA: Exploring Multi-Agent Foundation Models on Zero-Shot Visual Question Answering

open-world multi-agent scene-graph zero-shot-learning visual-question-answering multimodal scene-understanding foundation-models large-language-models large-vision-language-models

Updated Jun 16, 2024
Python

ShareGPT4Omni / ShareGPT4Omni

Star

ShareGPT4Omni: Towards Building Omni Large Multi-modal Models with Comprehensive Multi-modal Annotations

gpt chatgpt large-vision-language-models large-multimodal-models gpt-4v gpt-4o gpt4-omni

Updated Jun 6, 2024

khuangaf / CHOCOLATE

Star

Code and data for the ACL 2024 Findings paper "Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning"

factuality faithfulness large-vision-language-models chart-understanding chart-captioning chart-summarization

Updated Jun 5, 2024
Jupyter Notebook

MMStar-Benchmark / MMStar

Star

This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

evaluation multimodality multimodal-learning visual-question-answering multimodal large-language-models llm llms large-vision-language-model large-vision-language-models large-multimodal-models lvlms lvlm

Updated Apr 17, 2024
Python

yfzhang114 / LLaVA-Align

Star

This is the official repo for Debiasing Large Visual Language Models, including a Post-Hoc debias method and Visual Debias Decoding strategy.

hallucination debiasing large-vision-language-models

Updated Mar 28, 2024
Python

tianyi-lab / HallusionBench

Star

[CVPR'24] HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

benchmark benchmarks lmm hallucination gpt-4 large-language-models llm llava large-vision-language-models vlms gpt-4v

Updated Mar 17, 2024
Python

Improve this page

Add a description, image, and links to the large-vision-language-models topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the large-vision-language-models topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

large-vision-language-models

Here are 23 public repositories matching this topic...

NishilBalar / Awesome-LVLM-Hallucination

afondiel / Prompt-Engineering-for-Vision-Models-DeepLearningAI

BradyFU / Awesome-Multimodal-Large-Language-Models

sled-group / moh

burglarhobbit / Awesome-Medical-Large-Language-Models

khuangaf / Awesome-Chart-Understanding

Paranioar / Awesome_Matching_Pretraining_Transfering

ys-zong / VLGuard

ShareGPT4Omni / ShareGPT4Video

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

NKU-MetautoAI / awesome-large-vision-language-models

NVlabs / DoRA

ShareGPT4Omni / ShareGPT4V

BradyFU / Video-MME

bowen-upenn / Multi-Agent-VQA

ShareGPT4Omni / ShareGPT4Omni

khuangaf / CHOCOLATE

MMStar-Benchmark / MMStar

yfzhang114 / LLaVA-Align

tianyi-lab / HallusionBench

Improve this page

Add this topic to your repo