Augmenting Open Vocabulary Object Detection with Large Language Models

Overview of Open Vocabulary Object Detection

Open vocabulary object detection (OVOD) aims to detect objects beyond a fixed set of predefined categories
Conventional object detectors are limited to a closed vocabulary, only able to detect objects from a fixed set of classes seen during training
OVOD leverages large-scale vision-language models (VLMs) like CLIP (Minderer et al., 2023) to enable detection of novel, unseen object classes

Limited training data for novel object classes
Difficulty in learning robust visual-linguistic associations for diverse object concepts
Tendency for OVOD models to overfit to seen object classes and struggle with novel classes

Large pre-trained language models like BERT and GPT can provide rich semantic knowledge about object concepts
This knowledge can be used to augment OVOD models and improve their performance on novel object classes

Knowledge Distillation:
- Distill knowledge from pre-trained language models into OVOD models
- Language model embeddings can provide additional semantic information to improve object detection
Retrieval-Augmented Generation:
- Use language models to retrieve relevant textual information to augment OVOD models
- Retrieve related text from large language model to provide additional context for object detection
Prompt Engineering:
- Design prompts that leverage language model knowledge to improve OVOD performance
- Carefully crafted prompts can help OVOD models discover and leverage implicit background knowledge

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment

Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection