E-Book, Englisch, 238 Seiten, eBook
Wu / Wang / He Visual Question Answering
1. Auflage 2022
ISBN: 978-981-19-0964-1
Verlag: Springer Singapore
Format: PDF
Kopierschutz: 1 - PDF Watermark
From Theory to Application
E-Book, Englisch, 238 Seiten, eBook
Reihe: Advances in Computer Vision and Pattern Recognition
ISBN: 978-981-19-0964-1
Verlag: Springer Singapore
Format: PDF
Kopierschutz: 1 - PDF Watermark
Visual Question Answering (VQA) usually combines visual inputs like image and video with a natural language question concerning the input and generates a natural language answer as the output. This is by nature a multi-disciplinary research problem, involving computer vision (CV), natural language processing (NLP), knowledge representation and reasoning (KR), etc.
Further, VQA is an ambitious undertaking, as it must overcome the challenges of general image understanding and the question-answering task, as well as the difficulties entailed by using large-scale databases with mixed-quality inputs. However, with the advent of deep learning (DL) and driven by the existence of advanced techniques in both CV and NLP and the availability of relevant large-scale datasets, we have recently seen enormous strides in VQA, with more systems and promising results emerging.
This book provides a comprehensive overview of VQA, covering fundamental theories, models, datasets, and promising future directions. Given its scope, it can be used as a textbook on computer vision and natural language processing, especially for researchers and students in the area of visual question answering. It also highlights the key models used in VQA.
Zielgruppe
Research
Autoren/Hrsg.
Weitere Infos & Material
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Visual Question Answering in AI tasks . . . . . . . . . . . . . . . . . . . . . . . . 41.3 Categorisation of VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.1 Classi?ed by Data Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.2 Classi?ed by Task Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3.3 Others . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.4 Book Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9Part I Preliminaries2 Deep Learning Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.1 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2 Convolutional Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3 Recurrent Neural Networks and variants . . . . . . . . . . . . . . . . . . . . . . . 182.4 Encoder-Decoder Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.5 Attention Mechanism . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.6 Memory Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.7 Transformer Networks and BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.8 Graph Neural Networks Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 Question Answering (QA) Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.1 Rule-based methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2 Information retrieval-based methods . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.3 Neural Semantic Parsing for QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.4 Knowledge Base for QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32Part II Image-based VQA
ix
x Contents4 The Classical Visual Question Answering . . . . . . . . . . . . . . . . . . . . . . . . . 374.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3 Generation VS. Classi?cation: Two answering policies . . . . . . . . . . . 394.4 Joint Embedding Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.4.1 Sequence-to-Sequence Encoder-Decoder Models . . . . . . . . . . 404.4.2 Bilinear Encoding for VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.5 Awesome Attention Mechanisms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.5.1 Stacked Attention Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.5.2 Hierarchical Question-Image Co-attention . . . . . . . . . . . . . . . 474.5.3 Bottom-Up and Top-Down Attention . . . . . . . . . . . . . . . . . . . . 484.6 Memory Networks for VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.6.1 Improved Dynamic Memory Networks . . . . . . . . . . . . . . . . . . 504.6.2 Memory-Augmented Networks . . . . . . . . . . . . . . . . . . . . . . . . . 524.7 Compositional Reasoning for VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.7.1 Neural Modular Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.7.2 Dynamic Neural Module Networks . . . . . . . . . . . . . . . . . . . . . 564.8 Graph Neural Networks for VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.8.1 Graph Convolutional Networks . . . . . . . . . . . . . . . . . . . . . . . . . 584.8.2 Graph Attention Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.8.3 Graph Convolutional Networks for VQA . . . . . . . . . . . . . . . . . 624.8.4 Graph Attention Networks for VQA . . . . . . . . . . . . . . . . . . . . . 63References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655 Knowledge-based VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.3 Knowledge Bases introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.3.1 DBpedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.3.2 ConceptNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.4 Knowledge Embedding Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.4.1 Word-to-vector representation . . . . . . . . . . . . . . . . . . . . . . . . . . 735.4.2 Bert-based representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.5 Question-to-Query Translation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.5.1 Query-mapping based methods . . . . . . . . . . . . . . . . . . . . . . . . . 775.5.2 Learning based methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.6 How to query knowledge bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.6.1 RDF query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.6.2 Memory Network query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826 Vision-and-Language Pre-training for VQA . . . . . . . . . . . . . . . . . . . . . . . 876.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876.2 General Pre-training Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886.2.1 Embeddings from Language Models . . . . . . . . . . . . . . . . . . . . 88
Contents xi6.2.2 Generative Pre-Training Model . . . . . . . . . . . . . . . . . . . . . . . . . 896.2.3 Bidirectional Encoder Representations from Transformers . . 896.3 Popular Vision-and-Language Pre-training Methods . . . . . . . . . . . . . 936.3.1 Single-Stream Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946.3.2 Two-Stream Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 966.4 Fine-tuning on VQA and Other Downstream Tasks . . . . . . . . . . . . . . 98References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101Part III Video-based VQA7 Video Representation Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1057.1 Hand-crafted local video descriptors . . . . . . . . . . . . . . . . . . . . . . . . . . . 1057.2 Data-driven deep learning features for video representation . . . . . . . . 1087.3 Self-supervised learning for video representation . . . . . . . . . . . . . . . . 109References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1108 Video Question Answering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1138.1 Introductions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1138.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1148.2.1 Multi-step reasoning dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . 1148.2.2 Single-step reasoning dataset . . . . . . . . . . . . . . . . . . . . . . . . . . 1188.3 Traditional Video Spatio-Temporal Reasoning UsingEncoder-Decoder Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1269 Advanced Models for Video Question Answering . . . . . . . . . . . . . . . . . . 1299.1 Attention on Spatio-Temporal Features . . . . . . . . . . . . . . . . . . . . . . . . . 1299.2 Memory Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1329.3 Spatio-Temporal Graph Neural Networks . . . . . . . . . . . . . . . . . . . . . . . 134References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136Part IV Advanced Topics in VQA10 Embodied VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14110.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14110.2 Simulators, Datasets and Evaluations . . . . . . . . . . . . . . . . . . . . . . . . . . 14210.2.1 Simulators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14210.2.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14610.2.3 Evaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14910.3 Language-guided Visual Navigation . . . . . . . . . . . . . . . . . . . . . . . . . . . 14910.3.1 Vision-and-Language Navigation . . . . . . . . . . . . . . . . . . . . . . . 15010.3.2 Remote Object Localisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 15410.4 Embodied QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15510.5 Interactive QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
xii Contents11 Medical VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16111.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16111.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16111.3 Medical Image Encoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16111.3.1 UNet for medical image processing . . . . . . . . . . . . . . . . . . . . . 16111.4 Answering Medical Related Questions: models and results . . . . . . . . 161References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16112 Text-based VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16312.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16312.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16412.2.1 TextVQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16412.2.2 ST-VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16512.2.3 OCR-VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16612.3 OCR tokens representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16612.4 Simple fusion models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16712.4.1 LoRRA: Look, Read, Reason & Answer . . . . . . . . . . . . . . . . . 16712.5 Graph-based models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16812.5.1 Structured Multimodal Attentions for TextVQA . . . . . . . . . . . 16912.6 Transformer-based models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16912.6.1 Multimodal Multi-Copy Mesh model . . . . . . . . . . . . . . . . . . . . 170References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17113 Visual Question Generation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17513.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17513.2 VQG as Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17513.3 Generating Questions from Answers . . . . . . . . . . . . . . . . . . . . . . . . . . . 17513.4 Generating Questions from Images . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17513.5 Adversarial learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17513.6 VQG as Visual Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17514 Visual Dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17714.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17714.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17814.3 Attention Mechanism . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17914.3.1 Hierarchical Recurrent Encoder with Attention (HREA)and memory network (MN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18014.3.2 History-Conditioned Image Attentive Encoder (HCIAE) . . . 18114.3.3 Sequential Co-Attention Generative Model (CoAtt) . . . . . . . . 18214.3.4 Synergistic Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18514.4 Visual Co-reference Resolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18614.5 Graph Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18714.5.1 Scene Graph for Visual Representations . . . . . . . . . . . . . . . . . 18814.5.2 GNN for Visual and Dialogue Representations . . . . . . . . . . . . 189
Contents xiii14.6 Pretrained Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19214.6.1 VD_BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19214.6.2 Visual-Dialog BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19515 Referring Expression Comprehension . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19715.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19715.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19815.3 Two-stage Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19915.3.1 Joint Embedding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19915.3.2 Co-attention Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20115.3.3 Graph-based Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20215.4 One-stage Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20415.5 Reasoning Process comprehension . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207Part V Summary and Outlook16 Summary and Outlook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21316.1 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21316.2 Future Directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21316.2.1 Explainable VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21316.2.2 VQA in the wild . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21316.2.3 Eliminating Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21416.2.4 More settings and Applications . . . . . . . . . . . . . . . . . . . . . . . . . 214References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215




