视觉问答:理论与实践

视觉问答:理论与实践
作 者: Qi Wu Peng Wang Xin Wang Xiaodong He Wenwu Zhu
出版社: 电子工业出版社
丛编项:
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: 暂缺
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  吴琦,澳大利亚阿德莱德大学高级讲师(副教授),博士生导师,澳大利亚青年学者基金获得者 (Australian Research Council DECRA Fellow),澳大利亚机器人视觉研究中心(ACRV)vision-language课题组组长,澳大利亚科学院罗素奖获得者。吴琦博士于2015年在英国巴斯大学获得博士学位,致力于计算机视觉领域研究,尤其关注于计算机视觉-自然语言相关领域的研究。吴琦博士在CVPR,ICCV,ECCV, NeurIPS, TPAMI等多个国际会议和期刊发表论文七十余篇,吴琦博士亦担任TPAMI,IJCV,TIP,CVPR,NIPS,ACL等学术期刊会议审稿人以及ICCV2021 领域主席。

内容简介

视觉问答任务要求机器根据指定的视觉图像内容, 对单轮或多轮的自然语言问题进行作答。其本质上是一个多学科的研究问题,涉及计算机视觉、自然语言处理、知识表示与推理等。本书共5 部分,第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术,包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类,即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外,概述基于图像的其他视觉问答任务,例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解,它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望,讨论视觉问答领域的未来研究方向。

图书目录

目录

第1 章简介..................................................................1

1.1 视觉问答的动机........................................................1

1.2 人工智能任务中的视觉问答...........................................4

1.3 视觉问答类别..........................................................5

1.3.1 数据分类驱动......................................................6

1.3.2 任务分类驱动......................................................7

1.3.3 其他..............................................................7

参考文献.....................................................................8

第1 部分基础理论

第2 章深度学习基础......................................................15

2.1 神经网络...............................................................15

2.2 卷积神经网络..........................................................17

2.3 循环神经网络及变体...................................................18

2.4 编码器-解码器结构....................................................20

2.5 注意力机制.............................................................20

2.6 记忆网络...............................................................21

2.7 Transformer 网络和BERT............................................22

2.8 图神经网络.............................................................24

参考文献.....................................................................25

第3 章问答基础知识......................................................27

3.1 基于规则的方法........................................................27

3.2 基于信息检索的方法...................................................28

3.3 问答的神经语义解析...................................................29

3.4 问答知识库.............................................................29

参考文献.....................................................................30

第2 部分图像视觉问答

第4 章经典视觉问答......................................................35

4.1 简介....................................................................35

4.2 数据集..................................................................36

4.3 生成与分类:两种回答策略...........................................40

4.4 联合嵌入...............................................................40

4.4.1 序列到序列编码器-解码器模型......................................40

4.4.2 双线性编码模型....................................................43

4.5 注意力机制.............................................................45

4.5.1 堆叠注意力网络....................................................45

4.5.2 分层问题-图像协同注意力..........................................47

4.5.3 自底向上和自顶向下的注意力.......................................49

4.6 记忆网络...............................................................51

4.6.1 改进的动态记忆网络...............................................51

4.6.2 记忆增强网络......................................................52

4.7 组合推理...............................................................54

4.7.1 神经模块网络......................................................55

4.7.2 动态神经模块网络..................................................56

4.8 图神经网络.............................................................58

4.8.1 图卷积网络........................................................58

4.8.2 图注意力网络......................................................60

4.8.3 视觉问答图卷积网络...............................................62

4.8.4 视觉问答图注意力网络.............................................63

参考文献.....................................................................66

第5 章基于知识的视觉问答..............................................71

5.1 简介....................................................................71

5.2 数据集..................................................................72

5.3 知识库..................................................................74

5.3.1 数据库百科........................................................74

5.3.2 ConceptNet........................................................74

5.4 知识嵌入...............................................................75

5.4.1 文字对矢量表示法..................................................75

5.4.2 基于BERT 的表征.................................................78

5.5 问题-查询转换.........................................................79

5.5.1 基于查询映射的方法...............................................79

5.5.2 基于学习的方法....................................................81

5.6 查询知识库的方法.....................................................82

5.6.1 RDF ..............................................................82

5.6.2 记忆网查询........................................................83

参考文献.....................................................................84

第6 章视觉问答的视觉和语言预训练..................................88

6.1 简介....................................................................88

6.2 常规预训练模型........................................................89

6.2.1 ELMo .............................................................89

6.2.2 GPT ..............................................................89

6.2.3 MLM .............................................................90

6.3 视觉和语言预训练的常用方法.........................................93

6.3.1 单流方法..........................................................94

6.3.2 双流方法..........................................................96

6.4 视觉问答及其下游任务微调...........................................98

参考文献.....................................................................101

第3 部分视频视觉问答

第7 章视频表征学习.....................................................·105

7.1 人工标注的局部视频描述符...........................................105

7.2 数据驱动的深度学习的视频特征表示.................................107

7.3 视频表征的自监督学习................................................109

参考文献.....................................................................110

第8 章视频问答...........................................................·112

8.1 简介....................................................................112

8.2 数据集..................................................................112

8.2.1 多步推理数据集....................................................113

8.2.2 单步推理数据集....................................................116

8.3 使用编码器-解码器结构的传统视频时空推理.........................118

参考文献.....................................................................123

第9 章视频问答的高级模型.............................................·126

9.1 时空特征注意力........................................................126

9.2 记忆网络...............................................................129

9.3 时空图神经网络........................................................130

参考文献.....................................................................132

第4 部分视觉问答高级任务

第10 章具身视觉问答...................................................·137

10.1 简介...................................................................137

10.2 模拟器、数据集和评估标准..........................................138

10.2.1 模拟器...........................................................138

10.2.2 数据集...........................................................140

10.2.3 评估指标.........................................................141

10.3 语言引导的视觉导航................................