现代信息检索

作　者：	Ricardo Baeza-Yates Berthier Ribeiro-Neto 王知津王知津
出版社：	机械工业出版社
丛编项：	计算机科学丛书
版权说明：	本书为出版图书，暂不支持在线阅读，请支持正版图书
标　签：	暂缺

ISBN	出版时间	包装	开本	页数	字数
未知	暂无	暂无	未知	0	暂无

作者简介

　　RicardoBaeza-Yates，于加拿大滑铁卢大学获得计算机科学博士学位。曾担任智利计算机科学学会主席。1993年，他被授予美国组织奖，该奖只颁发给计算机科学领域的杰出年轻研究人员。现任智利大学计算机科学系教授，并在1993-1995年期间担任系主任，同时也是世界上多所大学的客座教授，在多次国际会议上做过演讲，在多个技术期刊上发表过文章。他还是ACM、EATCS、IEEE、SCCC及SIAM会员。他的主要研究主谢为算法和数据结构、文本检索、图形界面以及可视化在数据库的应用。BerthierRibeiro-Neto于加利福尼亚大学洛杉矶分校获得计算机科学博士学位。现任巴西FederalUniversityofMinasGerais计算机科学系副教授，他是1998年南美“字符串处理和信息检索”大会以及1999年“巴西数据库会议”的主席，同时也是ACM、ASIS及IEEE会员。他的主要研究方向是信息检索系统、数字图书馆、WEB界面及视频点播。相关图书数据仓库（原书第3版）神经网络原理（原书第２版）编译原理信息论、编码与密码学软件需求3D游戏卷1实时渲染与软件技术3D游戏卷2动画与高级实时渲染技术数字图像处理疑难解析UNIX系统编程现代操作系统（第2版）计算机网络：自顶向下方法与Internet特色（原书第3版）高级编译器设计与实现计算机网络系统方案（原书第3版）3D计算机图形学（原书第3版）C程序设计语言（第2版·新版）习题解答Java面向对象程序设计教程嵌入式微控制器C++编程思想。第2卷：实用编程技术模式分析的核方法微机接口技术实验教程C++语言的设计和演化并行计算导论（原书第2版）离散数学导学数据库设计教程（第２版）组合数学（原书第4版）JAVA编程思想（第2版）数据库系统导论CAXA数控铣CAD/CAM技术C语言的科学和艺术计算机视觉信息系统原理：原书第6版并行程序设计数据库与事务处理操作系统计算机网络与因特网（原书第4版）计算机科学概论（原书第2版）人工智能：英文可扩展并行计算技术、结构与编程数据库原理、编程与性能

内容简介

本书对信息检索领域的最新进展作了严谨、完整的剖析，内容涉及信息检索的数学模型、评价、查询语言与操作、文本语言与操作、多媒体语言及其特征、标引与检索、并行与分布式检索、用户界面与可视化、多媒体信息检索的模型与语言、多媒体信息检索的标引和检索、Web检索、图书馆与书目系统和数字图书馆等。本书内容广泛、细节丰富、深入浅出，可以作为高等院校信息管理与信息系统、计算机科学与技术、图书馆学、情报学、档案学等专业本科生和研究生的教材或参考书，对从事信息检索及其系统与网络的分析、设计的实际工作者也有较高的参考价值。本书前言前言近年来，随着互联网的发展以及现代的、廉价的图形用户界面和大容量存储设备的出现，信息检索（informationretrieval，IR）领域已经发生了巨大的变化，这使得传统的信息检索教材变得过时，所以很有必要引进新的信息检索图书。我们坚信，读者非常需要一本从计算机科学的观点（相对于用户中心观点）严谨完整地剖析该领域的书。本书正是致力于填补这一空白，并适合作为信息检索的本科课程和研究生课程的教材。本书由两个既相互补充又相互平衡的部分组成。前九章是核心部分，由本书的设计者编著或合著；第二部分共六章，与第一部分紧密相连，是由本领域的杰出研究者编写的相关学科最新成果。所有章节都使用相同的注释和术语。因此，尽管本书由多人合著，但实际上是一本很好的教材，而不是将各个作者所写的章节简单地编辑在一起。此外，我们还精心设计了本书的内容和结构，力求全面展示现代信息检索各重要部分的观点。从信息检索模型到标引文本、从信息检索可视化工具到Web界面、从信息检索多媒体到数字图书馆，本书内容广泛、细节丰富。鉴于信息检索对现代社会的紧密相关性和重要性，我们希望本书为进一步在全球范围内传播信息科学、计算机科学和图书馆学的学科研究成果做出贡献。译者序RicardoBaeza-Yates和BerthierRibeiro-Neto是国际信息学界人士非常敬重的信息检索方面的专家，他们的作品都是口碑极佳的上乘之作，为他们的作品写译者序，这个念头本身就比较僭越。拜读此书，沉思良久，深感此书确实讨论了信息检索中许多非常重要的问题，而它们又是非常实际的，有些也是我们在工作中经常遇到的。文中的讨论和分析通俗易懂，又寓意深远，读后颇感收获甚丰，不免由此萌生了将这本书介绍给国内同行的想法。几经辗转，了解到机械工业出版社有意出版此书，便自告奋勇地承担起了翻...

图书目录

第1章绪论 1

1.1 目的 1

1.1.1 信息检索与数据检索 1

1.1.2 引人注目的信息检索 2

1.1.3 本书的重点 2

1.2 基本概念 3

1.2.1 用户任务 3

1.2.2 文献的逻辑视图 4

1.3 过去、现在和将来 4

1.3.1 早期发展 4

1.3.2 图书馆的信息检索 5

1.3.3 Web与数字图书馆 5

1.3.4 实践问题 6

1.4 检索过程 6

1.5 本书的组织 8

1.5.1 本书的主题 8

1.5.2 本书的章节 9

1.6 如何使用本书 11

1.6.1 教学建议 11

1.6.2 本书的网页 12

1.7 书目讨论 12

第2章建模 15

2.1 引言 15

2.2 信息检索模型的分类 15

2.3 特别检索和过滤 17

2.4 信息检索模型的形式特征 18

2.5 经典信息检索 18

2.5.1 基本概念 18

2.5.2 布尔模型 19

2.5.3 向量模型 20

2.5.4 概率模型 22

2.5.5 经典模型的简单比较 24

2.6 可供选择的集合理论模型 25

2.6.1 模糊集合模型 25

2.6.2 扩展布尔模型 27

2.7 可供选择的代数模型 29

2.7.1 广义向量空间模型 29

2.7.2 潜语义标引模型 31

2.7.3 神经网络模型 32

2.8 可供选择的概率模型 34

2.8.1 贝叶斯网络 34

2.8.2 推理网络模型 35

2.8.3 信任度网络模型 39

2.8.4 贝叶斯网络模型的比较 41

2.8.5 贝叶斯网络的计算值 42

2.8.6 贝叶斯网络模型的影响 42

2.9 结构化文本检索模型 42

2.9.1 基于非重叠链表的模型 43

2.9.2 基于邻近结点的模型 44

2.10 浏览模型 45

2.10.1 扁平浏览模型 45

2.10.2 结构导向模型 45

2.10.3 超文本模型 46

2.11 发展趋势与研究课题 47

2.12 书目讨论 48

第3章检索评价 51

3.1 引言 51

3.2 检索性能评价 51

3.2.1 查全率和查准率 52

3.2.2 其他测度方法 57

3.3 参考文献集 58

3.3.1 TREC文献集 58

3.3.2 CACM和ISI测试集 64

3.3.3 Cystic Fibrosis测试集 66

3.4 发展趋势与研究课题 67

3.5 书目讨论 67

第4章查询语言 69

4.1 引言 69

4.2 基于关键词的查询 70

4.2.1 单一词查询 70

4.2.2 上下文查询 70

4.2.3 布尔查询 71

4.2.4 自然语言 72

4.3 模式匹配 72

4.4 结构性查询 74

4.4.1 固定式结构 74

4.4.2 超文本 75

4.4.3 层次结构 75

4.5 查询协议 78

4.6 发展趋势与研究课题 79

4.7 书目讨论 80

第5章查询操作 83

5.1 引言 83

5.2 用户相关反馈 83

5.2.1 向量空间模型的查询扩展和语词重新加权 84

5.2.2 概率模型的语词重新加权 84

5.2.3 概率语词加权的一个变形 86

5.2.4 相关反馈策略评价 86

5.3 自动局部分析 87

5.3.1 通过局部聚类的查询扩展 87

5.3.2 通过局部上下文分析的查询扩展 91

5.4 自动全局分析 92

5.4.1 基于相似性叙词表的查询扩展 92

5.4.2 基于统计叙词表的查询扩展 94

5.5 发展趋势与研究课题 96

5.6 书目讨论 96

第6章文本与多媒体语言特性 99

6.1 引言 99

6.2 元数据 100

6.3 文本 101

6.3.1 格式 101

6.3.2 信息论 101

6.3.3 自然语言建模 102

6.3.4 相似度模型 104

6.4 标记语言 104

6.4.1 SGML 105

6.4.2 HTML 106

6.4.3 XML 108

6.5 多媒体 110

6.5.1 格式 110

6.5.2 文本图像 111

6.5.3 图形和虚拟现实 111

6.5.4 超媒体结构化语言HyTime 112

6.6 发展趋势与研究课题 113

6.7 书目讨论 114

第7章文本操作 115

7.1 引言 115

7.2 文献预处理 116

7.2.1 文本的词汇分析 117

7.2.2 排除停用词 117

7.2.3 词干提取 118

7.2.4 标引词的选择 119

7.2.5 叙词表 119

7.3 文献聚类 121

7.4 文本压缩 122

7.4.1 目的 122

7.4.2 基本概念 123

7.4.3 统计方法 123

7.4.4 词典方法 128

7.4.5 倒排文档压缩 129

7.5 文本压缩技术的比较 130

7.6 发展趋势与研究课题 131

7.7 书目讨论 132

第8章标引与检索 135

8.1 引言 135

8.2 倒排文档 136

8.2.1 检索 138

8.2.2 构造 139

8.3 文本的其他索引 141

8.3.1 后缀树和后缀数组 141

8.3.2 签名档 146

8.4 布尔查询 148

8.5 顺序检索 149

8.5.1 布鲁特-福斯算法 149

8.5.2 克鲁什-莫里斯-普拉特算法 150

8.5.3 博叶-摩尔系列算法 151

8.5.4 移位-或算法 152

8.5.5 后缀自动机算法 153

8.5.6 应用比较 153

8.5.7 词组查询和相邻查询 154

8.6 模式匹配 155

8.6.1 字符串容错匹配 155

8.6.2 正则表达式和扩展模式 157

8.6.3 使用索引的模式匹配 157

8.7 结构性查询 159

8.8 压缩 159

8.8.1 顺序检索 160

8.8.2 压缩后的索引 161

8.9 发展趋势与研究课题 162

8.10 书目讨论 163

第9章并行与分布式信息检索 165

9.1 引言 165

9.1.1 并行计算 165

9.1.2 性能指标 166

9.2 并行信息检索 167

9.2.1 引言 167

9.2.2 MIMD体系结构 167

9.2.3 SIMD体系结构 172

9.3 分布式信息检索 179

9.3.1 引言 179

9.3.2 文献集分割 180

9.3.3 信息源的选取 181

9.3.4 查询处理 182

9.3.5 Web应用 182

9.4 发展趋势与研究课题 183

9.5 书目讨论 184

第10章用户界面与可视化 185

10.1 引言 185

10.2 人机交互 185

10.2.1 设计原则 186

10.2.2 可视化的作用 186

10.2.3 交互系统评价 188

10.3 信息存取过程 188

10.3.1 交互模型 189

10.3.2 信息存取过程的非检索部分 190

10.3.3 早期的界面研究 191

10.4 检索起点 191

10.4.1 信息集合列表 192

10.4.2 概述 192

10.4.3 实例、对话、向导 198

10.4.4 信息源的自动选择 199

10.5 查询的详细描述 200

10.5.1 布尔查询 200

10.5.2 从命令行到表格和菜单 201

10.5.3 分面查询 202

10.5.4 查询详细描述的图形方式 203

10.5.5 词组和相邻 206

10.5.6 自然语言和自由文本查询 207

10.6 上下文 208

10.6.1 文献替代 208

10.6.2 文献内容中的查询词命中 209

10.6.3 文献之间的查询词命中 211

10.6.4 SuperBook：上下文与目次表 213

10.6.5 结果集合上下文的类目 214

10.6.6 运用超链接组织检索结果 215

10.6.7 表格 218

10.7 运用相关性评价 219

10.7.1 标准的相关反馈界面 220

10.7.2 用户与相关反馈系统交互研究 221

10.7.3 特定背景下相关信息的获取 222

10.7.4 组相关评价 223

10.7.5 伪相关反馈 223

10.8 界面对检索过程的支持 223

10.8.1 字符串匹配界面 223

10.8.2 窗口管理 225

10.8.3 系统举例 226

10.8.4 重叠式窗口使用不当举例 229

10.8.5 保留检索历史 229

10.8.6 浏览、选择与查询的集成 230

10.9 发展趋势与研究课题 233

10.10 书目讨论 233

第11章多媒体信息检索：模型与语言 235

11.1 引言 235

11.2 数据建模 236

11.2.1 商业数据库管理系统中多媒体数据的支持 238

11.2.2 MULTOS数据模型 239

11.3 查询语言 241

11.3.1 需求描述 241

11.3.2 多媒体数据的条件 242

11.3.3 查询表达中的不确定性、相邻性和权值 243

11.3.4 建议 243

11.4 发展趋势与研究课题 246

11.5 书目讨论 247

第12章多媒体信息检索：标引与检索 249

12.1 引言 249

12.2 背景知识—空间存取方法 250

12.3 通用的多媒体标引方法 251

12.4 一维时间序列 254

12.4.1 距离函数 254

12.4.2 特征提取和下界 255

12.4.3 实验 256

12.5 二维彩色图像 257

12.5.1 图像特征和距离函数 258

12.5.2 确定下界 258

12.5.3 实验 259

12.6 自动特征提取 260

12.7 发展趋势与研究课题 260

12.8 书目讨论 262

第13章 Web信息检索 265

13.1 引言 265

13.2 挑战 265

13.3 Web特征描述 266

13.3.1 Web测度 266

13.3.2 Web建模 268

13.4 搜索引擎 269

13.4.1 集中式结构 269

13.4.2 分布式结构 271

13.4.3 用户界面 272

13.4.4 排序 275

13.4.5 漫游Web 276

13.4.6 索引 277

13.5 浏览 278

13.5.1 Web目录 278

13.5.2 检索和浏览的结合 279

13.5.3 帮助工具 279

13.6 元搜索引擎 280

13.7 大海捞针 281

13.7.1 用户问题 281

13.7.2 实例 282

13.7.3 用户培训 282

13.8 使用超链接搜索 283

13.8.1 Web查询语言 283

13.8.2 动态搜索和软件代理 283

13.9 发展趋势与研究课题 284

13.10 书目讨论 285

第14章图书馆与书目系统 287

14.1 引言 287

14.2 联机信息检索系统和文献数据库 287

14.2.1 数据库 288

14.2.2 联机检索系统 291

14.2.3 联机检索系统中的信息检索 292

14.2.4 “自然语言”检索 293

14.3 联机公共检索目录(OPAC) 294

14.3.1 OPAC及其内容 295

14.3.2 OPAC和最终用户 296

14.3.3 OPAC：供应商和产品 296

14.3.4 其他OPAC供应商 296

14.4 图书馆和数字图书馆项目 297

14.5 发展趋势与研究课题 297

14.6 书目讨论 298

第15章数字图书馆 299

15.1 引言 299

15.2 定义 300

15.3 体系结构 301

15.4 文献模型、表达与存取 303

15.4.1 多语种文献 303

15.4.2 多媒体文献 303

15.4.3 结构化文献 304

15.4.4 分布式文献集 304

15.4.5 联邦式检索 305

15.4.6 存取 306

15.5 原型、项目与接口 306

15.5.1 国际努力 308

15.5.2 可用性 308

15.6 标准 309

15.6.1 协议和联合 309

15.6.2 元数据 310

15.7 发展趋势与研究课题 311

15.8 书目讨论 311

附录 Porter算法 313

术语表 317

参考文献 325

缩略语表 371

索引 375