网页搜索基础架构团队负责人. 百度文件系统BFS,核心数据库Tera的主要作者.热衷开源,先后推动了多个重量级系统对外开源。
演讲主题 百度万亿量级数据库的构建与应用搜索引擎每天处理几万亿的超链与网页数据,过去多数工作由MapReduce完成,从一篇网页产生到网民能搜索到有天级延迟。 2014年开始,我们对核心搜索架构进行了大规模重构,设计实现了海量实时数据库Tera,并以此为基础,构建了第三代抓取与索引系统,将网页收录延迟降低到分钟级。 核心数据库Tera存储了全网数万亿的链接与网页信息,支撑了每天近十万亿次的实时查询与更新操作,当前已经在github开源。本次议题 主要介绍Tera的设计思想,以及在实现与生产应用过程中的经验与教训。
听众受益1. 了解超大规模分布式存储系统设计 2. 探讨混合乐观、悲观锁提高分布式事务吞吐的思路。