Apache Spark Committer,Spark SQL 开发团队成员。2013年从浙江大学毕业后,一直在进行分布式系统相关的工作。2014年开始接触 Spark,并成为最活跃的代码贡献者之一。2015年正式加入 databricks,成为 databricks 中国分部(筹建中)的第一名员工,主要负责开源社区方面的工作,例如:审查其他社区成员提交的PR,主导 Spark SQL 一些主要功能的设计和研发,定期审计项目代码质量等。
演讲主题 Spark SQL: A Complier from queries to RDD programs
为了让 Spark 能处理结构化数据,Spark SQL应运而生。随着Spark SQL的不断发展,它已成为目前最快的SQL on Hadoop 系统之一。它提供的DataFrame/Dataset接口,也已代替RDD成为Spark新一代的用户接口。演讲将回顾Spark SQL的历史,从源头开始深入介绍Spark SQL的设计理念以及实现细节,从而能让大家在实践中更好的运用 Spark SQL。
听众受益
了解 Spark SQL 的技术原理,在做技术选型的时候能够做出更适合需求的选择,在使用 Spark SQL 的时候能够心里有底,更好的运用Spark SQL 的特性。