大会直播
点击查看大会现场图文直播
现场图文直播

图文直播

基于Spark的大数据系统设计专题会场演讲嘉宾

沈勇

沈勇

汤森路透中国运营中心研发经理

现任汤森路透中国运营中心研发经理,研究员。 曾参与大型网络管理项目的管理设计和实施。对大型通讯网络有深刻认识。曾参与实施联通,网通,总参的核心网管系统的设计和实施。 曾任职BEA中国研发中心,参与金融分布式中间件Tuxedo的开发和维护,并参与WebLogic的开发和维护。对于中间件和分布式事务有深刻的理解。并且熟悉银行业中间件的应用案例。 在汤森路透的工作中。曾领导实时数据分析系统核心组件的设计与开发。现在负责金融大数据和机器学习项目的落地实施。具有长期的金融数据分析处理的经验。在企业级内容平台的搭建过程中承担重要的基础架构工作。企业级内容平台能够应对金融数据对效率,实时性,准确性和多样性的苛刻要求。 沈勇是Thomson Reuters的实施数据处理技术专家,编译器技术专家和大数据技术专家。在Spark应用中,建立了基于Spark Catelyst的新的处理语言,大大增强了现有Spark SQL对层级化数据的支持。

演讲主题 金融大数据整合之路
针对金融数据的多样性,实时性,和对准确性的要求。Thomson Reuters应用大数据技术整合现有数据的过程中遇到了诸多挑战,并且积累了自己独特的经验。这次演讲将总结一些现有的经验并和听众讨论一些可行性。
• 案例分析,分析现有企业内部对数据处理的挑战。主要针对应用案例的复杂性,进行全面的分析,和方案选择。
• 自动化数据格式转换,如何使用规则定义进行数据的自动化转换。在Spark中,数据转换同时支持Batch & Streaming。
• 半结构化数据的处理,如何在Spark的基础上构建非结构化数据处理的DSL,我们将深入Spark SQL Catalyst的实现并且结合ANTLR构建一种新的编程语言。
• 图数据库的使用案例,如何引入图数据库,并且构建分布式大型图数据库实现。

听众受益
1. 了解大型企业数据处理系统大数据转型的考虑和方案。
2. 了解Spark的内部机理和应用案例如Data Set, Catelyst, UDF等。
3. 了解编译器技术和Spark SQL的对接方案。