SDCC 2016中国软件开发者大会

沈勇

汤森路透中国运营中心研发经理

现任汤森路透中国运营中心研发经理，研究员。曾参与大型网络管理项目的管理设计和实施。对大型通讯网络有深刻认识。曾参与实施联通，网通，总参的核心网管系统的设计和实施。曾任职BEA中国研发中心，参与金融分布式中间件Tuxedo的开发和维护，并参与WebLogic的开发和维护。对于中间件和分布式事务有深刻的理解。并且熟悉银行业中间件的应用案例。在汤森路透的工作中。曾领导实时数据分析系统核心组件的设计与开发。现在负责金融大数据和机器学习项目的落地实施。具有长期的金融数据分析处理的经验。在企业级内容平台的搭建过程中承担重要的基础架构工作。企业级内容平台能够应对金融数据对效率，实时性，准确性和多样性的苛刻要求。沈勇是Thomson Reuters的实施数据处理技术专家，编译器技术专家和大数据技术专家。在Spark应用中，建立了基于Spark Catelyst的新的处理语言，大大增强了现有Spark SQL对层级化数据的支持。

演讲主题 金融大数据整合之路
针对金融数据的多样性，实时性，和对准确性的要求。Thomson Reuters应用大数据技术整合现有数据的过程中遇到了诸多挑战，并且积累了自己独特的经验。这次演讲将总结一些现有的经验并和听众讨论一些可行性。
• 案例分析，分析现有企业内部对数据处理的挑战。主要针对应用案例的复杂性，进行全面的分析，和方案选择。
• 自动化数据格式转换，如何使用规则定义进行数据的自动化转换。在Spark中，数据转换同时支持Batch & Streaming。
• 半结构化数据的处理，如何在Spark的基础上构建非结构化数据处理的DSL，我们将深入Spark SQL Catalyst的实现并且结合ANTLR构建一种新的编程语言。
• 图数据库的使用案例，如何引入图数据库，并且构建分布式大型图数据库实现。

听众受益
1. 了解大型企业数据处理系统大数据转型的考虑和方案。
2. 了解Spark的内部机理和应用案例如Data Set, Catelyst, UDF等。
3. 了解编译器技术和Spark SQL的对接方案。

基于Spark的大数据系统设计专题会场演讲嘉宾

沈勇