华控清交徐葳--参与新型数据交易所构建,实现规模化数据交易的可控可计量
2022-01-19 17:41 华控清交

毋庸置疑,在隐私计算领域,没有哪个企业如华控清交一般,能被同行如此一致的认为是“老大哥”般的存在,而华控清交的创始人徐葳教授更是行业内标杆性的人物。

在采访过程中,笔者也认识到了不一样的徐葳教授与华控清交。徐葳教授一直在强调,华控清交能实现从零到一的飞跃,离不开企业团队的付出与努力。他直言:“靠谱的团队做什么都是靠谱的,但是不靠谱的人,即便再靠谱的事也能做成不靠谱的。”

作为清华大学交叉信息研究院副教授,同时又是华控清交创始人,徐葳教授是“产学研”的实践者,这受到其导师David Patterson教授以及伯乐姚期智院士两位图灵奖得主深刻影响。

徐葳教授回忆起求学与回国创业的经历,几近动情。遇到姚期智院士,也成为徐葳教授2013年回国任教的一大动力与职业的一次转折点,就如同千里马遇到伯乐。2018年,清华大学通过转化姚期智院士和徐葳教授的科研成果发起成立了华控清交。

不过,徐葳教授也坦言,华控清交创立之初,几乎没有人意识到隐私计算的重要性。也正是这样,让其团队有更多时间沉淀研发通用型隐私计算基础设施,为华控清交积淀了坚实的基础,也为隐私计算的普及做好准备。

2021年,华控清交参与了北京国际大数据交易所以及湖南大数据交易所的建立,为我国新型数据交易所提供了重要的技术支持。

在徐葳教授看来,大数据交易所在技术上经历了三代,第一代是明文数据交易所,数据交易十分受限;第二代是API数据交易,只适用于一些特定的统计场景。而第三代新型数据交易所,是引入隐私计算技术,基于多方数据汇聚进行密文计算,不进行数据间的直接交易,而是进行数据特定使用权价值的交易。

“隐私计算降低了数据共享中的技术风险,但是数据交易是技术和管理的综合,因此数据交易所是很必要的。”徐葳教授提醒道。

关于隐私计算技术的商业落地情况,徐葳教授提到,隐私计算商业落地近两年就能实现规模化发展,但是真正实现大规模的使用,还需要大数据生态真正建立起来,这还需要更多的时间去完成,而华控清交正参与其中。

或许,我们可以从徐葳教授的讲述中,更进一步的了解华控清交与隐私计算的未来。

我喜欢自由探索与创新

《算力智库》:在外界看来,您的身份是多元的,教授、企业创始人、科学家,还是各类奖项获得者,多元的身份给您带来的哪些优势?

徐葳:我认为这些身份之间是相辅相成的,“产学研”之间是互相促进和帮助。我是工程学科的研究者,最重要的就是不仅要有理论研究产出,更应该真正应用在社会生产中。

从研究角度看,学术研究可以更好的去探索定义是什么,核心问题是什么以及能用什么办法解决。比如隐私计算究竟是想解决什么问题,它究竟属于哪些领域的研究范畴等。先理解问题,再从科研与前沿学科中想出解决办法,而不是我知道什么办法就用什么办法解决。

从育人角度看,给学生的知识不仅仅是理论的纸上谈兵,更多的是在工程实践中的新发现,在产业中真正能落地生产的知识。

在企业生产角度看,团队成员各司其职,有负责管理的、负责科研的、负责业务对接的,每个人都做自己最擅长的事情,这样产业和科研才能互相促进,而不是互相拆台。

多元的身份能让我站在不同角度思考隐私计算,在“产学研”之间融合贯通。

《算力智库》:师从图灵奖获得者David Patterson教授、又在图灵奖得主姚期智教授创立的交叉信息研究院工作,这两位良师益友给您的研究或者创业带来了哪些收获?

徐葳:影响是非常大的,我是典型的被教育改变的人。在本科的时候,我是十分内向的,但是经过博士期间的锻炼,我觉的自己逐渐改变了。

Patterson教授在工业与产业的结合方面,颇具影响力,指引和鼓励了我将学术与产业相结合。姚先生也这么认为,他曾表示“计算机学科做交叉学科,就是不仅仅要做工具学科,也是要用计算机的方法和思想去改变各行各业的实践”。

“把技术缠绕在生产生活、实体经济中”。创办华控清交后,我们也选择了通用型技术设施的研发,可以用于大大提升各行业数据使用效率与降低使用成本,为隐私计算在产业应用的普及做好准备。

华控清交创办时,我已经毕业好多年了。后来见到导师Patterson教授,他也很支持我。他说教授开公司有成功的也有失败的,无论成功与否,都是一次非常宝贵的经历。

《算力智库》:2010-2013年您曾在谷歌美国总部工作,是什么契机和动力让您回国发展的?

徐葳:我是一直都想回国的。正好当时有两个契机,第一个就是当时在谷歌做基础架构可靠性方面等研究,工作非常稳定,也比较自由,但就感觉有点类似于退休生活,而我更喜欢自由探索新事物。

当时姚期智先生正好去美国招聘,我的导师Patterson介绍我们认识后,姚先生介绍要在清华创办信息交叉学院,我认为能早期加入探索是很好的机会。姚先生和我说,可以自由探索感兴趣的方向。

我一直认为我是姚先生从美国“捡”回来的,当年博士毕业去谷歌工作后,走出学术圈的人,就像流落街头了。但是姚先生又给了我重回学术圈的机会,我很感激。

当时回国后,我探索了很多方向。在2014年前后,大数据尽管非常热门,但是却带不来业务价值,因为明文数据交易会带来太多问题,包括合规、企业机密泄漏等问题。意识到数据共享问题后,我发现这个领域存在机会,一些大型企业诸如是Google存在数据闭环的,有人访问就能产生数据,它又能在其他(如广告)业务里用这些数据变现,就形成了闭环。但在大部分企业中,都不存在数据闭环,要么自己不产生数据,要么数据没办法变现。这是大数据领域一直发展不起来的一个重要原因,我认为隐私计算可以让数据流通变得可控,后来就专注探索隐私计算方向了。

《算力智库》:近几年,您在顶级学术期刊上发布的多篇文章,主要是研究哪些领域?成果转化情况怎么样?

徐葳:我的论文是多样化的,有好几个研究方向。比如数据中心网络(尤其是高性能的数据中心网络)、系统可靠性、医疗AI、隐私计算(多样技术交叉的综合领域)、区块链等几个主要领域。研究方向多元是许多系统领域教授的特色。

在这些方向中,我选择了创办企业落地隐私计算研究成果,一个重要原因是它从来不单是密码学问题。隐私计算效率的提升还结合了大量的AI模型训练的方法,比如联邦学习这类,这些优化还会降低安全性,所以需要取舍。隐私计算还涉及到网络传输、局域网、广域网等影响数据访问的速度,硬件的加速以及简单明了的编程语言等,需要从更综合的,一个完整的系统角度去思考。这正是我所喜欢的问题。

我研究的其他领域也已经在进行成果转化了,只不过我没有亲自参与产业落地。

《算力智库》:美国专做技术成果转化的公司“巴士底”曾做过一项调查:美国高校教授创业的失败率达到了96%~97%。但在科技就是第一生产力的当下,科学家创业也给商业领域带来了最先进的成果和思想,寒武纪、商汤科技、地平线等企业就是非常著名的例子。华控清交也已经成为行业领军企业,“科学家创业”需要具备哪些素质?您对科学家、教授创业有什么建议?

徐葳:我希望不要给教授、科学家打上“标签”,其实谁创业都有成功有失败的。

创业者要认清楚自己的擅长什么,这是非常重要的。许多科学家、教授他认为自己什么都能做。这样的认知是有原因的。在学术领域,教授需要独立运营实验室,从人事到财务到谈项目,甚至刷墙、接网线都需要自己做。在一个企业里,交给专业人员去做,效率、效果都会更好。教授创业,我时刻提醒自己最重要的一点是open mind。拥抱变化,拥抱不同的观点。如果思想不够开放,固守自己的认知,就很难找到契合的团队把事情做好。

在华控清交,我与CEO张旭东很早就认识了,我们双方间相互信任。我负责技术研究转化,他负责企业管理等,配合的十分默契与互补,此外,再寻找一些有能力的人和谐的工作。因此创办企业搭档和团队也是至关重要的。

如果在团队,商业等等这些事情还没有想清楚,还不够成熟的条件下,教授也可以把成果转化交给别人去做。我周围很多科学家采取这样的方式,进行成果转化也很成功。

“新型”数据交易所的构建

《算力智库》:复盘来看,2021年,华控清交在哪几个领域做隐私计算的成果更突出?2022年有哪些正致力突破的计划?

徐葳:2021年,在金融领域以及数据交易所成果比较突出。我们的技术特色是「通用型技术」,我们在各种领域都在做尝试。

通用型技术可以快速形成适用不同领域的不同算法和定制化应用,我们也不专门侧重在哪个领域发展。通用型隐私计算是单一系统形式、分布式系统的思想,支持不同的隐私计算协议。作为一种工具使隐私计算技术走向普及。降低了实用门槛,就是要打造“烂大街”的技术,降低开发成本。把一个技术“烂大街”化,是软件系统的终极追求,也是计算机行业高速发展的秘诀,隐私计算也不例外。

2021年,在技术领域,我们对通用型系统继续进行了整体的改造和研发,使其大大降低使用门槛,降低行业应用的开发与使用成本。

2022年,在技术领域的规划是,进一步推进系统的应用落地,让想做隐私计算的厂商都能开发自己的隐私计算产品,集成商自己的技术人员就能完成搭建,我们不需要参与其中;再就是从大型系统的应用推广大小型系统中,之前我们进行大型企业的部署,我们进行硬件加速优化方案使其变的小型化,进一步普及隐私计算的使用;最后就是提供更多元的安全与性能的选择,包括在不强调安全的场景中,通过联邦学习等技术来降低成本,在强调安全的场景中,提升密文算法的性能。

总体来说,我们的目标是能够让更多的企业用上隐私计算,大规模的建立基础设施,服务更多的企业。即便不想建立基础设施的企业,也可以使用到更便宜、更高效隐私计算服务。

《算力智库》:2021年北京国际大数据交易所、上海数据交易所已经先后成立,深圳数据交易所也正在筹备,华控清交也参与了北交所、湖南大数据交易所的创办,华控清交目标构建的“新型”数据交易所是什么样的?

徐葳:让数据可用不可见、使用可控可计量,可以真正的交易数据特定的价值,这就是新型数据交易所。

我们参与了北京国际大数据交易所以及湖南大数据交易所的技术设施的设计,是技术提供方。

大数据交易所在技术上经历了三代,第一代是明文数据交易所,数据交易十分受限,几乎没有企业在其中进行交易;第二代是API数据交易,只适用于一些特定的统计场景分析,是进行数据的交易后购买方可以进行数据计算。而第三代新型数据交易所,是引入隐私计算技术,基于多方数据汇聚进行密文计算,不进行数据间的直接交易,而是进行数据特定价值的交易。是一种新型的合约,提供数据后用什么算法算,结果归谁,这是交易的内容。

隐私计算技术建立的数据交易平台,是一种技术和管理的综合体。并不是公链那种只信任技术,完全不需要管理的。在数据交易所运营中,技术解决的是技术风险,管理风险、数据源的真假、安装操作水平等仍需要通过各方提供的管理、监管、审计来保证。因此数据交易所的形态是必要的,技术公司不会替代数据交易所。

《算力智库》:光大银行企业级多方安全计算平台的上线,是华控清交一次里程碑的事件吗?为什么?具体的运作原理是什么?

徐葳:从落地来看,这是华控清交交出的第一个完整的企业级开源框架,也是金融行业第一次用于生产的企业级开源框架,是一次里程碑事件。

作为企业级数据流通基础设施,光大银行多方安全计算平台具有以下特点:通用性,平台集成秘密分享、同态加密、不经意传输、联邦学习等多种隐私计算技术,可实现任何算法需求;可扩展性,采用分布式技术架构,数据、算法、算力和控制面层层解耦,调度系统、计算引擎、数据服务均可弹性扩展。

高性能,千万级数据分钟级联合建模,秒级联合统计和匿踪查询,可平滑扩展到亿级数据的多方安全计算;高可用,同城跨机房负载均衡双活部署,机房和服务器故障,业务自动无缝切换。

当然从技术角度看,这一系统对我们来说,并不是最复杂的,它和我们一贯部署的技术方案都是一样的。

《算力智库》:无论在技术、融资,还是落地成果方面,华控清交已然成为国内外隐私计算领域的领军企业,华控清交是如何做到行业顶尖的?

徐葳:我认为团队靠谱是最重要的。靠谱的团队做什么都是靠谱的,但是不靠谱的人,即便再靠谱的事也做不靠谱。

另外,能完成通用型技术的搭建,还要追溯到创业之初。当时的用户,也许包括我们自己,还看不清隐私计算的需求,我们那时候必须搭建通用型的技术设施,以满足“未来”的需求。这后来成为了我们的一个先发优势。

现在隐私计算技术已经很火了,如果还费几年时间搭建通用型的技术设施,可能企业会耗费极大的时间成本。新加入这个行业的企业,从专一的特定应用切入,其实是适合当下的发展阶段的。

《算力智库》:最新的估值目前达到了多少?中长期来看,华控清交的发展目标是什么?

徐葳:2021年10月13日,华控清交完成5亿元人民币B轮融资。老股东联想创投继续投资增持,中关村科学城、OPPO集团、迅策科技、中金公司、浦发银行旗下浦信资本、华兴资本、朗玛峰资本、同创伟业共同投资。华控清交B轮融资的投后估值超40亿人民币;2022年,有望达到独角兽的估值标准。

华控清交中长期的发展目标是完善数据生态、成为全球顶尖企业、“救活”大数据行业,实现更多不同企业间数据共享的闭环。

《算力智库》:技术理念上,华控清交遵循怎样的安全假设?咱们提倡的新数据观和新数据安全观,可以简单介绍一下吗?

徐葳:安全假设是客户根据他的数据和应用场景,自己做出的选择,而不是我们技术提供方的选择。技术可以提供安全保障,减少数据使用风险,但是还存在其他非技术性风险,其中安全假设的正确性就是非常主要的。

安全假设是什么?不同的场景下需要不同的安全假设,可以完全相信人性,也可以纯粹相信代码。我推荐的安全假设是“秘密共享”,我相信多个参与方之间没有合谋。类似于“让权力在阳光下运行”、“经办人制度”等,在技术保证下加之完善的监督机制。

简单来说,安全假设就是成本与风险的一种取舍。

谈到数据安全观,第一点,数据是不能直接流通的。数据是高维的,不仅是个人身份的信息需要保护,往往关乎国家安全、涉及企业机密的统计数据也都是敏感的。但是,算法是不断发展的,一旦有更先进的算法,数据到底还能干什么用,造成什么问题,都是不得而知的。因此,直接流通数据是没人敢做的。

第二点,数据不应该探讨归属的问题。数据更多的是保管责任,很难讨论归属。

第三点,数据用途“可控可计量”,是数据安全最核心的问题,是采用所有这些技术的目的。“可用不可见”只是是保证数据用途可控的基础和手段。

大数据生态的完善是隐私计算大规模应用的前提

《算力智库》:数据被定义为生产要素后,一方面给拥有大量数据的企业带来了新的机遇,另一方面也带来了更严苛的监管,隐私计算在其中扮演什么角色?

徐葳:隐私计算有望成为生产要素流通的基础设施,打破了数据垄断,改变了“择数据而产”的低效的生产方式,因此能提升整个社会的生产效率与效益。

《算力智库》:隐私计算的商业模式较为单一,当下占隐私计算企业营收结构中主要的是哪个模式?当下隐私计算的商业营收能力如何?

徐葳:隐私计算商业是一种提供软硬件技术与核心技术提供商的生意模式。但是等大数据生态发展活泛后,社会化大数据可以安全流通,会兴起更多的商业模式。

从目前来讲,我们专注的是如何做好核心科技的提供商。

目前隐私计算行业的商业营收能力还远远没有达到我们希望的水平,但是这个现状要改变。我们要做的是真正能给客户带来价值的技术方案,专注做ToB的业务。行业会发展起来。从我们华控清交而言,2021年在营收方面,我们已经迈出了一大步,2022年还会继续保持高速增长。

我认为隐私计算在未来几年还会有一个爆发。到那时候人们就不会把隐私计算当作某种神秘的黑科技,而是把它当成大数据生态的一部分。到那个时候,行业就真正形成规模了,那时候这个行业里的企业,就会形成新的业务模式。。

《算力智库》:除了隐私计算,未来十年会迎来哪几个行业的“黄金十年”?您怎么看元宇宙的发展?

徐葳:我看好针对特定领域的AI技术,这些技术能够解决目前AI工程化落地没跟上,未来结合不同的应用场景将大有可为;此外,针对特定场景的可编程加速器很有发展前景,软硬件结合的系统设计会成为解决很多计算问题的有效思路。

元宇宙把UGC(User Generated Content)从微博,短视频,直播,直接带到了新的阶段,允许低成本地实现交互性粘性都更强的UGC。VR只是元宇宙外在表现形式,其实,元宇宙也是一个交叉学科领域。元宇宙在打破互联网平台垄断方面是具备潜力的。然而,元宇宙火得太快,缺少技术沉淀的时间,根基不稳,很容易出现劣币驱逐良币的行业风险,对整个行业造成打击。这一点是需要关注的。