亮风台唐荣兴:从软件电话到AR通讯协作,从业二十年的一点思考与实践

2023-10-18

——他希望AR终端能成为人的再一次延伸,实现真正的空间共享和实时互动,让人们超时空 “共在”。

采访对象|唐荣兴
文、编辑|李美涵

从03年左右开发PocketPC上软件电话SIPPhone算起,到现在AR眼镜上的AR协作软件,刚好二十年。

20年前,通讯曾是一种稀缺的资源。彼时,手机上网刚刚成为现实,资费也并不亲民,更早前的摩托罗拉手机曾是“万元户”们的身份象征。许多年轻人没听说过的概念“NGN”(Next Generation Network,下一代网络)一度成为当时的热词——人们想象能有一个统一的网络平台,来整合当时已有的市内固定电话和移动电话,同时增加多媒体数据服务。

20年后,从FaceTime到视频会议,音视频通讯协作成为一种理所当然,与人们的日常生活融为一体。今天,手机作为传统电话的功能早已“屈居一隅”,人们花费更多的时间在短视频、带货直播等内容娱乐之中。在唐荣兴的理解中,这些也是通讯协作的一种形式,毕竟在商业MCN还未成形的时候,促使初代网红走向网络的其实就是沟通与分享的需求。

回望这20年,他将自己在音视频通讯协作领域的所见所闻总结为“变”与“不变”。变的是协作形式、技术和终端产品,不变的就是人性对沟通的需要与追求。

和众多的技术创业者一样,唐荣兴对自己的技术身份感到自豪。即使COO的工作需要他接手管理和运营的事务,在他身上也始终有着技术者的烙印——理性、追求极致、没有架子。在采访中,唐荣兴又展现出感性的一面——多年的工作和创业经历,使得他对通讯协作领域沉淀了深厚的情感,对行业和技术的迁变如数家珍。

他为团队的AR远程协作平台取名HiLeia,灵感源于星球大战中的莱娅公主。就像电影中所描绘的那样,莱娅公主通过R2-D2发出自己的全息影像,向卢克天行者和欧比旺求救。他希望AR终端能成为人的再一次延伸,实现真正的空间共享和实时互动,让人们超时空 “共在”。

沟通是人们内心深处的渴望

LiveVideoStack:唐老师好,回顾您过往的工作经历,您任职过清华同方、英华达、盛大创新院等多家公司,也有着丰富的创业经验,您是如何对音视频通讯协作产生兴趣并逐渐专注到这一领域中的?

唐荣兴:我的工作经历有些丰富和有趣、幸运,开始做音视频通讯协作相关的内容是从03年左右起。通讯协作领域的老兵可能会知道,那时的SIP协议(Session initialization Protocol,会话初始协议)、VOIP(Voiceover Internet Protocol,基于IP的语音传输)、NGN(Next Generation Network,下一代网络)等技术概念,那时候的各种协议都还比较复杂。当时做了一个PocketPC上的软件电话,目的也是为了融合固定、移动IP网络和公共电话网络,实现的功能是在掌上电脑上与其他的电脑或是手机进行通讯。从某个方面看,这个产品在当时还是蛮超前的。

到了08年,开始钻研FeaturePhone(也就是常说的功能机),为了能够在上面用文字、语音还有视频形式提供更高质量的通话。在后来的12年左右,进行了第二次创业,也就是现在的亮风台公司。

经历在变化,但围绕通讯的工作一直在延续。在与各行各业的接触中,我发现通讯还是很重要的,许多传统的制造业在数字化转型期需要智能化、便捷化的通讯方式,能自然高效获取远程“专家”的协助,打破距离对于数据价值挖掘的限制。变化的是新技术新手段,但需求是不变的。我们开始思考AR如何满足这些需求,在17年左右的时候,我们实现了AR眼镜与手机和电脑终端的协作。

能够见证通讯行业从较早期的状态成长到今天,我感觉很幸运。

LiveVideoStack:刚才聊到了通讯行业的变迁,其实这20年也是移动互联网逐渐普及的时间,您所感受到的大趋势的变化是怎样的?

唐荣兴:首先是网络技术的发展,从08年3G网络开始普及,到之后4G网络高速发展。没有底层技术的发展,就不会支撑起现在的短视频、直播这些应用。然后是音视频技术上的变化,记得刚开始创业的时,我和小伙伴还是研究的H.263、H.264。到今年编解码标准已经迭代到H.266甚至在展望H.267。

在这个大的趋势之下,多媒体通讯从模拟语音到数字语音,从短信到了微信的时代,越来越丰富。实时沟通也从最早的RTC(实时音视频)到RTE(实时互动),再到马化腾所提出的全真互联网,强调对真实世界全面感知、连接和交互。

其实回过头看,你会发现我们的努力只是微小浪花,大家共同努力的融汇形成了技术发展的大趋势和大潮流,这个是很有意义的。

LiveVideoStack:您经历了音视频通讯协作从无到有的一个过程,有没有那么一个时刻,让您觉得从事通讯协作是件非常有意义的事情,可不可以和我们分享一下。

唐荣兴:今天有个词叫“科技普惠”,产品最终还是要面向消费者的,能够切实的帮助用户是件很开心的事情。我们最初在FeaturePhone上做音视频通话的时候,还觉得有些惊讶:用户怎么这么多。居然还有非洲用户!现在更多的人知道有家成功的手机公司叫传音(编者注:主要从事手机业务,销售网络涵盖非洲、中东等新兴市场),他们将手机销售到国外。但在当时,触达到非洲用户是件很新奇的事情,尤其是发现很多发展相对落后的地区用户量还是非常大的。

从我的感觉上看,这些地区的人对沟通和协调有很高的需求。这些用户可能是出国工作的中国人,他们要和家乡的亲人和朋友联系。他们可能为省钱或方便就用一个简单的功能机,也不想支付昂贵的国际通话资费。然而,通过节省流量和资费的音视频通讯软件他们可以用更低的价格实现同远方亲人沟通的愿望,哪怕远在非洲。

虽然我们做的音视频通讯没有成为QQ或者微信那个量级的产品,但是曾经使用过它的人,实现了便利的交流,缓解了自己独在异乡的孤独,这件事情让我更深层次地体会到通讯的价值。所以我为什么在做AR产品时,还是如此重视通讯功能,和那时看到的用户需求密不可分。

LiveVideoStack:用户其实是职业成就感的重要来源?

唐荣兴:嗯,是的。尤其产品前期会进行许多的投入,研发的小伙伴们可能会熬夜通宵。之后能看到产品被消费者广泛接受,尤其是频繁地进行使用,是挺有成就感的。

十多年前,我们做的音视频通讯曾经有丰富广泛的用户群,希望我们产品在未来能让我再次享受与超越那种喜悦的心情。

划时代的商业产品 引领技术发展

LiveVideoStack:您提到过一个观点,说新技术的实现都是“从技术到商业,再从商业反推技术的发展”,这个感悟看起来与您看到的行业变迁有关,您可以具体的谈一谈这个观点吗,是哪项技术或者哪些技术让您有了这一体会?

唐荣兴:就像曾经的Palm、黑莓、摩托罗拉还有诺基亚等等,它们曾经辉煌过,又逐渐地淡出市场。后来有了iPhone、有了三星、华为等手机。我们可以说这是商业时代的变化,但也可以说是技术的发展,新的技术取代旧的。

技术的普及有一个曲线。新的技术刚出来时可能只有少部分人能享受科技带来的红利,随着时间的推移,后来绝大多数人都能享受到,但这种状态不会维持很久,又会迎来下一波技术迭代曲线。例如,随着智能手机的成熟,手机制造研发的成本大幅下降,我们会说,那是不是能把它做得更轻更薄?而新材料或者新工艺又会再次提高之前的成本。

我们的AR眼镜也是如此,必须要做到光学显示器件、电池存储、通讯模块及其他元器件的微型化。如果想成为一个商业产品,AR眼镜必须变成一个更轻薄的形态让用户去佩戴。

总而言之,技术与商业是相互促进生长、进化的双螺旋。

LiveVideoStack:商业推动技术的部分呢?

唐荣兴:主要是为了在商业上获取成功而进行的技术迭代。为了能获得更多用户的使用,必须匹配更多的场景和更好的用户体验。用户群的扩大对于科技企业来说,就是薄利多销的实现。企业在产品上赚的钱,会给技术研发团队争取到更多的资金投入,可能会组建更优秀的技术团队。

商业通过推动技术降低自己的成本,从而获利更多,这是发展的一个正向的循环,这个趋势其实随处可见。比如4G时代更丰富的应用、更广泛的用户群体、更大的商业价值,计算效能增加、海量数据出现,机器学习、深度学习等技术得到蓬勃发展,由于计算效率的提升、计算成本的降低,更多企业投入计算单元去训练、去学习,不断优化这些人工智能技术并慢慢应用到更多的业务场景中。

总体上说,用户需求一直在追求“多快好省”的路上。

LiveVideoStack:一个标杆性的商业商品,比如说iPhone,它其实是对整个领域的技术都有一个非常大的推动作用。

唐荣兴:iPhone获得的极大成功,它是拉动了整个电子产业链条的,我们现在喜欢称这种企业叫“链主”企业。而且它的能量也不止在电子产业,包括内容的生产,比如激发了很多新的APP上线,包括很多的游戏也在这个范围内,从多年前《愤怒的小鸟》到今天的《原神》。

本质上还是科技带动产品带动商业化,甚至去推动经济的发展。我发现,其实今天的科技和商业又在一个分水岭这样的时刻,我们也见证了元宇宙和ChatGPT的爆火。但人们依然在期待能引领这个时代的伟大产品出现,包括AIGC来说,对内容生产确实带来一些质变,但可能还要有两三年才能带来一个巨变。

希望能涌现更多划时代的产品,新的“iPhone”、“Office”、“微信”等等,甚至更超级的应用出现。

通讯协作的下个十年

LiveVideoStack:从03年开发软件电话算起,您在通讯协作领域已经深耕20年了,作为这个领域的资深从业者您认为通讯协作的下个阶段会走向何处?

唐荣兴:我特别认同行业内的一些声音。我能看到国内外的技术者都在致力于描绘未来通讯的一个蓝图。就我的想法,我会认为下一个阶段会是空间互联、实时互动,如果再补充的话就是虚实融合与共生(简称虚实融生)。

未来的互动首先应当是立体的交互。在3D的场景下,会有空间的赋能。未来的会议形式应该是,我们在线上选择一个共同的虚拟会议室,我们可以进行真实的、面对面的交流。如果我们不方便露脸,也可以选择一个自己形象的数字人,来代表我们讲话。

互动是实时的,与情景与空间关联实时变化,这个趋势其实已经形成了,比如B站的弹幕,就是文字和视频内容的一个融合,弹幕其实是数字的信息。至于虚实共生,就是指物理世界和数字世界的结合, 未来我们进行会议的时候,我们讲的内容,会有实时的字幕出现在人物旁边。我只要用语音讲,AI就会不断地把我的语音转化为文字,也可能会有AIGC把我的想法画成一幅画实时地展示在空间内。

LiveVideoStack:在这个空间共享和实时互动的大趋势下,音视频技术能需要扮演什么角色?

唐荣兴:三维的数据以及4K、8K的高清要求会使得音视频内容数据量继续剧增。数据的压缩和传输方面的优化,仍然是音视频继续进化的方向。

首先是AI辅助下使用更好的智能压缩技术,编解码器的技术也会继续迭代到H.266甚至更多。音视频压缩领域的专家,要突破以前的算法寻找更好的优化方式。

另外就是机器学习、深度学习等人工智能技术的应用,尤其是对场景的深度理解。以数字人、数字化身通讯为例,不需要传输全部的语音、表情、姿态等数据,只需检测眼睛、嘴唇等位姿变化,传输少量数据,本地计算自动完成内容、数据的完整生成,所以未来的算法甚至需要包含对具体场景的智能理解、压缩,增加对物理空间的计算与传输。

最终来看,音视频会被更多人工智能算法以及融合技术赋能。

LiveVideoStack:但也还是在做编解码和网络传输方面的改进?

唐荣兴:是的。我还记得2000年左右的时候,我们在工程中做优化“锱铢必究”,BYTE 到 BIT,乘除转位移……,不断去优化代码。可以看到,工程化要解决的问题是有很强的连贯性的,以网络传输为例,直到今天我们还需要解决弱网环境、网络堵塞、抖动丢包等这些老生常谈的问题。

但让我比较兴奋的是,每一次的技术突破,都不是孤立的,例如4G网络、对AI结合的需要等等,这些都会推动技术者继续在现有算法的基础上继续优化。不管是工程化的优化,还是在算法方面寻求一些突破,我觉得都是工艺上、技术上的改进,而技术的精进是无止境的。

LiveVideoStack:具体到我们目前的产品上,在实践又是怎样回应您刚才提到的种种挑战的?

唐荣兴:我们目前的产品,AR远程协作平台HiLeia。Leia是星球大战电影中的角色,这部电影的全息影像很好地描绘了通讯协作的未来,我们希望类似产品能成为下一代终端的重要应用,像现在的手机上的超级应用一样融入人们的日常生活之中。

但目前我们更多的应用场景是在工厂、学校与展馆中,很多工厂的网络都不够好,那我们怎么去做自适应就是一个问题。例如我们怎样在网内分配资源,如何优化阻塞、拥塞的算法……这些还属于有成熟的范例,我们会根据不同环境的要求去做优化。也有一些意想不到的小情况,比如说要开始支持4K,渲染出现了问题,因为4K计算、传输是新需求,那我们就要去解决bug与优化体验;还会遇到一些新的产品场景,是之前不支持的,那如何进行扩展和兼容也是需要考虑的。

目前AR协作已经支持多人互动,有关动点标注、实时标注的传输方式也和以往有很多区别。我比较欣赏的一个解决方案是构建一个新的AR通道。

LiveVideoStack:AR通道是一个专属的传输协议吗?会在多久的未来中变成现实?

唐荣兴:是的。通常在通讯中会有信令通道、媒体通道,现在我们尝试建立新的AR通道,通过传输协议去同步,在传输中实现顺畅的压缩和解压缩。

其实大家很多的想法都在慢慢的达成一致。现在,相关AR通讯的新标准已经出现了,比如HSTP。大家都知道HTTP超文本传输协议,而改动的“S”代表着space(空间)。这个协议已经通过了IEEE的标准,成为了一个开源的协议。在未来的三五年中,应该能见证国内外很多AR、VR产品跟进和支持这个标准。

一切为了用户

LiveVideoStack:刚才谈到了行业的变迁、技术的更迭,有变化就有不变,您觉得“不变”的是什么?

唐荣兴:刚才说过商业和技术间相互推动产生的变化,最终新的产品线诞生,推动新的“iPhone”出现。我觉得苹果的产品有个非常突出的优点,它永远以用户为中心带给他们更好的体验。

回到通讯协作领域来谈论这点,我们觉得通讯对于人们始终有很高的价值,人们在追求自然的交流方式。比如说,我们今天在采访中谈得很愉快,我们也许想把交谈的场景变成真实的。“真实”不是我们今天看到的“平面”的视频会议,而是真正的让人感受到我们在面对面的和朋友聊天。这种还原成真实聊天场景的功能,就提供了一个更好的通讯体验。

LiveVideoStack:用户的沟通需求是不变的,但AR眼镜作为比较前沿的通讯协作产品,在推广普及的过程中,用户教育会是一个难题吗?

唐荣兴:(笑)用户教育我们已经进行了十余年了。

刚才我们讲到整个通讯行业的变化,从模拟到数字,从文本到语音到视频经过了一个相对漫长的过程。而AR协作其实还处于比较新的阶段,我也曾经在12年到14年的时候,满脸真诚地像个布道者一样去向别人介绍我们的产品和技术。

随着AR渐渐进入人们的视野,用户教育的难度在降低。像今年,特别感谢苹果发布了MR头显,让更多人意识到未来的下一代终端,未来AI会更好地融合到通讯协作的技术和产品中。苹果在推出MR头显之前至少投入了七年以上、十年左右的开发,把它从一个技术变成了一个商品。

所以产品的教育不是一个公司、几个团队的努力,而是整个产业链的协同发力,一起去教育这个市场。无论是苹果、微软、Meta,还是我们这样的中小企业,都对行业的发展有益处,去推动整个生态的变革。这也不只为了用户教育,最本质的还是不断地去优化自己的技术产品,让人们更好、更容易地去用它。

LiveVideoStack:AR通讯协作服务用户的目标是什么?

唐荣兴:我们现在更多地在做To B业务,AR通讯协作是一个更好的生产力工具。因为它做到了所见即所得,戴上AR眼镜,远方的专家就如同在这个设备前。AR眼镜让人在工厂中进行远程合作,将实景和虚拟的实时标注、数字内容结合起来,这就是我们刚才强调的在共享空间当中的互动。

有了空间的共享,就相当于请了一个专家来到了传统的工程中。我们的目的是让小白变专家,一个顶多人,让人的价值,以及对数据和知识的使用最大化。过渡到大众场景下,我们希望实现通讯场景的空间互联、空间共享、实时互动以及虚实融合,远程通讯“真实”,更智能便捷。在AR这个领域,我并不知道我们未来究竟能做到多远,但是一定会有更多的小伙伴去用它。未来,我希望我们能找到更多新的产品场景,让更多人选择这种全新的通讯协作方式,并提高他们在工作中的生产效率、带来生活体验的再变革。

共在,媒介的下一次延伸

LiveVideoStack:“产业元宇宙”是个很新颖的概念,在构建行业+AR产品方案时,您有没有遇到让您印象深刻的应用场景?

唐荣兴:刚才我们所说的远程协作,主要集中在传统的制造业,实现专家的远程指导。在疫情期间,这种大型机械的远程协作需求更明显了:出差成本变得很高,海外专家到现场的指导变得非常繁琐,远程的指导就沉淀成了一个基础的需求,这是近几年我看到的日常变化。

我印象很深的案例,也是在疫情期间看到的:一个线上的虚拟演奏会。在这场演奏会中,艺术家来自全球各地,他们的钢琴、小提琴等乐器演奏也是分散各处,通过通讯技术的合成,最后呈现的所有的声音和画面的演奏效果都是无缝同步、完整合一,呈现的表演效果真的让我觉得无比震撼。

无论是哪个行业、哪个场景,其实统一的价值都是“共在",这个词指的大家存在于一个空间中并同时在线,这是我认为在未来最有价值的事情。

“在线”曾经是件很重要的事情,之前我们使用QQ的时候,好友上线会有“嘀嘀”的提示声,后来就不会再提示别人的在线状态,而是默认在线。但是我想,未来的在线互联会获得新的定义,会有更丰富的时空内涵,人们可以在同一个时刻在同一个空间中,让在线互联的体验如此的真实立体与零距离,这就是“共在”。这是AR协作真正能赋能于人的东西,打破时空的界限,把人的能力增强。

LiveVideoStack:在落地的时候,会有哪些技术困难。有一些行业其实对于这种共在的要求其实是非常高的,比如远程医疗等?

唐荣兴:同时在线有两方面的要求,首先是要保证尽量低的延迟,其次是足够的画面清晰度。如果画质不够好,是没办法让用户感觉到专家就在自己身边的,所谓的“沉浸式”,其实是在制造一种“视觉欺骗”,对画面逼真度的要求是很高的。

为什么在5G时代,才会有人关注到远程教育、甚至远程医疗?只有在网络的条件成熟的时候,才可能将延时控制在毫秒级,必须要无限的压缩延迟,才会保证远程医疗手术的安全。所以这些并不是我们现在主要考虑的场景,我们会在工厂、学校、公共应急、文旅体验等方面,努力提供更加优质的服务。

当时机成熟的时候,我觉得HiLeia会发挥出更大的价值。

LiveVideoStack:咱们今天聊了很多,虚拟现实和增强现实的共有趋势,比如说空间共享、实时互动等等。回到区别上来看,您觉得AR与VR比较,它的独特优势在哪里?

唐荣兴:以前我们常说,VR是“白日梦”,AR是“活见鬼”。过去的二十年,互联网已经创造了一个非常大的数字世界,现在我们考虑的是如何将数字世界与真实世界链接起来,这是AR能做到的事情。

现在我们看到,AIGC强大的内容生产能力,能快速创造我们需要的信息内容。如果这些内容可以更好地出现在现实中,我们就能更方便地获取指导,让虚拟的部分成为生产工具,使得数字世界和物理世界和谐的共在共生。以上是我觉得AR和VR的最大区别。

但是我想说,VR和AR没有高下,只是用户在不同场景的需求有区别。可能一些场景里我们会用VR,去获得更好的沉浸式体验;另一些需要和物理世界交互的场景,我们要用到AR,更好地提高生产力。十年以后大家可能不会纠结于两者的区别,就像有的人会在Switch上玩任天堂的游戏,另一些人喜欢在电视上玩,其实形式没有那么重要。

AR和VR的未来应该会更多元化,终端也应该是百花齐放的。

LiveVideoStack:今天很开心跟唐老师进行采访交流,最后请唐老师来剧透一下,您在我们深圳站大会上的独家内容吧。

唐荣兴:我会花时间整理,更好地去分享我在音视频通讯协作和AR通讯协作的思考与实践。

我对通讯行业有情感和热爱,相信随着技术的发展,通讯与协作会带给世界更多的价值,更多的温暖与美好:不只能提升生产力,也能提升人们的幸福指数。我非常喜欢Alan Kay的一句话,“预测未来的最好方法就是创造未来”,这就是我们研发产品的意义所在。

前段时间也看了互联网预言大师KK(凯文.凯利)的《5000天后的世界》,可以大致看出十年内XR终端会流行,新的计算平台与超级应用会再次出现。

希望能通过这次分享来“抛砖”,和现场的朋友们一起交流探讨,通讯协作产品未来的走向。

2023年11月24日-25日,亮风台唐荣兴将在LiveVideoStack举办的深圳站大会现场与大家分享《AR通讯协作的思考与实践》,敬请期待!

文章推荐

相关推荐