中国音视频系统软件开发研究及未来趋势

日期:2022-09-21 16:17:50 / 人气:94436

音视频消费习惯的迁移

用户音视频习惯养成,并逐渐向强实时性、强互动性场景延伸 富媒体信息时代,音视频已成为人们获取、发布、交换信息的重要方式。截至2020年底,中国网络视听用户占整体网民 规模的比例已高达95.4%。高饱和的渗透率水平,使用户更加关注音视频服务的体验感。得益于底座能力与关键技术的持 续突破,音视频服务体系实现了从点播、直播到实时音视频的深化发展。实时性与互动性的长足优化,逐步激活了更多场 景下的音视频互动模式,驱动用户的音视频消费习惯向更加还原真实、更加沉浸式的实时音视频服务迁移。同时,伴随疫 情的常态化发展,人们远程办理业务的习惯已逐渐养成。实时音视频作为一种通用型能力,撬动了传统行业中众多强实时、 强互动场景的数字化升级,也使得实时音视频的消费趋势进一步从消费互联网向产业互联网延伸发展。

网络基础设施持续升级

高速泛在的骨干网络,为实时音视频传输提供坚实保障 实时音视频行业的高速发展离不开国家骨干网络的建设。以千兆光网和5G为代表的“双千兆”网络,近年来取得突破性 进展。2021年,我国光纤接入(FTTH/O)端口已达到对互联网宽带端口的高度覆盖,光纤接入能力已普遍超过百兆,并 向千兆以上速率不断升级;5G网络已覆盖国内所有地级以上城市,5G基站数累计高达142.5万,用户数占全球的89%。 网络基础设施的广泛渗透,使更多用户可以受益于终端设备与骨干网络之间的快速连接,享受到无感接入、触手可及的高 质量网络服务。同时,“双千兆”网络在带宽能力上的显著提升,可大幅降低音视频信息的延迟和缓冲时间,提高端到端 毫秒级传输时延的满足率,为实时音视频的数据传输与落地应用提供良好的底层网络支撑。

音视频传输技术更新迭代

技术驱动音视频走向实时,流媒体协议迈入毫秒级传输阶段 流媒体技术可将压缩处理后的音频、影像连续性地上传到网站服务器,使文件无需完全下载到本地即可观看。在编解码方 面,H.265、国产AVS3等视频解编码技术可以使文件的压缩体积更小、传输速度更快。其中,AVS3作为全球首个面向5G 产业应用的音视频信源编码标准,已被成功纳入DVB(数字视频广播组织)标准体系,可以在同等画面质量下比H.265节 省40.09%的码率。在协议方面,基于TCP的RTMP、HLS、DASH等协议的优化方案仍存在2-3秒左右的延迟,而基于 UDP的WebRTC则突破性地将延迟降低至毫秒级别。与其他协议不同,WebRTC作为流媒体通信框架,覆盖音视频采集、 编解码、传输和渲染的全部环节,可以为实时音视频提供全流程的理论依据与技术支持。

商用方案成为行业主流

WebRTC奠定技术框架,在基础上演化出第三方服务商 WebRTC是目前实时音视频领域最流行的开源框架。2010年Google收购GIPS引擎后,将其纳入Chrome体系且开源后, 命名为“WebRTC”。WebRTC获得各大浏览器厂商的支持并纳入W3C标准,促进了实时音视频在移动互联网应用中的 普及。2021年1月,W3C和IETF两大标准制定组织宣布WebRTC成为官方标准,用户无需下载额外组件或单独的应用程 序,便可以支持在网络上的实时音视频通信。尽管WebRTC具有免费开源的特性,但其庞大、繁杂,学习门槛高,又缺乏 服务器方案的设计和部署,为基于WebRTC搭建的商用方案留下了发展空间。第三方的RTC PaaS厂商凭借规模效应和技 术优势成为开发者的首选,推动实时音视频行业进入发展的快车道。

中国实时音视频行业发展阶段

行业潜力逐渐释放,目前处于场景深化阶段的发展中期 WebRTC开源以及移动互联网的快速发展,使实时音视频技术成为炙手可热的探索方向。顺应用户音视频消费习惯,市场 参与者在消费互联网场景的积极实践,拉动了实时音视频行业的第一轮快速增长。当前,我国实时音视频行业正处于场景 深化阶段的发展中期,市场前期的良好铺垫叠加疫情带来的远程协作需求,使实时音视频技术在产业互联网场景加速渗透。 未来,伴随着行业标准的不断完善,实时互动场景的沉浸式提升,以及海外业务版图的持续扩张,我国实时音视频的行业 效能有望迎来新一轮的爆发式增长。

中国实时音视频市场竞争分析

RTC PaaS厂商凭借产品和技术实力占据市场主导地位 根据厂商聚焦的业务重心和发展实时音视频业务的主要逻辑,可将实时音视频赛道的玩家分为RTC PaaS厂商、通信云 PaaS厂商、综合型IaaS厂商及垂直行业解决方案商四类。其中前三者以提供通用的PaaS层能力为主,第四类根植于特定 行业场景,更倾向于输出PaaS+SaaS的一站式解决方案。就PaaS层而言,RTC PaaS厂商的业务专注度最高,在技术研发 和产品打磨上能够投入足够的精力,相比其他类型的玩家也具有一定的先发优势,占据了目前市场的主要地位。

中国实时音视频商业模式

以基础服务+增值服务,搭建完整互动体验,赋能业务增长 注释:通话、直播、转码费用,如果既订阅了视频流又订阅了音频流,则只对视频流计费。 来源:腾讯云、声网、即构、阿里云、网易云信产品计费说明;专家访谈;艾瑞咨询研究院综合公开资料自主研究及绘制。 增值服务 以RTC私有协议推流和拉流的实时音视频服务采用按时长计费模式。实时音视频厂商在选用不同计费方式之上,还会叠加 月度免费时长、套餐包、梯度折扣等组合优惠方式。伴随着应用场景的延伸发展,实时音视频厂商也会采取自主研发或与 第三方合作的方式,不断充实自身产品能力矩阵。三网融合类、安全监测类、体验增强类增值服务的拓展,保障了实时音 视频服务可用性、可靠性、可玩性,赋予用户更加完整丰富的实时互动体验。

中国实时音视频行业市场规模

预计到2024年,实时音视频PaaS市场规模将达到30亿元 尽管实时音视频服务已经开始呈现出向多行业领域渗透的趋势,但就现阶段而言,以PaaS为主要服务模式的消费互联网 领域仍然贡献了最核心的收入来源。根据艾瑞咨询测算,2021年中国实时音视频(RTC)PaaS市场规模为16亿元,同比 增长10.3%。相较过去几年的高速增长,2021年增速回落的原因主要有两个方面:1)受“双减”政策影响,在线教育领 域的收入骤降,2)社交娱乐场景中,实时音视频在头部互联网应用的渗透率已经较高,由高速增长阶段进入平稳增长阶 段。疫情于实时音视频无疑起到了重要的市场教育作用,预计未来宏观经济形势转好后,实时音视频将有望在越来越多的 产业互联网领域实现落地,同时元宇宙相关应用的出现也将为消费互联网创造更大的想象空间。

实时音视频核心价值及关键技术总览

传输网络保障低延时、高可靠传输,专业组件提升媒体质量 实时音视频相比直播最大的区别在于对端到端时延的降低。在传统直播架构下,时延主要来自于CDN分发和下行拉流环 节。而通过搭建面向实时音视频的传输网络,应用低延时传输协议,并辅以弱网传输保障策略,实时音视频实现了低延时、 高可靠的音视频传输。在音视频引擎方面,典型的实时音视频场景以沟通交流为核心诉求,对音频的质量关注度较高;而 随着实时音视频向实时互动场景拓展,其对降噪、超分等视频画质修复增强的要求也不断提升。

实时音视频传输网络

软件定义的去中心化网络,依托智能路由算法选择最佳路径 实时音视频传输网络(Real-time Network, RTN)是专为实时通信设计的稳定、高质量的传输网络。通常而言,实时音 视频传输网络架构在公共互联网之上,采用软件定义网络的方式进行网络虚拟化,专注于通信路由的计算和链路异常的故 障恢复。其控制面主要负责网络质量探测、路径规划和规则配置管理,数据面负责数据传输和转发,承担边缘和中转的角 色。基于去中心化的架构设计,实时音视频传输网络允许终端用户从边缘节点就近接入,并利用智能路由算法实时计算最 优的路径传输,有效解决路由链路和带宽成本的问题。

网络传输协议的选择

基于UDP协议的可靠性优化,为弱网对抗策略提供依据

Ø 传输层协议的选择:TCP是牺牲传输实时性来换取数据完整性的可靠传输协议。弱网环境下,其在数据传输前的“三次 握手”连接会带来较大延时。而UDP作为不可靠的传输协议,其最大的优点为高实时性,但不保证数据的到达和排序。 实时音视频产品往往采用UDP协议,并在此之上进行协议层与算法层的优化,来提高传输的可靠性与逻辑性。

Ø UDP协议的优化:UDP协议往往和RTP/RTCP协议一起在实际应用中出现。RTP负责数据传输,其协议头中的序列号、 端口类型、时间戳等字段,可为数据包的分组、组装、排序提供逻辑依据;RTCP作为RTP的控制协议,负责对RTP的 传输质量进行统计反馈,并为弱网对抗策略提供控制参数。

弱网传输保障策略(1/3)

丢包恢复:联动接收端与发送端的“重传+编码”配合策略

弱网传输保障策略(2/3)

抖动对抗:根据网络环境自适应缓存,平滑终端流畅体验

弱网传输保障策略(3/3)

码率自适应:根据接收端带宽情况,针对性推送适合码流

视频引擎

编解码技术升级迭代,AI技术助力视频画质修复与增强

未经压缩的数字视频的数据量巨大,通常需要对原始视频压缩后再进行存储和传输,这便是视频编码的主要工作。编码效 率是影响视频编码器选择的关键因素,以H.265为例,与上一代H.264相比,可以在维持画质基本不变的前提下将传输带 宽减少到原来的一半。虽然现阶段H.264仍是最广泛使用的视频编码器,但其使用率已经开始出现下滑,H.265、VP9等 有望将成为下一阶段的主流。除此之外,利用人工智能技术进行降噪、去压缩、清晰度和色彩增强等一系列画质优化工作, 提升人眼对视频的主观体验,是视频前、后处理过程中重点关注的方向。

音频引擎

通过回声消除、噪声抑制、自动增益控制优化音频质量

音频的前处理是整个音频处理链路中的关键。麦克风采集到的原始音频数据会存在噪声、回声等各种问题,如在多人视频 会议场景中,同地多设备同时开麦会造成强烈的啸声,发言者离麦克风较远会导致收音效果不佳。为提高音频质量,需要 在发送端对发送信号依次进行回声消除、降噪和音量均衡的操作,即AEC回声消除、ANS噪声抑制和AGC自动增益控制 的3A处理。在通话、语聊、教学、游戏等不同场景中,实时音视频厂商需考虑场景的实际需求,对3A算法进行对应的调 整,以实现良好的音频效果。

实时音视频技术路径分析(1/2)

多人实时互动方案:RTC技术为主,CDN技术为辅

多人音视频通话:通过接入RTC SDK,同一个频道/房间内的用户可以通过RTC私有协议,推流至实时音视频传输网络 (RTN),并从RTC地址拉取订阅的音视频流,享受稳定流畅的1v1或多人实时音视频通话服务。

实时互动直播:互动直播增加了主播、连麦者、观众的角色概念,连麦者既可以是房间内的观众,也可以是其他房间 的主播。在核心互动端,主播和连麦者通过RTC地址推送自己的音视频流,并拉取他人的音视频流。连麦内容会通过旁 路系统在云端将混为一路流,并转码为传统直播协议供观众端使用CDN地址进行拉流观看。观众请求上麦成功后,将 从CDN地址切换到RTC地址进行互动。

实时音视频技术路径分析(2/2)

超低延时直播:对传统直播架构在协议和网络层面进行改造

超低延时直播是近年来新兴起的一类应用。如电商直播、赛事直播等场景,兼具高并发与低延时的特性,传统直播3-20s 的时延难以满足其需求,但对实时互动的要求又不及视频会议等典型的实时音视频应用,无需将时延降低至400ms以下。 为此,超低延时直播融合了传统直播与实时音视频的技术架构,通过取长补短的方式实现了介于二者之间的端到端时延。 尽管针对超低延时直播厂商尚无一套标准的技术路径,但大体可以归纳为拉流协议、网络架构和推流协议三个方面的改造, 在实际应用过程中,厂商会平衡成本及性能指标等因素,在不同的协议和网络架构之间进行选择。

中国实时音视频行业应用概览

实时音视频商用实践从消费互联网向产业互联网逐渐渗透

以泛娱乐、在线教育为代表的消费互联网场景,具备实时音视频发展的良好应用基础和价值前景,是实时音视频商用实践 的主力领域。伴随产业数字化转型的加速,协同办公作为全行业的通用型解决方案,已经成为后疫情时代企业的必备能力; 实时音视频在金融、医疗等传统行业重点场景的应用效能也在逐渐扩大。虽然IoT行业众多场景的实时音视频应用基础尚 未成熟,但是其在工业巡检、自动驾驶等领域具备广阔发展前景,是实时音视频行业的未来发展方向。

社交娱乐实时音视频需求及实践

实时音视频激活互动新玩法,多场景联动释放业务增长空间 公众社交娱乐需求的不断释放与满足,使行业内存量用户的竞争加剧,获客留客的成本攀升。产品同质化趋势下,互动体 验升级与新潮互动模式挖掘的重要性愈加凸显。实时音视频技术与社交娱乐场景具有天然契合度,不仅可以直接提升现有 产品的基础属性,还可以融合空间音频、VR、AR等技术,给予用户沉浸式的实时互动体验。此外,实时音视频技术还使 得在线合唱、一起看直播等强实时场景成为可能,并有助于直播、社交、游戏类场景间的融合。融合过程中激发出的互动 新玩法,有助于拉升用户活跃、留存、使用时长等业务数据,并拓展产品的付费场景,提升产品的营收能力。

社交娱乐场景应用案例:某音乐元宇宙平台

在线K歌一体化方案,开启身临其境的实时互动合唱体验 伴随着疫情常态化激增的线上音乐需求,以及元宇宙社交概念的迅速升温,某大型音乐元宇宙平台联合声网共同打造多人 虚拟线上音乐活动平台。依托声网实时音视频服务及MetaKTV 元K歌一体化解决方案,用户可以在该平台轻松创建精美 3D空间并打造虚拟形象,随时随地与世界各地的朋友一起实时互动、实时High唱;沉浸式空间音频、专业音质音效、多 元模块化组件等强大功能可真实还原线下K歌场景,为用户带来身临其境的K歌体验。

教育行业实时音视频需求及实践

强调师生的实时互动,叠加丰富的教学工具提升教学质量 教育行业分为校外培训和校内的教育信息化两个部分,其中校外培训受到“双减”政策的影响,各机构纷纷转向素质教育、 成人教育、职业培训等细分赛道,教育信息化迎来政策和需求的双重利好,利用以音视频为核心的手段促进教育公平、提 升教学质量已是大势所趋。于教育行业而言,实时音视频的应用涉及1v1、小班课、互动大班课、双师课堂等多种场景, 不同场景在延时、并发上的需求各异,厂商应针对具体的场景需求提供不同的解决方案以实现清晰流畅的音视频体验。此 外,教育行业对白板互动、在线问答、课件演示等互动工具存在刚需,厂商需提供丰富的功能以帮助提升教学质量。

协同办公实时音视频需求及实践

以视频会议为核心向协同办公延伸,解决远程异地办公需求 实时音视频在协同办公场景中的应用主要体现在视频会议上。新冠疫情的出现推动了云视频会议在各行业领域的渗透,现 如今,云视频会议已经成为混合办公模式下的重要抓手。不同会议场景下的环境空间、硬件设施、参会人员存在差异,可 能出现的音画问题也各不相同,如小会议室内同时开麦会造成啸声严重,大会议室距离入会设备较远的人声难以听清,容 易出现混响。厂商需能针对不同场景提供高清流畅的音视频会议体验,同时满足PC、智能手机、会议平板等多种终端的 接入需要。在此基础上,可叠加包括会前准备、会中协作、会后管理在内的产品能力,辅助企业进行远程异地的协同办公。

金融行业实时音视频需求及实践

联动线上线下优势能力,实时音视频突破金融服务物理边界 新冠疫情加速了金融行业的“离柜化”,线下网点的经营成本愈显沉重;虽然,线上互联网模式更具备便捷性与盈利性, 但在客情管理、业务支撑方面的能力有限。因此,金融机构亟需一个能够融合线上、线下服务优势的新渠道。依托实时音 视频技术打造的远程服务场景,打破了金融服务的时空边界,可有效支撑网点业务的线上化;同时,坐席专业团队的业务 引导、交叉营销、客情管理等服务,可给予客户有温度的数字服务体验。通过灵活调节远程坐席与线上、线下渠道的连接 布放,可以较大程度提升金融机构的运转效能。

医疗行业实时音视频需求及实践

推动医疗服务下沉与资源分级协作,针对性解决就医难题 优质医疗资源分布不均、基层医疗资源利用不充分、问诊流程冗长复杂,始终是患者“看病难、看病烦”的根源问题。同 时,由于专业属性较强、合规要求严格,医疗行业的协作壁垒较高,医疗体系内部也长期存在资源互动困难、远程协作低 效等难题。实时音视频作为医疗行业数字化转型的重要能力,可以为慢性病、常见病和部分专病患者提供诊前咨询、诊中 判断、诊后回访的全流程医疗服务,免去线下就医的诸多困扰。同时,实时音视频技术在远程会诊、远程协诊、远程影像 方面的应用,不仅可以促进更加高效的医医协作模式,还可以推动医联体内医疗资源的分级协同与广泛下沉。

标准化工作推动市场良性竞争

量化实时音视频服务质量,赛道准入门槛不断提升 实时音视频领域一直以来处于行业标准缺失的状态中,对于服务质量和用户体验是否达标、不同类型的产品或场景能够接 受的数据指标等都没有统一的评判标准,在一定程度上阻碍了行业的健康发展。2022年5月,中国信通院启动了“音视频 +”系列规范标准的编制工作,实时音视频作为其中的重要组成部分,针对其基础能力的相关标准已经初步成型。标准化 工作的推进将引导实时音视频行业迈向更高的服务质量,亦会推动PaaS层厂商与垂直行业解决方案商之间的协作共赢。

以实时互动为基点向元宇宙进阶

连通虚拟与现实世界,沉浸式交互拓宽实时音视频想象空间 当前实时音视频在泛娱乐场景中的渗透正逐渐趋于饱和,随着音视频基础设施属性的显现,实时音视频也开始凭借“实时” 的标签向更广泛的实时互动领域拓展,延伸其场景边界。音视频技术、传输技术的发展演进让实时音视频在实时性、沉浸 式方面的表现不断提升,实时互动的价值将超越了最基本的交流通讯,通过叠加VR、AR及各类交互技术,成为连通虚拟 世界与现实世界的桥梁。未来,实时音视频将以实时互动的能力为基点,深入到虚拟主播、虚拟会议等元宇宙应用中。

探索实时音视频出海新机遇

从泛娱乐赛道切入,实时音视频底层技术与互动模式大有可为 我国泛娱乐赛道发展水平较高,且出海企业的变现能力始终强劲。以此为切入点,并根据当地的监管要求、文化背景、消 费偏好等因素,对产品进行针对性地“本土化”打磨,不仅可以将我国优质的实时音视频技术与商业模式输出海外,持续 领跑新兴市场;还可以帮助中国出海企业找准差异化定位,在竞争激烈的成熟市场另辟蹊径。同时,以泛娱乐赛道为起点, 也顺应了实时音视频业务从消费互联网端渗透的客观规律。随着产业生态的逐渐建立,我国出海企业也有望借助实时音视 频技术,在更多赛道取得突破。

作者:北京音视频APP开发


COPYRIGHT © 2016-2026 爱炎(北京)科技有限公司 版权所有  京ICP备17034934号  客服热线:15810745364