在NAB 2024年:视频, Telestream, Phenix, Ateme, V-Nova, Twelve Labs, Norsk, Dolby, and NETINT

Any NAB report 就像盲人和大象的故事:你所经历的就是你所触摸的, representing a fraction of the whole and perhaps not even a good sample. 话虽如此，这是我在节目中触摸到的东西. Many of these experiences are accompanied by video that I shot of the interviews.

Videon LiveEdge节点和Max

我参加展览的第一站是 Videon booth to see the LiveEdge Node and Max (Figure 1)，由首席产品官证明 Lionel Bringuier.

Videon LiveEdge Max

Figure 1. Videon’s LiveEdge Max delivers more than twice the performance of node, 提供信心监控, and like Node, 接受Docker容器.

Briefly, Node and Max are compact edge live encoders with the specs shown in Table 1. Node是现有的产品，而Max是新产品，容量增加了一倍多，还增加了机载信心监视器.

Feature	LiveEdge Node	LiveEdge Max
Inputs	1 × 3G-SDI或HDMI	Single or dual 12G-SDI 4Kp60 inputs (w/ 16 channel audio) or HDMI
Outputs	4Kp30/1080p60	Dual 4Kp60
Codecs	H.264/HEVC	H.264/HEVC
Resolution	最高可达4K P30，常用为1080 p60	高达双4K PS 60
Power	以太网供电(PoE)	以太网供电(PoE+)
信心监测	不在设备上，可以在云端使用	是的，无论是在设备的前面板上还是在云端上
Cloud Management	通过云进行设备和车队管理的API	通过云进行设备和车队管理的API
附加功能	对第三方应用程序的Docker容器支持	增强的处理能力，Docker容器支持

LiveEdge产品包括一个用于单个设备管理的API和一个用于远程监控设备群的云API. 这种双API系统对于涉及多个位置的多个设备的操作特别有用, 比如体育馆或活动场地. 车队管理通过云平台实现, which does not process media but offers tools for remote device supervision and control, enhancing efficiency and reducing the need for on-site management.

There are many live transcoders for event shooters, and most have cloud platforms. What distinguishes LiveEdge devices is their support for Docker containers, which allows them to integrate third-party applications directly into the hardware. Videon has a marketplace 对于此类应用程序，其中包括 DRM from EZDRM, 来自Synamedia的水印, 《百家乐软件》纠错, and 从V-Nova的LCEVC编码. 这允许用户自定义设备功能，以满足特定需求，并通过允许直接在设备上处理简化工作流程.

Telestream优势:人工智能驱动的工作流创建

我的下一站是 Telestream booth for a quick demo of the AI-generated workflows in Telestream's Vantage工作流设计器 by John Maniccia销售、工程和支持总监. As you may know, Vantage是工作流驱动的, 因此，用户可以轻松地创建不同的工作流，并根据文件特征创建分支以交付不同的结果. For example, Vantage可以检测文件是1080p还是4K，并根据判断将其分配到不同的编码阶梯.

在过去，您通过拖放来构建工作流，完成的工作流将显示在 Figure 2. 什么是新的是在英语中键入所需的结果，并有Vantage为您建立工作流程的能力. 在图2的右上方，您可以看到生成主面板中显示的工作流的文本.

Figure 2. Vantage将从简单的英语命令构建工作流. (点击图片查看完整尺寸.)

Given what we've all learned about generative AI over the last 18 months, 这与其说是革命，不如说是进化, 但是，当您不必成为压缩专家就可以创建转码工作流时，它使我们更接近了一步. Good for management bad for compression experts, but inevitable.

仍然有一些缺失的部分，比如你应该如何配置移动vs. the living room, or how to choose among various codecs and HDR and DRM technologies. Still, 这种水平的自动化操作几乎肯定会包括在Vantage或 AWS Elemental MediaConvert 一两年内. Telestream gives us a first glance at what that might look like.

凤凰:低延迟和环环项圈

我最后一次听到 Phenix实时解决方案是否需要参与电子邮件宣传 low-latency trials performed while viewing the 2024 Super Bowl. 我拒绝了，但当我遇到 Phenix COO Kyle Bank 在展览上，我忍不住问了一下结果. As shown in Figure 3, 潜伏期数据令人震惊, with Paramount + delivering the lowest latency while still 43 seconds behind real time. 报告还发现，这种漂移, 或观众体验到的延迟范围, went from a low of 28 seconds to an astonishing high of 134 seconds. 需要明确的是，这意味着观看同一服务的观众之间的间隔长达134秒.

2024年凤凰城超级碗

Figure 3. Average lab behind real-time for streaming services at Super Bowl 2024

Interestingly, Kyle mentioned that the 2024 latency results were actually worse than 2023因此，看起来已识别的服务或其客户并不太关心延迟. 这引发了关于低延迟是否是最佳选择的讨论衣领上的戒指流媒体世界, 这是一个编造出来的问题，用来推销那些似乎没有一个主要服务机构认为是必要的解决方案. 如果你的邻居不会在比赛开始前两分钟为你欢呼，或者在你的智能电视上播放插播，这一点就更重要了.

Kyle politely explained that while Boomers may watch an event via a single screen, 大多数年轻一代都在关注社交媒体. So even if you don't share a wall with a sports fan with a faster service, X上的帖子可以起到类似的剧透作用.

这引发了一场关于赤字的讨论 WebRTC-based services that limited their attractiveness for traditional broadcasts. 凯尔说凤凰有集成服务器端AD插入并支持自适应比特率 WebRTC-based平台，解决了两个主要缺点. Kyle also mentioned that Phenix has served audiences as large as 500,000 viewers and can serve at least 1 million at latencies under .5 seconds.

That said, like most low-latency platforms, Phenix primarily serves the 体育博彩及博彩业, webinar platforms, 社交媒体应用程序整合了直播内容和有影响力的人，以提高用户参与度. Still, 很高兴看到phoenix——以及类似的服务——正在推进他们的低延迟技术，为更广泛的观众提供服务.

V-Nova PresenZ

我在演出期间的第一站是 Ateme 摊位，在那里我看到了一个示范 MV-HEVC, an extension of HEVC designed for encoding Multiview video content like 3D video. Specifically, MV-HEVC allows for efficient coding of multiple simultaneous camera views, 使用层间预测通过利用视图之间的冗余来改进压缩.

在atme展台上，我看到了MV-HEVC的演示 Apple Vision Pro它令人印象深刻，视频质量非常好. In the headset, the video image hovered a few feet away from me. 当我向左和向右转, 视频在180度后被切断, and reached an edge when I looked too high or too low (see Figure 4 on the left).

这是因为MV-HEVC是一种主要为多视点视频内容编码而设计的编码技术, 这通常用于立体3D应用，其中同一场景的不同角度呈现给每只眼睛，以创造一种深度感. 苹果的iPhone 15 Pro和Pro Max可以制作视频 MV-HEVC encoding by recording two 1080p videos simultaneously using two different lenses，然后将它们合并到一个文件中.

The video appears to have depth because of the two different source files, 在Apple Vision Pro上可以实现180度的扩展, 但它并不是完全沉浸式的，因为它没有真正的深度. 这给我们带来了电影观看中所谓的三自由度和六自由度的区别，如图所示 Figure 4. 前者允许我左右移动我的头, and up and down, 这是我在阿特米展位看到的. 我要在V-Nova展台上看到的是 PresenZ format, which delivers 6 degrees of freedom that puts me inside the video.

V-Nova PresenZ

Figure 4. The difference between 3 degrees of freedom (MV-HEVC) on the left, 右侧为6个自由度(PresenZ). From here).

Specifically, 在V-Nova的展台上，我戴上了Meta Quest3耳机，发现体验与Ateme演示截然不同. 在我看过的机器人打斗场景中, I flinched when debris flew towards my head and the combatants tumbled around me. 如果我走进房间两步, I could see around a corner and view what previously was hidden by a wall. 我可以在不超出视频范围的情况下旋转360度，尽可能地上下旋转, 虽然质量有点软, 比如720p视频缩放到1080p. 对于压缩极客来说很明显，但不会分散注意力.

V-Nova's Tristan Salomé 对这些技术进行了详细的说明. 他强调，虽然苹果视觉Pro通过跟踪观众的眼球运动创造了无可挑剔的立体视图, 我在设备上体验到的VR技术不支持改变观看者相对于内容的视角——类似于在标准3D电视上观看. In contrast, PresenZ reacts when a viewer moves their head in any direction (up, down, forward, backward, or side to side), 通过更密切地模仿现实生活中的互动，丰富虚拟环境中的沉浸感和存在感.

为PresenZ制作电影包括使用计算机生成图像(CGI)或在主题周围放置多台摄像机捕捉场景. 这些方法有助于创建用户可以在VR设置中与之交互的场景的体积或3D写照. 特里斯坦指出，在创造这些沉浸式体验的过程中，管理大量数据需要大量的计算需求和复杂的编码. 这就是为什么V-Nova acquired PresenZ技术，将其与他们的编解码器LCEVC结合起来.

很难看出像PresenZ这样的技术是如何扩展的，尽管这是所有AR/VR的一个问题. 也不确定是否大多数观众, 谁一直喜欢坐在静态座椅或躺椅上看电影, 会发现更具沉浸感的体验更有吸引力吗. Still, of everything I saw at NAB, PresenZ was the most striking.

请注意，有一个即将推出的标准叫做 MPEG-I (对于沉浸式)，它将支持完整的六个自由度. 在那之前, PresenZ可能是最好的选择, and yes, 它与Apple Vision Pro兼容.

十二个实验室:自动深度元数据提取

对许多出版商来说, metadata is the key to unlocking the value of archived content, 但是手动创建元数据的成本很高, time-consuming, 最终是不完整的. 但是，如果有一种方法可以自动生成大量的元数据，使您能够使用大量的提示来查找和检索镜头，那会怎么样呢?

That's what Twelve Labs has done. 我和行动主管谈过了， Anthony Giuliani. 他解释说，该公司的技术采用了先进的多模态视频理解模型，可以在不依赖传统元数据(Figure 5).

Twelve Labs

Figure 5. Twelve Labs的人工智能像人类一样理解视频.

Instead, 该系统创建视频嵌入, 类似于大型语言模型中的文本嵌入, 哪些可以促进与视频内容的动态交互. 这项技术允许用户搜索, classify, 并有效地利用视频数据执行其他任务, 补充任何现有的元数据. 不像基于文本的元数据, 该技术利用视频中的各种模式, including sound, speech, OCR, 以及视觉元素, 丰富视频理解过程.

As an example, 朱利安尼让我想象一个场景，主人公必须在红色药丸和蓝色药丸之间做出选择. 如果你看过 The Matrix，你会瞬间闪现到 scene 让基努·里维斯做出选择. 朱利安尼解释说，这表明人类的大脑可以立即回忆起特定的电影时刻，而不需要筛选每一部看过的电影或依赖标记的元数据.

Twelve Labs' technology mimics this human-like recall by creating video embeddings, 允许与视频内容进行动态交互. 这使用户能够快速有效地从庞大的视频数据库中提取特定的场景, akin to how one might instantly remember and visualize the iconic Matrix scene.

Twelve Labs主要通过API提供这项技术, 使开发人员和企业能够将高级视频理解集成到他们的应用程序中. 定价模式是基于消费的, 按分钟收费的视频索引, with options for indexing on private or public clouds or on-premises. This flexible and scalable approach allows a wide range of users, 从拥有最多10个小时空闲时间的游乐场环境中的个人开发人员到大型企业, 这可能需要大量的, customized usage.

Currently, 该平台为不同的客户提供服务, 包括像NFL这样的大牌, who utilize the technology to enhance their video content management and retrieval, particularly for managing large archives and post-production processes. 这项技术的潜在应用是巨大的, 从媒体和娱乐到安全等领域, 这表明我们在如何与视频内容交互和理解视频内容方面取得了重大进展.

Norsk:无代码/低代码媒体工作流

接下来我和 Adrian Roe from id3as/Norsk他们介绍了他们的新产品， Norsk Studio, at NAB. Norsk工作室建立在 2023年5月，Norsk SDK在Streaming Media East发布, 提供允许用户拖动的图形界面, 将预构建的组件拖放并连接到发布工作流中，无需编码.

工作室配备了多个预构建输入, processes, and outputs, 从简单的十行脚本到更复杂的模块, 促进定制的媒体工作流程，可以适应任何项目的特定需求. Customers can build new reusable components using the Norsk SDK, 各种编程语言支持哪一种. Adrian解释说，大多数客户更喜欢TypeScript，因为它的表现力和熟练开发人员的可用性. Adrian还讨论了Norsk的部署方案, noting that both SDK and Studio-created programs can be run on-premises or in the cloud.

最后，艾德里安告诉我们诺斯克赢得了比赛 IABM BaM award 农产品类别(Figure 6), 它“庆祝那些带来真正商业和创造性利益的杰出技术创新?.”

杜比专业:Hybrik云媒体处理

Dolby Hybrik 云媒体处理设施是否长期以来一直优先考虑将质量控制构建到编码工作流程中. 在NAB，我和 David Trescot, Hybrik co-founder, 谁向我展示了多个与质量管理相关的创新, 其中一些是通过人工智能实现的.

一些最有用的添加与标题有关，这是大多数优质内容的主要内容. For example, 杜比增加了对话增强功能，将对话与背景音乐分开. 然后，对话可以被转录，如果视频没有字幕，Hybrik可以创建它们. Hybrik还可以将转录的字幕与软件包中的实际字幕进行比较，以验证它们是否属于该视频，是否使用正确的语言，并可以验证母版中的所有语言轨迹. 从纯音频混音的角度来看, 一旦对话和背景分开, 你可以将它们重新组合，使对话更加清晰.

Hybrik还为QA功能添加了一个有用的GUI，因此您可以在报告问题的位置直观地检查视频和收听音频(Figure 7). For example, 在时间线的左上角，你可以看到一个值得一看的块度指标的峰值, 以及右上方的黑色检测. For audio, 你可以看到底部中间有一个紧急警报信号，最右边有一个静音检测. Absent the GUI, you'd have to download and play the content in your player of choice, 这很麻烦. Now, you can drag the playhead directly to the problem and assess it.

Figure 7. Hybrik的QA新GUI. 单击该图像以查看其全分辨率.

Interestingly, 玩家背后的技术, 称为百家乐软件不可知群处理(RASP), 是否和玩家本身一样有趣. 原因如下:大多数云基础设施不能播放媒体文件, particularly files stored in high-quality mezzanine formats like ProRes.

So, 想象一下，如果您在云中有ProRes或类似格式的主控文件，并且必须执行一些QC功能或视觉检查. 您唯一的选择是下载文件或将文件转码为更友好的格式并进行检查, 但你仍然需要一个帧精确的播放器. 如果你对文件进行转码, 您可能需要对整个文件进行转码, 这很贵, 然后你可以存储转码文件, 这会增加你的每月成本，或者删除它，冒着为以后的任务重新创建它的风险.

RASP是一个云媒体操作系统，仅在特定操作需要时，通过将资产转换成小块来简化这些操作. In Figure 7, 在剪辑开始时对块区域进行采样, 操作员会把游戏头拖过来, click Play, and RASP would transcode the required video on the fly as needed. 这些操作对用户是透明的, 谁有与本地存储文件类似的体验. RASP是任何涉及存储在云中的媒体的应用程序的自然选择，杜比将以每分钟收费的方式提供RASP.

最后一站:NETINT

My last stop was at the NETINT booth to greet some former colleagues. 在那里我看到了公开亮相耳语转录集成到新的NETINT Bitstreams Edge媒体处理应用程序，运行在NETINT Quadra视频服务器安培版上. 该服务器由96核安培Altra CPU和10个NETINT Quadra转码器驱动，售价19美元,000.

There were lots of products and services delivering captions via Whisper at the show. 这台服务器的独特之处在于能够支持多达30个同时转码的实时通道，每个通道都有5个HLS或DASH打包配置文件，编码为H.264、HEVC和AV1.

NETINT自2019年以来一直在销售基于asic的转码器, but the Bitstreams Edge is the first homegrown server software. NETINT and Ampere 提出解决方案在展会的流媒体峰会上，该视频将于4月底发布. 说明文字显示在 Figure 8 were created live using the new solution during this presentation.

不要小声说字幕
Figure 8. NETINT demo'ing captioning with Bitstreams Edge/Whisper integration