一时间,文生视频成为最火爆话题。国内相关上市公司如何看待Sora这一“爆炸性”产品?
记者就此采访了多家上市公司,其中不乏行业头部玩家。不少公司火速回应,在文生视频等跨模态领域已有布局,正处于研发状态。亦有上市公司火速升级大模型,以支持商业视频自动生成。
不过当前在文生视频方面,国内AI模型文生视频与Sora所生成的视频差距较为明显。但有业内人士认为,国内外厂商在文生视频的差距并不像大模型领域差距那么大,而Sora的发布会进一步加速国内厂商在该领域的投入。
商用“曙光”闪现
2月16日,全球人工智能模型领跑者OpenAI推出了一款能根据文字指令即时生成短视频的模型,命名为Sora。
Sora能够从文本说明中生成长达60秒的视频,并能够提供具有多个角色,特定类型的动作和详细的背景细节的场景。Sora还能在一个生成的视频中创建多个镜头,体现人物和视觉风格。此外,Sora可以一次性生成整个视频,也可以扩展生成的视频,使其更长。
在业内看来,虽然目前Sora存在一定的局限性,诸如无法准确模拟常见的物理运动过程,视频互动中无法正确显示物体状态的变化、长时间样本发展的不连贯性或物体突然出现等等。
但其所呈现的效果,所支持的视频参数等基础条件已具备商用化技术基础,AI视频商用将不再遥远,有望在影视、广告、短视频等多个领域实现应用。
银河证券认为,在C端,通过AI视频生成,此类AI视频应用有望通过其生成的内容来构建自有用户流量池,完成后续的流量变现在B端。
该机构认为,AI视频可以大幅度降低视频的制作成本,对广告营销、影视、游戏等都有可观的降本增效作用,相关内容的供给端有望实现飞跃式的发展。这也令市场看到了商用“曙光”。
基于商用预期,A股AIGC概念股在龙年的首个交易日集体暴涨。包括当虹科技、万兴科技、因赛集团、易点天下等业务涉及文生视频的上市公司20CM涨停,而包括昆仑万维、拓尔思、首都在线之内的AI概念股也涨逾15%。
那么,国内文生视频玩家当前处于什么阶段?其产品与Sora究竟有多大差距?这是众多投资者所关心的问题。
昆仑万维董事长兼CEO方汉表示,Sora具有三维空间的连贯性、模拟数字世界、长期连续性和物体持久性、与世界互动的技术特点,是文生视频领域特别大的进步和突破,领先国内同行半年左右,对影视、视频、广告等行业有很大的冲击。
但在他看来,国内厂商和国外厂商在文生视频的差距,不像大模型领域的差距那么大,Sora的发布会进一步加速国内厂商在该领域的投入。
不过,以国内某通用大模型为例,记者实际体验发现,该模型文生视频功能仍难言出色,产出视频基本仍由动图组成。而且,与Sora视频所展现的鲜活人物相比,国内大模型仍呈现数字人形象。
严格而言,该大模型所生成的内容难以称之为视频,其与Sora所呈现的惊艳效果有着明显差距。
国内玩家进展如何?
尽管差距犹存,Sora身后却不乏众多追随者。记者采访发现,在文生视频方面,国内一众玩家早已布局。此时此景,不禁令人联想到2023年初的人工智能热潮。
一位接近科大讯飞人士向记者透露,科大讯飞目前内部已经开始文生视频进一步攻关研发。而且该人士透露,此前的讯飞星火大模型已经拥有相对基础的文生视频功能。
就在1月底,星火认知大模型刚完成了V3.5的升级。基于首个全国产算力训练的讯飞星火V3.5,七大核心能力全面提升,其中数学、语言理解、语音交互能力超GPT-4 Turbo。
而就在2月19日,虹软科技官微宣布,其核心大模型技术引擎——虹软ArcMuse再次升级。而此次升级将支持面向商拍的商业视频自动生成。
据介绍,与Open AI Sora类似,虹软ArcMuse大模型视频生成基于diffusion-transformer技术架构,具备丰富多样的创意力和想象力。通过图像,ArcMuse大模型能够捕捉到商品的细节特征、质感、色彩等方面的精确信息,生成更能展示商品真实面貌的动态商拍视频。
该公司方面表示,其文生视频技术已取得一定进展,在生成视频时长和效果方面,还在逐渐突破。
另外,记者以投资者身份致电因赛集团。该公司方面表示,其AIGC项目团队按照计划,将在三月进行文生视频功能的开发,等待时机成熟后投入公测。
事实上,因赛集团此前在与机构交流时透露,其InsightGPT内测版已开放视频智能剪辑功能试用体验。该公司预计2024年2月底前,开放体验图生视频相关营销应用产品;预计2024年3月底前,开发实现文生视频功能;之后在今年二季度推出公测版正式启动商业化。
公司表示,目前正在进行几家汽车、大消费、大健康等行业知名品牌方相关AIGC营销项目的比稿及应标,同时也在加强行业研究和竞对调研工作,商业化进程正在加速。不过,该公司同时表示,“由于文生视频技术由于刚刚推出,对行业会带来怎样变化暂未可知,对公司业务会产生多大影响目前也无法量化。”
此外,云从科技方面也表示,该公司在视觉方面积累较为深厚。目前,其从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模,通过文本和音频实现对图像和视频内容进行生成、控制、编辑。
该公司透露,其在文生图像、视频等跨模态领域积极布局,包括发布数字人能力平台,生成AI视频。同时,该公司也与中国电信合作AI营销海报生成等。
而首都在线则在互动平台上公开回应称,公司联合武智院共同上线 “照片说话”应用,用户可以通过简短的文本描述或录音文件,“让照片开口说话”。
据悉,该应用依托公司高性能异构智算平台的全栈智能算力服务能力,结合武智院“紫东太初”2.0全模态大模型的经验与技术,可以令用户体验到个性化AI创作的魅力。
总体来看,Sora在文生视频上的进一步突破,将会催化整个人工智能赛道。在业内看来,国内文生视频接下来有望迎来百花齐放,多模态大模型技术迭代也有望进一步加速。