研究人员对谷歌最新视频生成人工智能模型veo-3进行了测试,使用真实手术录像作为评估素材。结果显示,该模型虽能生成高度逼真的视觉内容,但在医学操作流程的理解上存在根本性缺失。
研究中,研究人员仅输入单张手术图像,要求Veo-3预测此后8秒内的手术进展。为系统评估其性能,一个国际研究团队构建了名为SurgVeo的专用评测基准,涵盖50段真实的腹腔与脑部手术视频。评估由四位经验丰富的外科医生独立完成,从视觉真实性、器械使用合理性、组织反馈表现、操作医学逻辑性四个维度对AI生成视频进行打分(满分5分)。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Veo-3生成的视频初看极具迷惑性,部分外科医生评价其画质“令人震惊地清晰”。然而深入分析后,其内容逻辑漏洞频出。在腹腔手术测试中,模型在第1秒的视觉合理性能达3.72分,但医学准确性相关指标则显著下滑:
- 器械操作:仅1.78分
- 组织反应:仅1.64分
- 最核心的手术逻辑性:低至1.61分
这表明,该模型虽可复现高保真影像表征,却无法还原真实手术室中必需的操作顺序、解剖约束与因果关联。
在神经外科这类对精度要求极高的场景中,Veo-3表现更为逊色。自第1秒起,即难以模拟神经外科所需的微米级操作精度。
- 器械使用得分降至2.77分(腹腔手术为3.36分)
- 8秒后的手术逻辑性评分更是跌至1.13分
研究团队进一步归类错误类型发现:超93%的错误源于医学逻辑层面。例如——凭空“创造”现实中不存在的手术器械、虚构违背生理规律的组织形变、执行临床毫无依据的操作步骤。而与图像质量相关的错误占比极低:腹腔手术仅6.2%,脑部手术更仅有2.8%。
标签: veo git github 人工智能 谷歌 ai 英伟达 ai视频 谷歌ai
还木有评论哦,快来抢沙发吧~