【研报】传统电视地面频道全流程AI制作案例

作者：崔在柱，韩国教育广播公社（EBS）AI Plus团队负责人来源：《媒体问题与趋势》2025年第70期

影视媒体从前期策划到后期发行各阶段中AI技术的应用现状，AI在剧本生成、自动剪辑、虚拟拍摄、特效合成、字幕翻译、音乐生成、精准营销等方面已逐步渗透，显著提升了影视制作的效率与创意水平。未来随着AI技术的进一步发展，其在影视产业中的应用将更加广泛和深入。

节目性质：AI短剧剧场

团队数量：4个

团队人数：1人

人员来源：导演、摄像、技术、业务策划等不同岗位各选拔1名成员

节目正式上线时间：2025年6月

节目期数：截至2025年12月26日，已出10期

节目时长：2分59秒

播出方式：教育台1号地面频道，提供官网、油管免费点播

节目主题：儿童教育动画《四位动物朋友探索世界文化遗产与历史的故事》、心理纪录片《潜意识如何影响日常判断》、成长奇幻剧《穿越时空的历史人物对话》、科幻法庭剧《类人AI因文化价值观差异被送上法庭》等

核心挑战：角色一致性保持和幻觉（Hallucination）预防

合规性保障：版权管理、内容审核流程与专家咨询相结合的综合措施

优点：显著提升制作效率，极大地拓展了创作的可能性

核心AI工具链：

策划/剧本/故事板---ChatGPT

图像生成---Midjourney

视频生成---Kling

音频/旁白/配乐---Suno, ElevenLabs

硬件与软件环境：

硬件---配备RTX 4090或更高性能GPU的工作站。

剪辑软件---Adobe Premiere Pro（企业版）。

视频增强---Topaz AI Upscaling（用于将720p素材提升至高清）。

订阅策略：

由于制作需求量大，例如，制作5分钟内容需至少60张高质量图像，而每张图像可能需200-300次生成才能选出，选择订阅各AI服务的最高级年度套餐，以获得更快的生成速度和关键的编辑功能（如Midjourney的图像内编辑、镜头移动等）。

正式阶段制作周期：1个月

核心问题阶段方案：

1. 角色一致性（Character Consistency）

这是AI图像生成中最耗时的环节。

初期：使用Flux Kontext AI等工具对主要角色面部进行重新合成。

当前：充分利用Midjourney等平台提供的图像参考、角色参考、风格参考等功能，大幅缩短了制作时间。

2. 版权问题（Copyright）

为确保播出内容合法合规，EBS采取了多重措施：

素材来源：优先使用自产素材，或从版权方购买授权。

专业咨询：聘请版权律师进行内部培训和个案咨询。

政策遵循：参照AI版权相关新闻稿及《AI伦理制作指南》。

透明标注：在播出的《AI短剧剧场》中明确标注“AI制作内容”。

3. 内容错误与幻觉（Hallucination）

AI模型可能因训练数据偏见而产生虚假但看似真实的“幻觉”信息，这在事实性内容制作中尤为危险。EBS建立了严格的交叉验证机制，包括：

事实核查：对AI生成的信息进行多方验证。

出处复核：确认信息来源的可靠性。

专家咨询：邀请相关领域教授进行内容审阅。

内部审议：通过标准的广播内容审查流程。

展望：角色一致性问题业已解决，创作者将更多精力倾注于创意与策划本身，为未来在科学实验、纪录片、历史人物再现等更为广泛的教育内容领域应用人工智能技术奠定了坚实基础。

图1：第9期成长奇幻剧《穿越时空的历史人物对话》第6秒截图

表1：影视媒体工作流程中AI 应用现状

阶段	案例
1. 前期制作	① 策划（Planning）概述：借助数据分析，达成创意生成的可行性，并对叙事结构展开剖析与转换。案例：运用创意人工智能（Creative AI）和语音人工智能（Voice AI）技术，对现有的电影剧本予以分析，以辅助创作全新的故事概念。 ② 开发（Development）概述：运用自然语言处理（NLP）技术自动生成脚本。案例：利用“可量化的人工智能”（Calamity AI）对现有剧本进行分析，从中提取并生成新的剧情框架。 ③ 事前准备（Preparation）概述：管理人工智能项目及其相关流程。案例：采用“剧本书”（ScriptBook）和“剧本地图”（Script Map）工具，对场景、角色、模型、关键镜头等进行分析，以辅助选角和拍摄安排。
2. 制作	1.拍摄（Shooting）概述：将机器人技术与人工智能相结合，构建全自动拍摄系统。案例：《重力》（Gravity）、《神奇女侠》（Wonder Woman 1984）、《盗梦空间》（Inception）等影片运用虚拟摄影技术开展拍摄工作。 2.长镜头/特效（Long Shot / VFX）概述：借助深度学习技术实施自动剪辑，并提供优化建议。案例：在电影《摩根》（Morgan）里，运用AI模型对长镜头进行自动剪辑，以增强视觉表现效果。 3.背景音乐（Background Music）概述：依据AI生成的音乐模板，自动创作背景音乐。案例：通过剖析电影情节和情绪波动，自动生成契合场景氛围的配乐。
3. 后期制作	① 特效合成（Visual Effects & Compositing）概述：借助人工智能技术生成具有高逼真度的数字角色及虚拟环境。案例：在电影《复仇者联盟》（The Avengers）里，人工智能技术被运用于塑造“托尼·斯塔克”的虚拟形象，以此实现更高效的后期合成工作。 ② 字幕（Subtitles）概述：运用自然语言处理（NLP）技术自动开展字幕翻译与生成工作。案例：运用“元宇宙 AI”（Metaverse AI）和“媒体猫”（MediaCAT）等工具，达成多语言字幕的自动翻译与生成。
4. 发行与推广	① 宣传/营销（Promotion / Marketing）概述：为提升发行效率与观众参与度，借助人工智能开展精准的内容推荐与广告投放。案例：在《莫林视频》（Merlin Video）项目中，运用人工智能分析用户行为，推送具有个性化的宣传内容。 ② 中间件/平台（Middleware / Platform）概述：为创作者使用人工智能工具进行内容创作与编辑提供支持。案例：迪士尼（Disney+）运用人工智能技术对内容实施自动化分类、标签化及推荐，以提升用户体验。

表2：影像媒体人工智能学习数据建设现状

区分	案例
1. 图像识别	Open Image Dataset: 研究目标: 从20,000个类别中提取对象，并将图像分割成21个部分。使用方法: 用于学习物体检测、场景理解等任务；可作为训练数据集或基准测试。 COCO (Common Objects in Context): 研究目标: 包含超过33万张图片，每张图片包含多个对象标注和边界框。使用方法: 用于目标检测、实例分割、关键点检测等任务；是计算机视觉领域的标准基准之一。 MNIST: 研究目标: 包含6万个手写数字图像（0-9），每个数字有784个像素点。使用方法: 用于数字识别、分类模型训练和评估；是机器学习入门的经典数据集。 CIFAR-10 / CIFAR-100: 研究目标: 包含6万张32x32彩色图像，CIFAR-10分为10类，CIFAR-100分为100类。使用方法: 用于图像分类任务；常用于深度学习模型的训练和验证。 TACO (Trash Annotations in Context): 研究目标: 包含超过40,000张图片，标注了垃圾物品及其属性。使用方法: 用于垃圾识别、分类和属性预测等任务；有助于环境感知和智能垃圾分类系统开发。 DeepFashion: 研究目标: 包含超过80万张时尚服装图片，包含服装属性标注。使用方法: 用于服装识别、属性预测、图像检索等任务；在电子商务和个性化推荐中应用广泛。 BraTS (Brain Tumor Segmentation): 研究目标: 包含脑肿瘤患者的MRI扫描图像，标注了肿瘤区域。使用方法: 用于医学图像分析、脑肿瘤分割和诊断辅助；是医学影像AI的重要数据集。 Casual Conversations: 研究目标: 包含日常对话场景的视频和音频，标注了说话人、情感等信息。使用方法: 用于自然语言处理、情感分析、语音识别等任务；可用于开发更自然的人机交互系统。 AIDA (Annotated Images from the German Bundesliga): 研究目标: 包含德国足球甲级联赛的图像，标注了球员、球、场地等元素。使用方法: 用于体育赛事分析、球员追踪、事件检测等任务；适用于体育AI应用。
2. 动作识别	Kinetics: 研究目标: 包含超过40万个视频片段，涵盖400多种人类动作。使用方法: 用于动作识别、行为分析等任务；是大规模动作识别研究的重要资源。 MPI Human Pose: 研究目标: 包含人体姿态的关键点标注。使用方法: 用于人体姿态估计、动作捕捉等任务；支持虚拟现实、增强现实等应用。
3.空间识别	KITTI (物体检测)- 从行驶中的车辆上安装的传感器（如摄像头、激光雷达）收集数据。 - 数据通过这些车载传感器进行采集和构建。- 用于自动驾驶研究。 - 用于3D物体检测。 - 用于光流估计等计算机视觉任务。 Kinectics- 由DeepMind构建的动作识别学习数据集。 - 包含700个类别，共65万个图像。 - 数据包含视频时间戳-标签（Video Time stamp-Label）的信息，并以CSV格式存储标签。- 用于训练和评估动作识别模型。 - 用于动作检测和分类任务。 MPII Human Pose- 由Andriuka等人出于学术目的构建的关节点标注数据集。 - 包含410种动作，来自4万名参与者的动作数据，共25,000张图像。 - 数据以“图像-标签”（image-label）的形式组织。- 可应用于人体姿态估计领域。 - 可用于精细的姿势校正、行为识别、异常行为监测、安全预警系统以及增强现实等场景。
4.文本识别	SQUAD: 研究目标: 包含超过10万个问答对，基于维基百科文章。使用方法: 用于机器阅读理解、问答系统等任务；是自然语言处理领域的重要基准。 GLUE (General Language Understanding Evaluation): 研究目标: 包含多个自然语言理解任务，如句子相似度、文本蕴含等。使用方法: 用于综合评估语言模型的性能；是衡量NLP模型能力的标准之一。 MS MARCO (Microsoft MAchine Reading COmprehension): 研究目标: 包含来自Bing搜索日志的真实查询和文档。使用方法: 用于机器阅读理解、信息检索等任务；旨在解决真实世界中的问答问题。 OperSubtitl es: 研究目标: 包含歌剧的字幕和音频。使用方法: 用于语音识别、语音合成、多模态学习等任务；可用于音乐和表演艺术的AI研究。
5. 语音识别	LJSpeech: 研究目标: 包含一位女性朗读的13,100个英文句子。使用方法: 用于语音识别、语音合成等任务；是语音AI研究的常用数据集。数据集名称: UrbanSound 8K 描述: 该数据集包含城市环境中常见的8种声音（如汽车鸣笛、狗吠、婴儿哭声等），共8,732个音频文件。用途: 用于声音分类、环境声音识别等任务；可用于开发智能音箱、安防系统等。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

ZBlogIt

Nice to meet you, too!

【研报】传统电视地面频道全流程AI制作案例

wang 发表于2026-02-03 02:12:10 浏览2 评论0

少长咸集