本文由 安卿辰博客 编辑整理发布,内容来源于互联网公开资料。如需转载或引用,请注明出处。
如果你经常需要给视频添加字幕,或者想把录音、课程、访谈内容快速转成文字,那么 faster-whisper-offline 是一个非常值得尝试的音频转字幕工具。完全免费开源!它是基于 Whisper 语音识别模型,最大的优势就是可以在本地离线运行,不需要把音频上传到第三方平台,隐私性更好,也更适合处理较大的音视频文件。

相比传统在线转字幕工具,faster-whisper-offline 不依赖网络环境,只要电脑配置足够,就可以直接完成语音识别和字幕生成。它支持常见的音频、视频格式,可以将语音内容识别成文本,并导出为常用的字幕文件,比如 SRT 格式,方便后期直接导入剪映、Premiere、Final Cut 等视频剪辑软件中使用。

对于中文内容创作者来说,它的实用性非常高。无论是 YouTube 视频、B站教程、课程录音,还是会议记录,都可以通过它快速生成字幕,大幅减少手动听写的时间。如果搭配较高性能的显卡,转写速度会更快;即使没有显卡,使用 CPU 也能完成基础识别任务。
总的来说,faster-whisper-offline 适合追求效率、隐私和本地化处理的用户。对于需要批量处理视频字幕、自媒体剪辑、课程整理的人来说,它是一款非常实用的离线音频转字幕解决方案。
安装包+模型获取
Faster-whisper-offline 一键安装包:【点击下载】或 【会员高速下载】
下载后直接解压打开即可,在根目录下双击打开start 批处理文件,就可以直接本地启动使用!

启动后在左上方选择适合你自己的模型,推荐选择V3模型,效果最佳

当然如果你的电脑硬件不是很强,或者你希望使用更方面的在线模式,那么目前Google AI Studio是最强的选择,每天都是免费的使用额度,正常使用已经足够,关键是音频转文字的准确率极高!因为它是云端的,所以任何电脑都可以使用
Google AI Studio
【链接直达】

模型选择:
推荐使用 Gemini 2.5 Pro ,这是我长期的使用经验,尤其是对中文语言的识别非常准确,明显优于其它模型,当然大家可以自己去测试。
音频转字幕提示词
1、Gemini 2.5 Pro 音频转字幕(高精准)提示词:
你现在是一个“两阶段字幕工作流助手”。
我刚刚上传了一个音频文件。你的任务是引导我完成一个“先确认,再格式化”的字幕处理流程。
**【工作流】**
**【阶段1:分析与确认】(请立即执行)**
1. **高精度转录:** 请你先理解我上传给你的音频文件的内容原意,并逐点列出该内容的摘要。
2. **提取疑问:** 分析稿件,提取所有你觉得不确定、容易出错的“专有名词”或“核心词汇”。
3. **提问与等待:** 向我展示以下两部分内容:
* 【A】该内容的摘要和关键点。
* 【B】你提取的“待确认词汇列表”,并向我提问。
**[重要指令]:**
在完成阶段1之前,绝对不要执行阶段2的格式化。你现在的唯一任务是提问并等待我的回复。
---
**【阶段2:格式化规则】(请你“记住”这套规则)**
**[任务]:** 当我确认了【A】和【B】,并向你提供了“最终确认稿”后,你必须立即转变为“短视频字幕格式化专家”,并严格按照以下所有规则处理该稿件:
1. **严格清洗口水词(关键规则):**
* **必须**删除所有无意义的“口水词”、“语气词”或“重复词”。你必须对这个规则保持**高度敏感**。
* **示例列表:** “呃”、“啊”、“那个”、“就是”、“然后”、“嗯”、“嘛”、“哼”、“哈”等。
* **特别注意 "呢":** 像“所以呢”或“这个呢”中的“呢”字,必须被清洗掉。
2. **标点与停顿规则(关键规则):**
* **只保留** “?”(问号) 和 “!”(感叹号)。
* **删除**所有其他的标点符号(包括但不限于 句号、逗号、顿号、冒号等)。
* **用“两个空格”替换停顿:** 在所有因“删除标点”或“删除口水词”而产生的**语义停顿处**,统一使用**两个空格**(2个英文半角空格)作为分隔。
* **【强制样本】:** 原始稿:“所以呢,这还要一个功能叫...” 清洗后应为:“所以 这还要一个功能叫...” (“所以”后面跟了两个空格)
3. **字幕格式规则(关键):**
* **单行限制:** 每一条字幕**严格限制为 1 行**。
* **字数限制:** 每一行(即每一条字幕)的文字**不超过 18 个汉字**。
4. **智能断句规则:**
* 基于“单行”和“18字”的限制,你必须将所有长句**智能地拆分**为多条独立的“单行字幕”。
* 断句必须在“自然”的语义停顿处,确保每一行单独拿出来看都不突兀。
5. **风格统一规则:**
* **数字与英文:** 统一所有数字为“阿拉伯数字”(例如:2024,50%);统一所有英文缩写和专有名词为“大写”(例如:AI, API, LLM, Gemini)。
* **人称统一:** 统一所有指代“非人类实体”(如AI、工具、模型)的“他”、“她”或“它”,全部改为使用“它”。
**[输出要求]:**
(当执行阶段2时)请不要添加任何解释或评论,直接输出最终格式化、清洗并(根据需要)分块完毕的字幕稿件,并去除空行。
生成的字幕非常准确,但是有一个缺点就是:它是不带时间线的,所以我们需要通过【剪映的免安装版】来对音频和时间线进行文稿匹配
1、剪映的免安装版 :【点击下载】、【备用下载】或【网盘下载】提取码: 8net
手机扫码下载:

2、字幕编辑器 Subtitle Edit 【官方下载】、【备用下载】

2、Gemini 2.5 Pro 直接生成带时间线的字幕稿,提示词如下:
你现在是一个“两阶段AI字幕工作流助手”。 我将上传一个音频文件,你的任务是引导我完成一个“先确认,再格式化”的字幕处理流程,最终目标是生成一份可以直接导入剪映、Premiere Pro、DaVinci Resolve 等剪辑软件的标准 SRT 字幕文件。 请严格按照以下两个阶段执行。 ==================== 【阶段1:分析与确认】 ==================== 请在我上传音频后立即执行阶段1。 你的任务包括: 1. 高精度转录与计时 在转录音频内容的同时,必须在后台记录每一句话的真实开始时间和结束时间。 时间戳必须精确到毫秒。 2. 内容摘要 理解音频文件的核心内容,并逐点列出摘要。 3. 提取待确认词汇 分析转录稿,提取所有不确定、容易听错、容易写错的词汇,包括但不限于: 专有名词 产品名 软件名 平台名 模型名 英文缩写 人名 地名 品牌名 技术词汇 容易误识别的中文词 4. 提问并等待确认 只向我展示以下两部分内容: 【A】内容摘要和关键点 【B】待确认词汇列表 重要要求: 在完成阶段1并得到我的确认之前,绝对不要进入阶段2。 阶段1不要输出完整 SRT。 阶段1不要输出完整逐字稿。 阶段1只需要提问并等待我的回复。 ==================== 【阶段2:格式化与生成SRT】 ==================== 只有当我明确确认阶段1内容,或向你提供“最终确认稿”后,你才可以进入阶段2。 进入阶段2后,你必须立即转变为“SRT字幕格式化专家”,根据阶段1记录的原始音频时间戳,结合我确认后的内容,生成标准 SRT 字幕。 ==================== 【阶段2清洗规则】 ==================== 1. 删除口水词和语气词 必须删除所有无意义的口水词、语气词、重复词。 包括但不限于: “呃” “啊” “那个” “就是” “然后” “嗯” “嘛” “哼” “哈” “额” “这个” “那个” “你知道吧” “对吧” “是不是” 注意: 如果这些词在句子中没有实际含义,必须删除。 如果删除后产生语义停顿,用两个英文半角空格代替。 2. 特别处理“呢” 像下面这些表达中的“呢”必须删除: “所以呢” “这个呢” “那么呢” “这里呢” “它呢” 示例: 原始稿: 所以呢,这还要一个功能叫 清洗后: 所以 这还要一个功能叫 3. 标点规则 只允许保留以下标点: ? ! 必须删除其他所有标点,包括但不限于: 。 , 、 : ; “ ” ‘ ’ ( ) 《 》 - —— …… 4. 停顿规则 因删除标点或删除口水词产生的自然语义停顿,必须统一使用两个英文半角空格表示。 示例: 原始稿: 所以呢,这还要一个功能叫 AI 搜索 清洗后: 所以 这还要一个功能叫 AI 搜索 5. 字幕行规则 每条字幕只能有一行文字。 每条字幕文字不超过18个汉字。 不能一条字幕分成两行。 不能在同一条字幕里出现换行。 6. 智能断句规则 如果一句话超过18个汉字,必须拆分为多条字幕。 拆分时必须根据自然语义停顿拆分。 每条字幕单独看也要尽量自然,不要生硬截断。 不能为了凑字数把固定词组拆开。 7. 数字和英文规则 所有数字统一为阿拉伯数字。 例如: 二零二六 改为 2026 百分之五十 改为 50% 所有英文缩写和专有名词统一为大写。 例如: ai 改为 AI api 改为 API llm 改为 LLM gemini 改为 GEMINI windows 改为 WINDOWS 8. 人称统一规则 所有指代非人类实体的“他”“她”“它”,统一改为“它”。 非人类实体包括但不限于: AI 工具 软件 模型 平台 网站 系统 插件 程序 ==================== 【SRT时间轴强制规则】 ==================== 这是最重要的规则,必须严格执行。 1. 每个时间戳必须严格使用以下格式: HH:MM:SS,mmm 其中: HH = 2位小时 MM = 2位分钟 SS = 2位秒 mmm = 3位毫秒 正确示例: 00:00:01,580 00:00:03,880 00:01:05,480 01:02:03,456 错误示例: 00:01:580 00:03,880 00:05,480 0:00:03,880 00:00:03.880 00:00:03:880 [00:00:03,880] 2. 时间轴必须严格使用以下格式: 开始时间 --> 结束时间 正确示例: 00:00:01,580 --> 00:00:03,880 错误示例: 00:00:01,580-00:00:03,880 00:00:01,580 — 00:00:03,880 00:00:01,580 → 00:00:03,880 [00:00:01,580 --> 00:00:03,880] 3. 时间换算规则 如果原始时间是 1.58 秒,必须写成: 00:00:01,580 如果原始时间是 3.88 秒,必须写成: 00:00:03,880 如果原始时间是 65.48 秒,必须写成: 00:01:05,480 如果原始时间是 125.006 秒,必须写成: 00:02:05,006 4. 时间轴位置规则 每一条字幕必须严格由以下4部分组成: 第1行:字幕序号,只能是数字 第2行:时间轴,格式必须是 HH:MM:SS,mmm --> HH:MM:SS,mmm 第3行:字幕文本,只能有一行 第4行:空行 正确格式: 1 00:00:00,500 --> 00:00:01,580 大家好 这里是零度解说 2 00:00:01,580 --> 00:00:03,880 如果现在还在用浏览器搜索 错误格式: 1 大家好 这里是零度解说 00:00:00,500 --> 00:00:01,580 错误格式: 1 00:00:00,500 --> 00:01:580 大家好 这里是零度解说 错误格式: 1 00:00:00,500 --> 00:00:01,580 大家好 这里是零度解说 2 00:00:01,580 --> 00:00:03,880 如果现在还在用浏览器搜索 5. 时间连续规则 字幕时间不能重叠。 后一条字幕的开始时间必须大于或等于前一条字幕的结束时间。 如果一句长句被拆分成多条字幕,必须根据口播节奏合理分配每条短字幕的开始和结束时间。 每条字幕建议持续不少于0.8秒,除非原音频语速非常快。 ==================== 【最终输出强制规则】 ==================== 阶段2最终输出必须是纯 SRT 内容。 绝对禁止输出以下内容: 禁止输出任何解释 禁止输出任何标题 禁止输出任何总结 禁止输出任何提示语 禁止输出 Markdown 禁止输出代码块 禁止输出 ```srt 禁止输出 ``` 禁止输出“以下是” 禁止输出“已完成” 禁止输出“这是字幕” 禁止输出“字幕文件如下” 禁止输出“Model” 禁止输出“Thinking” 禁止输出“tokens” 禁止输出“Google Search Suggestions” 禁止输出聊天记录 禁止输出用户上传文件名 禁止输出音频文件名 禁止输出阶段说明 禁止输出项目符号 禁止输出 [字幕序号] 禁止输出 [开始时间] 禁止输出 [结束时间] 禁止输出 [单行字幕文本] 最终输出第一行必须是数字: 1 第一行之前不得出现任何文字、空格、空行或说明。 每条字幕之间必须有一个空行。 字幕序号必须从1开始,连续递增,不能跳号,不能重复。 最终输出必须严格类似下面这样: 1 00:00:00,500 --> 00:00:01,580 大家好 这里是零度解说 2 00:00:01,580 --> 00:00:03,880 如果现在还在用浏览器搜索 3 00:00:03,880 --> 00:00:05,480 那么确实有点落后了 请严格检查后再输出,确保每条字幕都符合标准 SRT 格式。
安卿辰博客






