使用手册

安装时被Microsoft Defender SmartScreen阻止?

我们作为初创团队目前没有能力购买昂贵的商业代码签名证书(交不起微软保护费),所以安装时可能会被windows阻止,如果你在安装时遇到这种情况, 请点击更多信息->仍要运行即可正常安装。 只有安装时才有可能会被阻止,后续运行时不会出现。

asr模型下载 asr模型下载

实时识别和离线识别模型区别

  • 实时(流式)识别模型用于实时转录场景,非必选,配置了实时识别模型可以有低延迟的"边听边识别"的流式输出效果,当检测到一段话结束会进入离线识别阶段。
  • 离线识别时拥有更完整的句子上下文,所以准确度更高,它会修正刚才实时模型产生的错别字,并补全标点符号。

离线识别模型选择

中英文推荐使用sense-voiceparaformer模型,中文准率高且识别速度快, whisper系列模型支持的语言多,但由于架构不同,即使是small小规格模型,在个人电脑上的识别速度仍比较慢, 如果前面两个模型无法满足要求,可尝试使用whisper系列模型。

模型下载

首次运行需进入 设置 > 模型下载页面中下载语音模型,ASR为语音识别模型,TTS为语音合成模型,按需下载即可。 其中端点检测模型离线识别模型标点恢复模型为必选项, 缺少任意一个都会导致转录功能无法使用。

asr模型下载

实时识别和离线识别模型区别

  • 实时(流式)识别模型用于实时转录场景,非必选,配置了实时识别模型可以有低延迟的"边听边识别"的流式输出效果,当检测到一段话结束会进入离线识别阶段。
  • 离线识别时拥有更完整的句子上下文,所以准确度更高,它会修正刚才实时模型产生的错别字,并补全标点符号。

离线识别模型选择

中英文推荐使用sense-voiceparaformer模型,中文准率高且识别速度快, whisper系列模型支持的语言多,但由于架构不同,即使是small小规格模型,在个人电脑上的识别速度仍比较慢, 如果前面两个模型无法满足要求,可尝试使用whisper系列模型。

模型服务商设置

  • 根据你的需求选择模型服务商,Ollama通常不需要填写Api Key(你可以随便填写一个,不填写的话表单无法保存)
  • 如果是云端模型,你需要先去对应服务商去注册账号,注册完后将Api Key填上
  • 填写完Api Key后可以测试一下连通性,百炼平台和硅基流动平台中预设了一些常用模型,如果不满足需求则自行添加其它模型
  • 添加模型时需要确认模型类型是否正确,如果类型不匹配可能导致功能无法正常使用,比如:总不能拿一个文本对话模型让它去做视觉识别,对吧
  • 模型服务商可以只配置一个,也可以配置多个,支持不同服务商的模型混用,按需选择token性价比高的即可
模型服务商设置

模型任务分配

  • 为不同的任务场景分配各自的模型,目前有文本润色文本翻译视觉识别内容总结向量检索知识问答这些场景
  • 文本润色文本翻译这种简单的任务建议选择小规格的模型即可,内容总结知识问答这种复杂任务建议选择高规格模型,以获得更好的效果
  • 向量检索任务如果切换了其它Embedding模型,需要重建知识库,否则会导致内容检索失败,所以请谨慎切换。
模型任务分配

模型提示词设置

每个任务场景预设了一个默认的提示词,如果效果不满意,你可以在设置中修改,修改后如果需要恢复,也可以恢复默认

模型提示词设置

开始转录

在完成了前面的语音模型下载和模型服务设置步骤后,就可以开始转录了。

  • 在线视频转录:直接粘贴 Bilibili、YouTube 或其他主流平台的视频 URL。程序将自动解析和下载资源到本地进行转录
  • 本地实时转录:从麦克风或声卡采集实时音频流,边听边转录,注意音量要适中,音量太小或者环境噪音都可能会影响识别效果
  • 本地文件转录:从本地选择wav音频或者mp4视频转录

转录中

点击开始转录后,会进入转入中页面,在这里你可以直观的看到转录的进度。以在线转录为例,整个流程为:解析url->下载资源->音频提取->端点检测->语音识别

转录中

转录完成

转录完成后进入转录详情页面,左侧是视频分p栏(仅合集时显示),中间是视频播放器和语音文本时间轴,右侧是AI总结和问答区 在这里你可以使用文本润色文本翻译内容总结知识问答等各种AI功能。

查找替换

语音识别文本难免会出现错别字,为了方便人工校正,可以使用查找替换,来统一修改错别字,针对合集类型的转录可以使用专门的"合集查找",快捷键:单集查找-ctrl+f,合集查找-ctrl+shift+f,关闭-ESC

本集查找 合集查找

AI润色

如果原始语音内容比较口语化,你希望得到更书面化的结果,那么可以使用AI润色功能,润色后不仅会更加的书面化,还能够修正一些语音识别的错误,更适合阅读。

AI润色

AI翻译

翻译效果由模型能力决定

AI翻译

AI总结

总结时可以选择是否开启OCR(视频画面内容识别),对于图像信息密度高的视频墙裂建议开启OCR,总结效果会大大提高

AI总结设置 AI总结效果

AI问答

那就随便问点奇奇怪怪的问题

AI总结效果