盘天下 | 免费精选资源分享

Fast-Powerful-Whisper-AI-Services-API:自动语音识别 (ASR)、翻译的高性能异步 API

编程开发 2024-12-18 344 0


Fast-Powerful-Whisper-AI-Services-API是什么

Fast-Powerful-Whisper-AI-Services-API是一款用于自动语音识别 (ASR)、翻译的高 能异步 API。不需要购买Whisper API,使用本地运行的Whisper模型进行 推理 ,并支持多GPU并发,针对分布式部署进行 设计 。还内置了包括TikTok、 抖音社交 媒体平台的 爬虫 ,可实现来自多个社交平台的无缝媒体处理,为媒体内容 数据 自动化处理提供了强大且可扩展的解决方案。

Fast-Powerful-Whisper-AI-Services-API:自动语音识别 (ASR)、翻译的高性能异步 APIFast-Powerful-Whisper-AI-Services-API:自动语音识别 (ASR)、翻译的高性能异步 API

「Fast-Powerful-Whisper-AI-Services-API 」的愿景是打造一个强大且开箱即用的 Whisper 服务 API,专为高性能、高扩展性和分布式处理需求而设计,并且以生产者消费者模式为设计核心打造,理想适用于需要大规模、高效自动语音识别的场景。该项目基于 OpenAI Whisper 模型以及推理速度更快并且准确度近似的 Faster Whisper 模型,支持多 语言 的高质量语音转录和翻译任务,并且内置的爬虫模块可以轻松实现对抖音和TikTok等社交媒体平台的视频进行处理,只需要输入一个链接接口轻松创建任务。

系统 通过异步模型池方案实现了高效的资源调度与任务 管理 ,并且异步模型池支持使用多个GPU进行并行计算,提供完全本地化、高拓展性,且可靠的解决方案。此外,项目计划实现一套灵活的自定义组件和 工作 流设计,使用户可以通过 JSON 文件定义复杂的多步骤任务流,或通过 Python 编写自定义组件,扩展功能。内置高性能的异步 HTTP 模块,异步文件IO模块,异步 数据库 模块,用户可以利用这些模块编写自己的服务或任务处理器来拓展业务, 未来 计划与ChatGPT等LLM API进行接入,实现自动语音识别到 自然 语言处理和分析的的完整工作流程。

Fast-Powerful-Whisper-AI-Services-API特色

  • 异步设计 :基于Python 3.11的 asyncio 异步特性,所有模块都使用异步特性进行编写,实现请求的高效处理,提升整体系统的稳定性和高并发能力。
  • 自带文档UI:得益于FastAPI自动生成的OpenAPI JSON,本项目自带一个可交互的Swagger UI用于在 浏览器 中可视化的测试接口,并且接口Swagger UI中带有详细的中文+ 英文 双语说明和默认参数设置,用户可以快速的上手测试。
  • 高准确率:使用最新的large-v3模型确保输出的准确率,并且得益于Faster Whisper的加持,在保证准确率的情况下可以极大地缩短推理所需的 时间
  • 分布式部署:本项目可以从同一个数据库中获取任务以及存储任务结果,未来计划与Kafka无缝对接,实现FastAPI与Kafka的完美交响:构建实时更新的 智能 Web API
  • 异步模型池 :本项目实现了一个高效的异步AI模型池,在线程安全的情况下支持 OpenAI Whisper 和 Faster Whisper 模型的多实例并发处理场景,在支持CUDA加速且拥有多个GPU的场景中,通过智能加载机制可以将多个模型智能的加载在多个GPU上,然后模型实例间自动分配任务,确保任务处理速度和系统负载均衡,但是在单一GPU场景下无法提供并发功能。
  • 异步数据库:本项目支持使用MySQL和SQLite作为数据库,在本机运行时无需安装和配置MySQL,使用SQLite即可快速运行项目,如果使用MySQL则可以更好的配合分布式计算,多个节点使用同一个数据库作为任务源。
  • 异步 网络 爬虫:本项目内置了多个平台的数据爬虫模块,当前支持抖音、TikTok,用户只需要输入对应的视频链接即可快速的对媒体进行语音识别,并且未来计划支持更多社交媒体平台。
  • ChatGPT集成:本项目已经集成了ChatGPT作为LLM部分的支持,可以使用数据库中的数据与ChatGPT进行交互。
  • 工作流与组件化设计(待实现) :围绕 Whisper 转录任务,项目支持高度自定义的工作流系统。用户可以通过 JSON 文件定义组件、任务依赖和执行顺序,甚至可以使用 Python 编写自定义组件,灵活扩展系统功能,轻松实现复杂的多步骤处理流程。
  • 事件驱动的智能工作流(待实现) :工作流系统支持事件触发,可以基于时间、手动触发,或由爬虫模块自动触发。相比单一任务,工作流更加智能,支持条件分支、任务依赖、动态参数传递和重试策略,为用户提供更高的自动化和可控性。

Fast-Powerful-Whisper-AI-Services-API适用场景

  • 媒体数据处理 :适用于需要大规模语音转文本处理的场景,比如网络或本地的媒体文件转录,分析,翻译,生成字幕等应用。
  • 自动化工作流 :虽然目前项目本身没有实现工作流,但是可以通过API于其他平台的任务流系统进行接入,通过事件驱动的工作流,轻松实现复杂任务的自动化执行,适合需要多步骤处理和条件控制的业务 逻辑
  • 动态数据采集 :结合异步爬虫模块,系统可自动采集和处理来自网络的数据,并且存储处理完成后的数据。
  • 利用分布算力:在多个分布的零散算力下,可以使用网关的形式将分散的算力进行有效利用。

Fast-Powerful-Whisper-AI-Services-API如何使用

GitHub:https://github.com/Evil0ctal/Fast-Powerful-Whisper-AI-Services-API

闲趣赚

转载请注明出处,本文链接:https://www.80srz.com/pantx/55273.html

(0)
收藏 (0)

评论列表