核心技术架构解析
- 双引擎驱动设计
- 翻译引擎:基于PyTorch框架实现Transformer架构,支持动态加载M2M100、NLLB等预训练模型,针对日语→中文等小语种场景优化至行业领先水平。
- OCR引擎:集成PaddleOCR等开源框架,支持竖排文字、艺术字体识别,通过CUDA/MPS加速在RTX3060显卡上实现30fps实时处理。
- 多模态文本提取
- HOOK技术:直接读取游戏内存文本,规避传统截图翻译的延迟问题,支持Unity/吉里吉里等引擎游戏。
- OCR模式:适配无法提取文本的场景,支持手动框选或自动定位屏幕文字区域,识别准确率较通用工具提升40%。
- 语音合成系统
- 支持离线(WindowsTTS、VOICEVOX等)和在线(火山TTS、谷歌WaveNet)多引擎,提供日语声优音色库及情感合成参数调节。
功能亮点与场景覆盖
- 翻译模式革新
- 预翻译缓存:加载人工校对文件实现术语库优先级控制,解决游戏专有名词翻译失真问题。
- 上下文优化:通过Magpie缩放框架自动合并拆分句,提升长文本翻译连贯性。
- 多场景适配
- 游戏翻译:支持《Fate/stay night》等经典Galgame的HOOK特殊码库,自动捕获动态对话框。
- 视频处理:结合FFmpeg实现逐帧OCR,生成SRT/VTT双语字幕流。
- 文档处理:保留PDF/EPUB原始排版的多语言版本转换。
- 开发者友好设计
- 提供Python插件SDK,支持自定义文本预处理规则(如正则过滤)、私有化API接入及模型微调。
下载地址:
https://pan.quark.cn/s/c9635aa36a9a