中国工程院院士、西藏大学教授尼玛扎西介绍,本次项目围绕藏语言文字自动识别中的实际难题展开系统性攻关,重点突破多方言语音识别、复杂场景文字识别等长期存在的技术瓶颈。
项目构建了完整的汉藏(藏语多方言)语音翻译技术体系,实现从语音识别、机器翻译到语音合成的全流程覆盖,提升了不同方言及复杂环境下的语音处理能力。同时,首次研发面向复杂场景的藏文多风格字体识别技术,可有效处理现代出版物、古籍文献、社交媒体图像和自然场景图片等多种来源的藏文文本,解决了字体多样、背景复杂等识别难题。
项目成果已转化到基于智能终端的(移动操作系统)APP、基于PC端(计算机操作系统)的web应用、无线蓝牙汉藏语音翻译耳机、无线藏语智能鼠标及汉藏智能语音翻译会议机五项核心示范产品。
尼玛扎西表示,在数据资源建设方面,项目已建成规模化的藏语言跨模态数据资源管理系统,包括藏汉句对1000万个、语音语料2000小时、图像标注数据20000张,以及包含18000个实体与30000余条关系的知识图谱数据,为技术的持续优化与应用推广奠定了基础。
记者现场获悉,部分成果已在政府办公、布达拉宫古籍数字化保护等重点场景中投入应用。其中,藏汉机器翻译系统单日访问量最高达11万次,藏文古籍识别软件运行稳定,为社会提供了便捷可靠的藏语信息处理服务。