在网易有道做语音算法工程师是一种怎样的体验? 全球热闻
鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI
一个成立不到两年的团队,两个初入职场的新人,杀入顶会挑战赛能拿下怎样的成绩?
【资料图】
时限是,10天。
近日,全球语音顶会INTERSPEECH 2020「口音英语语音识别挑战赛」结果公布,一支名叫「大耳朵图图喵喵喵」的团队摘下了两大赛道的第二名和第三名。
参赛选手是这位:
△大耳朵图图本喵
啊不,其实来自他们当中。
说起网易有道与AI语音技术相关的产品,大家或许都不陌生,比如丁磊多次安利、上市都带着的有道词典笔……
相比在市场上取得的认可,许多人可能不会想到,有道AI语音背后的团队非常年轻:成立不到两年,大部分都是应届生,来自知名语音实验室,或者海外高校深造项目。
「参赛其实是验证技术方案」
此次拿奖的时来和Harry Wu(均为花名),就是今年7月刚刚加入网易有道的应届生。
事实上,打这场比赛,对于他们而言更像是一次对工作成果的「突击测验」:被通知要参赛时,距离提交测试结果的截至日期只剩下10天了。
时间紧迫,两人临时组队,又是代表团队第一次出征算法赛事,但在心态上他们倒还真一点也不慌。
用有道之前积累的技术去参赛,10天也足够了。攻坚克难了这么久,是时候拿出来检验一下了。
INTERSPEECH 2020「口音英语语音识别挑战赛」由中国计算机学会、西北工业大学、上海交通大学、新加坡南洋理工大学等多家重量级机构联合举办,共分为两个赛道:
Track1是口音种类识别,参赛者需要使用官方提供的各种口音英语训练数据,训练语种分类模型。
Track2则是口音英语语音识别,参赛者需要使用规则限定的训练数据,训练语音识别模型。
简单来说,一方面是要做英语口音的分类,另一方面是要做语音识别,把带口音的英语语音转成文字。
时来和Harry的工位就挨在一起,两人当即一合计,觉得在语音识别方面,基本可以原封不动地用上现成的技术——有道词典、精品课、云笔记等一系列产品里都有ASR技术的身影,平时的研发工作中,早已经考虑到了复杂口音的情况,识别准确率和响应速度都是经过实战检验的。
而在口音分类这个比较新颖的任务上,他们正在研究中的多语种技术方案正好能够派上用场:
原来会觉得相关的技术方案还处在实验室阶段,要实际应用起来还需要学术界进一步验证。但既然比赛有这个机会,正好可以拿这个方法试验一下。
程序员打比赛,就是直接开干,效率拉满——就在工位上随时讨论。而事后两人回想起来,印象最深的不是时间有多紧、加了多少班,恰恰是设计算法、测试结果的这个过程:
一开始,在口音分类这个全新的任务上,两人想到这会跟说话人的特征有比较强的相关性。而在引入这一信息之后,他们的方案还真在开发集上取得了令人惊喜的效果。
但在测试集开放之后,进一步的验证结果却差强人意。直到比赛结束,测试集公布,他们才发现测试集里说话人的数目,是训练集和开发集加起来的差不多10倍,即一个说话人非常复杂的场景。
虽说碰上了这样那样的小波折,但其实对于两位语音算法工程师而言,这反而更加坚定了他们攻关AI语音技术的决心:语音领域技术相对成熟,但远没有到「做完了」的程度,现实的复杂场景、各种各样的噪音、方言口音,都仍有值得钻研之处。
至于最后的结果,其实可以说是「两全其美」。
虽然准备还是有些仓促,没能拿下冠军,但对初出茅庐的网易有道语音团队而言,面对强劲的业内对手,首次「出击」能拿到顶会挑战赛的二等奖,还是证明了现有技术方案可行、新的设想值得进一步推动。
另一方面,团队组长孙艳庆也坦承,参与比赛对整个语音团队来说,学习到了行业中新的想法和技术,打开了后续开发的新思路。
「秘诀」:技术以落地为导向
其实比起单纯去打比赛、发论文,如果和一线的开发者们多聊聊,就能明显地感觉到,网易有道的这支语音团队是非常务实的——以技术落地为导向,以用户反馈为指标。
孙艳庆谈到,在内部,技术方案的推动一般有两种途径。
一种是来自业务端的需求。技术团队要做的,是去评估现有的技术是否能够解决问题,并真正落地到产品中,给用户带来优质的体验。
另一种则来自于工程师们对新技术、新用户需求的敏感度。如果判断一种新技术会被大规模地应用,技术团队也会提前进行相应的布局。
而评价成果的指标则更为直接:用户体验。
这种脚踏实地的作风,也给时来、Harry这样的职场新人留下了深刻的印象。
我们大部分的技术,最终都会聚焦到非常具体的产品上面。不会去做在将来一段时间看来,意义不是很大的一些事情。技术如果只是停留在学术层面上,就没办法真正流行、发展起来。落地对于技术而言是一个非常非常核心的点。
解决用户切实的问题,解决产品中的痛点,或许正是在这样的导向之下,虽然团队仅成立了不到两年的时间,但在产品层面,网易有道在语音方面的许多技术点已经跻身行业前列。
比如语音识别(ASR)。以网易有道词典为例,对话翻译、发音指导,各种功能的实现都离不开精准的语音识别。而经过测试,有道语音识别技术在一些场景上识别准确率超过98%,并且,不止支持中文、英文,还支持日、韩、法、德等多种语言。
在语音合成(TTS)方面,有道语音合成引擎音色逼近真人,同样支持中、英、日、韩、葡等多种语言。在过硬的技术基础之上,今年9月,有道词典还用TTS技术实现了王源明星语音的上线,效果受到了用户的广泛好评。
并且,为了更好地服务于产品,这支规模并不算大的团队,覆盖的技术点却很全面:从录音、拾音环节开始,到中间的语义理解,再到语音识别合成,都有涉及。可以说,在技术上已经形成了比较完整的链条。
把「脚踏实地」写进价值观的团队
事实上,能以一支小而精的团队支撑起复杂业务背后的核心算法,团队内部的氛围是技术实力之外的另一个重要影响因素。
如果你问有道语音团队的工程师们这支团队的特点是什么,就能获得这样几个关键词:年轻、活泼、脚踏实地。
因为年轻、活泼,即使是新人融入起来也完全没有压力,不管是技术的交流还是平时的相处,都可以畅所欲言。
另一方面,虽然团队成员们普遍年纪不大,却个个「身怀绝技」。作为组长,孙艳庆认为,一个脚踏实地的团队,应该给每个人充分的才华施展空间,而在这个空间之下,大家潜心钻研技术,在专注于自己侧重点的情况下,去突破个人的局限。
脚踏实地的价值观延续在整个有道AI团队。不仅是在语音方面,有道的AI能力还覆盖神经网络翻译(NMT)、图像识别(OCR)和自适应教育等等。
并且,其发力深耕的这些AI技术,都切切实实落在了产品上,让C端用户有了最直观的体验:
NMT翻译准确率行业领先,支持12种语言的中文互译,9种语言的英文互译。
OCR可以帮助实现线下学习资料在线化。对中文文本的识别准确度达到97.5%,对英语文字的识别准确度为95.3%,对中英文混合文本的识别准确度为96.2%,已经支持102种主流语言文字识别。
AI行业已经过了“风口飞猪”的时代,愈加务实的市场更加看重技术的落地。当泡沫散去,唯有脚踏实地的团队才能在一代代产品的稳定推出中,扎实生根。
也正是因为这样的氛围,在毕业之际,时来、Harry等人毫不犹豫地拒绝了其他offer,选择加入网易有道。
嗯,一定不是因为这里经常聚众吸猫。
— 完—
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
量子位QbitAI · 头条号签约作者
վ"ᴗ" ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
标签:

加快场景创新 科技部首批支持建设十个人工智能示范应用场景
2022-08-16

科技部公布《企业技术创新能力提升行动方案》 亮出10项行动内容
2022-08-16

进入了发展快车道 冷链行业市场规模正在快速膨胀
2022-03-21

行业正站在风口 数字化时代在为传统的自行车产业赋能
2022-03-21

以做强实体经济支撑为重点 成都单个项目年度计划投资同比提升
2022-03-21

拥有多个国际赛事的直播版权 广州游戏电竞企业业绩向好
2022-03-21

投诉量激增 直播带货存在这么多问题的主要原因是什么?
2022-03-21

工作专班深入到各企业 春寒料峭挡不住松原市施工热情
2022-03-21

引导企业向提供“产品+服务”转变 湖南加快智能农机服务化转型
2022-03-21

创新平台建设和科技成果转化 德州加大力度重奖创新
2022-03-21
科技部公布《企业技术创新能力提升行动方案》 亮出10项行动内容
进入了发展快车道 冷链行业市场规模正在快速膨胀
行业正站在风口 数字化时代在为传统的自行车产业赋能
以做强实体经济支撑为重点 成都单个项目年度计划投资同比提升
拥有多个国际赛事的直播版权 广州游戏电竞企业业绩向好
投诉量激增 直播带货存在这么多问题的主要原因是什么?
工作专班深入到各企业 春寒料峭挡不住松原市施工热情
引导企业向提供“产品+服务”转变 湖南加快智能农机服务化转型
创新平台建设和科技成果转化 德州加大力度重奖创新
潜在风险进一步放大 商品房现房销售已是大势所趋
有序复工复产 1—2月份工业经济发展新动能持续增强
多层次高频调度 1至2月河北省工业运行先行指标稳中有增
以车路协同为基础 智能交通推动城市交通绿色高质量发展
人才短板成为制约产业链高质量发展的关键节点
通过技术手段整合调配供给资源 家政行业不断提质扩容
强化产业链深层次合作 加强重大装备国产化“一条龙”模式构建
如何进一步提升纳税人缴费人的减税降费获得感?
探索建设大数据及网络安全示范试点城市有哪些积极意义?
对制造业中小微企业实施缓缴税费政策有哪些积极意义?
进一步增强自我保护意识 消费者需注意辨别谨慎消费
将“走出去”变“请进来” 西安贸易产业转移承接作用不断得到增强
厦门应如何融入“数字中国”的重大战略发展大局?
江苏省如何不断满足老人日益增长的养老服务需求?
建设一体化的职业健康信息管理平台 天津职业人群保障加强
潜力持续释放 1—2月乡村消费品市场恢复略好于城镇
直接对接社会化服务 楼宇调解室将整体提升青岛劳动争议水平
成功化解纠纷11.47万件 银保监会服务质量日趋提高
春雷响百虫出 惊蛰文化在其他方面有了进一步发展
青绿山水画在古代山水画发展史上有着怎样的影响与地位?


- 开播即爆款 “文化类节目收视率低”这一固有印象被推翻
- 涵盖了109件真迹作品 凯斯·哈林展览将持续至6月13日
- 带有一点自信的自嘲 “隔路”是另一种味道的“凡尔赛”
- 与文渊阁前后呼应 “何以中国”特展隆重致敬文化大成
- 严重者可造成暂时性失明 享受冰雪运动要注意眼睛的健康防护
- 种类繁多让人眼花缭乱 选购牛奶时需要重点关注什么?
- 网课让孩子感到不安焦虑怎么办?八问八答回应广大家长关切
- 循环系统很容易受到刺激 “倒春寒”期间老人该如何做?
- 青少年患者睡眠问题日趋增加 9条建议为孩子助眠
- 我国肥胖人群正逐年递增 不良饮食习惯是重要诱因
- 如何减少噪声对听力的损伤?这份耳部和听力保健小贴士请收好
- 强化住房限购措施 西安限购限售范围进一步扩大
- 多种方式增加供给 进一步降低新市民和青年人的居住成本
- 预计9月下旬海口可实现安居房申请网上办理
- 政策调控力度持续升级 8月百城二手房市场均价止涨转跌
- 8月中国新房找房热度依然保持平稳 环比微涨0.2%
- 进一步加强商品房销售价格备案管理 今年全国楼市调控刷新历史纪录
- 西安第二批集中供地中28宗为现场拍卖方式出让
- 细分化需求得到释放 房屋居住的属性越发凸显
- 佛山顺德龙江近日挂牌商住地起拍价约19.88亿元
- 青岛市4宗地竞品质抽签结果出炉 地溢价均约15%
- 坚持政策支持、多方参与 浙江版保障性租赁住房明确新增比例目标
- 简化审批流程 武汉将实现房源申请配租全程网上办
- 哈尔滨新增本土确诊病例3例 活动轨迹公布
- 哈尔滨市公布3例新增本土新冠肺炎确诊病例活动轨迹
- 山东深耕文化资源 推动旅游业高质量发展
- 今年新增952件(套)!南京大屠杀再添新证
- 四川非遗传承人张雄志:巧手捏面塑 指尖传非遗
- 10月以来我国寒潮为何如此频繁?中国气象局回应
- 56位残疾人士登上黄山 互利互勉共建生活希望
- 安徽潜山两车相撞 已致8人死亡3人受伤
- 上海洋山海关首次在出口货运渠道查获夹带卷烟
- 山西忻州古城:一城风华延续千年历史文脉
- 呼伦贝尔新巴尔虎右旗公布1例无症状感染者行动轨迹
- 新增“53+1” 内蒙古累计本土确诊病例增至185例
- 昆明公安打击破坏生物多样性犯罪 抓获130名涉案嫌疑人
- 山西朔州“11·11”较大透水事故调查报告发布 对38人问责处理
- “海关国门小卫士”竞争上岗 淘汰率接近一半
- 深圳摧毁特大品牌化妆品走私网
- 28人被问责!山西石港煤业“3·25”事故调查报告公布
- 湖南韶山以河长制带动全民治水 让每一处水面“长治久清”
- 上海市奉贤区人大常委会原党组书记袁晓林被“双开”
- 民进会员谈反映社情民意信息工作:心怀大我 敢讲实情
- 80岁“留守”奶奶短视频诉孤独 千万网友心疼:我们陪您唠嗑
- 40年来为子弟兵送出1.3万余双布鞋和鞋垫的“布鞋奶奶”走了
- 当男幼师是什么体验?他们说:有委屈尴尬 但大部分是幸福
- 庐阳警方通报幼童坠亡事件:嫌疑人已被刑拘
- 内蒙古新增本土确诊病例53例、本土无症状感染者1例
- 哈尔滨市启动部分地区第一轮全员核酸检测
- 四川通江发生两车相撞事故 致3人死亡