View in Telegram
DPS Build
这个完全是外行话了,归因错误:大家不愿开发小众语言的相关工具最主要的原因不是赚不到钱,而是成本太高: 1. 没有足够的样本数据 2. 没有相关的工具链 以阿拉伯语为例吧,使用人群够大了吧?但是阿语的口语没有统一,基本上每个地区都有自己的口音/用法。比如阿联酋就有自己的 emirate accent,而说这个口音的人只有一两百万,搜集口语数据非常困难,更不用说更小众的语言。 再说工具链,搜搜 github 上,英语的 NLP 工具有多少?中文的 NLP 工具有多少?阿语的呢?几个最简单的例子,中文的分词一直是一个很大的问题,我们现在有多少开源工具可以拿来用?阿语有同样的分词问题,可用工具少得可怜。 连研发都谈不上,就根本不用谈再往后的产品化。赚不到是一个原因,但绝对不是主要原因。
https://overcast.fm/+AA67ml3takc
overcast.fm
s4e23. 嘿,Siri,你为什么听不懂卢旺达语? | 1106 — 放晴早安
☀️
本期放晴故事 大家知道为什么藏区的人大部分都用iphone吗?这是因为iphone一直都支持藏语设置,而国产的安卓手机绝大部分是不支持的,导致大量的藏语使用者只能选择iphone手机。 类似的困境对于小语种使用者来说其实还有很多,尤其是在本土语言有一千多种的非洲,语音助手和聊天机器人甚至没有办法识别人们日常说的话,给他们生活带来了很多不方便的地方。今天的节目,就让我们来看看一个名为Common Voice的语音数据库是如何解决这一问题的。 延伸阅读 当ChatGPT的广东话“讲唔正”:AI 年代,低资源语言是否注定被边缘化?…
Share
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily
Start