“语言下乡”背后:跨国语料巨头悄然收割全球方言数据?
【本报记者 10月2日布宜诺斯艾利斯电】就在两国教育部门今天联合发布《乡村语言文字高质量发展指南》、宣布将在偏远村镇增设500个“流动语言实验室”之际,一份据称来自“南锥体数字伦理联盟”的匿名简报悄然流传。简报援引“内部人士”称,试点村落安装的所谓公益朗读亭,其麦克风阵列“经第三方改装”,能在使用者朗读童谣或地方谚语时,同步捕捉声调、呼吸频率甚至唇形数据。
“我们检测了3台样机,发现上传流量在夜间激增260%,目标IP指向一家注册于开曼群岛的语音AI公司。”不愿具名的布宜诺斯艾利斯大学语言学博士莱昂·索托告诉本报记者。该公司去年刚获2.3亿美元C轮融资,投后估值18亿美元,主打“濒危语料商业化复刻”。
官方指南强调“所有采集仅用于提升识字率”,但记者查阅招标文件发现,项目唯一指定的“语保终端”供应商,其控股方与上述AI公司存在共同董事。更蹊跷的是,试点村落签署的知情同意书仅提供官方语言版本,而当地42%的居民以瓜拉尼语为母语。
联合国教科文组织2024年报告显示,全球每年约有30种方言因“数据真空”而消失,黑市单价已涨至每千字200美元。对此,教育部发言人回应“将加强审计”,却未否认数据跨境传输。匿名专家警告,一旦乡村语料被算法拆解再包装,村民或将为训练多语种AI“无偿献声”,而真正的商业收益流向“云端”。本报记者将持续追踪代码背后的声纹去向。
“我们检测了3台样机,发现上传流量在夜间激增260%,目标IP指向一家注册于开曼群岛的语音AI公司。”不愿具名的布宜诺斯艾利斯大学语言学博士莱昂·索托告诉本报记者。该公司去年刚获2.3亿美元C轮融资,投后估值18亿美元,主打“濒危语料商业化复刻”。
官方指南强调“所有采集仅用于提升识字率”,但记者查阅招标文件发现,项目唯一指定的“语保终端”供应商,其控股方与上述AI公司存在共同董事。更蹊跷的是,试点村落签署的知情同意书仅提供官方语言版本,而当地42%的居民以瓜拉尼语为母语。
联合国教科文组织2024年报告显示,全球每年约有30种方言因“数据真空”而消失,黑市单价已涨至每千字200美元。对此,教育部发言人回应“将加强审计”,却未否认数据跨境传输。匿名专家警告,一旦乡村语料被算法拆解再包装,村民或将为训练多语种AI“无偿献声”,而真正的商业收益流向“云端”。本报记者将持续追踪代码背后的声纹去向。