字体:大 中 小
护眼
关灯
上一章
目录
下一页
第242章 大佬竟是我自己 (第1/4页)
如果说在前世2017年,1000万条双语数据标注就要耗资两千多万美元。 那么在机器学习整体比较滞后的这个时空的2014年。 同样的1000万条双语数据标注需要多少钱呢? 林灰觉得1000万条双语标注数据怎么着也得要个两三亿美元啊。 “两三亿美元”这个数据似乎有点吓人。 但其实也不夸张。 之所以说不夸张有两方面的原因: 一、即便是在前世,数据标注也是在对偶学习之类的特殊学习技巧问世后成本才大幅下降。 而在此之前,涉及到数据标注从来就跟“便宜”两個字不沾边。 同样拿此前林灰所列出的例子作为援引: 在前世2017年1000万条双语互译标注的成本约为2200万美元; 注意这仅仅是双语互译的标注。 “双语互译”只是某两种语言之间的互译标注。 只是两种语言之间的互译标注就需要两千多万美元? 那涉及到上百种语言的互译需要多少钱呢呢? 简单的排列组合问题: C(100,2)==4950;4950*0.22亿美元==1089亿美元; 不难看出若需支持上百种语言的互译,人工标注训练集的成本将达到上千亿美元。 而这仅仅是理想情况下的估算,如果真要按部就班进行这样的标注实际成本远不止于此。 毕竟很多小语种之间的互译成本显然相比于主流语言之间的互译价格还要更高。 虽然实际cao作中不会真的有大怨种按部就班进行上百种语言互译的数据标注。
上一章
目录
下一页