潘多拉的魔盒:人工智能训练数据的来源、使用与治理——面向100位AI开发者的扎根研究|高泽晋 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

潘多拉的魔盒:人工智能训练数据的来源、使用与治理——面向100位AI开发者的扎根研究

文献摘要：

厘清当前阶段人工智能训练数据在AI开发者端口的来源渠道与使用情态是进一步探讨AI训练数据治理的基础与前提.本研究在扎根理论的指导下,以滚雪球抽样法获得的100位AI开发者为研究对象,通过半结构化访谈结合非正式沟通、现实观察、内部与公开资料搜集等方式获取研究数据并提炼概念与范畴,勾勒出现阶段人工智能训练数据在AI开发者端口的来源渠道与使用情态,主要结论包括:(1)AI开发者群体将经由自行采集、公开数据、爬取数据、第三方购买与模拟产生等不同渠道获取的人工智能训练数据用于数据标注、算法验证等常规用途,但存在猎奇分享、窥探心理等异化用途;(2)AI开发者群体对数据使用边界的心理认知主要包括数据泄露/冒用作假、隐私贩卖/侥幸心理、算法偏见/个人主观、干扰社会事务及心理伤害;(3)个人道德、协议约束、法律担忧与媒介监督等因素警示AI开发者对于数据边界问题保持清醒与冷静;(4)将法律、监管、媒体等哲社制衡方案嵌入到AI开发者的数据来源渠道及操作使用层面,进而寻求创新与伦理间的平衡已成为AI数据治理的关键.

文献关键词：

人工智能;训练数据;数据来源;使用情态;数据治理

中图分类号：

[1] 文化、科学、教育、体育（G） / 教育（G4） / 电化教育（G43） / 计算机化教学（G434）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

[3] 文化、科学、教育、体育（G） / 教育（G4） / 教育学（G40） / 教育与其他科学的关系、教育学分支（G40-05） / 教育技术学（G40-057）

作者姓名：

高泽晋

作者机构：

清华大学新闻与传播学院

文献出处：

新闻记者

引用格式：

[1]高泽晋-.潘多拉的魔盒:人工智能训练数据的来源、使用与治理——面向100位AI开发者的扎根研究)[J].新闻记者,2022(01):86-96

A类：

B类：

潘多拉,魔盒,智能训练,训练数据,开发者,扎根研究,端口,使用情态,数据治理,扎根理论,滚雪球抽样,抽样法,过半,半结构化访谈,非正式,资料搜集,研究数据,概念与范畴,勾勒,爬取,数据标注,算法验证,猎奇,窥探,化用,数据使用,心理认知,数据泄露,冒用,作假,私贩,贩卖,侥幸心理,算法偏见,个人道德,担忧,警示,边界问题,清醒,冷静,制衡,数据来源,操作使用

AB值：

0.416756

相似文献

元宇宙背景下的新闻业发展趋势研究

黄怡静;赵云泽-北京体育大学学工部新媒体中心;中国人民大学新闻与社会发展研究中心

"心声"还是"音声"——浅谈AI合成主播对传统主播的挑战

聂文;小钧-湖北广播电视台卫星电视频道;武汉地铁移动电视传媒有限责任公司

传情达意:AI合成新闻主播的身体传播刍议