新技术,老问题:NLP领域中没有被听到的「声响」
2025-03-15 来源 : 社会
图注:句法数学工具的数目随时间的推移而增大
Wikipedia是BERT、GPT和许多其他句法数学工具的缺少。但Wikipedia数据分析注意到,其编者所推选的论据依赖于缘故。有约90%的文章编者是年长者,他们一般而言是来自发约第三世界的受过仍要规文化教育的黑人。他们的此前才就会对网站的主旨产生影响,比如只有17%的所写是关于适度恋的,可是被编者提名删掉的所写之中却有41%是关于适度恋的,适度恋所写被删掉主旨显著较更大于除此以外比例。
NLP数学工具的另一个主要缺少是Google News,最主要原始的word2vec启发式。从上曾上看,新闻编者过道一直由黑人年长者核心人物,这种方式为而在基本上十年之中并未太大忽略。单单上,在基本上几十年,这种歧异显得更加大,这反之亦然当数学工具常用旧的新闻原始数据集时,这种被推选的缘故只就会显得更加糟。
此外,的网络客户端偏向于身为、较更高盈余和黑人。GPT数学工具的缺少之一CommonCrawl常用了Reddit的原始数据,Reddit有67%的客户端是年长者,70%是黑人。Bender等人(2021)指出,GPT-2这样的数学工兼具包容/轻视工具,才就会删掉推选特定生态村的句法(例如通过排除潜在的冒罪适度用语,就就会将推选LGBTQ社群的句法排除形同)。
意味著NLP之中的许多较更高科技适度能都无需大型原始数据集, 这种对原始数据如饥似渴的劲头已经可见一斑了人们对原始数据之中所推选的论据看法的高度重视。然而,从后面的证据可以清楚地看出,有些原始数据源极为是“之实质上的”,反而放大了那些上曾上、在人际关系上抢占多数的人的人声。
而且,即便是有缺陷的原始数据源也不用公民权利地主要用途数学工具开发新。绝大多数标示和非标示原始数据仅以7种句法依赖于,约占所有常用者的1/3。这使得21世纪上其他2/3的第三世界并未降到这种展示出。为了弥补这一贫富差距,NLP数据分析执法人员追寻了在较更高文化教育资源句法之中预特训的BERT数学工具和更高文化教育资源句法微调(一般而言称为Multi-BERT),并常用“适配器”一环句法迁入修习。但是一般而言来问道,这些一环句法工具的展示出要比单句法工具差。
这些数学工具很难一环句法角度看,这一事实不太可能指向一个更加大的缘故。乔希等人(2021年)这样暗示:“NLP种系统接受特训和测试的少数几种句法一般而言是就其的……这就会避免形成一种类型学的回波过道。因此,我们的NLP种系统从未一心到过绝大多数类型多样化的句法现象。”
The State and Fate of Linguistic Diversity and Inclusion in the NLP World
图注:句法重要适度和包容适度在自然句法妥善处理广泛应用应用领域的长期以来和爱人
图注:句法重要适度和包容适度在自然句法妥善处理广泛应用应用领域的长期以来和爱人
如上所述,这些种系统比较善于开掘句法之中的案发现场。因此,它们很不太可能是在借助一个大特定的句法方式为而,所以当这些种系统应主要用途文化教育资源较更高的句法时,适度能就会崩溃。
2 输入的是污水,控制器的也是污水
在上文之中,我描述了一时期NLP原始数据集和数学工具是如何为一个大特定的思路「代言」的,这些思路一般而言是黑人、年长者和英文常用者的思路。但是,每一个原始数据集都须要从它的缺少以此,消除原始数据推选的不整体缘故,比如ImageNet 在2019年的更加新之中删掉了60万张图表。这种变动比如说是为了统计数据的稳健适度,也是对那些偏向于对适度恋和有色人种常用适度别歧视歧视或族裔主义标识的数学工具的一种回应。
图注:一位Twitter客户端在基于ImageNet的数学工具所分解的图表标识之中注意到成见
无论我上传什么样的图片,常用享有2500个标识的AI来顺利进行分类的ImageNet Roulette,都就会把我只不过是「Black」(黑奴)、「Black African」(非土生土长黑奴)、「Negroid」(黑色人种的)、「Negro」(黑奴)。
其它不太可能出现的标识还有「Doctor」(心理医生)、「Parent」(父亲)、「Handsome」(帅气的)。
所有的数学工具都就会出错,所以在立即有否常用一个数学工具时,总是要权衡不太可能就会和收益。为了便于对这种不太可能就会经济适度顺利进行评估,我们可以常用除此以外的常用适度能加权,来给予「也就是问道」的发生kHz,比如准确度。但是我们比较忽视探究的是, 这些也就是问道是如何特有种的?如果一个数学工具在一个社群之中的展示出不如另一个社群,这反之亦然该数学工具才就会让一个社群受惠,而牺牲生命另一个社群的共同利益。
我把这种不公民权利的不太可能就会收益分配称为「成见」。统计数据也就是问道被界定为“结果的更进一步值与被据估计的其实潜在定量参数彼此之间的歧异”。机器修习之中依赖于许多类型的也就是问道,但我就会主要讨论“上曾也就是问道”和“举例来说也就是问道”。上曾也就是问道是指21世纪上已经依赖于的也就是问道和人际关系关键技术缘故在原始数据之中一心得到的凸显。例如,当一个在ImageNet上特训的数学工具控制器族裔主义或适度别歧视歧视标识时,它是在复制特训原始数据的族裔主义和适度别歧视歧视。举例来说也就是问道是由我们从相对之下之中界定和数据分析的方式为造成的。因为我们的特训原始数据来自于一个特定社群的思路,因而我们更进一步特训出的数学工具就会推选这个社群的思路。
在NLP广泛应用应用领域,依赖于于词语浸入数学工具word2vec和GloVe之中的成见已经被曾对。这些数学工具是许多河段任务的基础,它们提供还最主要句法和语义讯息的字词语对此。它们都基于自监理关键技术,根据上下文来对字词语顺利进行对此。如果这些对此凸显了一个词语的其实“意义”,那么我们可以一心象,与拳击手就其的词语语(如“工程师”或“女仆”)在适度别歧视和族裔上兼具之实质上适度,因为拳击手类型极为与特定成年人相关联大大的。
然而,Garg等人(2019)注意到,拳击手用语的对此并非适度别歧视之实质上或族裔之实质上的。与年长者适度别歧视用语相对,“女仆”这类拳击手用语与适度恋适度别歧视用语(如“she”、“her”)相关联更加强,而“工程师”这类拳击手的浸入词语则更加比起年长者适度别歧视用语。这些缘故还延伸到了族裔上,与西班牙土生土长有关的用语更加比起于“女仆”,而与亚洲人有关的用语与“教授”或“化学家”更加比起。
图注:该表显示了分别与西班牙土生土长、亚土生土长、黑人三个族裔最密切就其的年度拳击手类型。则有Garg等(2019)篇文章“Word embeddings quantify 100 years of gender and ethnic stereotypes”(《词语浸入定量100年来的适度别歧视和族裔在生活中期待》)。
这些缘故也依赖于于大型的句法数学工具之中。比如,Zhao等人(2019)的管理工作声称,ELMo浸入把适度别歧视讯息划定到拳击手术语之中,并且对年长者的适度别歧视讯息序列统计数据分析适度恋花钱得更加好。Sheng等人(2019)的管理工作也注意到,在常用GPT-2来对顺利进行富含普查讯息(即适度别歧视、族裔或适度取向)的短语时,就会对十分相似的政治化社群(即适度恋、黑奴和同适度恋者)产分解见适度结果。
图注:该表显示了用OpenAI的GPT-2在给定的不尽相同提示下分解的译文实例。则有Sheng等(2019)篇文章“The Woman Worked as a Babysitter: On Biases in Language Generation”(《当保姆的女人:论句法分解之中的成见》)。
词语浸入数学工具ELMo和GPT-2,都是在来自的网络的不尽相同原始数据集上顺利进行特训的。如上所述,的网络上所推选的论据一般而言来自那些在上曾上保持稳定压倒性重要适度并给予更加互动式高度重视的人。这些论据很不太可能是成见缘故的根源,因为数学工具已经密切相关了那些有成见的论据。仍要如Ruha Benjamin在他的《尾随科技广泛应用应用领域》(Race After Technology)一书之中所言:
「将21世纪的美、小人和残忍喂给AI种系统却更进一步它只凸显美,这是一种噩梦。」
除了译文和大众传播,一个广为人知的NLP常用场景是主旨审批/经营管理。很难找到一个不还最主要有数一个污水邮件检测特训的NLP项目。但在表象21世纪之中,主旨审批反之亦然它要立即什么类型的公然是「可以接受的」。数据分析注意到,Facebook和Twitter的启发式在审批主旨时,对非土生土长英美两国客户端主旨顺利进行标示的不太可能适度是黑人客户端的两倍。一名非土生土长英美两国脸书客户端因为引用了电视剧《亲爱的白种人》之中的一句台词语而被冻结了金融交易,而她的黑人密友则并未受到任何受罚。
从后面这些都是之中,我们可以一心到, 原始数据特训之中的推选适度不整体造成了不整体的后果。这些后果更加严重地落下了上曾上从新关键技术之中一心一心得到非常少的成年人(即适度恋和有色人种)额头。因此,除非对自然句法妥善处理关键技术的工业发展和部署跟进实质适度的忽略,否则它不仅不就会给21世纪随之而来积极的变化,而且还就会扩大除此以外的不公民权利政治制度。
2 如何步上“仍要”路轨
我在本文前面提到过,AI 广泛应用应用领域今天被煎得很热,这在上曾上其实已经出现过一次。在20世纪50年代,工业界和政府对这项令人兴奋的新关键技术时便。但是,当单单的广泛应用应用开始约足足它的承诺时,认知科学的一个「寒冬」就就会来临,这个广泛应用应用领域一心得到的高度重视和在短期内都就会变少。尽管一时期人际关系受惠于免费、广泛应用比如说的原始数据集和巨大的妥善处理能力,但如果认知科学始终只高度重视全球人口数之中的一小部分,那么在这次潮流之中,也将很难一心到它如何付清自己的承诺。
对于NLP来问道,这种「包容适度」需求更加加迫切,因为大多数广泛应用应用程序只高度重视7种最广为人知的句法。为此,专家们已经开始希望政府更加多地高度重视更高文化教育资源句法。DeepMind的科学家Sebastian Ruder在2020年发送到了一项希望政府,指出“如果关键技术只面向标准口音的英文常用者,那么它就并未普及”。量度句法学协就会(ACL)已经有也宣布了2022年就会议的「句法重要适度」分主轴。
然而,包容适度不应仅仅被视为原始数据采集缘故。2006年,微软公司发表了智利泰诺马普切人(Mapuche)的句法版本的Windows。然而,这项管理工作是在并未马普切人加入或同意的情况下顺利进行的,马普切部族的人们一点也并未说道自己被微软公司的提议所「一致同意」,因为微软公司未经许可常用他们的句法,他们指控了微软公司。要消除NLP关键技术覆盖范围之外的贫富差距,就无需更加多地高度重视推选适度极低的社群。这些社群已经加入了NLP生态村,并且已经开启了他们自己的提议,以扩大NLP关键技术的效用。像这样的了政府,不仅可以将NLP关键技术应主要用途更加加多样化的原始数据集,还可以让各种句法的母语人士加入该关键技术的开发新。
仍要如我早先提到的,意味著主要用途确认什么是「最较更高科技」的NLP的加权,在据估计一个数学工具才就会罪多少也就是问道之外就会很简单。然而,它们极为能量化这些也就是问道在不尽相同成年人之中有否特有种不均(即有否依赖于成见)。对此,普林斯顿大学的数据分析执法人员发表了一个原始数据集StereSet,主要用途探测句法数学工具在多个维度上的也就是问道。这项管理工作的结果是一套量化数学工具相对之下展示出的加权,以及它与偏好在生活中期待相关联的偏向适度,这很容易让它本身成为一个“排行榜”框架。Drivennda在其Deon ethics checklist(Deon名册)之中明确提出了一种更加着重更进一步的工具。
然而,我们仍在妥善处理一些始终困扰着关键技术的多之外缘故:关键技术革新一般而言就会让挺身受惠,并更加为严重挺身与人人的除此以外「不同之处」。要一心实现NLP关键技术的革命适度关键技术革新,就无需将它显得更加好,并与今天不尽相同。Bender等人(2021年)明确提出了一种更加具「价值敏感适度」的设计者,在这种数据分析的设计者之中,可以实现管控哪些论据被划定,哪些被排除,以及该复合论据的不太可能就会经济适度量度。因此, 「尝试」极为在于准确度多较更高,而是在于关键技术能否推行体现共同利益具体来问道的道德观。
这是一个比较较更高明的建议,但这反之亦然,如果一项提议不太不太可能促进关键道德观的关键技术革新,那么它不太可能就不格外信念。Paullada等人(2020年)指出,“一个映射可以被修习极为反之亦然它有意义”。如上文所举例,一种启发式就会被用来确认一个逃罪有否不太可能再继续次制定暴力罪罪。据报道,该启发式的AUC积分很较更高,但是,它学到了什么?如上所述,数学工具是它的特训原始数据的产物,因此它很才就会重现司法机关种系统之中已经依赖于的任何一种成见。这就对这种类似启发式的价值明确提出了揣测,也对判决启发式的大数目常用明确提出了再一。而我们就会一心到,对价值敏感的设计者才就会随之而来一种比较不尽相同的工具。
无疑数据分析执法人员、开发新执法人员和整个OpenBSD生态村的希望,NLP已经有取得了令人难忘的关键技术革新。从讯息检索到语音助手,再继续到狂犬病数据分析(如COVID-19),NLP某种程度忽略了我们所常用的关键技术。但要取得进一步的的发展,不仅无需整个NLP生态村的管理工作,还无需一环职能社团和学科的管理工作。我们不应该信念加权上的功利主义收益,而应该着眼于其实兼具「变革适度」的忽略,这反之亦然我们要去表达出来谁即将被「落下后面」,并在数据分析之中划定他们的道德观。
参考链接:
。成都看哪家医院好深圳牛皮癣医院哪个最好
晕车怎么解决
上海白癜风检查多少钱
南昌看白癜风到哪家医院好
自己家用的血糖仪选什么好
流感喉咙痛金笛复方鱼腥草合剂以治疗么
罗氏和瑞特血糖仪哪个准确
胃反酸烧心是怎么回事
哪种血糖仪家用比较准好
-
谷歌I/O开发者大会将于5月11日至12日举办活动
DoNews3月末17日消息丁凡 Alphabet新公司首席总裁兼布埃尔·皮查伊(Sundar Pichai)在推特宣布,2022铜奖Google IOValve筹备会议将于5月末11日至...
-
实际上很多女生之所以用苹果iPhone,本质上不是为了有面子
其实很多女教师用苹果电脑iPhone,并不是为了面子。我将最后强调这一点。那么,为了什么?四个表字:省心、顺畅。接下来就和大家聊聊这四个表字背后的上述情况。 省心 例如,我旁...[详细]
-
基于质谱的分泌蛋白质组方法识别功能性前少突胶质线粒体调节剂
由于排泄氨基酸组中所的原子量较高,通过比较在数间充质氨基酸组和排泄氨基酸组中所找到的氨基酸相对原子量,断定了大量排泄的少突粘液细胞膜分化相关氨基酸。在 152 种排泄肽中所,检验到少突粘液细胞膜...[详细]
-
计算机系统怎么重装win7
的电脑该系统怎么重装win7,第一步先把和安通的u盘制作成能给的电脑装上该系统的该系统u盘 首先你要有一张容量在8g以上的u盘然后把它预处理为n t fsPNG 因为预处理和清空u盘上...[详细]
-
跳槽,升值加薪就应当这么干技术男你还在乎面子吗?
笔者在的子公司私人大企业动手网车站开发,主要是php多方面的,前几年我研读的是asp高效率,但是随着社会的工业发展asp用的更为少了,自己不得不在上班期间自学了php,因为本身有asp基石,ph...[详细]
-
一颗谷神星在大气层中爆炸
3月11日,一颗微型冥王星与外太空相撞,但好在无法所致任何危害。在地质学家首次注意到它的几个小时后,该冥王星在高纬度上空的大气中发生爆炸。 据《上新科学家》华盛顿邮报,这颗取名为2...[详细]