北京 切换校区

全国24小时免费热线

400-009-1906

AI研究员收集NLP数据的四种创意方法

时间:2018-11-23   来源:尚学堂   阅读:316
首页> AI研究员收集NLP数据的四种创意方法

        数据是推动AI发展的催化剂,但如果要收集有效的数据,这就需要AI专家富有创造性了。自然语言处理(NLP)是AI的一个子域,侧重于教计算机如何解析人类语言。在MIT的年度自然语言处理实证方法会议(EMNLP 2018)中,来自微软、脸谱网和谷歌等科技公司或组织的AI专家们介绍了一大系列收集信息的新颖方法,本文主要总结了其中令人印象深刻的四种方法。

        1. 混合语言(Spanish+English=Spanglish)

        微软在多语种NLP的论文提出了一种专注于处理“混合语言”的方法,即在夹杂不同语言的文本或语音中自由切换,考虑到世界上超过一半的人口使用多语言,这个对此前未涉及领域的研究非常重要。

        研究人员从西班牙语和英语着手,不过他们缺少足量的西班牙语文本来训练机器。正如混合代码,很少能找到包含多语言会话的文本,研究人员编写了一个程序克服这个挑战:把流行英语文本录入到微软的必应翻译器,然后将以词组为单位翻译的西班牙语译文转入源文本,确保交换的单词和短语具备同样的意思。通过这种方式,他们能够创建出足够多的西班牙式英语。

        通过这种方式产生的NLP模型明显优于之前只用西班牙语或只用英语训练的模型。研究人员希望他们的工作最终能帮助开发多语言聊天机器人。

AI研究员收集NLP数据的四种创意方法

        2. 食谱

        食谱以图文并茂和循序渐进的方式教人如何做菜,类似这种的方法也可以被用来训练机器:用结构数据教会机器同时理解文本和图像。土耳其哈斯特帕大学的研究人员汇编了一套涵盖两万多本插图烹饪食谱的大型数据集,他们希望将此作为用于训练机器文本-图像理解性能的基准测试的新资源。

        这个所谓的“食谱QA”的数据集是建立在先前的研究基础之上,此前的研究分别侧重机器阅读理解和视觉理解能力,对于前者,机器必须理解问题和相关段落才能找到答案,而对于后者,机器只能在相关图像中搜索答案。文本和图像的并排增加了任务的复杂性,因为这会呈现出互补或多余的信息。

        3. 短句

        谷歌希望用AI润色散文,研究人员为此创造了有史以来最大的数据集:将长句缩减成短句,但两者具备相同意义。在哪里才能找到大量的编辑数据呢?当然是维基百科了。

        研究团队从维基百科丰富的编辑历史中提取了拆分长句的实例,结果显示,相比以前的基准数据集,这次任务中发现了60倍不同的句子拆分例子和90倍的词汇单词,而且数据集跨越多种语言。

        当研究人员用新的数据训练机器学习模型时,其准确度(这里的准确度是指句子被重写后其意义和语法保持正确的比例)高达91%,相比之下,用先前数据进行训练的模型仅达到32%的准确度,最后,研究人员结合了两个数据集并用此对第三个模型进行了训练,准确度达到了95%。因此,研究人员得出结论,可以通过寻找更多的数据来源实现更好的效果。

        4. 社交媒体的偏差

        相关研究已表明,人类创造的语言是人类种族、性别和年龄很好的一个预测指标,即使这些信息从未被明确地陈述过。因此,以色列巴伊兰大学和艾伦AI研究所的研究人员试图利用AI通过移除这些内嵌指标来消除文本中的偏差。

        为了获取足够数据代表基于不同人口统计的语言模式,他们转向了Twitter平台,收集了几组不同用户的推文,其中的对比组用户包括非西班牙裔的白人和非西班牙裔的黑人、男性和女性、18-34岁和35岁以上。

        研究人员采用一种对抗方式将两个神经网络相互对立,查看其是否能自动除去推文中内在的人口统计指标。其中一个神经网络试图预测人口统计学,而另一个试图将文本调整到完全中立的状态,其目的是将第一个模型的预测准确度(或可能性)降低到50%。通过这种方式能显著减低种族,性别和年龄的指标,但无法完全消除。

相关资讯

  • 北京校区
  • 山西校区
  • 郑州校区
  • 武汉校区
  • 四川校区
  • 长沙校区
  • 深圳校区
  • 上海校区
  • 广州校区
  • 保定招生办

北京海淀区校区(总部):北京市海淀区西三旗街道建材城西路中腾建华商务大厦东侧二层尚学堂
北京京南校区:北京亦庄经济开发区科创十四街6号院1号楼 赛蒂国际工业园
咨询电话:400-009-1906 / 010-56233821
面授课程: JavaEE培训大数据就业班培训大数据云计算周末班培训零基础大数据连读班培训大数据云计算高手班培训人工智能周末班培训人工智能+Python全栈培训H5+PHP全栈工程师培训

山西学区地址:山西省晋中市榆次区大学城大学生活广场万科商业A1座702

郑州学区地址:河南电子商务产业园6号楼4层407
咨询电话:0371-55177956

武汉学区地址:湖北省武汉市江夏区江夏大道26号 宏信悦谷创业园4楼
咨询电话:027-87989193

四川学区地址:成都市高新区锦晖西一街99号布鲁明顿大厦2栋1003室
咨询电话:028-65176856 / 13880900114

网址:http://www.cssxt.com/
咨询电话:0731-83072091

深圳校区地址:深圳市宝安区航城街道航城大道航城创新创业园A4栋210(固戍地铁站C出口)
咨询电话:0755-23061965 / 18898413781

上海尚学堂松江校区地址:上海市松江区荣乐东路2369弄45号绿地伯顿大厦2层
咨询电话:021-67690939

广州校区地址:广州市天河区元岗横路31号慧通产业广场B区B1栋6楼尚学堂(地铁3号线或6号线到“天河客运站”D出口,右拐直走约800米)
咨询电话:020-2989 6995

保定招生办公室

地址:河北省保定市竞秀区朝阳南大街777号鸿悦国际1101室

电话:15132423123

Copyright 2006-2019 北京尚学堂科技有限公司  京ICP备13018289号-19  京公网安备11010802015183  
媒体联系:18610174079 闫老师  

Java基础班,免费试学三周