理想下载站 手游攻略 新游动态 从自然语言处理到人工智能的两条路径(附64页PPT)语言处理自然属性包括

从自然语言处理到人工智能的两条路径(附64页PPT)语言处理自然属性包括

时间:2024-06-23 19:44:21 来源:网络整理 浏览:5

编写组 | 韩阳、范月灿、毛莉、曹翔

如今,这个世界已经变成了一个机器思考、学习和创造的世界。而且,它们做这些事情的能力将迅速提高,在不久的将来,它们能够解决的问题范围将随着人类思维的应用范围而扩大。

—赫伯特·西蒙,1957 年

2017年1月14日,在德克萨斯数据日大会上,Deep Grammar联合创始人、首席执行官、人工智能专家、机器学习专家Jonathan Mugan发表了题为《深度学习用于自然语言处理》的演讲。

Jonathan Mugan 的演讲主要关注人工智能、机器学习和自然语言处理的结合,在本次演讲中他重点讲解了如何从自然语言处理走向人工智能,以及两种具体的路径:符号路线和亚符号路线。

本文根据该演讲64页PPT中文翻译版,点击右上角进入大数据文摘后台,回复“自然语言处理”即可获取完整版演讲PPT。

人工智能已经变得更加智能,特别是深度学习,但计算机仍然无法智能地阅读或说话。

要理解语言,计算机需要理解世界。它们需要回答以下问题:

为什么用绳子可以拉车,却不能推车呢?

为什么体操运动员不常单腿参加比赛?

为什么只有外面下雨?

如果桌子上有一本书,你推桌子,会发生什么?

如果鲍勃去垃圾场,他会去机场吗?

让我们以基于感觉和行动的方式来理解语言 -

当有人说“鸡”时,我们会直接将其与我们对鸡的经验联系起来。我们彼此理解,因为我们有相同的经验,而这正是计算机所需要的理解。

理解含义的两条路径:

无意义的标记

词袋表示:

将单词视为任意符号并查看其频率。“狗咬人”和“人咬狗”完全相同。考虑一个包含 50,000 个单词的词汇表:

“aardvark” 的位置是 0

“ate” 的位置是 2

“动物园” 的排名是 49,999

一个词袋可以是一个具有 50,000 维的向量。

“土豚吃掉了动物园。” = [1,0,1,...,0,1]

通过计算这些词出现的频率,我们可以做得更好一些。

tf:词频,即词语出现的频率。

“土豚吃掉了动物园旁边的土豚。” = [2,0,1,...,0,1]

推广不常见的单词:

我们可以认为不常见的单词比常见的单词更能。。文本,从而获得更好的结果。将每个条目乘以一个度量,该度量表示它在语料库中的常见程度。

idf:逆文档频率索引

idf(术语,文本) = log(文本数量/包含术语的文本数量)

10 篇文本中,只有一篇有“土豚”,5 篇有“动物园”,5 篇有“吃”

tf-idf:tf * idf

“土豚吃掉了动物园旁边的土豚。” =[4.6,0,0.7, ..., 0, 0.7]

这叫做向量空间模型。你可以将这些向量输入到任何分类器中,或者根据相似的向量找到相似的文档。

主题模型(LDA):

潜在狄利克雷分配

您选择主题的数量,每个主题都是单词的分布,每个文档都是主题的分布,这在 Python 主题模型 gensim 中很容易做到()

使用 pyLDAvis 在 Twitter 上应用 LDA:

情感分析:作者对文本有何感受?

手动设置表达式

我们通过手动指定符号之间的关系来告诉计算机事物的含义。

1. 使用预先确定的关系来存储含义

2. 说明多种写作方式

通过相对较少的表达式,我们就可以编码机器应该做的事情。

WordNet:

框架网络:

概念网络:

另一个本体:

建议合并的本体:

图像模式:

图像图式是人类对跨文化共同经验的表征。

—费尔德曼,2006 年

人类使用图像图式来理解空间排列和运动

—曼德勒,2004年

意象图式的例子包括路径、先知、障碍和吸引力

—约翰逊,1987 年

浪漫关系和争论等抽象概念被用作这种体验的隐喻。

—Lakoff 和 Johnson,1980 年

语义网-链接数据:

世界模型

自然语言处理_语言处理自然属性包括_自然语言处理hmm

计算机需要因果模型来解释世界如何运作以及如何与之互动。人们不会为了传达信息而说出一切,只会说出我们共同概念未涵盖的内容。编码我们共同概念的最有效方法是借用模型。模型表达了世界如何根据。。发生变化。回顾商业购买框架,后来,一个人有更多的钱,另一个人有更少的钱,结论就是从模型中读出的。

模型纬度:

概率:确定性与随机性。例如,逻辑与概率编程

因子状态:整体状态和所用变量的比较。例如,有限自动机和动态贝叶斯网络的比较

相关性:命题逻辑和一阶逻辑。例如,贝叶斯网络和马尔可夫逻辑网络

并发:将一个事物模型与多个事物进行比较。例如,将有限自动机与 Petri 网进行比较

时间:静态 vs. 动态。例如贝叶斯网络 vs. 动态贝叶斯网络

通过将表达式与模型合并:

Word2vec

Word2vec 模型为词汇表中的每个单词学习一个向量。每个词向量的维度相同,通常在 300 左右。与 tf-idf 向量不同,词向量紧凑,并且大多数值不为零。

1. 将每个单词初始化为随机向量

2. 对于文档集中的每个单词 w1:

3. 对于单词 w1 周围的每个单词 w2:

4. 移动向量,使得 w1 和 w2 更近,而其他单词距离 w1 更远。

5.如果不满足终止条件,则跳转到步骤2

——Skip-gram模型(Mikolov等,2013)

注意:每个单词实际上有两个向量,因为你不希望单词靠近它自己。(参见 Goldberg 和 Levy)这个双 for 循环解释来自 Christopher Moody

word2vec的含义:

我们经常会看到这样的名言:

“你可以通过观察一个单词周围的其他单词来理解它”

——JR·弗斯 1957年

从某种意义上来说,这似乎是正确的。

“向量具有内部结构。”

——Mikolov 等,2013 年

意大利 – 罗马 = 法国 – 巴黎

国王 – 王后 = 男人 – 女人

但是……词语不是基于经验,而只是基于周围的其他词语。

(您也可以在 ConceptNe 上执行 word2vec,请参阅 /pdf/1612.03975v1.pdf)

Seq2seq 模型

seq2seq(序列到序列)模型可以将符号序列(例如句子)编码为向量。反过来,该模型可以将向量解码为另一个符号序列。编码和解码都可以使用循环神经网络 (RNN) 完成。一个明显的应用是机器翻译。例如,源语言是英语,目标语言是西班牙语。

将句子含义编码成向量:

解码句子:

生成图像标题:

回答提问

兴趣点:

深度学习和问答:

神经网络学习符号序列之间的联系,但这种描述不足以涵盖现实世界中丰富的联系。

外部世界训练

如果我们想与机器交流,我们需要在尽可能与我们相似的环境中训练它们。而不仅仅是对话!(Harnad [1990])为了理解“鸡”,我们需要机器尽可能多地了解“鸡”。当我们说“鸡”时,我们不仅仅指鸡,还指我们可以用它做的所有事情,以及它在我们的文化中所具有的所有含义。

在此方向上已经做了很多工作:

首先,在工业领域——

1. OpenAI

世界:通过 VNC(远程桌面)在屏幕上进行培训

现在是通过侠盗猎车手!

()

2.谷歌

Mikolov 等人,《机器智能路线图》。

它们定义了一个人工环境。()

3. Facebook

Weston,《对话记忆网络》

Kiela 等人,《虚拟体现:人工智能的可扩展长期战略》研究。提倡“有目的地”使用电子游戏

当然还有学术界——

1. 雷·穆尼

将文本映射到情况

2.卢克·斯蒂尔斯

具有词汇和简单语法的机器人

3. Narasimhanet 等。

训练神经网络玩基于文本的冒险游戏

然而,我们需要针对现实世界进行更多的训练:

也许等到亚马逊 Alexa 有了摄像头和可以移动的头之后,我们能在没有老师指导的情况下走多远呢?

我们可以利用目光作为信息来源吗?

——Yu 和 Ballard,[2010]

从 NLP 到 AI 的两条路径

最后的想法

开放式问题:

从商业角度来看,需要运用常识和逻辑推理的最简单的任务是什么?

关于转载
如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 |bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

志愿者介绍

标题:从自然语言处理到人工智能的两条路径(附64页PPT)语言处理自然属性包括
链接:https://www.ltthb.com/news/xydt/121728.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
ToonMe怎么取消自动续费?自动续费关闭方法

ToonMe怎么取消自动续费?自动续费关闭方法[多图],ToonMe中的迪士尼滤镜很火爆,有不少小伙伴都喜欢,不过在使用

2024-06-23
航海王热血航线藏宝图位置在哪?全部藏宝图位置坐标大全

航海王热血航线藏宝图位置在哪?全部藏宝图位置坐标大全[多图],航海王热血航线藏宝图在哪里?怎么样才能找到藏

2024-06-23
cf手游云悠悠角色怎么获得?云悠悠什么时候上线

cf手游云悠悠角色怎么获得?云悠悠什么时候上线[多图],cf手游云悠悠角色什么时候出?云悠悠角色获得的方法是什

2024-06-23
英雄联盟联动优衣库活动详情一览:LOL联动优衣库T恤购买地址入口

英雄联盟联动优衣库活动详情一览:LOL联动优衣库T恤购买地址入口[多图],英雄联盟联动优衣库T恤衫什么时候发售

2024-06-23