这个常识提取引擎看起来比百度还好用一丢丢

2019-11-10 15:52:21 阅读：1156+ 出处：PingWest 作者：责任编辑NO。姜敏0568 责任编辑：责任编辑NO。姜敏0568

（原标题：这个来自我国的常识提取引擎，看起来比百度还好用一丢丢）

文/光谱

作为文字工作者，我每天都在跟查找引擎打交道。

比方在写Facebook的财报新闻时，Google能够告诉我它的实时股价、市值、近期高低点等十分有用的信息。

但其实，还有另一个东西比Google更好用，那便是Wolfram Alpha。它比Google更进一步，能够用结构化的方法直接列出我或许需求的常识。

举个最简略的比方：我家带宽是75Mbps (9.375MB/s)，要下载一个100GB的文件需求多久？我能够直接用自然语言问询，Wolfram Alpha不只会告诉我答案，还会写出公式：

它不仅仅一个数学东西，仍是一个很好的常识聚合东西。比方最近电影《小丑》很火，假如我想写关于它的文章，上Wolfram Alpha一搜就能找到许多细节，包含并不限于影片信息、排名和票房等。

精确来讲，Wolfram Alpha并非一个查找引擎。它的官方界说叫做“核算式常识引擎”，可拿来答复那些没有揭露答案，可是核算一下即可得到的问题。并且，它用结构化的方法去展示答案，而不是像查找引擎那样，把链接一条一条列出来。

接下来介绍今日文章的主角：Magi，一个最近几天在我的技能圈朋友中心小有名气的东西。

Magi看起来也像是一个查找引擎：

可是只需玩上一次，就会发现，它和你印象中的一切查找引擎都大不相同。

当我用它查找词条“易烊千玺”时，得到了下面的成果。

首要，答案供给了对易烊千玺的几个要害描绘，如“TFBOYS的成员”、“00后国民偶像代表”等。紧接着，它列出了关于词条主人的简直悉数的重要特点，包含由他出生年月、参演的影视作品、宣布的音乐专辑等。

答案的结构化展示方法，和Wolfram Alpha颇有相似。

甚至连千纸鹤（易烊千玺粉丝代称）的应援色都答了出来

更风趣的是，magi.com还答出了易烊千玺的几个近义项，比方他的昵称、代称和他所养的宠物等等。

有时分，Magi还能给出一些令我哑然失笑的成果……

输入了一下“新世纪福音战士”。答案的描绘中有“业界有名的劳模”……

又搜了一下小岛秀夫，答案里的“特长”一项我也是醉了……

接下来搜了一下富坚义博。

或许由于职业生涯中大部分时刻都在拖稿，magi.com告诉我富坚的业余爱好是“画画漫画”……

当然，大部分时分magi.com给出的答案仍是比较靠谱的。

查找到的答案，每一条都会用以绿、黄、红三种色彩表明其可信度从高到低；在答案的右侧则会供给几条链接，用鼠标划过它们即可看到，答案是从哪个/哪几个详细的来历学习到的：

你会注意到，magi.com的成果中，答案在正下方，链接跑到了右边，跟干流查找引擎的用户界面彻底是反的。

这便是Magi和干流查找引擎最大的差异地点：链接关于它不是成果，答案才是。

这是由于Magi并非查找引擎（虽然具有一些查找引擎的功用）。它其实便是一个根据机器学习的常识引擎，能够检索和提取任何范畴自然语言文本，将其间的常识提取出来，构成结构化的数据。

说得简略一点：

咱们都知道，互联网上有着许多的，根据文本的信息，傍边蕴藏着许多的常识。可是，核算机读不明白互联网上大部分的信息，由于这些信息往往不是以“性别：男”、“国籍：我国”这样的结构化形状，而是以自然语言的形状出现的。

比方，”埃菲尔铁塔的高度“是一个入门级的问题，由于早已有人收拾出了正确的答案，写在维基百科和旅游网站上；可是想知道“埃菲尔铁塔的第二节电梯线路有多长”，就很难在查找引擎上查到精确信息了。这是由于很少有人会把这些细节的数据，以结构化的方法记录在互联网上。

这便是Magi想要处理的问题：从敞开范畴的纯文本傍边提取常识，并让其可解析、检索和溯源。

Magi来自我国团队Peak Labs，创始人季逸超在开发者圈子内也小有名气。2011年，还在北大附中读书期间，他就单独完成了猛犸浏览器iOS的开发。次年，他只用两天时刻就完成了Rasgueado，第一个支撑划动手势操控光标方位的iOS输入法

2012年，季逸超创办了自己的公司，持续推进浏览器和输入法项目。现在，Peak Labs首要精力都放在Magi项目上，专心于背面的技能，以及相关商业产品的开发。

中心：季逸超

Peak Labs并没有方案将Magi和Google、百度之类的干流查找引擎混为一谈。把Magi做成一个“查找引擎”，首要是为了让大众有时机能够体会它背面的技能，感触它能够供给的价值百科。

即便如此，看起来很像查找引擎的magi.com，实力仍是不容小觑。事实上，为了这个演示性质的产品，Peak Labs并没有挑选小聪明的方法，从其他查找引擎抓取成果，而是从零开发了一套互联网查找引擎。

”咱们的成果的摘要比一般的查找引擎都长，是的，咱们是故意为之。这足以证明咱们的成果不或许来自其他查找引擎，“季逸超在官网上写道。

依照每个用户输入问题、要害词和表达式的不同，magi.com能够用不同的方法来出现答案——详细的出现方法也展示了Magi体系的才能。

比方，输入“打车软件公司”，Magi体系能够把它知道的一切手机叫车公司，以“调集”的方法列在答案里。

而在百度上，得到的成果如下。能够正常的看到百度的常识图谱也供给了相似的成果，仅仅看起来有四、五年没有更新过了：

再比方，假如输入“八角大料”，Magi体系会发现这两个要害词其实是同一个东西，它就会以“断语”的方式给出答案。

如下图，magi.com告诉我，八角和大料是“近义项”，是“又称”、“也称”的联系。

Magi体系能够24小时不间断地进行学习。它的时效性也还算不错，Peak Labs声称实时新闻傍边的常识，Magi只需求5分钟就能够把握，并且还能够采纳新的信息源进行穿插验证，完成主动纠错。

假如你在magi.com的主页逗留一会，就能看到它当时正在学习的链接：

除了自主开发的全网规划查找引擎以外，Peak Labs还开发了根据注意力机制的神经信息提取体系，不依赖无界面浏览器的分布式抓取体系（爬虫程序MagiBot），以及支撑混合处理170多种语言的自然语言管道。

这四者结合在一起，才是Magi体系的全貌。

作为EVA粉，这儿不得不打断一下：Magi以及它的四个子体系，称号悉数来自《新世纪福音战士》（EVA自身取材自圣经等其他西方宗教经典），并且命名里也有彩蛋：

Magi（三贤者，多个体系组成的超级核算机）

查找引擎Ramiel（雷天使，）

神经信息提取体系Ireul（恐惧天使，具有学习和进化才能）

自然语言处理管道Arael（鸟天使）

爬虫程序Matarael（雨之天使，表面像蜘蛛）

Peak Labs在官网指出，现在的Magi技能还没有彻底老练。

的确如此。现在经过magi.com能够观察到一些问题，比方许多能够在干流查找引擎中简单找到的答案，magi.com给不出来（一般是由于它还没有学到）；

比方查找“世界上最富有的人”时，我想要的是Magi能告诉我当时谁最富有，但它只能告诉我最富有的那一群人：

比方消歧义的把控，简单导致答案紊乱（这一点季逸超自己在知乎上[1]也有所说到）：

近邻老王不大或许是你的亲属

再比方，碰到一些实在太“杂乱”的词条，magi.com就杂乱了……

不过正如前面说到，这个查找引擎并不是Peak Labs的终究产品——他们的真实意图，是凭借查找引擎背面Magi体系的力气，供给企业级的服务。

Peak Labs的官网指出，他们期望未来的Magi体系能够成为“常识范畴的ImageNet”。它现已展示出的敞开范畴信息提取才能，能够应用到企业客户地点的细分范畴内，变成一个愈加强壮的信息抽取体系，让每一个范畴、每一家企业都能够轻松地打造归于自己的常识图谱。

“或许在不远的未来，伴随着整个职业的前进，Magi所构建的容纳万事万物的结构化网络，将成为通向可解释人工智能的柱石。”Peak Lab的网站这样写道。

——期望这个愿景能够完成。（就算完成不了也没联系啊！拿magi.com搜些古怪的东西，仍是能得到不少笑料的……）

假如你对Magi的技能细节感兴趣，能够到Peak Labs网站进一步了解。季逸超在知乎的答复也做了愈加翔实的论述。

[1] 季逸超在知乎问题《怎么点评Peak Labs出品的2019版Magi查找引擎？》的答复https:///question/354059866/answer/881655371

除了部分截图，其他均来自Peak Labs网站和前述知乎答复

上一篇：OPPO搅局成功了90Hz电

下一篇：B站视频博主带头薅垮

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

这个常识提取引擎看起来比百度还好用一丢丢

本周热门

推荐图文