安克雷奇可能不是世界上联系最紧密的地方。但事实证明,当人和数据紧密相连时,位置可能也会随之改变。安克雷奇在2019年主办了SIGKDD的知识发现和数据挖掘大会(俗称KDD)。这次会议是由计算机械协会(ACM)的知识发现和数据挖掘特别兴趣小组(SIGKDD)组织的。
KDD是数据科学和人工智能领域最著名和最受欢迎的活动之一,2018年在伦敦吸引了大约3500名研究人员。尽管在安克雷奇举办2019年KDD的决定引起了一些担忧,但出席人数并没有真正下降。
KDD的第25个化身是数据科学和人工智能领域的“谁是谁”。KDD是由研究数据科学和人工智能的人建立的,他们在获得当前的绰号并引起广泛关注之前就已经开始研究数据科学和人工智能了。
KDD是研究和工业的交汇点。在KDD中展示作品的人经常要经过那些旋转门,其中一些人同时担任这两种角色。例如,KDD应用数据科学邀请演讲者跟踪,包括来自Airbnb、阿里巴巴、亚马逊、苹果、Facebook、谷歌、NASA、LinkedIn和微软等公司的数据科学家。
对这些人来说,最重要的事情之一似乎是挑战深度学习的极限。这种形式的机器学习在最近几年取得了巨大的成就。许多人工智能研究人员认为,深度学习本身永远不会比复杂的模式识别复杂得多:对于面部识别或语言翻译非常有用,但缺乏真正的智能。
苹果将领域知识融入深度学习
苹果公司人工智能研究主管、卡内基梅隆大学机器学习系计算机科学教授Ruslan Salakhutdinov在他的演讲中关注的正是这个主题:将领域知识整合到深度学习中。
这次演讲以萨拉克哈迪诺夫在CMU的笔记为基础,探索了将领域知识融入机器学习模型体系结构和算法中的方法。考虑了三类领域知识:关系知识、逻辑知识和科学知识。
逻辑知识指的是命题逻辑和一阶逻辑,或者用更简单的术语,基于规则的推理:例如,如果一个物体有翅膀和喙,它就是一只鸟。科学知识,如牛顿运动定律,是以更复杂的方式编码的,如偏微分方程和随机微分方程。
关系知识是指实体之间的简单关系,如(父、Bob、Alice)。这种类型的知识可以通过关系数据库或知识图获得。与逻辑和科学知识相比,它可能是最简单的,但这并不意味着将它简单地融入机器学习中。
Salakhutdinov的演讲集中在阅读理解和自然语言处理(NLP)。NLP的当前状态将作用于非结构化数据(文本)的技术与将其转换为结构化数据(知识图)的技术相结合。
嵌入就是其中一种技术,最初用于文本,现在也扩展并适应于图。嵌入式的思想是将机器学习算法不能直接处理的高阶结构表示为机器学习可以使用的低阶向量结构。
有很多方法可以做到这一点,但最终在文本中,就像在图形中一样,目标是将相似的输入映射到相似的向量值。IBM Research和华为在KDD中展示的工作旨在推动图形嵌入技术的发展。
阿里巴巴搭建了一个全面的图神经网络平台
KDD的另一位受邀演讲者是阿里巴巴集团高级数据科学家兼董事杨洪霞。杨的演讲集中在AliGraph上,这是一个综合性的图神经网络平台。
正如阿里巴巴的工作中所指出的,越来越多的机器学习任务需要处理大型图形数据集,这些数据集捕捉了潜在的数十亿个元素之间丰富而复杂的关系。图神经网络(GNN)是解决图学习问题的一种有效方法。
GNN是直接作用于图形的神经网络。GNN的一个典型应用是节点分类:图中的每个节点都与一个标签相关联,目标是在没有ground-truth的情况下预测节点的标签。要使用GNNs,数据科学家首先需要将图转换为邻接矩阵,尽可能保持结构和属性信息的完整性。
然而,提供有效的图形存储和计算能力,以促进GNN培训,并使新的GNN算法的发展是具有挑战性的。杨洪霞提出了一种由分布式图存储、优化采样算子和运行时组成的综合图神经网络系统AliGraph。
该系统目前部署在阿里巴巴,支持多种商业场景,包括阿里巴巴电子商务平台上的产品推荐和个性化搜索。它不仅可以有效地支持现有的流行GNN,还可以支持一系列针对不同场景的内部开发GNN。
在一个包含49290万个顶点、68.2亿个边和丰富属性的真实数据集上进行的实验表明,就图形构建而言,AliGraph的执行速度比现有工作快一个数量级:从最先进的PowerGraph平台报告的5分钟到几个小时。在培训中,AliGraph运行速度提高了40%到50%,并演示了改进后运行时的速度提高了约12倍。
阿里巴巴使用图分区、属性的单独存储和重要顶点的缓存邻居来克服高效访问图的挑战,特别是在集群的分布式环境中。这个非常密集的工作概述了在追求更细粒度、更快和更精确的GNN和添加自动ML功能方面的未来方向。
亚马逊使用图神经网络估计知识图中节点的重要性(列表还在继续)
最后但并非最不重要的是,来自亚马逊的一组研究人员与CMU合作评估了知识图中节点的重要性。正如他们所指出的,事实证明,知识图对于许多任务都很有价值,包括回答问题和语义搜索。估计知识图中节点的重要性可以实现几个下游应用程序,比如项目推荐和资源分配。
虽然已经开发了几种方法来解决一般图的这个问题,但是它们没有充分利用知识图中可用的信息,或者缺乏建模实体及其重要性之间复杂关系所需的灵活性。为了解决这些限制,亚马逊的研究人员探索了监督机器学习算法。
基于GNN的最新进展,他们开发了GENI,这是一种基于GNN的方法,用于处理预测知识图中节点重要性的特殊挑战。GENI执行的是重要性评分的聚合,而不是节点嵌入的聚合,在评估时,GENI的结果质量要比目前的状态好5%到17%。
以上大部分听起来可能相当奇特。然而,无论它们是否具有异国情调,在现实世界中使用时,它们的含义都相当重要。AliGraph的意思是,阿里巴巴目前似乎拥有运行GNN应用程序的最先进的基础设施。GENI意味着亚马逊比任何人都能更好地识别其知识图中的重要节点。
苹果将不同类型的知识整合到深度学习中,这一雄心壮志可能意味着,苹果是第一个将深度学习和符号人工智能结合起来的公司。这个列表并没有在这里结束——从苹果这样有远见的框架到更多面向用例的应用程序。
Snapchat正在使用一个动作图来描述和预测用户的参与度。百度使用的是一个工作技能的知识图,技能图,建立的综合建模的相关能力,应该在工作面试中评估。同样,阿里巴巴将神经网络和中国DBpedia知识库结合起来,生成个性化的产品描述。
谁会想到:中国制造的基于知识的研发将统治世界
总之,图形相关和基于知识的研究和开发正在蓬勃发展。KDD程序中的快速计数说明了这一点。300多篇论文是很多的,我们只是多看了几篇引起我们注意的。但在300多份出版物中,约有20%似乎涉及图表和基于知识的系统。
还有一件事:来自中国的巨额捐款。不仅仅是上面提到的一些中国组织,还有非中国组织中的中国研究人员。这似乎证实了专家们的观点——中国的人工智能也在迅速发展,如果还没有成为世界第一的话,中国必将成为世界第一。
还要注意另一件事,尽管算不上原创:研究与工业之间的相互作用。正如前面提到的,在KDD上发表的许多工作是研究和行业的共同努力。通常情况下,研究人员要么跳槽到工业界,要么同时从事研究和工业工作。一方面,这剥夺了研究的天赋;另一方面,它给行业带来了精神和严谨。
这些趋势有一个共同的特点:就在几年前,它们似乎不太可能发生在大多数人身上。谁会想到:中国制造的基于知识的研发似乎注定要统治世界。