什么是知识图谱?
知识图谱,也称为语义网络,代表现实世界实体(例如对象、事件、情境或概念)组成的网络,并说明了它们之间的关系。这些信息通常存储在图形数据库中,并以图表结构的形式可视化,从而产生了知识“图谱”这一术语。
知识图谱由三个主要组件组成:节点、边缘和标签。任何对象、地点或人物都可能是节点。边缘定义节点之间的关系。例如,节点可能是客户(如 IBM)和代理机构(如 Ogilvy)。边缘是将关系归类为 IBM 与 Ogilvy 之间的客户关系。
A 代表主语,B 代表谓语,C 代表宾语
还值得注意的是,知识图谱的定义各不相同,有研究表明,知识图谱与知识库或知识本体没有什么不同。相反,该研究主张这个词是在 2012 年由 Google 的 Knowledge Graph 推广的。
知识本体
知识本体在知识图谱的语境中也经常被提及,但同样,关于它们与知识图谱有何不同仍然存在争议。最终,知识本体的作用是为图中的实体创建一个正式的表示形式。它们通常基于分类法,但由于它们可以包含多个分类法,因此它保留了自己单独的定义。由于知识图谱和知识本体以类似的方式(即通过节点和边缘)进行表示,并且都基于资源描述框架 (RDF) 三元组,因此它们在可视化效果中往往彼此相似。
知识本体的一个例子可能是如果我们检查一个特定的场所,比如 Madison Square Garden。知识本体使用变量(如时间)来区分该位置的事件。像 New York Ranger 这样的球队在一个赛季内有一系列比赛将在该赛场举办。它们都是冰球比赛,而且都在同一个场地举行。但是,每个事件都通过日期和时间来区分。
网络本体语言 (OWL) 是广泛采用知识本体的一个例子,它得到万维网联盟 (W3C) 的支持,这是一个倡导互联网长期开放标准的国际社区。最终,这种知识组织由数据库、API 和机器学习算法等技术基础设施支持,它们的存在是为了帮助人们和服务于更有效地访问和处理信息。
最新的 AI 新闻 + 洞察分析
在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。
立即订阅
知识图谱的工作原理
知识图谱通常由各种来源的数据集组成,而这些数据集在结构上往往不同。模式、标识和上下文共同为多样化数据提供结构。模式为知识图谱提供了框架,标识对底层节点进行了适当分类,而上下文则决定了知识存在的环境。这些组件有助于区分具有多种含义的单词。这允许产品(如 Google 的搜索引擎算法)确定 Apple 品牌和真正苹果之间的区别。
由机器学习驱动的知识图谱利用自然语言处理 (NLP),通过称为语义丰富的过程构建节点、边缘和标签的全面视图。摄取数据时,此过程允许知识图谱识别单个对象并了解不同对象之间的关系。然后将这些工作知识与其他数据集进行比较和集成,这些数据集在本质上是相关且相似的。知识图谱完成后,它允许问答和搜索系统检索和重用给定查询的全面答案。虽然面向消费者的产品展示了其节省时间的能力,但相同的系统也可以应用于业务环境,消除手动数据收集和整合工作以支持业务决策。
围绕知识图谱的数据整合工作也可以支持新知识的创造,在数据点之间建立以前可能没有认识到的联系。
Mixture of Experts | 8 月 28 日,第 70 集
解码 AI:每周新闻摘要
加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。
观看最新播客节目
知识图谱用例
有许多面向消费者的流行知识图谱,它们为整个企业的搜索系统设定了用户期望。这些知识图谱包括:
DBPedia 和 Wikidata 是 Wikipedia.org 上数据的两个不同知识图谱。DBPedia 由 Wikipedia 信息框的数据组成,而 Wikidata 则侧重于二级和三级对象。两者通常都以 RDF 格式发布。Google 知识图谱通过 Google 搜索引擎结果页 (SERP) 来表示,并根据人们搜索的内容提供信息。该知识图谱由超过 5 亿个对象组成,数据来自 Freebase、Wikipedia、CIA World Factbook 等。
然而,知识图谱在其他行业也有应用,例如:
零售:知识图谱一直用于追加销售和交叉销售策略,根据个人购买行为和人口统计群体中的热门购买趋势推荐产品。娱乐:知识图谱还用于内容平台(如 Netflix、SEO 或社交媒体)基于人工智能 (AI) 的推荐引擎。根据点击和其他在线参与行为,这些提供商会推荐新内容以供用户阅读或观看。金融:这项技术也已用于金融行业内的了解客户 (KYC) 和反洗钱计划。它们协助金融犯罪预防和调查,使银行机构能够了解客户之间的资金流向并识别不合规的客户。医疗保健:通过组织和分类医学研究中的关系,知识图谱也使医疗保健行业获益匪浅。这些信息可帮助提供方验证诊断并根据个人需求确定治疗计划。