知识图谱 — rin.contact

大多数数据住在表里——整齐的行与列，一物一条记录。但我们真正想知道的，有很大一部分是关于关系的：谁为谁工作、哪家公司拥有哪家、这个账户如何与那个人相连。表处理这个很别扭（没完没了的连接，还有些问题你根本没法表述）。一个知识图谱按信息自然连接的方式来存储它——作为一张由关系连接起来的实体之网——把「一切如何关联？」从一个痛苦的查询，变成一个自然的查询。

它是网络分析页那个结构化的、讲事实的表亲（那一页研究一张网络的形状；这一页则关于存储与查询意义），并且正越来越成为把 AI 系统锚定在真实事实上的骨干。这一页是那个实用的想法：事实如何变成一张图、它如何被构建与查询，以及它在哪里有回报——又在哪里有代价。

把事实当作一张图

表示方式的转变正是全部的重点。在一张表里，「Acme 公司总部在阿德莱德」是某一行里的一个单元格；它与「阿德莱德在南澳」之间的连接住在另一张表里，把它们绑在一起意味着一次连接。在一个知识图谱里，Acme、阿德莱德、南澳全都是节点，由带标签的边直接相连——而从一家公司沿链条走到它所在的州，不过是走两条边。关系是一等公民的数据，而不是你按需重建的东西。

三元组：知识的原子

基本单位是三元组：一个单一的事实，表达为主语 → 谓语 → 宾语。「Acme → headquartered_in → 阿德莱德。」「阿德莱德 → located_in → 南澳。」「Jane → works_for → Acme。」每个三元组都是两个节点之间的一条边，而一整张知识图谱不过是这些三元组的一大堆—— 数百万乃至数十亿个——编织成一张相互连接的网。

把知识表示为三元组。每个事实都是一个主语→谓语→宾语的链接。把足够多的它们堆起来，实体就相互连接成一张你能遍历的图——Jane 为 Acme 工作，Acme 在阿德莱德，阿德莱德在南澳——这是一条表需要好几次连接才能跟随的链条。

这就是 Wikidata 存储维基百科背后结构化知识的方式，也是谷歌的知识图谱驱动其搜索结果旁那些事实框的方式。三元组很简单，但在规模上它表达力惊人。

本体：约定的词汇表

只有当所有人都同意实体和关系类型是什么意思时，一堆三元组才是连贯的。那个约定的词汇表就是本体（或模式）：它定义了事物的类别（人、组织、地点）以及它们之间有效的关系（一个人可以 work_for 一个组织；一个组织可以 headquartered_in 一个地点）。漂亮的说法是：数据 + 一个本体 = 一个知识图谱——本体正是那个告诉机器每个节点和边实际上是什么的东西，把图从一团字符串提升为一个有意义的结构。

本体也是让你能统一异构来源的东西：把两个不同的数据库映射到同一个共享的词汇表上，它们的事实就合并成一张相互连接的图，即便它们原本用不同的名字称呼同一样东西。

构建图谱：困难的部分

从真实而杂乱的来源构建一个知识图谱，正是真正的困难所在，而它倚靠本板块各处的工具：

实体与关系抽取——从非结构化文本里抽出结构化的三元组（一份说「Jane 加入了 Acme」的报告 → 那个 works_for 三元组）。这是一个NLP 任务，越来越多地用LLM 来做。
实体消解——关键所在。「J. Smith」「Jane Smith」和「Smith, J.」可能是一个人、也可能是三个，而图的好坏只取决于它判断这个的能力。把这个弄错，会把一个实体碎裂成许多个、或把不同的实体混为一谈——与数据准备页同样的记录链接问题，只是赌注更高，因为错误会腐蚀整个相互连接的结构。

把抽取与消解做对，图就强大；做错，它就自信地误导人。构建的成本——以及保持它准确——是核心的实际挑战。

查询：表回答不了的问题

回报在于那些查询。图查询语言（用于 RDF 图的 SPARQL、用于属性图的 Cypher）让你能问那些遍历关系的多跳问题——正是表所吃力的那些问题。「Jane 工作过的那些公司的供应商里，有哪些设在海外？」是一次自然的图遍历（Jane → 公司 → 它们的供应商 → 按地点过滤），但在 SQL 里却是一场连接的噩梦。

这才是去拿一个知识图谱的真正理由：当连接本身就是那个问题时。在许多关系上找出链条、路径、以及间接的链接，正是这个结构所为之而建的——也是网络分析的那些度量（中心性、社区、链接预测）随后可以叠加在上面的地方。

知识图谱 + LLM：GraphRAG

知识图谱最新的角色，是为大语言模型提供锚定。普通的 RAG 取回文本段落，而GraphRAG 从一个知识图谱里取回结构化的事实及其连接，喂给 LLM。因为那些事实是明确的、带类型的、可追溯的，这能大幅减少幻觉、并回答 LLM 否则会糊弄过去的多跳问题——图提供可验证的结构，LLM 在其上提供流畅的语言。它是一个迅速兴起的模式，恰恰因为它把每个系统的长处，去对上另一个的短处。

诚实的代价

知识图谱很强大，但远非免费：

它在我工作中的体现

由散落的事实拼成的可查询图景

在情报工作里，核心任务往往恰恰是知识图谱为之而建的：把实体——人、组织、账户、事件——跨许多散落的来源链接成一幅相互连接的、可查询的图景，然后追问它们如何关联。那些多跳问题（「谁通过哪些组织与这个人相连？」）才是要紧的、也是表不能轻易回答的。

我紧抓不放的是：价值的存亡系于实体消解——把「这是同一个人吗？」做对，正是一张澄清问题的图与一张误导人的图之间的差别——以及这个结构直接喂入网络分析（在图之上的中心性、社区）、并喂入 GraphRAG 以把 LLM工具锚定在可验证的事实上。它也与治理相配：一张谁-关联-什么的图很强大，因而要求对访问与准确性多加小心。

60 秒回顾

一个知识图谱把事实存成由关系连接的实体——用于当连接本身就是问题时（表对此处理得很差）。
原子是三元组：主语 → 谓语 → 宾语。把数十亿个堆成一张相互连接的网（Wikidata、谷歌的知识图谱）。
一个本体（模式）定义实体/关系类型——数据 + 本体 = 知识图谱；它也统一异构来源。
构建它：实体/关系抽取（NLP/LLM）+ 实体消解（关键所在—— 「是不是同一样东西？」；错误会腐蚀一切）。
用 SPARQL/Cypher 查询表做不到的多跳问题。GraphRAG 把 LLM 锚定在带类型的、可追溯的事实上（减少幻觉）。
代价：构建/维护昂贵、实体消解错误、陈旧化、僵硬的模式。当关系是核心时才用它——而非用于一切。

三元组/本体的基础、对实体消解的强调、SPARQL 查询，以及兴起中的 GraphRAG 模式，反映了当前的知识图谱参考文献以及亲身的实体链接工作。