浅谈知识图谱(二)-元数据的重要性

摘要

本文强调了元数据对知识图谱构建的重要性,希望读者认识到元数据对个人知识管理中的可视化也是同样重要的,并在文末提出了一个构建obsidian有效全局图谱的方法。

引言

之前介绍了通过文献之间的引用,我们可以追踪科学研究的动向,并且进行可视化,展示有效的信息。但同时也提到,知识图谱并非容易之事,背后还有诸多努力可能被使用者忽视。本文主要介绍元数据对知识图谱构建的重要性。

元数据

首先,本文的元数据(Metadata)是指从Web of Science、Scopus、知网等学术检索引擎上对学术论文的描述信息。
以Scopus为例,其提供的元数据如下图。

当我们下载了相关的引用文件(例如bib、ris),使用记事本打开,就会发现许多的元数据信息。因为全部信息太多,我只截取部分信息展示如下。

这些元数据信息非常丰富,例如上图的CR字段对应的就是本文献中引用的文献。一些常见且有用的信息大致有:作者、单位、发表期刊、发表年、被引文献(这篇文献引用了哪些文献)、施引文献(哪些文献引用了这篇文献)等等。

只有获取了上述的元信息,才能对文献之间的关系进行分析和数据挖掘,最终可视化得到有用的图谱。

个人的话

通过上文可知,要进行可视化之后必须获得丰富的元数据。在个人知识管理中,如果将一篇文档视为一篇论文,双链视为引用,那我们看一下这篇文档中的原信息有多少呢?
以我个人的模板为例,元数据一般都放在了yaml中,我的yaml如下

---
title: (标题)
uid: 202101282344(创建时间)
aliases: [(别名)]
tags:  (标签)
from: (来源)
---

我认为勉强可以算是元数据的可能就是创建时间和标签。标签我一般写在正文中,且是以双链形式存在,例如[[tag-标签1]]。而目前图谱功能好像还不能根据创建时间的先后来构建关系,因为是去中心化,是无方向的。所以这两个数据似乎也不能参与到知识图谱的构建中。
在文章的最后,我也给出一个粗略的想法,即使用一个双链写入特殊字段,在图谱中进行筛选,从而能获得全局视角的有效图谱。例如,在obsidian中,我在所有有关于R语言的知识卡片中,都输入了[[tag-R语言]],然后我在图谱中检索tag-R语言(或者进入相关的),从而能获得一张较为有效的全局图谱。

如果感觉“tag-R语言”的节点太大,且无意义,可以将该md文件删除,然后在图谱检索中勾选“仅显示已创建的笔记”,这样各个节点之间的关系可能更为自然。