Pelhans Blog

道阻且长,行则将至

实体链接论文大礼包

* TOC {:toc} # 学习中... # 概览 实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务。潜在的应用包括信息提取、信息检索和知识库填充。但是,同一个实体通常有很多别称,同一名称也可能指向多个实体,此任务具有挑战性。 从方法上看,可分为两段式方法和端到端的方法,其中两段式方法先进行 NER 将文本中的实体识别出来,而后根据该 mention 找到候选实体集,...

<语义网基础教程>笔记(四)

本体工程

> 本部分将介绍手工构建本体、本体复用和使用半自动化方法等技术。其实原计划后面还应有一个逻辑与推理:规则部分,但是我自己也没太理解,因此等以后再补。 * TOC {:toc} # 手工构建本体 将本体开发区分为以下几个阶段: * 1. 确定范围 * 2. 考虑复用 * 3. 枚举术语 * 4. 定义分类 * 5. 定义属性 * 6. 定义刻面 ...

<语义网基础教程>笔记(三)

万维网本体语言:OWL2

> 首先描述 OWL2 的动机以及它与 RDF 和 RDFS 的关系。接下来将介绍 OWL2 的各种语言元素及 OWL2 概要。 * TOC {:toc} # 简介 RDF 被限定为二元闭谓词,而 RDF 模式被限定为子类层次和属性层次,以及属性的定义域和值域定义。为了提供 RDF 和 RDFS 以外的更多特征,结果产生了 OWL2 语言代表万维网本体语言。 # 本体语言的需求 一...

<语义网基础教程>笔记(二)

查询语义网:SPARQL

> 本章将介绍SPARQL 查询得以执行的基础设施,之后讨论SPARQL的基础知识并逐步介绍其更复杂的部分。 * TOC {:toc} # 简介 SPARQL 能够让我们通过选择、抽取等方式从被表示为 RDF 的知识中获取特定的部分。SPARQL 是专为 RDF 设计的,适合并依赖于万维网上的各种技术。如果你熟悉诸如SQL 等数据库查询语言,你会发现 SPARQL 和它们有很多相似之处...

语义网基础教程笔记(一)

资源描述框架:RDF

> 看书不记笔记的下场就是还得看一遍。。。 RDF 是一种勇于表达有关对象(资源) 的生命的语言;它是一个标准的数据模型以提供机器可处理的语义。RDF模式提供了一组用于将RDF词汇表组织成带类型的层次结构的建模原语。 * TOC {:toc} # 简介 万维网的成功展现了使用标准化的信息交换和通信机制的力量。HTML是可编辑的网页的标准语言,它用于传递有关面向人类的文档的结构的信息。而...

从零开始构建知识图谱(十三)

百科知识图谱构建(七)基于 Silk 的批量知识融合

> 目前为止我们已经从百度百科获取了三元组 62,857,364个,互动百科 65,738,654个。使用 Silk 工具将他们在实体层次进行融合并给出 关系时发现,在使用全部数据进行融合时,会导致内存爆掉。因此这里介绍通过使用命令行进行批量融合。 [项目链接](https://github.com/Pelhans/Z_knowledge_graph/tree/master/knowle...

百科知识图谱构建(四)

基于Silk的知识融合

> 目前为止我们已经从百度百科获取了三元组 62,857,364个,互动百科 65,738,654个,词条每个都是400多万个。由于都是百科类,因此有大量的重复词条。现在我们使用 Silk 工具将他们在实体层次进行融合并给出 关系。 * TOC {:toc} # 简介 [silk](https://github.com/silk-framework/silk) 是一个集成异构数据源的...

百科知识图谱构建(三)

Jena的使用及简单SPARQL查询

> Apache Jena 是一个免费开源的支持构建语义网络和数据链接应用的Java 框架,由惠普实验室开发,支持内存和永久存储。 * TOC {:toc} # 简介 Apache Jena是专门用于语义网本体操作的开源Java框架,其提供RDF和SPARQL API,来查询、修改本体和进行本体推理,并且提供了TDB和Fuseki来存储和管理三元组。 ![](/img/in-post...

百科知识图谱构建(二)

数据库到RDF

> 结构化数据到RDF由两种主要方式,一个是通过direct mapping,另一个通过R2RML语言这种,基于R2RML语言的方式更为灵活,定制性强。对于R2RML有一些好用的工具,此处我们使用d2rq工具,它基于R2RML-KIT。这里和前面电影的有些重复,但侧重点不同。 * TOC {:toc} # 简介 Direct mapping 本质上是通过编写启发式规则将数据库中的表转换...

语义网基础教程(一)

描述万维网资源:RDF

> 本节对知识问答的概念做一个概述并介绍KBQA实现过程中存在的挑战,而后对知识问答主流方法做一个介绍。 * TOC {:toc} # 简介