Pelhans Blog

道阻且长,行则将至

深度学习笔记(零)

常见任务的评价指标

* TOC {:toc} # 概览 本文总结以下评价指标: * Acc * F1、精准度 P、召回率 R,P@10、R@10 * AUC、ROC * NDCG@3 * MAP、MRR 首先给出一个表格: ![](/img/in-post/ml_mianshi/metric_table.png) 其中上面行表示预测结果,列表示 ground trut...

Numpy 笔记

Numpy 常用操作

> 本笔记来自于[菜鸟教程](http://www.runoob.com/numpy/numpy-tutorial.html),整理自己用到的部分,并更新一些例子。 * TOC {:toc} # Numpy 基本知识 NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,主要用于数组...

实体对齐论文总结

* TOC {:toc} # 学习中... # 概览 实体对齐(Entity alignment) 就是找到两个知识图谱中相同的等价实体。它们可能有不同的表面形式或者不同的属性,因此单纯的基于表面形式匹配是不够用的。 用公式定义实体对齐任务的话。首先我们用 $$ G = (E, R, A, T_{R}, T_{A}) $$表示知识图谱,其中$$ E, R, A$$ 表示其中的实体、...

实体链接论文大礼包

* TOC {:toc} # 学习中... # 概览 实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务。潜在的应用包括信息提取、信息检索和知识库填充。但是,同一个实体通常有很多别称,同一名称也可能指向多个实体,此任务具有挑战性。 从方法上看,可分为两段式方法和端到端的方法,其中两段式方法先进行 NER 将文本中的实体识别出来,而后根据该 mention 找到候选实体集,...

<语义网基础教程>笔记(四)

本体工程

> 本部分将介绍手工构建本体、本体复用和使用半自动化方法等技术。其实原计划后面还应有一个逻辑与推理:规则部分,但是我自己也没太理解,因此等以后再补。 * TOC {:toc} # 手工构建本体 将本体开发区分为以下几个阶段: * 1. 确定范围 * 2. 考虑复用 * 3. 枚举术语 * 4. 定义分类 * 5. 定义属性 * 6. 定义刻面 ...

<语义网基础教程>笔记(三)

万维网本体语言:OWL2

> 首先描述 OWL2 的动机以及它与 RDF 和 RDFS 的关系。接下来将介绍 OWL2 的各种语言元素及 OWL2 概要。 * TOC {:toc} # 简介 RDF 被限定为二元闭谓词,而 RDF 模式被限定为子类层次和属性层次,以及属性的定义域和值域定义。为了提供 RDF 和 RDFS 以外的更多特征,结果产生了 OWL2 语言代表万维网本体语言。 # 本体语言的需求 一...

<语义网基础教程>笔记(二)

查询语义网:SPARQL

> 本章将介绍SPARQL 查询得以执行的基础设施,之后讨论SPARQL的基础知识并逐步介绍其更复杂的部分。 * TOC {:toc} # 简介 SPARQL 能够让我们通过选择、抽取等方式从被表示为 RDF 的知识中获取特定的部分。SPARQL 是专为 RDF 设计的,适合并依赖于万维网上的各种技术。如果你熟悉诸如SQL 等数据库查询语言,你会发现 SPARQL 和它们有很多相似之处...

语义网基础教程笔记(一)

资源描述框架:RDF

> 看书不记笔记的下场就是还得看一遍。。。 RDF 是一种勇于表达有关对象(资源) 的生命的语言;它是一个标准的数据模型以提供机器可处理的语义。RDF模式提供了一组用于将RDF词汇表组织成带类型的层次结构的建模原语。 * TOC {:toc} # 简介 万维网的成功展现了使用标准化的信息交换和通信机制的力量。HTML是可编辑的网页的标准语言,它用于传递有关面向人类的文档的结构的信息。而...

从零开始构建知识图谱(十三)

百科知识图谱构建(七)基于 Silk 的批量知识融合

> 目前为止我们已经从百度百科获取了三元组 62,857,364个,互动百科 65,738,654个。使用 Silk 工具将他们在实体层次进行融合并给出 关系时发现,在使用全部数据进行融合时,会导致内存爆掉。因此这里介绍通过使用命令行进行批量融合。 [项目链接](https://github.com/Pelhans/Z_knowledge_graph/tree/master/knowle...

百科知识图谱构建(四)

基于Silk的知识融合

> 目前为止我们已经从百度百科获取了三元组 62,857,364个,互动百科 65,738,654个,词条每个都是400多万个。由于都是百科类,因此有大量的重复词条。现在我们使用 Silk 工具将他们在实体层次进行融合并给出 关系。 * TOC {:toc} # 简介 [silk](https://github.com/silk-framework/silk) 是一个集成异构数据源的...