文本是用于存储关于我们生活的世界的大量科学知识的媒介。然而,随着其不断增加的幅度和吞吐量,分析这种非结构化数据已成为一项不可能的繁琐任务。这导致了文本挖掘和自然语言处理(NLP)技术和工具的兴起,成为检查和处理大量自然文本数据的必要条件。
Text-Mining是从非结构化机器可读文本中自动提取结构化语义信息。识别和进一步分析这些显性概念和关系有助于以可扩展和有效的方式发现文本中包含的多个见解。
一些各种文本挖掘/ NLP技术包括:结构提取,标记化,首字母缩略词标准化,词形还原,去复合,以及识别语言,句子,实体,关系,短语和段落。
但是,一旦我们拥有了这种所谓的“结构语义信息”,那么我们又做了什么呢?这些文本挖掘技术是否只是产生了我们试图揭示的见解?
嗯,事情并非那么简单。即使在从文本中提取一些信息之后,还有很长的路要走,然后将其转化为知识,然后转化为有价值的洞察力。这种见解可能是一种新的发现,或者以我们对我们的领域的现有知识中创建新链接的形式确认和验证先前的假设。让我们看看为什么超越文本挖掘不是一件容易的事。
超越文本挖掘的挑战是什么?在使用大量NLP工具的同时,我发现文本挖掘/ NLP工具的输出与我正在寻找的见解之间存在一些挑战。这些可归纳如下:
难以摄取和集成文本挖掘输出的复杂网络文本挖掘单个文本实例很容易。我们也可以阅读文本并自己提取其中包含的知识。但是,当我们的语料库中有数百,数千或数百万个独立文本实例时,我们该怎么做。在这种情况下,发现和理解从每个文本中提取的知识(文本挖掘的输出)之间的关系变得非常困难。为了能够进行这样的分析,我们需要将所有输出集成在一个地方 - 这并不像听起来那么容易。
难以将从文本中提取的知识与现有知识联系起来第二,我们不仅要分析从文本中提取的知识,还要超越它,看看提取的信息如何与我们拥有的所有其他数据相关。这些数据将有自己的格式或结构; 无法将其与我们原来的NLP输出进行比较。这导致难以将各组不同和异构数据之间的关系进行语境化。
很难以可扩展和有效的方式研究洞察力最后,由于可以提取的文本量很大,以可扩展的方式生成或调查洞察力变得非常繁琐。当然,可以针对单个文本实例手动发现有价值的见解,但是这种方法无法在数百万个文本实例中扩展。而且,在大多数情况下,手动执行此操作实际上是不可能的。那我们做什么?
我们如何应对这些挑战?考虑到这一点,我们可以考虑应对这些挑战的潜在解决方案。根据我的研究,我建议这种方法:
将文本挖掘输出的复杂网络集成并摄取到一个集合中为了解决第一个挑战,我们需要一种方法来轻松地将文本挖掘的输出累积到一个集合中 - 换句话说,一个文本挖掘的知识图。
强制规范化所有数据的显式结构为了在保持数据完整性的同时实现数据的智能分析和集成,我们需要对要分析的所有数据强加显式结构。这不仅有助于概念本身的语境化,还有助于它们之间的关系。这转化为具有更高级别的数据模型以包含各种类型的数据并且将它们的存在合并到知识图中。这样我们就可以在摄取时验证数据。数据模型将充当所有数据类型的保护伞,允许我们将其内部和之间的所有关系进行上下文化。
使用自动推理发现新的见解为了从我们的知识图中提取或推断尽可能多的信息,我们需要某种自动推理工具来在整个数据中传播我们的域专业知识。这将使我们能够从我们的知识图中提出问题,并通过他们的解释得到正确的答案 - 其他传统方法将失败。
确定了之前列出的挑战的解决方案后,让我们使用Grakn构建一个文本挖掘的知识图。
如果您不熟悉它,Grakn是一个知识图形式的智能数据库,用于组织复杂的数据网络。它包含一个基于超图的知识表示系统; 实现任何类型复杂网络的建模。然后,该自动推理引擎解释该知识表示系统,该引擎实时地进行推理。该软件以灵活且易于理解的查询语言Graql的形式向用户 公开。