精益研发助推中国制造

精益研发方法学

基于语义的知识组织体系构建

大数据时代的知识管理

发表时间:2016/01/05 来源:安世亚太   作者:高艳  
关键字:知识管理  大数据  
“大数据”意不在数据,而是数据背后的知识。知识才是大数据之“大”背后的那个“小”。信息技术的发展为高效处理大数据、挖掘数据价值提供了条件。

一、前言

    调查显示,企业内部数据在以每年200%的速度增长,而其中 80%是以网页、邮件、图片、视频等非结构化的形式散落在企业内计算机系统中的各个角落,需要时难以查询,难以发挥其价值。未来学家奈斯伯特(JohnNaisbett)“We are drowning in information,but starving for knowledge”(我们正被信息淹没,却因缺乏知识而饿死)。所以,“大数据”概念应运而生。

    然而,“大数据”意不在数据,而是数据背后的知识。知识才是大数据之“大”背后的那个“小”。其实,在信息时代以前,也有“大数据”。比如第谷用一生时间测量行星运动轨迹,记录的数据汗牛塞屋,后来他的学生开普勒又花了将近一生的时间整理出了三大定律,这个大数据终于变得小了一些,到了牛顿时代,一个简单的平方反比的万有引力定律,就把所有一屋的大数据的内容全说透了。而当今,信息技术的发展为高效处理大数据、挖掘数据价值提供了条件。

二、关于大数据

    “大数据”,已经成为目前热的发烫的词汇,丝毫不亚于当年云、BI、WEB 2.0等掀起的话题和技术浪潮。何为“大数据”?尚没有统一的定义,但大数据中有一个特征为大家所公认,即大数据包含了大量,甚至绝大多数半结构化、非结构化数据。IDC研究表明,数字领域存在着 1.8万亿 GB 的数据,企业数据正在以200% 的速度逐年增长,到2020 年全球数据总量将达到 35.2ZB。在大数据时代,高达80%的数据是非结构化数据。从2010年到2020年,非结构化数据将以44倍的发展速度迅猛增长。

三、大数据时代知识管理面临的挑战

    大数据时代,用户在知识管理方面面临挑战:

    其一,关系型数据库处理非结构化信息存在局限。用户对非结构化信息处理的要求从简单的存储逐步上升为识别、检索和深度加工。关系型数据库虽然在处理结构化数据、文字和数值信息等方面很成功,但无法或很难描述非结构化信息的数据类型,,更不能迅速有效地实现这些信息的快速智能查询。

    其二,存在大量信息孤岛。随着计算机系统的普及,很多企业先后都采用各种相互独立的网络系统、应用系统,在部分提高了效率的同时,也为企业的整体管理设置了障碍,它们缺乏一个统一的界面,没有相互连接的信息渠道,数据通常都被封存在企业的不同数据库、主机、文件服务器上。这些孤立的信息对决策者的支持效率很低为了查找一个问题,一般需要在各个系统中不停地切换,才能找到自己想要的信息。

    其三,信息的针对性问题。实现任何人(anyone)在任何时间(anytime)在任何地方(anywhere)访问所需要的任何内容(anything)是信息社会希望实现的4A目标。决策者、各级管理者、普通用户、合作伙伴等等,他们都是信息的提供者和需求者,而他们所切入的角度和关注重点是不一样的如:内容的深度和广度、使用的频率、信息的结构等等。任何数据都需要从应用的角度出发,没有与应用结合的数据是无意义的。从这些数据中“透视”可能隐藏的联系,“挖掘”蕴藏着丰富信息,并最终把这些信息提炼上升为知识,才会带来巨大的价值。

四、基于语义技术的知识组织体系大有可为

    面对企业的上述需求和困境,又有什么样的解决方案?这就要能做到理解非结构化信息资源中丰富的逻辑语义并进行推理检索,即必须具备一定的知识体系来表达概念对象及其相互间的逻辑语义关系;一定的词汇体系来描述这些对象类及其关系,建立对应的元数据元素;一定的赋值机制来建立元数据元素与对应资源的描述关系;一定的标记语言和语法来对元数据及其赋值关系进行标记;一定的检索推理机制利用知识体系和标记语言进行搜索、验证和推理。

    关于语义

    基于语义的知识组织体系构建在一定程度上满足了在大数据时代知识管理和应用的需求。语义,即数据的含义。只有被赋予含义的数据才能够被使用,这时候数据就转化为了信息,而数据的含义就是语义。语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。对于计算机科学来说,语义是用户对于那些用来描述现实世界的计算机表示(即符号)的解释,也就是用户用来联系计算机表示和现实世界的途径。

    语义技术的价值

    目前,越来越多的大数据应用开始引入语义技术,使数据的描述更为规范且富含机器可理解的语义,丰富的语义链接使系统具有更好的开放性和互操作性,并使大数据的分析深入到“知识”层次,并能提供丰富的关联功能和简单的推理能力。

    基于语义技术对知识进行组织和应用,通过对信息进行标记,即对信息中涉及到的标记语言(外表特征和内容特征两方面)进行标记,形成完整的结构化的标记描述,进行标注后,其语义特征能够为知识组织系统所识别。知识组织系统将自身所获得的语义信息存储在知识库中,并利用知识库中的知识搜索引擎对语义内容进行重构,形成关于某个特定学科领域的全面知识网络,达到对知识语义层面的组织。在此基础上,实现具体的检索、自动分类、智能推理方面的应用。

    语义技术中的本体

    在语义技术中,本体具有非常重要的地位。本体能够很好地描述知识概念体系的层次结构及概念间的联系并根据这种关系来确定概念的精确含义,从而实现某种程度的知识共享和重用。将本体引入知识管理可以发挥以下作用:

    1、在知识的获取阶段可以将半结构化甚至非结构化的信息体转化为结构化存储的知识项并能精炼和准确地反映信息的内容和上下文关联,从而解决关系型数据库处理非结构化信息存在的局限;

    2、本体在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间的互操作和集成,从而解决信息孤岛的困境;

    3、通过对用户、知识建立本体,可以提高系统与访问用户之间基于语义的协同性,从而使得系统提供具有针对性的个性化知识服务。同时,在用户本体和知识本体之上构建相应的逻辑规则进行语义推理,还可以动态完善用户本体和明确化用户知识需求。

五、结语

    总之,利用语义技术构建的髙效、高内聚、低耦合的知识组织体系,可以通过领域知识本体层次结构,构建语义导航树,并通过可视化技术为用户提供网状结构的知识地图;通过个性化语义搜索引擎、推送等技术进行封装构成个性化语义搜索服务提供给用户;通过语义推理找出完成具体工作需要包含的知识资源,并生成相应的知识包提供给用户。同时,语义技术满足了在知识的不断增加与更新情况下的可扩展性和动态适应性要求。

    大数据时代,海量非结构化信息来袭,语义技术必将大有作为!