仓储数据:数据仓库、数据挖掘和联机分析处理
仓储数据的前提是,管理者决策的质量至少在一定程度上取决于其信息的质量。因此,将数据存储在一个集中的系统中的目的是为它们提供正确的构建块,以获取可靠的信息和知识。数据仓库包含的信息范围从绩效评估到竞争情报(Tanler 1997)。
数据挖掘工具和技术可用于搜索存储的数据,以寻找可能带来新见解。此外,数据仓库通常是下一小节讨论的数据驱动决策支持系统的驱动力。
Thierauf(1999)描述了数据存储、提取和分发的过程。首先对业务生产数据进行数据提取,并将这些数据传递给仓库数据库。服务器承载数据仓库和决策支持系统,然后,这个服务器将提取的数据传递给仓库数据库,用户使用仓库数据通过某种形式的软件来提取数据。
仓储数据:设计与实现
Tanler(1997)确定了数据仓库设计和实施的三个阶段。第一阶段主要是确定企业的关键成功因素,从而确定应用于仓库的系统的重点。其次是确定决策者的信息需求。这涉及到对当前信息缺失的规范和决策过程的阶段(即分析数据和得出决策所花费的时间)。最后,仓储数据的实现方式应确保用户能尽早了解收益。必须确定数据库的大小和分析需求的复杂程度。必须解决部署问题,如用户如何收到信息,日常决策必须如何自动化,以及具有不同技术技能的用户如何获得数据。
Frank(2002)认为,数据仓库的成功实施取决于:
1、详细说明用户信息需求。
实现元数据:元数据为描述数据的数据,描述数据属性的信息。这被认为是一个特别关键的步骤。Parankusham和Madupu(2006年)概述了元数据的不同作用,包括:数据特征和索引,促进或限制数据访问,以及确定数据的来源和货币。他们进一步确定元数据的生命周期为:
- 收集:识别和捕获。
- 维护:更新元数据以匹配数据体系结构中的变化。
- 部署:用户根据需要访问相关元数据。
在此基础上,我们可以加上www.syntelinc.com
网站上介绍的5个标准。
- 认识到这项工作可能比您预期的要困难:数据仓库中的很大一部分数据不正确、丢失或输入方式不可用(例如,尚未更新为现代模式的历史数据库)。
- 了解现有系统中的数据:分析现有数据库。识别现有数据系统之间的关系,以避免在将这些系统移动到仓库时出现不一致。
- 确定识别等价实体:识别异类系统中的等价实体,它们可能以不同的名称出现。
- 强调早期成功,以建立整个组织的支持。
- 考虑外包数据仓库开发和维护:实现一个数据仓库可能是一个巨大的任务,由专家处理更好,许多数据仓库应用程序都适合外包。
如果设计和实施得当,数据仓储可以大幅减少决策制定过程所需的时间。为此,采用了三种工具,即联机分析处理(OLAP)、数据挖掘和数据可视化(Parankusham和Madupu,2006)。
联机分析处理
联机分析处理允许执行三种功能:
- 查询和报告:在不使用数据库编程语言的情况下就能制定查询。
- 多维分析:从多个角度进行分析的能力。Tanler(1997)提供了一个产品分析的例子,然后可以针对每个细分市场重复分析。这允许快速比较来自不同区域的数据关系(例如,按位置、时间等),这种分析可以包括客户、市场、产品等等
- 统计分析:此函数尝试将大量数据简化为公式,以获取查询的答案。
联机分析处理基本上告诉用户本组织发生了什么(Theirauf 1999),通过对数据和信息的总结,可以提高理解。
这是另一个用于尝试从数据仓库中创造可用知识或信息的过程。与统计分析不同的是,数据挖掘并不是从对数据的预先假设开始的,这种技术更适合于异构数据库和数据集(Bali等人,2009年)。Karahoca和Ponce(2009年)将数据挖掘描述为"关键任务应用的重要工具,将大型数据库或数据集最小化、过滤、提取或转化为汇总信息,并在知识发现(KD)中探索隐藏的模式。"Bali等人(2009年)强调了知识发现方面,因为对这种新知识的管理属于知识管理学科的范畴。
简单地说,数据挖掘使用了广泛的工具和系统,包括符号方法和统计分析。根据Botha等人(2008)的研究,符号方法通过使用模式描述语言来寻找模式原语,从而找到结构。另一方面,统计方法测量并绘制重要特征,然后将其划分为类和群。
数据挖掘是一个非常复杂的过程,有不同的过程模型。其中之一是数据挖掘的跨行业标准流程(或Crisp-DM)。该流程包括六个步骤(Maraban等人,载于Karahoca和Ponce 2009年):
业务理解 →数据理解 → 数据准备 → 建模 →评估 →部署。
关于数据挖掘的更多信息,请参见Ponce & Karahoca编辑的《现实生活中的数据挖掘和知识发现》一书(2009年),可从intechopen.com上免费获得,也可下载许多其他潜在的相关资源。
这一过程涉及以图形方式表示数据和信息,以便更好地向用户传达其内容。它是一种使数据模式更明显、更容易获得、更容易比较、更容易沟通的方法。数据可视化包括图形界面、表格、图形、图像、3D演示、动画等(Turban & Aaronson in
Parankusham & Madupu 2006)。
DSS是与仓储数据一起使用的其他工具。下一小节将讨论这些工具。