`
fuwa_jane
  • 浏览: 49896 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

java开源的OLAP引擎--mondrian

    博客分类:
  • BI
阅读更多


本文摘自:http://www.blogjava.net/pdw2009/archive/2008/04/17/193728.html

 


一、引言

Mondrian, 蒙得里安·皮特1872-1944荷兰画家,作品以交错的三原色为基色的垂直线条和平面为特点,他的著作包括 新造型主义(1920年),对抽象艺术的发展曾经产生很深影响。——金山词霸如是说。

不过,本文所要讨论的可不是这位艺术家。那到底mondrian是什么呢?

Mondrian是一个开源项目。一个用Java写成的OLAP(在线分析性处理)引擎。它用MDX语言实现查询,从关系数据库(RDBMS)中读取数据。然后经过Java API用多维的方式对结果进行展示。

我们都知道,在线分析处理(OLAP)要实时地分析大量数据。“online”这个词的含义就是即使相关的数据量是巨大的——可能以GB为单位——系统也要足够快的响应以显示结果。

OLAP用了多维分析的技术。尽管关系型数据库所存储的所有数据都是以行和列的形式存在的,但一个多维数据集还是可以由轴(axes)和单元(cell)组成。

 

 

在上面的例子中,时间是个维度(dimension),而它下面的层次(Hierarchies)又分为半年、季度等级别(Level)。

 

 

二、感性认识——运行一个小实例


我们暂时先不讨论Mondrian所用到的一些技术。我们可以先从一个小例子开始,不必在意每个细节,只是希望大家有个感性认识先。在实施这个例子的过程中,或许读者就能见些端倪。

当然,读者完全可以运行mondrian自带的实例,不过这个例子有些纷繁复杂,除了Mondrian本身还有其它技术在里面,不大容易讲清楚,也不太适合初学者学习。所以,笔者在这里设计一个简洁干净的最小化实例。

21准备工作

在%Tomcat%"webapp"依次建立mywebapp,mywebapp"WEB-INF,mywebapp"WEB-INF"lib,把

mondrian.war"WEB-INF"lib"mondrian.jar,javacup.jar, xalan.jar,junit.jar等相关的jar包copy到%TOMCAT_HOME%"webapps"mywebapp"lib"下。


在这个tiny的系统中,数据库有3个表tb_employee(职员表),tb_time(时间表),tb_salary(薪酬表)。表结构如下:

drop table tb_employee;

create table tb_employee

(

     employee_id     number,             --职员id     

     employee_name   varchar2(10)        --职员姓名

);

drop table tb_time;

create table tb_time

(

    time_id   number,        --时间id

    the_year char(4),       --年

    the_month char(2)        --月

);

drop table tb_salary;

create table tb_salary

(

    employee_id number,                --职员id    

    time_id      number,                --时间id

    salary       number(19,4)           --薪酬

);


当然,为了使系统能够运行,还需要读者向数据库表中插入一些数据。

2.3根据数据库表的结构,书写schema文件

<?xml version="1.0"?>

<Schema name="Mondrian">

<Cube name="CubeTest">

    <Table name="TB_SALARY" />

    

    <Dimension name="Employee" foreignKey="EMPLOYEE_ID" >

        <Hierarchy hasAll="true" primaryKey="EMPLOYEE_ID">         

            <Table name="TB_EMPLOYEE" />

        <Level name="employeeId" column="EMPLOYEE_ID"   uniqueMembers="true" >

                <Property name="employeeName" column="EMPLOYEE_NAME"/>

            </Level>

        </Hierarchy>

    </Dimension>

    <Dimension name="Time" foreignKey="TIME_ID" >

        <Hierarchy hasAll="false" primaryKey="TIME_ID" >

            <Table name="TB_TIME" />

            <Level name="year" column="THE_YEAR" uniqueMembers="false" />

            <Level name="month" column="THE_MONTH" uniqueMembers="false" />

        </Hierarchy>

    </Dimension>        

    

    <Measure name="Salary" column="SALARY" aggregator="sum" />

    </Cube>

</Schema>


文件路径为mywebapp"WEB-INF"mondriantest.xml

2.4利用MDX查询

mywebapp"mondriantest.jsp

1 <%@ page import="mondrian.olap.*"%>

<%

2 Connection connection = 

 DriverManager.getConnection

("Provider=mondrian;                 

 Jdbc=jdbc:oracle:thin:@xxx.xxx.xxx.xxx:1521:dbname; 

JdbcUser=dbuser;                                     

 JdbcPassword=dbpasswd;                                

Catalog=file:///c:/Tomcat4.1/webapps/mywebapp/WEB-INF/mondriantest.xml; 

JdbcDrivers=oracle.jdbc.driver.OracleDriver;",null,false);     

3 String queryStr=

"select {[Measures].[Salary]} ON COLUMNS,

{[Employee].[employeeId].Members} ON ROWS 

from CubeTest "; 

4 Query query =connection.parseQuery(queryStr);

5 Result result = connection.execute(query);

out.println("get result");

%>



2.5运行

这时启动tomcat,在浏览器地址栏中输入

http://localhost:8080/mywebapp/ mondriantest.jsp即可。

三、深入探讨

3.1 API

mondrian为客户端应用程序提供了API接口以进行查询。 而这些API对于任何用过JDBC的人都会觉得似曾相识的。主要的不同点是查询语言的不同:Mondrian用的是MDX('Multi-Dimensional eXpressions'),而JDBC则用的是SQL。

和JDBC一样,也是要经过建立连接,形成查询语句,执行查询得到结果集等几个步骤的。

我们来看看mondriantest.jsp的代码

第1行:import mondrian.olap.*

这是引入我们所需的类,下面要用到的DriverManager、Connection、Query、Result都在这个package内。这个package一般位于mondrian.jar中。

第2行:Connection connection = 

 DriverManager.getConnection

("Provider=mondrian;                 

 Jdbc=jdbc:oracle:thin:@xxx.xxx.xxx.xxx:1521:dbname; 

JdbcUser=dbuser;                                     

 JdbcPassword=dbpasswd;                                

Catalog=file:///c:/Tomcat4.1/webapps/mywebapp/WEB-INF/mondriantest.xml; 

JdbcDrivers=oracle.jdbc.driver.OracleDriver;",null,false); 



通过DriverManager创建一个Connection的实例,建立起数据库连接。

其中Jdbc=jdbc:oracle:thin:@xxx.xxx.xxx.xxx:1521:dbname; 是设置数据库的ip和库名。JdbcUser=dbuser; 设置数据库用户。JdbcPassword=dbpasswd;   设置用户密码。而

Catalog=file:///c:/Tomcat4.1/webapps/mywebapp/WEB-INF/mondriantest.xml; 就是设置MDX语句查询要对应的schema文件的路径

第3行:String queryStr=

"select {[Measures].[Salary]} ON COLUMNS,

{[Employee].[employeeId].Members} ON ROWS 

from CubeTest "; 



形成MDX的查询语句。MDX语句的形式和schema文件的设定是密切相关的,当然schema文件的形成也是由数据库结构决定的。

第4行:Query query =connection.parseQuery(queryStr);对MDX语句进行分析处理,是否符合schema文件定义、数据库结构和数据库数据。

第5行:Result result = connection.execute(query);执行查询,得到结果集。

我们发现Query类似于JDBC的Statement,而Result则酷似于ResultSet。

3.2 schema

3.2.1什么是schema

schema定义了一个多维数据库。包含了一个逻辑模型,而这个逻辑模型的目的是为了书写MDX语言的查询语句。这个逻辑模型实际上提供了这几个概念:Cubes,维度(Dimensions), 层次(Hierarchies),级别(Levels),和成员(Members)。

而schema文件就是编辑这个schema的一个xml文件。在这个文件中形成逻辑模型和数据库物理模型的对应。

3.2.2 schema的逻辑结构

3.2.2.1 Cube

一个Cube是一系列维度(Dimension)和度量(Measure)的集合区域。在Cube中,Dimension和Measure的共同地方就是共用一个事实表。

例:

<Cube name="CubeTest">

    <Table name="TB_SALARY" />

   …….

</Cube>


<Table>标签确定了所用的事实表的表名。

3.2.2.2 Measure

一个度量,简单的说,就是要被计算的值。

例:

<Measure name="Salary" column="SALARY" aggregator="sum" />

<Measure>标签有3个必要的属性name(度量名),column(在事实表中的字段名), aggregation(聚合所用的方法)。

3.2.2.3 Dimenesion

而维度一般有其相对应的维度表。

例:

<Dimension name="Time" foreignKey="TIME_ID" >

        <Hierarchy hasAll="false" primaryKey="TIME_ID" >

            <Table name="TB_TIME" />

            <Level name="year" column="THE_YEAR" uniqueMembers="false" />

            <Level name="month" column="THE_MONTH" uniqueMembers="false" />

        </Hierarchy>

</Dimension>


一般Dimesion包含层次(Hierarchy),而hierarchy是由级别(Level)组成。

<Dimension>标签的foreignKey是事实表中的字段,<Hierarchy>标签的primaryKey是维度表中的字段,通过这种方式把事实表和维度表关联起来。<Hierarchy>标签下的<Table>标签就指明了维度表名。而若干个Level对应着维度表的若干字段。

3.3 MDX语言

MDX是为了查询多维数据的,而SQL是为了查询关系数据库的。而Mondrian所涉及到的一些MDX概念、MDX语法以及系统定义的MDX函数和微软的MDX十分接近,差别微小。完全可以参考微软的帮助文档进行学习。在此就不在赘述。MDX语言基本上已成为多维数据库查询语言的标准。

四、结语

Mondrian作为基于java的OLAP引擎,而且是开源的项目,为那些基于java的项目而要脱离微软构架但又不得不对大量数据进行分析的项目又提供了一种可行的方案。希望它也能象蒙得里安·皮特对抽象艺术的发展产生影响一样起到一定的作用。

 

分享到:
评论
2 楼 wangguoqing_it 2012-03-14  
<Cube name="CubeTest"> 
 
    <Table name="TB_SALARY" /> 
 
   …….  
 
</Cube> 
1 楼 yudream 2009-02-13  
这篇文章很赞 很详细
多谢

相关推荐

    mondrian-olap:JRuby gem,用于使用Mondrian OLAP Java库执行关系数据库数据的多维查询

    是最受欢迎的开源OLAP引擎之一。 可以将Mondrian OLAP引擎放在关系SQL数据库的前面,它提供了更适合于分析目的的MDX多维查询语言。 mondrian-olap是JRuby的瑰宝,它包括Mondrian OLAP引擎,并提供Ruby DSL以在关系...

    mondrian-data-foodmart-hsql.rar

    Mondrian是一个用Java写成的ROLAP引擎,是开源项目Pentaho的一部分。它实现了 MDX语言、XML解析、JOLAP规范。它从SQL 和其它数据源读取数据并把数据聚集在内存缓存中,然后经过Java API用多维的方式对结果进行展示,...

    java仓库管理系统源码项目-mondrian-server:Mondrian8OLAP服务器在一个独立的.war文件中带有XMLA端点和Sa

    -Dmondrian-server.properties=/path/to/mondrian-server.properties -jar jetty-runner.jar --port 8080 mondrian-server.war 这将公开以下应用程序/api: / :在配置的数据源上运行的 Web 应用程序。 /xmla :一个...

    mondrian-3.1.5-master.zip

    Mondrian是一个用Java写成的ROLAP引擎,是开源项目Pentaho的一部分。它实现了 MDX语言、XML解析、JOLAP规范。它从SQL 和其它数据源读取数据并把数据聚集在内存缓存中,然后经过Java API用多维的方式对结果进行展示,...

    mondrian-master.zip

    Mondrian是一个用Java写成的ROLAP引擎,是开源项目Pentaho的一部分。它实现了 MDX语言、XML解析、JOLAP规范。它从SQL 和其它数据源读取数据并把数据聚集在内存缓存中,然后经过Java API用多维的方式对结果进行展示,...

    phpMyOLAP:用于PHP-MySQL系统的OLAP工具。-开源

    无需基于Java的Web服务。 没有要使用的MDX语言。 下载适用于MySQL的FooodMart数据库http://pentaho.dlpage.phi-integration.com/mondrian/mysql-foodmart-database在线演示和信息,网址为...

    Mondrian用于web项目.doc

    一个用Java写成的OLAP引擎。它用MDX语言实现查询,从关系数据库(RDBMS)中读取数据。然后经过Java API以多维的方式对结果进行展示。 Mondrian的使用方式同JDBC驱动类似。可以非常方便的与现有的Web项目集成

    La_Azada-开源

    La_Azada是一个用java(Eclipse Rich Client Application)开发的OLAP客户端,基于olap4j。 支持 mondrian 和 XMLA 驱动程序。

    schema-workbench.zip

    Mondrian是一个用Java写成的ROLAP引擎,是开源项目Pentaho的一部分。它实现了 MDX语言、XML解析、JOLAP规范。它从SQL 和其它数据源读取数据并把数据聚集在内存缓存中,然后经过Java API用多维的方式对结果进行展示,...

    FreeOlap-开源

    请使用 SourceForge 上的 FREEANALYSIS 项目获取最新版本 - FreeOlap(现为 FreeAnalysis)是一个完整的 Java(Eclipse RCP)和 Web(Apache Shale)应用程序,提供针对领先的 Mondrian Olap 服务器的 Olap 功能。...

    FreeAnalysis-开源

    FreeAnalysis是一个完整的Java(Eclipse RCP)和Web 2.0(Dojo)应用程序,可针对Pentaho Mondrian Olap Server和其他兼容MDX / XMLA的多维数据集数据源(例如Microsoft Analysis或Hyperion)提供Olap功能。

Global site tag (gtag.js) - Google Analytics