所屬欄目:軟件開發(fā)論文 發(fā)布日期:2011-03-17 16:47 熱度:
數(shù)據(jù)倉(cāng)庫(kù)為商務(wù)運(yùn)作提供結(jié)構(gòu)與工具,以便系統(tǒng)地組織、理解和使用數(shù)據(jù)進(jìn)行決策。大量組織機(jī)構(gòu)已經(jīng)發(fā)現(xiàn),在當(dāng)今這個(gè)充滿競(jìng)爭(zhēng)、快速發(fā)展的世界,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)有價(jià)值的工具。在過去的幾年中,許多公司已花費(fèi)數(shù)百萬美元,建立企業(yè)范圍的數(shù)據(jù)倉(cāng)庫(kù)。許多人感到,隨著工業(yè)競(jìng)爭(zhēng)的加劇,數(shù)據(jù)倉(cāng)庫(kù)成了必備的最新營(yíng)銷武器——通過更多地了解客戶需求而保住客戶的途徑。
數(shù)據(jù)倉(cāng)庫(kù)已被多種方式定義,使得很難嚴(yán)格地定義它。寬松地講,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)數(shù)據(jù)庫(kù),它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫(kù)分別維護(hù)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持。
按照W.H.Inmon,一位數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)構(gòu)造方面的領(lǐng)頭建筑師的說法,“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理決策制定”。這個(gè)簡(jiǎn)短、全面的定義指出了數(shù)據(jù)倉(cāng)庫(kù)的主要特征。四個(gè)關(guān)鍵詞,面向主題的、集成的、時(shí)變的、非易失的,將數(shù)據(jù)倉(cāng)庫(kù)與其它數(shù)據(jù)存儲(chǔ)系統(tǒng)(如,關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、事務(wù)處理系統(tǒng)、和文件系統(tǒng))相區(qū)別。讓我們進(jìn)一步看看這些關(guān)鍵特征。
(1)、面向主題的:數(shù)據(jù)倉(cāng)庫(kù)圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織。數(shù)據(jù)倉(cāng)庫(kù)關(guān)注決策者的數(shù)據(jù)建模與分析,而不是構(gòu)造組織機(jī)構(gòu)的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉(cāng)庫(kù)排除對(duì)于決策無用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。
(2)、集成的:通常,構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)是將多個(gè)異種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫(kù)、一般文件和聯(lián)機(jī)事務(wù)處理記錄,集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量的一致性等。
(3)、時(shí)變的:數(shù)據(jù)存儲(chǔ)從歷史的角度(例如,過去5-10年)提供信息。數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵結(jié)構(gòu),隱式或顯式地包含時(shí)間元素。
(4)、非易失的:數(shù)據(jù)倉(cāng)庫(kù)總是物理地分離存放數(shù)據(jù);這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉(cāng)庫(kù)不需要事務(wù)處理、恢復(fù)和并行控制機(jī)制。通常,它只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。
概言之,數(shù)據(jù)倉(cāng)庫(kù)是一種語(yǔ)義上一致的數(shù)據(jù)存儲(chǔ),它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)決策所需信息。數(shù)據(jù)倉(cāng)庫(kù)也常常被看作一種體系結(jié)構(gòu),通過將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)造,支持結(jié)構(gòu)化和啟發(fā)式查詢、分析報(bào)告和決策制定。
什么是建立數(shù)據(jù)倉(cāng)庫(kù)(datawarehousing)?”
根據(jù)上面的討論,我們把建立數(shù)據(jù)倉(cāng)庫(kù)看作構(gòu)造和使用數(shù)據(jù)倉(cāng)庫(kù)的過程。數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)造需要數(shù)據(jù)集成、數(shù)據(jù)清理、和數(shù)據(jù)統(tǒng)一。利用數(shù)據(jù)倉(cāng)庫(kù)常常需要一些決策支持技術(shù)。這使得“知識(shí)工人”(例如,經(jīng)理、分析人員和主管)能夠使用數(shù)據(jù)倉(cāng)庫(kù),快捷、方便地得到數(shù)據(jù)的總體視圖,根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的信息做出準(zhǔn)確的決策。有些作者使用術(shù)語(yǔ)“建立數(shù)據(jù)倉(cāng)庫(kù)”表示構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)的過程,而用術(shù)語(yǔ)“倉(cāng)庫(kù)DBMS”表示管理和使用數(shù)據(jù)倉(cāng)庫(kù)。我們將不區(qū)分二者。
“組織機(jī)構(gòu)如何使用數(shù)據(jù)倉(cāng)庫(kù)中的信息?”許多組織機(jī)構(gòu)正在使用這些信息支持商務(wù)決策活動(dòng),包括:
(1)、增加顧客關(guān)注,包括分析顧客購(gòu)買模式(如,喜愛買什么、購(gòu)買時(shí)間、預(yù)算周期、消費(fèi)習(xí)慣);
(2)、根據(jù)季度、年、地區(qū)的營(yíng)銷情況比較,重新配置產(chǎn)品和管理投資,調(diào)整生產(chǎn)策略;
(3)、分析運(yùn)作和查找利潤(rùn)源;
(4)、管理顧客關(guān)系、進(jìn)行環(huán)境調(diào)整、管理合股人的資產(chǎn)開銷。
從異種數(shù)據(jù)庫(kù)集成的角度看,數(shù)據(jù)倉(cāng)庫(kù)也是十分有用的。許多組織收集了形形色色數(shù)據(jù),并由多個(gè)異種的、自治的、分布的數(shù)據(jù)源維護(hù)大型數(shù)據(jù)庫(kù)。集成這些數(shù)據(jù),并提供簡(jiǎn)便、有效的訪問是非常希望的,并且也是一種挑戰(zhàn)。數(shù)據(jù)庫(kù)工業(yè)界和研究界都正朝著實(shí)現(xiàn)這一目標(biāo)竭盡全力。
對(duì)于異種數(shù)據(jù)庫(kù)的集成,傳統(tǒng)的數(shù)據(jù)庫(kù)做法是:在多個(gè)異種數(shù)據(jù)庫(kù)上,建立一個(gè)包裝程序和一個(gè)集成程序(或仲裁程序)。這方面的例子包括IBM的數(shù)據(jù)連接程序(DataJoiner)和Informix的數(shù)據(jù)刀(DataBlade)。當(dāng)一個(gè)查詢提交客戶站點(diǎn),首先使用元數(shù)據(jù)字典對(duì)查詢進(jìn)行轉(zhuǎn)換,將它轉(zhuǎn)換成相應(yīng)異種站點(diǎn)上的查詢。然后,將這些查詢映射和發(fā)送到局部查詢處理器。由不同站點(diǎn)返回的結(jié)果被集成為全局回答。這種查詢驅(qū)動(dòng)的方法需要復(fù)雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源。這種方法是低效的,并且對(duì)于頻繁的查詢,特別是需要聚集操作的查詢,開銷很大。
對(duì)于異種數(shù)據(jù)庫(kù)集成的傳統(tǒng)方法,數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)有趣的替代方案。數(shù)據(jù)倉(cāng)庫(kù)使用更新驅(qū)動(dòng)的方法,而不是查詢驅(qū)動(dòng)的方法。這種方法將來自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供直接查詢和分析。與聯(lián)機(jī)事務(wù)處理數(shù)據(jù)庫(kù)不同,數(shù)據(jù)倉(cāng)庫(kù)不包含最近的信息。然而,數(shù)據(jù)倉(cāng)庫(kù)為集成的異種數(shù)據(jù)庫(kù)系統(tǒng)帶來了高性能,因?yàn)閿?shù)據(jù)被拷貝、預(yù)處理、集成、注釋、匯總,并重新組織到一個(gè)語(yǔ)義一致的數(shù)據(jù)存儲(chǔ)中。在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行的查詢處理并不影響在局部源上進(jìn)行的處理。此外,數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)并集成歷史信息,支持復(fù)雜的多維查詢。這樣,建立數(shù)據(jù)倉(cāng)庫(kù)在工業(yè)界已非常流行。
1.操作數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別
由于大多數(shù)人都熟悉商品關(guān)系數(shù)據(jù)庫(kù)系統(tǒng),將數(shù)據(jù)倉(cāng)庫(kù)與之比較,就容易理解什么是數(shù)據(jù)倉(cāng)庫(kù)。
聯(lián)機(jī)操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢處理。這種系統(tǒng)稱為聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng)。它們涵蓋了一個(gè)組織的大部分日常操作,如購(gòu)買、庫(kù)存、制造、銀行、工資、注冊(cè)、記帳等。另一方面,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶或“知識(shí)工人”提供服務(wù)。這種系統(tǒng)可以用不同的格式組織和提供數(shù)據(jù),以便滿足不同用戶的形形色色需求。這種系統(tǒng)稱為聯(lián)機(jī)分析處理(OLAP)系統(tǒng)。
OLTP和OLAP的主要區(qū)別概述如下。
(1)、用戶和系統(tǒng)的面向性:OLTP是面向顧客的,用于辦事員、客戶、和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理。OLAP是面向市場(chǎng)的,用于知識(shí)工人(包括經(jīng)理、主管、和分析人員)的數(shù)據(jù)分析。
(2)、數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù)。通常,這種數(shù)據(jù)太瑣碎,難以方便地用于決策。OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制,并在不同的粒度級(jí)別上存儲(chǔ)和管理信息。這些特點(diǎn)使得數(shù)據(jù)容易用于見多識(shí)廣的決策。
(3)、數(shù)據(jù)庫(kù)設(shè)計(jì):通常,OLTP系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)。而OLAP系統(tǒng)通常采用星形或雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì)。
(4)、視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。相比之下,由于組織的變化,OLAP系統(tǒng)常常跨越數(shù)據(jù)庫(kù)模式的多個(gè)版本。OLAP系統(tǒng)也處理來自不同組織的信息,由多個(gè)數(shù)據(jù)存儲(chǔ)集成的信息。由于數(shù)據(jù)量巨大,OLAP數(shù)據(jù)也存放在多個(gè)存儲(chǔ)介質(zhì)上。
(5)、訪問模式:OLTP系統(tǒng)的訪問主要由短的、原子事務(wù)組成。這種系統(tǒng)需要并行控制和恢復(fù)機(jī)制。然而,對(duì)OLAP系統(tǒng)的訪問大部分是只讀操作(由于大部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)存放歷史數(shù)據(jù),而不是當(dāng)前數(shù)據(jù)),盡管許多可能是復(fù)雜的查詢。
OLTP和OLAP的其它區(qū)別包括數(shù)據(jù)庫(kù)大小、操作的頻繁程度、性能度量等。
2.但是,為什么需要一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù)
“既然操作數(shù)據(jù)庫(kù)存放了大量數(shù)據(jù)”,你注意到,“為什么不直接在這種數(shù)據(jù)庫(kù)上進(jìn)行聯(lián)機(jī)分析處理,而是另外花費(fèi)時(shí)間和資源去構(gòu)造一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù)?”
分離的主要原因是提高兩個(gè)系統(tǒng)的性能。操作數(shù)據(jù)庫(kù)是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,如使用主關(guān)鍵字索引和散列,檢索特定的記錄,和優(yōu)化“罐裝的”查詢。另一方面,數(shù)據(jù)倉(cāng)庫(kù)的查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級(jí)的計(jì)算,可能需要特殊的數(shù)據(jù)組織、存取方法和基于多維視圖的實(shí)現(xiàn)方法。在操作數(shù)據(jù)庫(kù)上處理OLAP查詢,可能會(huì)大大降低操作任務(wù)的性能。
此外,操作數(shù)據(jù)庫(kù)支持多事務(wù)的并行處理,需要加鎖和日志等并行控制和恢復(fù)機(jī)制,以確保一致性和事務(wù)的強(qiáng)健性。通常,OLAP查詢只需要對(duì)數(shù)據(jù)記錄進(jìn)行只讀訪問,以進(jìn)行匯總和聚集。如果將并行控制和恢復(fù)機(jī)制用于這種OLAP操作,就會(huì)危害并行事務(wù)的運(yùn)行,從而大大降低OLTP系統(tǒng)的吞吐量。
最后,數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)分離是由于這兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同。決策支持需要?dú)v史數(shù)據(jù),而操作數(shù)據(jù)庫(kù)一般不維護(hù)歷史數(shù)據(jù)。在這種情況下,操作數(shù)據(jù)庫(kù)中的數(shù)據(jù)盡管很豐富,但對(duì)于決策,常常還是遠(yuǎn)遠(yuǎn)不夠的。決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如,聚集和匯總),產(chǎn)生高質(zhì)量的、純凈的和集成的數(shù)據(jù)。相比之下,操作數(shù)據(jù)庫(kù)只維護(hù)詳細(xì)的原始數(shù)據(jù)(如事務(wù)),這些數(shù)據(jù)在進(jìn)行分析之前需要統(tǒng)一。由于兩個(gè)系統(tǒng)提供很不相同的功能,需要不同類型的數(shù)據(jù),因此需要維護(hù)分離的數(shù)據(jù)庫(kù)。
文章標(biāo)題:淺析對(duì)數(shù)據(jù)倉(cāng)庫(kù)的研究
轉(zhuǎn)載請(qǐng)注明來自:http://www.56st48f.cn/fblw/dianxin/ruanjiankaifa/7712.html
攝影藝術(shù)領(lǐng)域AHCI期刊推薦《Phot...關(guān)注:106
Nature旗下多學(xué)科子刊Nature Com...關(guān)注:152
中小學(xué)教師值得了解,這些教育學(xué)...關(guān)注:47
2025年寫管理學(xué)論文可以用的19個(gè)...關(guān)注:192
測(cè)繪領(lǐng)域科技核心期刊選擇 輕松拿...關(guān)注:64
及時(shí)開論文檢索證明很重要關(guān)注:52
中國(guó)水產(chǎn)科學(xué)期刊是核心期刊嗎關(guān)注:54
國(guó)際出書需要了解的問題解答關(guān)注:58
合著出書能否評(píng)職稱?關(guān)注:48
電信學(xué)有哪些可投稿的SCI期刊,值...關(guān)注:66
通信工程行業(yè)論文選題關(guān)注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關(guān)注:121
評(píng)職稱發(fā)論文好還是出書好關(guān)注:68
復(fù)印報(bào)刊資料重要轉(zhuǎn)載來源期刊(...關(guān)注:51
英文期刊審稿常見的論文狀態(tài)及其...關(guān)注:69
Web of Science 核心合集期刊評(píng)估...關(guān)注:59
電子信息論文范文
智能科學(xué)技術(shù)論文 廣播電視論文 光電技術(shù)論文 計(jì)算機(jī)信息管理論文 計(jì)算機(jī)網(wǎng)絡(luò)論文 計(jì)算機(jī)應(yīng)用論文 通信論文 信息安全論文 微電子應(yīng)用論文 電子技術(shù)論文 生物醫(yī)學(xué)工程論文 軟件開發(fā)論文
SCI期刊分析
copyright © www.56st48f.cn, All Rights Reserved
搜論文知識(shí)網(wǎng) 冀ICP備15021333號(hào)-3