時間:2022-03-15 03:46:51
導言:作為寫作愛好者,不可錯過為您精心挑選的10篇企業數據存儲方案,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
1 引言
在電力行業,堅強智能電網的迅速發展使信息通信技術正以前所未有的廣度、深度與電網生產、企業管理快速融合,信息通信系統已經成為智能電網的“中樞神經”,支撐新一代電網生產和管理發展。目前,電網公司已初步建成了國內領先、國際一流的信息集成平臺。隨著各地集中式數據中心的陸續投運,一級部署業務應用范圍的拓展,結構化和非結構化數據中心的上線運行,電網業務數據從總量和種類上都已初具規模。隨著后續智能電表的逐步普及,電網業務數據將從時效性層面進一步豐富和拓展。電網業務數據將跨入海量數據時代,如何處理這些海量數據已成為電力企業信息管理首要解決的問題。而在海量數據的處理中,如何有效地保存和恢復數據就成了這些問題當中的首要問題。
2 海量數據特征
海量數據按照數據結構來進行劃分,可以劃分為結構化數據和非結構化數據兩大類。
(1)結構化數據:簡單來說就是數據庫, 即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據。結合到典型場景中更容易理解,比如企業ERP、財務系統;醫療HIS數據庫;教育一卡通;政府行政審批;其他核心數據庫等
(2)非結構化數據:相對于結構化數據而言,不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。 非結構化數據庫是指其字段長度可變,并且每個字段的記錄又可以由可重復或不可重復的子字段構成的數據庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖象、聲音、影視、超媒體等信息)
按照數據的時效性而言,海量數據又可劃分為實時數據和離線數據兩類。
實時數據:實時數據一般用于金融、移動和互聯網B2C等產品,往往要求在數秒內返回上億行數據的分析,從而達到不影響用戶體驗的目的。要滿足這樣的需求,可以采用精心設計的傳統關系型數據庫組成并行處理集群,或者采用一些內存計算平臺,或者采用HDD的架構,這些無疑都需要比較高的軟硬件成本。目前比較新的海量數據實時分析工具有EMC的Greenplum、SAP的HANA等。
離線數據:對于大多數反饋時間要求不是那么嚴苛的應用,比如離線統計分析、機器學習、搜索引擎的反向索引計算、推薦引擎的計算等,應采用離線分析的方式,通過數據采集工具將日志數據導入專用的分析平臺。但面對海量數據,傳統的ETL工具往往徹底失效,主要原因是數據格式轉換的開銷太大,在性能上無法滿足海量數據的采集需求。互聯網企業的海量數據采集工具,有Facebook開源的Scribe、LinkedIn開源的Kafka、淘寶開源的Timetunnel、Hadoop的Chukwa等,均可以滿足每秒數百MB的日志數據采集和傳輸需求,并將這些數據上載到Hadoop中央系統上。
3 企業海量數據存儲現狀
3.1 海量數據導致存儲成本、維護管理成本不斷增加
大型企業都面臨著業務和IT投入的壓力,與以往相比,系統的性能/價格比更加受關注。GIGA研究表明,ROI(投資回報率)越來越受到重視。海量數據使得企業因為保存大量在線數據以及數據膨脹而需要在存儲硬件上大量投資,雖然存儲設備的成本在下降,但存儲的總體成本卻在不斷增加,并且正在成為最大的一筆IT開支之一。另一方面,海量數據使DBA陷入持續的數據庫管理維護工作當中。
3.2 海量數據缺乏快速備份與災難恢復機制
傳統的數據庫備份技術,如通常采用的磁帶備份方式,不能運用于海量數據,因為磁帶備份將使備份時間增加,需要幾小時-幾天,不僅影響了生產,而且增加了備份的難度,使得備份/恢復變得緩慢而且不可靠,幾乎無法在固定的時間窗口完成備份工作。另外,第三方備份軟件隱含的成本代價如成本開銷、復雜度、昂貴的實施等也是企業需要考慮的。因此海量數據安全顯得異常重要,只有通過引入有效的備份、方便高效的備份恢復技術,才能滿足海量數據安全的需要。
4 存儲解決方案概述
在海量數據存儲中我們主要考慮的是大數據的存儲,雖然現行的商業平臺也能滿足非結構化數據的存儲,但問題主要出在系統可擴展性和建設費用上。對于龐大的非結構化數據存儲產生的I/O瓶頸問題和昂貴的服務器價格不得不使我們另謀出路。
Hadoop的分布式文件系統HDFS出現恰好解決了商業平臺中的I/O瓶頸和服務器價格昂貴問題。Hadoop的優勢體現在以下幾個方面:
(1)Hadoop依賴于低端服務器甚至是普通計算機,相對于商業平臺的高昂成本,它的成本要低得多,幾乎可以說任何人都可以使用它,哪怕是信息化成本預算較少的小微企業;
(2)HDFS與Map/Reduce緊密集成是Hadoop分布式計算的存儲基石。它有自己明確的設計目標那就是支持大的數據文件大至T級,并且這些文件以順序讀取為主,以文件存/讀的高吞吐量為目標。在使用HDFS分布式文件系統存儲非結構化文件后,將提高我們系統的存儲文件速度;
(3)HDFS的數據恢復能力也保證了系統的安全可靠性,可靠性體現在它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。
(4)同時支持存儲節點的熱插拔和可以在普通PC機上存儲非結構化文件,這不但提高了系統的擴展靈活性,還大大降低了企業在硬件方面的投入
5 應用架構
在本存儲解決方案中,我們選擇了Hadoop作為數據文件存儲機制,Hadoop中的HDFS存儲數據可以選擇普通的PC機器作為數據節點,這大大的降低了存儲數據所需要昂貴存儲設備價格,并且在數據存儲過程中,HDFS擁有很好的數據容災機制。
6 HDFS
Hadoop的存儲主要使用HDFS來進行管理,HDFS是一個分布式文件存儲系統。HDFS起源于Apache Nutch Web 搜索引擎項目。
對于HDFS分布式文件系統中的塊進行抽象會帶來很多好處:
(1)文件的大小可以大于網絡中任意一個磁盤的容量,文件的所有塊不需要存儲在同一個磁盤上,因此他們可以利用集群上的任意一個磁盤進行存儲。
(2)使用塊抽象而非整個文件作為存儲單元,大大的簡化了存儲系統的設計。簡化是所有系統的目標,但對于故障種類繁多的分布式系統來說尤為重要。
(3)塊非常適合用于數據備份,進而提高數據容錯能力和可用性。
6.1 HDFS架構
6.2 HDFS文件存儲方式使用大塊的原因
HDFS的塊比磁盤大,其目的是為了最小化尋址的開銷。如果塊設置的足夠大,從磁盤傳輸數據的時間可以明顯的大于定位這個塊開始位置所需的時間。這樣,傳輸一個由多個塊組成的文件的時間取決于磁盤的傳輸速率,由此可見適當的設置磁盤塊空間大小可以加快數據讀寫效率。
6.3 HDFS的集群管理模式
HDFS集群有兩類節點,并以管理者――工作者模式運行,即一個namenode(管理者)和多個datanode(工作者)。管理者管理文件系統的命名空間,它維護著文件系統樹及整棵樹內所有的文件和目錄。這些信息以兩個文件形式永久保存在本地磁盤上:命名空間鏡像和編輯文件日志。工作者也記錄著每個文件中各個塊所有在的數據節點信息,但它不永久保存塊的位置信息,因為這些信息會在系統啟動時由數據節點重建。
6.4 HDFS文件寫入方式
客戶端通過調用HDFS類DistributedFileSystem對象調用create()函數來創建文件,在此時文件系統的命名空間中創建了一個新文件,但該文件還沒有相應的數據塊。管理者(namenode)執行各種不同的檢查確保當前創建的文件不存在,并且客戶端有創建該文件的權限,如果檢查通過則創建新文件記錄;否則,文件創建失敗并拋出異常。在客戶端寫入數據時,數據被分成一個個的數據包,并寫入內部隊列,HDFS的DataStreamer處理數據隊列,它的責任是根據工作者(datanode)的隊列列表要求管理者(namenode)分配適合的新塊來存儲數據備份。如下圖
7 實現功能
海量數據存儲部分主要包含了三部分的功能:數據采集、數據存儲與備份、數據分析,如圖所示:
7.1 數據采集
海量數據存儲采用開放上傳接口的方式進行被動數據采集,各業務平臺通過向上傳接口傳遞業務平臺標識、文件信息標識和文件信息的二進制流的方式將文件打包傳送到非結構化數據管理平臺,非結構化數據管理平臺通過業務平臺標識對傳輸過來的文件進行分類解碼存儲。
7.2 數據存儲與備份
海量數據管理在接收到各業務平臺發送過來的文件后,根據業務平臺標識在HBASE中生成文件信息數據,同時將文件存儲至HBase中。
7.3 數據分析
基于已存儲的數據,可以分析各業務平臺的數據量,數據高峰的周期,從而適時調整數據存儲策略,為不同的業務應用制定不同的存儲計劃,充分體現系統存儲的靈活性,提升海量數據的存儲效率。
大數據的核心價值是如何把數據變成商業價值。
大數據存儲,可以認為是存儲廠商基于現有大數據應用的特點進行優化的解決方案。
記者不久前去香港出差,剛下飛機就收到招商銀行發來的一條短信,內容是告之香港有哪些商場在舉辦促銷活動。不知道這是巧合,還是招商銀行利用大數據的新成果,但是可以肯定,利用大數據分析可以為客戶提供定制化的服務,實現精準營銷。大數據正在改變企業業務模式,也讓人們的生活變得更加便利和豐富多彩。
存儲必須整合
大數據存儲是一類單獨的產品嗎?賽迪顧問高級分析師陳靚并不這么認為:“把大數據軟件與存儲進行整合,就稱為大數據存儲,未免有些牽強。如果非要說出大數據存儲的特征,那么我認為它至少應該能讓大數據的‘4V’發揮出應有的效果,滿足大數據對性能和擴展性的要求。”
“與其說大數據存儲是一類產品,不如說它是下一代的存儲架構。這種架構可以將傳統的DAS、SAN和NAS有效地整合起來,以滿足上層計算平臺的要求。”Forrester Research首席咨詢分析師戴昆表示,“大數據存儲本身的性能與傳統企業級存儲并沒有顯著差異,它主要依賴于上層計算平臺的分布式并行處理能力,但其擴展性一定要強。”
“在中國市場上,大數據應用還沒有真正落地,許多用戶談的還是BI(商業智能)。而從國外的實踐看,BI只是大數據的一部分,屬于大數據的起步階段,真正的大數據應用是近實時或實時的數據分析。”中橋調研咨詢首席分析師王叢告訴記者,“計算、存儲、網絡等都與大數據的價值有關。大數據存儲并不是一類單獨的產品,它也可以通過類似公有云或私有云的方式提供給用戶。應用和數據量的增加,對數據的存取提出了更高要求。因此,并行存儲能力的增強對大數據存儲來說非常重要。”
EMC Isilon存儲事業部總經理楊蘭江表示,大數據存儲有很多實現方式,不過它應具備以下特性:海量數據存儲能力、全局命名空間、支持標準接口、讀寫性能優異、易于管理維護、基于開放架構、多級數據冗余、多級存儲備份等。
“存儲產品并不像網絡產品那樣有嚴格的界線,因此很難將大數據存儲單獨劃分出來。其實,大數據存儲并不是只有分布式存儲這一種方式,傳統的存儲也可以成為大數據存儲解決方案的一部分。”華為存儲產品線市場總監經寧解釋說,“華為將大數據存儲當成相對獨立的一類產品,主要是從產品的主定位角度考慮的。華為有針對企業級應用的高端存儲,也有針對中小型用戶的通用存儲,當然還有專門為大數據優化的分布式、可橫向擴展的大數據存儲。”
目前,業內并沒有關于大數據存儲產品的通用定義,但是綜合考慮廠商的產品以及用戶的需求,可以簡單概括出大數據存儲的特征:首先,大數據存儲必須能夠支持全類型數據,包括結構化、半結構化和非結構化數據,實現統一數據支持;其次,在保證可靠性的基礎之上,大數據存儲必須具備線性擴展能力,同時還要具有很強的批處理和實時處理能力;最后,在系統達到一定規模后,大數據存儲平臺的易用性和可管理性也是不可或缺的。
在大數據處理過程中,用戶發現性能的瓶頸并不在計算層面,而在于海量數據的上傳和下載。因此,極高的數據加載速率是大數據存儲必須具備的特性。大數據解決方案通常包含數據存儲、計算及分析,存儲是大數據基礎架構中的一部分。
凸顯高性能、可擴展
對中國用戶來說,大數據應用落地的關鍵是如何更好地讓企業的IT決策者和架構師理解業務需求,建立適合企業業務特點的數據應用場景和數據管理架構,更好地利用企業現有的數據資產,而非盲目地進行所謂的大數據投資。“用戶首先要考慮的是什么樣的大數據應用才能為企業帶來合理產出,其次再考慮大數據平臺和存儲,切勿本末倒置。”戴昆表示。
賽迪顧問的研究發現,中國使用大數據存儲比較多的行業是電信、互聯網、金融等,其他行業大多還在觀望及測試中。中國用戶對于大數據存儲的需求首先是可靠和穩定,金融行業的用戶非常重視這一點;互聯網用戶則要求大數據存儲具有很高的I/O吞吐能力;電信行業的客戶更青睞高性價比的大數據存儲設備。
中國惠普有限公司企業集團存儲產品部存儲架構師張楠表示,很多中國用戶會追求大容量和高性能,忽略了大數據存儲本身應該具有的其他屬性,這讓用戶在實際應用中很容易遇到一些障礙,比如無法將存儲與大數據平臺進行對接,無法在業務中充分發揮大數據存儲的價值等。究其原因,主要障礙在于有些大數據存儲產品沒有開放的接口協議, 沒有針對用戶的大數據應用場景進行特別優化, 沒有提供用戶容易接受的易用管理方式等。
存儲的高可擴展性、高可用性和并行處理能力是企業評估大數據存儲最重要的三個因素。高可擴展性可以確保企業的IT能夠隨著數據量的增長和性能需求的提高進行擴展;高可用性能夠保證大數據分析過程的平穩和無間斷運行;高并行處理能力則能夠確保在大數據處理過程中同時進行更多數據的處理,高效地完成數據分析,同時縮短產品或技術的上市周期。低延遲、自動分層存儲以及對10GbE網絡的支持等也是用戶評估大數據存儲的重要考核因素。
“如何管理好大數據真的是一個大問題。從IT的角度看,我們還缺乏能夠展現數據價值的行之有效的手段。數據作為一種資產,如何被長期、高效、經濟地保存也是一個問題。”華為海量存儲產品線總經理袁遠表示,“大數據提出了一個新的方法論——以數據為中心,而不是以應用為中心。以數據為中心,就要考慮數據的來源,如何以更低的成本存儲和管理數據,誰有權利獲得哪些數據,對數據進行分析前必須進行模型化的抽象等。大數據需要新的工具、新的管理思路和方法,同時還要對技術架構進行創新。”
歐洲核子研究中心(CERN)創建的OpenLAB旨在通過部署全球領先的IT系統和解決方案,將全球大型強子對撞機(LHC)行業的資源、研究成果匯集在一起。持續快速增長的海量科研數據對CERN的存儲系統在可擴展性、可靠性等方面提出了嚴峻挑戰,這也促使CERN開始評估新的存儲技術。最終,CERN選擇了華為UDS云存儲系統,并在三個月內完成了安裝調測和基準性能的評估。測試結果顯示,UDS創新的軟硬件和系統非常適合海量數據存儲的業務要求,這讓CERN可以在未來輕松應對EB級數據量的挑戰。
談到華為大數據存儲解決方案的特色,經寧概括說:“我們能更好地把握大數據的本質需求,并依靠自主研發能力,在IT架構上實現創新,將計算與存儲進行有機結合。我們還基于自己的大數據存儲平臺,提供了多種類型的接口,便于與應用銜接。”從產品研發的角度看,華為將重點放在了軟件方面,硬件則采用了開放的標準化的存儲服務器架構。在2013年華為云計算大會上,華為與中央電視臺正式簽署合作協議,在大數據存儲領域建立戰略合作關系,為媒資行業提供領先的技術和應用模式。雙方計劃聯合開發自適應、深度節能的高密度、大容量的媒資存儲系統。
面對大數據的需求,存儲永遠不變的是對數據可靠性、性能、可擴展性和效率的追求,而有可能發生改變的是為了提高效率、節省消耗,存儲可以變得更加靈活,也可以考慮與計算進行融合等。不管存儲如何變化,用戶對高性價比的需求始終不變。
數據收集和存儲是大數據分析的第一個環節。在大數據時代,應用數量、數據量和使用者數量的增長,對存儲IOPS以及OLTP和OLAP的要求越來越高,具體表現在現有的存儲已不能滿足業務關鍵型應用的需求。中橋調研咨詢針對中國用戶的調研數據顯示,FC SAN仍是企業級用戶(42.1%)和中型企業(34.0%)的首選,遠高于其他存儲類型的占比。這是因為FC SAN對OLTP和OLAP的性能穩定性優于其他存儲技術。這一調查結果也顯示,目前中國用戶大多處于大數據分析的第一階段,其工作以存儲和IT架構的整合和優化為主。王叢分析說,隨著Hadoop和MapReduce的不斷普及,中國用戶將逐步進入近實時和實時分析階段,節點式存儲的占比會隨之增加。
打通行業價值鏈
華為的金字塔型“4V”理論具體來說,第一步,要建立一個高效的存儲架構平臺,它既能處理大量的小文件,也能處理單體較大的文件。第二步,這個存儲平臺要具備極高的處理性能。第三步,這個存儲平臺要能處理多樣化的數據,包括結構化和非結構化數據。只有通過前面三步打下的基礎,企業用戶才能進入最后一步,在一個高效的專門為大數據構建和優化的平臺上進行數據分析和挖掘,并最終獲得所需的價值。
經寧表示:“如果仔細甄別,大數據與海量數據還是有差別的,畢竟大數據不僅僅是指數據量大,還包括處理、分析和挖掘等過程。從表面上看,大數據的‘4V’特征是并列的關系,但實際上這些因素之間還是有層次性的。我們提出的大數據金字塔模型,可以更好展現大數據價值的實現過程。”
華為倡導構建高效的大數據存儲平臺,而其中的高效又是如何來衡量的呢?高效的第一個衡量指標就是性能。性能是大數據存儲平臺的基石之一,沒有性能的保證,大數據系統無異于空中樓閣。其次,大數據強調的是簡化使用,提高效率。最后,高效的大數據存儲平臺應該采用融合的技術架構。以華為OceanStor 9000大數據存儲系統為例,它采用華為首創的全融合創新架構,可以實現存儲、分析和歸檔的融合,同時具有很強的橫向擴展能力,最大可擴展至288節點,單一文件系統可支持40PB容量。分析功能是指OceanStor 9000中內置了分布式數據庫,能完成數據的快速檢索和查詢,以支持上層應用。
華為一直堅持“被集成”的策略,這在大數據領域同樣適用。華為的大數據存儲平臺可以提供開放的接口,方便與BI軟件和應用軟件連接,進一步提高查詢效率。在OceanStor 9000這樣的融合平臺之上,用戶還可以根據業務的情況靈活添加相關的功能模塊。“在大數據方面,我們主要從垂直行業切入,與行業ISV緊密合作,為金融、電信運營商、媒體、智慧城市、石油勘探等領域的用戶提供端到端的大數據存儲解決方案。”經寧說,“雖然我們已在大數據存儲市場上取得了豐碩的成果,但是我們更看好大數據存儲市場未來的潛力,因為其增長速度遠高于傳統存儲市場。”
產生這一變革需求的原因除了市場需求因素之外,陸續出現的一些困擾數據存儲行業發展的因素也是重要原因。在過去,由于用戶對存儲應用需求的復雜性和個性化,具備整體解決方案能力的廠商占據了明顯的市場優勢,打造整體解決方案能力也就成為存儲業界競爭的焦點。但在網絡信息化的新尋求之下,過去那些具備獨特優勢的廠商很難在“存儲設備+網絡服務器+軟件+服務支持”的整體解決方案框架下提出整體解決方案。其中,高額的成本是最重要的原因。對于很多具有突出專業優勢的企業來講,通過尋求合作降低成本似乎成為惟一的途徑。
中國存儲市場很長時期以來是電信、金融行業的重點服務對象,其采購量占據了2/3以上。但自2002年開始,更多的行業涉足存儲應用,而且從應用的范圍看,不僅僅限于傳統的備份和容災,在廣度和深度上有更多延伸,如廣電的媒體多級存儲,監控的視頻圖像存儲,氣象、石油和航天的海量數據存儲等。而且,隨著各企業單位對業務數據保護意識的加強,中小數據規模的用戶,如政府、軍隊、教育、商業、制造業和中小企業等也開始加大了在存儲方面的投入。據CCID預測,從2004年開始,五年內中國存儲市場會以10%一20%的年增長率遞增。2004~2008年中國外部磁盤存儲系統市場銷售量將以64,4%的年復合增長率快速增長。到2008年,外部磁盤存儲系統銷售額及銷售量分別達到103.3億元人民幣和82436.4TB,存儲軟件2007年的銷售額將接近25億元。
雖然市場的細分帶來了更多的機會,但同樣也使得競爭變得更加激烈。事實上,在數據存儲“存儲設備+網絡服務器+軟件+服務支持”這條產業鏈上,并不都是很容易切人的。
云存儲可以充分利用現有硬件的存儲能力,分布計算,提高存儲能力,云存儲分為公有云存儲和私有云存儲,對企業客戶來說,使用公有云存儲最大的顧慮是數據安全,但是私有云存儲就能很好的解決這個問題。
實體存儲是存儲行業的大趨勢,主要原因是非結構化數據的飛速增長或傳統數據存儲的局限性。在選擇私有云儲存時要考慮云存儲的技術實現,選擇基于實體存儲解決方案的產品。這里以企業云盤為例,介紹企業在文檔和數據存儲方面的管理。
在技術解決方案上,企業云盤一般分三層,最底層是硬件資源和云管理平臺,充分利用公司現有的存儲硬件。中間一層是云存儲核心部分,實現云存儲的數據管理,基于實體存儲的設計思路,突破操作系統對文件管理的局限性。商務邏輯為企業用戶定制,含企業特有的模塊和功能。最上面的一層是應用層,榮之聯提供不同終端的軟件供用戶安裝,終端軟件和云存儲對接,做數據交換。對員工而言,終端軟件就是企業云盤。
那站在企業的角度來看,運用企業云盤這種私有云存儲能給企業帶來怎樣的好處了呢?
1.數據更加安全高效:私有云存儲是部署在公司的防火墻內,受公司的安全機制管制,還能輕松管理每個員工的讀寫權限。同時文件分享可以讓員工在無VPN的情況下讀寫文檔,公司內部無需安裝文件服務器,而且企業云盤擁有去重的功能,對硬件資源的利用更充分,大大減少硬件資源的浪費。還能支持各移動終端進行移動辦公,無須擔心數據同步問題。
2.文檔分享、搜索更快捷:群組概念提供更靈活的分享途徑。員工可以創建項目組、興趣組、部門組、公司組。群組的概念讓文件分享更加有針對性。企業文檔被集中管理,員工可以在創建的不同層面上做搜索。
3.更優的用戶體驗:企業云盤和用戶的電腦無縫集成。用戶無需改變使用習慣就可以充分享受云存儲的好處。備份,同步自動在后臺進行,優化的算法也充分利用網絡帶寬。用戶也可自設上傳下載的速率。同時榮之聯創新的分布式部署極大降低對帶寬的要求。用戶的數據首先是存放到最近的服務器,讀寫更快捷。
4.審計和版本管理:云盤自帶審計和版本管理功能,可以輕松地恢復到以前的版本。
5.API 支持:企業云盤可以部署為云存儲。企業內部的應用可以直接調用云存儲的API來讀寫數據。是真正意義上的企業私有實體存儲(Object Storage) 。
現階段我國常見的XBRI數據存儲方式主要包括:文件系統存儲、關系數據庫存儲、原生數據庫存儲。目前運用最為廣泛的XBRL數據存儲方式是以關系數據庫存儲XBRL文檔,可以分為CLOB字段存入關系數據庫和拆分方式存入關系數據庫,其中以拆分方式存入關系數據庫最為常見。以拆分方式存入即將XBRL文檔分解映射到關系數據庫的多張關系型表中。采用該種方式保證了數據的安全性和完整性,且易于數據查詢、挖掘和數據的深加工,是目前廣泛應用的XBRL數據存儲方案。但此種方式也存在弊端:一是難以映射復雜的XBRL實例文檔,且其維護極其復雜。二是對于XBRL文檔完整性的體現蕩然無存。三是這種分解的方式會耗費數據庫服務器的大量CPU和內存資源。四是這種方式破壞XBRL文檔內部的關聯關系,容易造成XBRL數據失真。盡管以關系數據庫存儲技術進行XBRL數據存儲的存儲方案,在目前市場上有著堅實的地位和強大的軟件支持,然而因信息管理技術不斷進步而涌現的諸多問題,將會是關系型數據庫所不能承受的生命之重。
二、新一代XBRL數據存儲方式――混合數據庫存儲
在關系型數據庫所主宰的堅固世界正在逼近變革的臨界點上,根據“螺旋式”上升的法則,混合型數據庫孕育而生。本文擬將基于混合數據庫,就一個商品銷售信息的存儲為例,從下述方面來探討混合數據庫存儲技術所具備的優質功能特性。(1)邏輯存儲。創建同時包含傳統SQL數據類型列和新的XBRL數據類型列的表。列表沒有制定XML數據的內部結構,原因是XBRL文檔是自我描述的,混合型數據庫對XBRL數據存儲時,只需驗證其是否符合XBRL分類標準及規范。這種寬松的方式給用戶提供了很強的靈活性,更容易存儲包含不同屬性和內部結構的XBRL文檔集合,從而保證了XBRL數據的完整性與準確性。(2)物理存儲。以樹和節點作為模型來存儲和處理XBRL數據,采用經過解析的格式來反映原始XBRL文檔的層次結構,混合型數據庫將用模式類型信息對XML層次結構中的所有節點進行標注,從而保證了XBRL數據的內部網狀關聯以及XBRL數據的層次性、多維度性。(3)索引。采用的是SQL DDL語句創建XBRL索引。該索引方式顯著提高了數據庫查詢和應用程序的性能,減少為返回查詢結果集而必須讀取的數據量,同時具有標示性,可以確保數據的準確性。(4)查詢語言。程序員可以使用SQL或XQuery搜索數據,應用程序可以自由地使用這兩種語言的語句,而且一個查詢語句可以結合使用SQL和XQuery。此外,混合型數據庫有兩個查詢語言分析器:一個用于XQuery,另一個用于SQL。這兩種語言編寫的查詢都能高效地重寫查詢操作符以及選擇低成本的數據訪問計劃。
混合數據庫的核心價值體現在,能將關系性數據庫引擎和XML數據庫引擎連接起來,采用“雙核”引擎機制,除了支持表數據模型之外,還支持XML文檔的層次化數據模型,使用戶能夠同時管理好兩部分的數據內容。同時,使用SQL和XQuery來查詢和處理這兩種形式的數據,既保留了關系型數據庫的優勢,又融入了XML對復雜數據管理的層次性、靈活性。因此,可以得出結論,采用混合數據庫技術進行XBRL數據存儲,是一種最為理想的XBRL數據存儲方案,將成為企業XBRL財務信息集成管理體系運用的核心關鍵技術。
三、企業級XBRL財務信息管理體系架構
該企業有2個廠區,其間通過光纖直連,廠區間直線距離3km。東廠區機房提供核心網絡支撐,運行核心ERP系統和PLM全生命周期管理(設計圖紙管理)系統,采用存儲陣列提供數據存儲,其他業務系統有CAPP等,采用服務器自帶的存儲空間存儲數據;目前,西廠區機房運行視頻監控、辦公自動化和黨建系統等非核心業務系統,現有設備使用時間較久。
1.2需求分析
目前,該企業業務系統管理方式較為簡單,需要通過存儲備份技術提供整理的數據管理提升數據的可靠性、可用性,實現存儲資源的容量增加和性能擴展,同時,通過備份系統實現對現有存儲環境數據的備份管理,確保數據的安全和可恢復。具體目標包括以下5點:①滿足業務系統增長的數據存儲要求;②解決數據無法統一規劃、分配、管理和性能調優,且存儲性能相對較低的問題;③集中的統一存儲系統,可使成本降至最低;④解決數據分散存儲問題,這樣會增加管理成本;⑤對個人電腦上的重要數據進行集中存儲管理。
1.3建設目標
通過整體建設考慮,主要建設目標可分為2步實現:①數據存儲建設。建設基于存儲備份平臺的存儲系統,將分散、獨立的各個平臺業務系統組成一個高速存儲的SAN網絡,集中管理降低了存儲資源管理的復雜性。同時,為個人重要數據提供了集中數據存儲業務,避免了因電腦損壞或因其他原因導致的數據丟失。②備份系統建設。通過帶有重復數據刪除技術的虛擬帶庫結合備份軟件進行備份系統建設,可確保ERP、PLM等核心業務數據的安全、可靠,同時,可長期保存該數據,且數據可恢復。
2存儲備份系統的設計方案
2.1數據平臺基礎的架構設計
根據數據存儲備份的需求分析進行數據存儲系統的架構設計。從目前業務系統的實際情況和未來業務系統的建設規劃看,整個核心業務系統中數據訪問模式以數據塊訪問為主。基于此情況,存儲備份系統的基本架構應為SAN架構。
2.1.1SAN架構
存儲區域網絡(StorageAreaNetwork)是高性能的網絡,其主要目的是使存儲設備與計算機系統連接并通信。在進行SAN架構設計時,應從以下幾方面考慮。
2.1.2性能
作為整個信息基礎架構的核心基礎架構,SAN架構應能滿足多業務、大并發時的性能需求,因此,在設計SAN架構時應考慮具備高性能,同時,能支撐多業務并訪問的存儲系統。
2.1.3可靠性
可靠性是存儲系統的必須具備的條件,應提供“99.999%”的可靠性,所有關鍵的部件都應是冗余配置。從數據保護的角度看,不同的RAID保護機制應可混合使用,以為不同的業務系統提供相應的數據保護機制。SAN網絡系統至少應配置2臺光纖交換機,以保證數據訪問鏈路是冗余的。
2.1.4可擴展性
好的信息基礎架構必須能提供足夠的擴展能力,其中,包括性能的擴展、功能的擴展和規模的擴展等。NAS架構是指網絡附加存儲(NetworkAttachedStorage),是連接到網絡并提供文件訪問服務的存儲系統。
2.2數據存儲方案和邏輯架構
在該企業的業務系統中,考慮建立以SAN+NAS為核心的存儲系統。考慮未來可能會有新的業務系統增加到現有環境中,因此,需要構建穩定、靈活的存儲體系。系統具體包括以下6部分:①光纖交換機。作為核心鏈接節點存在,東、西區機房都要求有2臺冗余配置。②光纖。實現容災端的連接,連接備份設備,光纖要求有2條冗余設計。③核心存儲陣列。作為集中存儲、管理的中心存在,滿足數據增長的需要。④其他存儲陣列。其性能較差、容量較小,作為二級存儲設備存儲存在。⑤備份服務器。安裝備份軟件,配置備份策略。⑥備份設備。支持消重技術,保障數據的長期儲存。
2.2.1方案描述
SAN存儲空間通過2臺FCSAN交換機提供冗余互聯。SAN存儲空間供原有業務系統數據存儲,比如將EPR、PLM系統數據遷移到新購的存儲設備上,通過新存儲優秀的性能,可提高原有業務系統的性能和存儲空間;NAS存儲空間主要用于個人PC數據資料的統一集中管理,確保數據不因個人電腦故障而丟失。
2.2.2磁盤規劃
在本次配置中,考慮根據需求選用SAS磁盤,配置40塊10000轉的600GBSAS磁盤提供數據存儲能力,這樣既能保證關鍵業務的快速響應,也能確保最優的性價比。
2.3數據備份方案
硬件采用虛擬磁帶庫設備接入SAN網絡作為備份設備。此外,采用備份軟件可實現對所有備份主機系統的備份管理。以下針對不同的業務類型展開備份策略設計。
2.3.1數據庫類數據備份每周1次全備份,本周內其他時間每天進行1次增量備份,備份數據保留6個月。
2.3.2應用程序類數據備份每月進行1次全備份,備份數據保存3個月。
2.3.3配置文件類數據備份每月進行1次全備份,備份數據保存3個月。
當前,供電企業個人或部門的數據,例如文本、圖片、歸檔數據、各種格式的文件等等,數據量呈現海量的增長,面臨如下問題:
1、個人存儲空間不足。供電企業個人PC設備,使用年限一般為5-7年,部分機型較老較舊,配置較低。主要的存儲設備為硬盤,空間在多年的存儲使用下已出現嚴重不足,普遍無法適應新增數據存儲的需求。
2、數據交互共享難。當前,個人用戶之間,部門之間,需要及時共享的數據容量越來越大,通過傳統的使用U盤、移動硬盤、FTP來中轉拷貝數據的方式,已越來越不適應當前的需要,存在著病毒感染、丟失等安全隱患。
針對以上兩種情況,本文通過架設私有云存儲服務器的方式來解決數據存儲和共享方面的問題,為供電企業數據存儲提供新的思路和解決方案。
一、項目實現功能
從應用場景上,我們的方案包括如下主要內容:1、文件存儲(為每個用戶提供10G以上的存儲空間);2、數據同步(通過云存儲提供的數據同步功能,實現員工數據的多終端同步);3、桌面數據備份(通過云存儲提供的數據備份功能,實現電腦中的數據的自動備份,支持文件級差異化備份機制);4、文檔內容(通過云存儲提供的數據自動分發功能,可將企業內部公告、通訊錄等文檔或電子表格快速地分發給指定的員工或部門,或通過外鏈地址(U RL)嵌入到郵件等);5、文檔快速匯總(通過云存儲提供的數據自動匯總功能,可以實現快速將員工本地文件自動匯總到云存儲的指定位置中);6、群組或部門工作區(可按需要建立群組或部門工作區,用于團隊協作,協同辦公,并支持文件多版本及文件鎖機制,提升多人協同辦公的效率)。
二、項目實施方案
2.1系統架構設計圖
如圖1。
2.2主要功能模塊
1、負載均衡模塊(LVS):負載均衡模塊建立在所有應用結構之上,它提供了一種有效透明的方法擴展網絡設備和服務器的帶寬、增加吞吐量、加強網絡數據處理能力、提高網絡的靈活性和可用性。
2、應用服務模塊(APP Server):提供了一套完整的企業數據應用、管理、監控的應用系統。私有云存儲作為企業數據應用系統,為企業員工提供個人數據存儲、分享服務,保護數據安全;也可以按照企業組織架構組建企業級、部門級、項目級的協同工作服務,提高數據處理效率。此外,靈活的空間管理、集中的賬戶配置、實時的日志審計方便系統管理者實現全方位的管理和監控。其中包括功能模塊如下。
應用服務(Web Service):為整套系統前端應用和web端訪問提供支持。
傳輸服務(TP Service):為用戶提供數據傳輸的支持。
3、文件存儲模塊(Storage Server):是一套分布式文件存儲系統,為應用服務模塊提供底層數據存儲及管理服務。可以作為標準的存儲系統為企業應用系統提供標準的數據存儲。
4、數據庫模塊(DB Server):其中包括功能模塊如下。
主數據庫:為應用服務模塊提供結構化數據服務。
從數據庫:為主數據庫提供備份服務。
2.3部署方式
在內網服務器上安裝私有云存儲軟件,并配置存儲服務器與之互聯。保持私有云存儲系統的網絡連通,在IE中輸入默認的管理地址進行管理訪問。
希捷市場營銷副總裁Jeff Fochtman表示:“作為希捷7月份的10TB Guardian守護者系列存儲解決方案的最新產品,IronWolf Pro為企業提供了更高的可靠性和靈活性,用于其大規模和多用戶操作NAS環境的最繁重工作負載。同時,新的IronWolf Pro增加了希捷數據恢復服務,企業可以更加安心地存儲數據,充分保證數據安全。”
IronWolf硬盤針對各種NAS業務設計,IronWolf Pro配備優化NAS應用的AgileArray?,幫助企業提升共享和備份文件的性能,改進私有云環境。AgileArray通過雙面平衡技術和RV傳感器保持硬盤平衡,進一步優化了RAID,提供先進的能耗管理,提升了整體性能。
中圖分類號:TP39文獻標識碼A文章編號1006-0278(2015)12-151-01
存儲即服務的概念不斷深入人心,云存儲作為云計算概念的發展和延伸得到了快速的發展。云存儲是一種全新的存儲服務模式,有效地整合了大規模的存儲資源并把存儲以服務的形式提供給用戶。云存儲實現了合理的數據存儲和高效的數據管理,有效地減輕了用戶對數據存儲和管理的負擔,同時也降低了用戶的開銷。隨著云存儲服務和研究的不斷深入,政府部門和企業數據外包服務等應用成為云存儲應用的重要部分。
隨著云存儲技術的快速發展,數據安全問題得到了產業界和學術界的廣泛關注。絕大部分用戶希望在不損害數據原有安全性的前提下使用云存儲服務。針對云存儲中數據保護需求,研究者開始采用密文訪問控制機制來保護數據在存儲和共享過程中的安全。然而,在云存儲中采用密文訪問控制機制會較為明顯地增加用戶使用開銷,降低用戶訪問云存儲的效率。特別是當數據共享規模大、用戶屬性較少、訪問權限變更頻繁、數據訪問集中時,采用密文訪問控制機制會明顯增加用戶訪問云存儲的延時。如何有效應對密鑰分發復雜、權限撤銷開銷大、用戶資源受限等挑戰,降低采用密文訪問控制機制的額外開銷,是云存儲數據安全保護研究中亟待解決的關鍵問題。
一、密文訪問控制的基本應用場景
數據所有者主要負責數據加密和密文分發操作,數據一般采用對稱算法加密后托管到云端,然后通過安全信道或其他可靠手段將密鑰分發給授權的數據使用者。數據使用者從云存儲中取回數據后解密使用,采用不同密文訪問控制技術時的解密密鑰獲取過程不盡相同。云存儲服務提供商只需要提供相應的數據存儲能力,響應數據讀寫請求即可。系統管理員負責配置云存儲服務,完成密文訪問控制機制初始化,管理維護系統用戶的身份證書。
二、簡單個人用戶密文訪問控制實現方案
用戶將數據加密后存放到云存儲中,使用時取回數據并解密。簡單個人用戶很少需要共享數據,因此可以簡化密文訪問控制過程,降低用戶開銷,簡單個人用戶密文訪問控制實現方案的基本流程,如圖1所示。
三、總結
本文在深入分析云存儲中數據安全防護需求的基礎上,綜合現有密文訪問控制技術和新型密碼技術,提出了云存儲中密文訪問控制模型的數學描述,并分析了影響模型性能的主要因素。然后分別針對簡單個人用戶、社區個人用戶和企業用戶,給出了模型的多種不同實現方案。其中,基本密文訪問控制方案能夠為簡單個人用戶的數據云端存儲和共享過程提供簡潔、有效的保護。基于本地的云存儲訪問效率優化技術。企業用戶使用云存儲時具有數據量大、共享頻繁、訪問相對集中等特征,如果簡單地采用密文訪問控制機制來保護數據存儲和共享安全,則會降低云存儲的訪問效率。基于本地的云存儲訪問效率優化技術,能夠在企業已有計算、存儲資源上部署本地,然后通過本地來代替員工完成密文訪問控制相關操作、并緩存頻繁訪問的數據,最終有效地降低采用密文訪問控制機制對企業用戶的影響。以上研究成果針對云存儲數據安全需求,在保證數據安全的前提下提升了密文訪問控制機制的效率,促進了密文訪問控制技術在云存儲數據安全保護中的進一步應用,具有一定的理論意義和實際應用價值。
參考文獻:
[1]李家治.云存儲中基于屬性的密文檢索與訪問控制[D].華東師范大學,2015.
9月8日,紫光西部數據有限公司(以下簡稱紫光西部數據)成立典禮在南京舉行,這是中國大數據產業創新發展的又一重要里程碑。秉承“自主創新+國際合作”的發展理念,紫光西部數據致力于為各行業客戶提供基于全產業鏈的大數據服務,成為中國大數據產業戰略合伙人,這是為逐步實現紫光集團大戰略而設定的一個“小目標”。紫光西部數據從現在開始起步。
構建從“芯”到“云”的大生態
眾所周知,紫光集團是中國IT界的一艘新航母。在國家集成電路產業推進戰略的引導下,紫光集團以“自主創新+國際合作”雙輪驅動,確立了以集成電路產業為主導,向泛IT、移動互聯、云計算與云服務等信息產業核心領域集中發展的戰略。
從2013年以來,紫光集團通過一系列的戰略并購,不斷完善自己的戰略布局,豐富產品線。紫光集團先后投資超過1500億元,收購了全球移動通信芯片公司展訊通信和銳迪科,控股H3C和惠普中國企業業務,分別成立紫光展銳和新華三集團。清華系旗下最重要的IT產業平臺已具雛形,全面構筑從“芯”到“云”的信息產業生態系統并非妄言。
IDC預測,到2020年,全球的數據總量將達到44ZB。數據規模的持續增加,用戶對數據處理的速度,以及系統的可用性、可擴展、靈活性等的要求不斷提升,這些都是大數據存儲迫切需要解決的問題,也是大數據存儲產業面臨的新機遇。
毫無疑問,大數據存儲業務是紫光集團這艘航母前進的主要動力之一,而紫光集團的戰略布局也早為大數據存儲業務的快速發展埋下伏筆。2016年7月,紫光集團收購武漢新芯多數股權后,長江存儲科技有限責任公司正式成立。紫光集團持有長江存儲科技有限公司超過50%的股份。紫光集團董事長趙偉國出任長江存儲公司董事長。這是紫光集團的大戰略從“芯”開始的一個具體體現。
在今年舉行的第二屆中國大數據產業峰會暨中國電子商務創新發展峰會上,趙偉國曾表示,從2016年開始,紫光集團計劃投資300億美元用于存儲器芯片制造,這大概是中國有史以來最大的存儲項目。大數據的發展需要海量存儲,而中國以前在這方面是空白,這便是紫光集團選擇的發力點。芯片是產生和存儲數據的基本單位,也是發展大數據存儲的基礎。只有在芯片上掌握主動,才能在發展大數據存儲時做到有的放矢。
在紫光集團著力打造的從“芯”到“云”的產業鏈中,“芯”是指芯片,那么“云”當然是指大數據、大互聯、大安全和云計算。紫光集團控股的新華三集團在云和大數據方面提供了完整的解決方案,包括服務器、存儲、網絡設備,以及云操作系統、大數據安全系統等,在除運營商以外的企業網絡領域,紫光排名第一,在全球僅次于思科。
在大數據存儲的產業鏈條上,有了武漢新芯的存儲芯片,又有了新華三的存儲解決方案,這中間是不是還少了一個能夠將它們串聯和徹底打通的環節?紫光西部數據應運而生。
自主創新也少不了國際合作
紫光西部數據于2016年3月28日注冊成立,總部位于南京市秦淮高新技術園區內,市場和銷售總部則位于北京。紫光集團旗下紫光股份持股比例為51%,而西部數據持股比例為49%。
紫光西部數據首席執行官繆剛表示,新公司的愿景可以概括為一句話:以數據成就未來,做中國大數據產業戰略合伙人。
具體來看,這一愿景又可以細分為以下四個層面:第一,扎根中國,放眼全球,新公司將以中國為起點,憑借全球領先的技術研發、設計生產、市場推廣等方面的優勢,提供符合中國市場需求的全方位大數據解決方案,并在此基礎上,進軍全球市場;第二,自主創新,安全可控,通過自主研發,實現自主、安全和可控,在保護數據可靠的基礎上,保障多種核心應用的安全、穩定運行;第三,行業優化,扁平融合,針對具體的行業需求,開發符合行業特性的全方位數據服務,通過實現應用層扁平化,實現大數據整體發展;第四,開放合作,攜手共贏,全面打造開放創新的平臺,攜手各界合作伙伴,建立合作共贏的生態體系,合力推動大數據產業的創新發展。
為了實現上述宏偉目標,紫光西部數據需要在堅持自主創新的基礎上,以開放的胸懷,采取積極的合作策略,而西部數據無疑是一個理想的合作伙伴。
西部數據是全球領先的數據存儲解決方案提供商,在全球硬盤市場的占有率排名第一。與紫光集團類似,西部數據近幾年也通過一系列的收購不斷完善產品的布局。2012年,西部數據收購昱科環球存儲科技咨詢有限公司(HGST),目的在于為企業級市場的客戶提供高價值的存儲解決方案。2016年5月,西部數據又以190億美元的大手筆完成了對閃迪(SanDisk)公司的收購,快速轉型,成了閃存市場的佼佼者。
美國西部數據公司全球高級副總裁、數據中心系統事業部總經理唐戴夫表示:“我們之所以選擇紫光集團作為合作對象,一方面是因為紫光集團具有本地研發、設計、生產、營銷的能力,可以提供針對本土用戶需求的定制化的解決方案;另一方面,紫光集團擁有寬泛的產品線和業務,紫光旗下的新華三、紫光互聯等,都可以成為西部數據的合作伙伴,形成解決方案和業務上的互補。西部數據與紫光集團的全方位合作,讓我們感覺未來在技術和業務的創新大有可為。”
繆剛進一步介紹說:“合資公司將在核心存儲技術、企業級存儲解決方案,以及大數據全產業鏈服務等領域形成關鍵戰略合作,推動紫光集團從‘芯’到‘云’的信息產業生態系統的構建,同時幫助西部數據實現業務拓展,為智慧城市、金融服務、媒體娛樂、天文氣象、電信、基因科學、醫療衛生、新興互聯網等各行業客戶提供符合其需求的數據存儲和數據服務解決方案。”
打造系統級的存儲產品
紫光西部數據為何落戶南京?首先,紫光西部數據在南京現有一支70多人的研發團隊,未來還要進一步擴張,這也是讓紫光西部數據引以為豪的實現自主可控的基本保證。其次,紫光西部數據接下來要與南京當地的政府、企事業單位加強合作,紫光西部數據與南京市有關部門聯合成立的大數據研發中心正在醞釀之中。
正如繆剛所說,紫光西部數據要首先扎根中國,為中國用戶提供滿足其需求的定制化的大數據存儲解決方案。紫光西部數據9月8日舉行成立慶典之后將全面展開營銷活動,而最先推出的產品就是西部數據特有的動態歸檔(Active Archive)系統。這一動態歸檔系統是一個獨立自主的對象存儲系統,可以方便地擴展存儲容量,最高可達數PB,且具有更高的可靠性和更好的成本效益,能夠同時滿足傳統應用需求和新型應用需求。
時至今日,西部數據已經不再是那個擁有單一硬盤產品的廠商,其產品線涵蓋存儲介質、存儲平臺、系統軟件和系統構件,其中存儲系統成了最主要的抓手,動態歸檔系統就是代表,而這正是紫光集團與西部數據合作最重要的一類產品。