前段時間在網(wǎng)上看到一張大數(shù)據(jù)行業(yè)全景圖,幾乎涵蓋了大數(shù)據(jù)相關(guān)的全部技術(shù)。光數(shù)據(jù)庫產(chǎn)品就好幾十種,真是眼花繚亂:)

先說說幾個概念:結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),關(guān)系型和非關(guān)系型數(shù)據(jù)庫
簡單而言,可以用二維表來表示的就是結(jié)構(gòu)化數(shù)據(jù)(如,包含有不同字段的一條記錄);相反,不方便用二維邏輯表來表現(xiàn)的數(shù)據(jù),如文本、圖片、視頻、XML、HTML、圖像和音頻就是非結(jié)構(gòu)化數(shù)據(jù)。此外,字段可根據(jù)需要擴(kuò)充,即字段數(shù)目不定的,可稱為半結(jié)構(gòu)化數(shù)據(jù)。
關(guān)系型數(shù)據(jù)庫就是由二維表及其之間的聯(lián)系所組成的一個數(shù)據(jù)集??梢赃@樣理解,如果數(shù)據(jù)集(數(shù)據(jù)庫)是關(guān)系型,那么數(shù)據(jù)一定是結(jié)構(gòu)化的,相反如果數(shù)據(jù)是結(jié)構(gòu)化,那么組成的數(shù)據(jù)集可能是關(guān)系型。關(guān)系型數(shù)據(jù)庫的最大特點(diǎn)就是事務(wù)的一致性。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫讀寫操作都是事務(wù)的,具有ACID(不展開講)的特點(diǎn),如典型的銀行系統(tǒng)。但是,在互聯(lián)網(wǎng)應(yīng)用中,一致性卻不是顯得那么重要:如張三看到的內(nèi)容和李四看到同一內(nèi)容更新不一致是可以容忍的,換句話說,兩個人看到同一好友的數(shù)據(jù)更新的時間差那么幾秒是可以容忍的。因此,關(guān)系型數(shù)據(jù)庫的最大特點(diǎn)在互聯(lián)網(wǎng)時代已經(jīng)不那么重要了。
1、關(guān)系型數(shù)據(jù)庫
數(shù)據(jù)庫發(fā)展的早期,幾乎都是集中式的關(guān)系型數(shù)據(jù)庫的天下,如商業(yè)型數(shù)據(jù)庫ORACLE、SQL Server、IBM DB2、Sybase等,尤其是ORACLE,幾乎占到了大型數(shù)據(jù)庫市場份額的70%以上,這也是為什么“去IOE”(IBM的小型機(jī)、Oracle的數(shù)據(jù)庫、EMC的存儲)工作中去O最難的原因。
后來逐漸發(fā)展起來的開源數(shù)據(jù)庫有MySQL、PostgreSQL。據(jù)統(tǒng)計,截止2016年11月份,MySQL已超過Oracle數(shù)據(jù)庫,位居關(guān)系型數(shù)據(jù)庫排行榜第一?;ヂ?lián)網(wǎng)行業(yè)如谷歌、FaceBook、阿里、騰訊、京東等,傳統(tǒng)行業(yè)如順豐、圓通、上港集團(tuán)、陸港集團(tuán)、上汽集團(tuán)、上交所、寧波銀行、恒豐銀行、聯(lián)通、移動、電信等,都有大規(guī)模應(yīng)用MySQL。PostgreSQL主要在GIS領(lǐng)域處于優(yōu)勢地位,有豐富的GIS數(shù)據(jù)類型和處理算法。
2、非關(guān)系型數(shù)據(jù)庫(NoSQL):大部分都是開源的,可謂百花齊放百家爭鳴,常見的產(chǎn)品超過20種。其中有很大一部分非關(guān)系型數(shù)據(jù)庫都是針對某些特定的應(yīng)用需求出現(xiàn)的,因此,對于特定應(yīng)用具有極高的性能。
非關(guān)系型數(shù)據(jù)庫主要分為以下幾類:
(1)鍵值(key-value)數(shù)據(jù)庫:面向高性能并發(fā)讀寫,典型代表如Redis。
(2)列存儲(Columnar Storage)數(shù)據(jù)庫:面向PB級的分析應(yīng)用,如:HBase,Hypertable。京東、阿里、騰訊、唯品會、圓通、順豐等都將HBase大規(guī)模應(yīng)用于準(zhǔn)實(shí)時的數(shù)據(jù)分析挖掘計算以及提供歷史歸檔數(shù)據(jù)的存儲和查詢服務(wù)。
(3)文檔數(shù)據(jù)庫:特點(diǎn)是可以在海量的數(shù)據(jù)中快速地查詢數(shù)據(jù),如網(wǎng)頁和移動應(yīng)用數(shù)據(jù)。典型代表:MongoDB,CouchDB,Mark Logic
(4)圖形數(shù)據(jù)庫:如應(yīng)用在推薦系統(tǒng)、關(guān)系圖譜,典型代表:new4j,InfiniteGraph,OrientDB
3、新式關(guān)系型數(shù)據(jù)庫(NewSQL ):NewSQL提供與NoSQL系統(tǒng)相同的擴(kuò)展性能,且保持傳統(tǒng)數(shù)據(jù)庫支持的ACID特性。典型代表:SAP HANA,VoltDB,nuoDB,MariaDB,Pivotal
4、MPP(Massively Parallel Processing)數(shù)據(jù)庫:指使用多個SQL數(shù)據(jù)庫節(jié)點(diǎn)搭建的數(shù)據(jù)倉庫系統(tǒng),MPP解決了單個SQL數(shù)據(jù)庫不能存放海量數(shù)據(jù)的問題。代表產(chǎn)品有Teradata,Vertica,Redshift,Greenplum
本文由網(wǎng)上采集發(fā)布,不代表我們立場,轉(zhuǎn)載聯(lián)系作者并注明出處:http://m.zltfw.cn/shbk/39861.html