什么是列式存儲(chǔ) 與OLTP對(duì)比有什么優(yōu)勢(shì)？

列式存儲(chǔ)（Column-oriented Storage）并不是一項(xiàng)新技術(shù)，最早可以追溯到 1983 年的論文 Cantor。然而，受限于早期的硬件條件和使用場(chǎng)景，主流的事務(wù)型數(shù)據(jù)庫(kù)（OLTP）大多采用行式存儲(chǔ)，直到近幾年分析型數(shù)據(jù)庫(kù)（OLAP）的興起，列式存儲(chǔ)這一概念又變得流行。

總的來(lái)說(shuō)，列式存儲(chǔ)的優(yōu)勢(shì)一方面體現(xiàn)在存儲(chǔ)上能節(jié)約空間、減少 IO，另一方面依靠列式數(shù)據(jù)結(jié)構(gòu)做了計(jì)算上的優(yōu)化。本文將著重介紹列式存儲(chǔ)的數(shù)據(jù)組織方式，包括數(shù)據(jù)的布局、編碼、壓縮等。

一、什么是列式存儲(chǔ)

傳統(tǒng) OLTP 數(shù)據(jù)庫(kù)通常采用行式存儲(chǔ)。以下圖為例，所有的列依次排列構(gòu)成一行，以行為單位存儲(chǔ)，再配合以 B+ 樹(shù)或 SS-Table 作為索引，就能快速通過(guò)主鍵找到相應(yīng)的行數(shù)據(jù)：

行式存儲(chǔ)對(duì)于 OLTP 場(chǎng)景是很自然的：大多數(shù)操作都以實(shí)體（Entity）為單位，即大多為增刪改查一整行記錄，顯然把一行數(shù)據(jù)存在物理上相鄰的位置是個(gè)很好的選擇。

然而，對(duì)于 OLAP 場(chǎng)景，一個(gè)典型的查詢需要遍歷整個(gè)表，進(jìn)行分組、排序、聚合等操作，這樣一來(lái)按行存儲(chǔ)的優(yōu)勢(shì)就不復(fù)存在了。更糟糕的是，分析型 SQL 常常不會(huì)用到所有的列，而僅僅對(duì)其中某些感興趣的列做運(yùn)算，那一行中無(wú)關(guān)的列也不得不參與掃描。

列式存儲(chǔ)就是為這樣的需求設(shè)計(jì)的。如下圖所示，同一列的數(shù)據(jù)被一個(gè)接一個(gè)緊挨著存放在一起，表的每列構(gòu)成一個(gè)長(zhǎng)數(shù)組：

什么是列式存儲(chǔ) 與OLTP對(duì)比有什么優(yōu)勢(shì)？

顯然，列式存儲(chǔ)對(duì)于 OLTP 不友好，一行數(shù)據(jù)的寫(xiě)入需要同時(shí)修改多個(gè)列。但對(duì) OLAP 場(chǎng)景有著很大的優(yōu)勢(shì)：

當(dāng)查詢語(yǔ)句只涉及部分列時(shí)，只需要掃描相關(guān)的列

每一列的數(shù)據(jù)都是相同類型的，彼此間相關(guān)性更大，對(duì)列數(shù)據(jù)壓縮的效率較高

小貼士：

BigTable（HBase）是列式存儲(chǔ)嗎？

很多文章將 BigTable 歸為列式存儲(chǔ)。但嚴(yán)格地說(shuō)，BigTable 并非列式存儲(chǔ)，雖然論文中提到借鑒了 C-Store 等列式存儲(chǔ)的某些設(shè)計(jì)，但 BigTable 本身按 Key-Value Pair 存儲(chǔ)數(shù)據(jù)，和列式存儲(chǔ)并無(wú)關(guān)系。

有一點(diǎn)迷惑的是 BigTable 的列簇（Column Family）概念，列簇可以被指定給某個(gè) Locality Group，決定了該列簇?cái)?shù)據(jù)的物理位置，從而可以讓同一主鍵的各個(gè)列簇分別存放在最優(yōu)的物理節(jié)點(diǎn)上。由于 Column Family 內(nèi)的數(shù)據(jù)通常具有相似性，對(duì)它做壓縮要比對(duì)整個(gè)表壓縮效果更好。

另外，值得強(qiáng)調(diào)的一點(diǎn)是：列式數(shù)據(jù)庫(kù)可以是關(guān)系型、也可以是 NoSQL，這和是否是列式并無(wú)關(guān)系。本文中討論的 C-Store 就采用了關(guān)系模型。

什么是列式存儲(chǔ) 與OLTP對(duì)比有什么優(yōu)勢(shì)？

Column Families in BigTable

二、起源：DSM 分頁(yè)模式

我們知道，由于機(jī)械磁盤(pán)受限于磁頭尋址過(guò)程，讀寫(xiě)通常都以一塊（Block）為單位，故在操作系統(tǒng)中被抽象為塊設(shè)備，與流設(shè)備相對(duì)。這能幫助上層應(yīng)用更好地管理儲(chǔ)存空間、增加讀寫(xiě)效率等。

這一特性直接影響了數(shù)據(jù)庫(kù)儲(chǔ)存格式的設(shè)計(jì)：數(shù)據(jù)庫(kù)的 Page 對(duì)應(yīng)一個(gè)或幾個(gè)物理扇區(qū)，讓數(shù)據(jù)庫(kù)的 Page 和扇區(qū)對(duì)齊，提升讀寫(xiě)效率。

那如何將數(shù)據(jù)存放到頁(yè)上呢？

大多數(shù)服務(wù)于在線查詢的 DBMS 采用 NSM （N-ary Storage Model），即按行存儲(chǔ)的方式，將完整的行（即關(guān)系 relation）從 Header 開(kāi)始依次存放。頁(yè)的最后有一個(gè)索引，存放了頁(yè)內(nèi)各行的起始偏移量。由于每行長(zhǎng)度不一定是固定的，索引可以幫助我們快速找到需要的行，而無(wú)需逐個(gè)掃描。

NSM 的缺點(diǎn)在于：如果每次查詢只涉及很小的一部分列，那多余的列依然要占用掉寶貴的內(nèi)存以及 CPU Cache，從而導(dǎo)致更多的 IO。為了避免這一問(wèn)題，很多分析型數(shù)據(jù)庫(kù)采用 DSM（Decomposition Storage Model），即按列分頁(yè)：將 Relation 按列拆分成多個(gè) Sub-relation。類似的，頁(yè)的尾部存放了一個(gè)索引：

什么是列式存儲(chǔ) 與OLTP對(duì)比有什么優(yōu)勢(shì)？

順便一提，2001 年 Ailamaki 等人提出 PAX （Partition Attributes Cross）格式，嘗試將 DSM 的一些優(yōu)點(diǎn)引入 NSM，將兩者的優(yōu)點(diǎn)相結(jié)合。

具體來(lái)說(shuō)，NSM 能更快速地取出一行記錄，這是因?yàn)橐恍械臄?shù)據(jù)相鄰，保存在同一頁(yè)；DSM 能更好地利用 CPU Cache 以及使用更緊湊的壓縮。PAX 的做法是將一個(gè)頁(yè)劃分成多個(gè) Minipage，Minipage 內(nèi)按列存儲(chǔ)，而一頁(yè)中的各個(gè) Minipage 能組合成完整的若干 Relation。

如今，隨著分布式文件系統(tǒng)的普及和磁盤(pán)性能的提高，很多先進(jìn)的 DBMS 已經(jīng)拋棄了按頁(yè)存儲(chǔ)的模式。但是其中的某些思想，例如數(shù)據(jù)分區(qū)、分區(qū)內(nèi)索引、行列混合等，仍然處處可見(jiàn)于這些現(xiàn)代的系統(tǒng)中。

分布式儲(chǔ)存系統(tǒng)雖然不再有頁(yè)的概念，但是仍然會(huì)將文件切割成分塊進(jìn)行儲(chǔ)存，但分塊的粒度要遠(yuǎn)遠(yuǎn)大于一般扇區(qū)的大小（如 HDFS 的 Block Size 一般是128MB）。更大的讀寫(xiě)粒度是為了適應(yīng)網(wǎng)絡(luò) IO 更低的帶寬以獲得更大的吞吐量，但另一方面也犧牲了細(xì)粒度隨機(jī)讀寫(xiě)。

三、列數(shù)據(jù)的編碼與壓縮

無(wú)論對(duì)于磁盤(pán)還是內(nèi)存數(shù)據(jù)庫(kù)，IO 相對(duì)于 CPU 通常都是系統(tǒng)的性能瓶頸，合理的壓縮手段不僅能節(jié)省空間，也能減少 IO 、提高讀取性能。列式存儲(chǔ)在數(shù)據(jù)編碼和壓縮上具有天然的優(yōu)勢(shì)。

以下介紹的是 C-Store 中的數(shù)據(jù)編碼方式，具有一定的代表性。

根據(jù)：數(shù)據(jù)本身是否按順序排列（Self-Order）以及數(shù)據(jù)有多少不同的取值（Distinct Values），我們分成以下 4 種情況討論：

有序且Distinct值不多。使用一系列的三元組（v，f，n）對(duì)列數(shù)據(jù)編碼，表示數(shù)值v從第f行出現(xiàn)，一共有n個(gè)（即f到f+n？1行）。例如：數(shù)值4出現(xiàn)在12-18行，則編碼為（4，12，7）。

無(wú)序且Distinct值不多。對(duì)于每個(gè)取值v構(gòu)造一個(gè)二進(jìn)制串b，表示v所在位置的Bitmap。例如：如果一列的數(shù)據(jù)是0，0，1，1，2，1，0，2，1，則編碼為（0，110000100）、（1，001101001）和（2，000010010）。由于Bitmap是稀疏的，可以對(duì)其再進(jìn)行行程編碼。

有序且Distinct值多。對(duì)于這種情況，把每個(gè)數(shù)值表示為前一個(gè)數(shù)值加上一個(gè)變化量（Delta），當(dāng)然第一個(gè)數(shù)值除外。例如，對(duì)于一列數(shù)據(jù)1，4，7，7，8，12，可以表示為序列1，3，3，0，1，4。顯然編碼后的數(shù)據(jù)更容易被Dense Pack，且壓縮比更高。

無(wú)序且Distinct值多。對(duì)于這種情況沒(méi)有很好的編碼方式。

編碼之后，還可以對(duì)數(shù)據(jù)進(jìn)行壓縮。由于一列的數(shù)據(jù)本身具有相似性，即使不做特殊編碼，也能取得相對(duì)較好的壓縮效果。通常采用 Snappy 等支持流式處理、吞吐量高的壓縮算法。

最后，編碼和壓縮不僅是節(jié)約空間的手段，更多時(shí)候也是組織數(shù)據(jù)的手段。在 PowerDrill、Dremel 等系統(tǒng)中，我們會(huì)看到很多編碼本身也兼具了索引的功能，例如在掃描中跳過(guò)不需要的分區(qū)，甚至完全改表查詢執(zhí)行的方式。

四、列式存儲(chǔ)與分布式文件系統(tǒng)

在現(xiàn)代的大數(shù)據(jù)架構(gòu)中，GFS、HDFS 等分布式文件系統(tǒng)已經(jīng)成為存放大規(guī)模數(shù)據(jù)集的主流方式。分布式文件系統(tǒng)相比單機(jī)上的磁盤(pán)，具備多副本高可用、容量大、成本低等諸多優(yōu)勢(shì)，但也帶來(lái)了一些單機(jī)架構(gòu)所沒(méi)有的問(wèn)題：

讀寫(xiě)均要經(jīng)過(guò)網(wǎng)絡(luò)，吞吐量可以追平甚至超過(guò)硬盤(pán)，但是延遲卻要比硬盤(pán)大得多，且受網(wǎng)絡(luò)環(huán)境影響很大；

可以進(jìn)行大吞吐量的順序讀寫(xiě)，但隨機(jī)訪問(wèn)性能很差，大多不支持隨機(jī)寫(xiě)入。為了抵消網(wǎng)絡(luò)的 Overhead，通常寫(xiě)入都以幾十MB為單位。

上述缺點(diǎn)對(duì)于重度依賴隨機(jī)讀寫(xiě)的 OLTP 場(chǎng)景來(lái)說(shuō)是致命的。所以我們看到，很多定位于 OLAP 的列式存儲(chǔ)選擇放棄 OLTP 能力，從而能構(gòu)建在分布式文件系統(tǒng)之上。

要想將分布式文件系統(tǒng)的性能發(fā)揮到極致，無(wú)非有幾種方法：按塊（分片）讀取數(shù)據(jù)、流式讀取、追加寫(xiě)入等。我們?cè)诤竺鏁?huì)看到一些開(kāi)源界流行的列式存儲(chǔ)模型，將這些優(yōu)化方法體現(xiàn)在存儲(chǔ)格式的設(shè)計(jì)中。

五、列式存儲(chǔ)系統(tǒng)案例

1、C-Store （2005） / Vertica

大多數(shù) DBMS 都是為了寫(xiě)優(yōu)化，而 C-Store 是第一個(gè)為了讀優(yōu)化的 OLTP 數(shù)據(jù)庫(kù)系統(tǒng)，雖然從今天的視角看它應(yīng)當(dāng)算作 HTAP 。在 Ad-Hoc 的分析型查詢、ORM 的在線查詢等場(chǎng)景中，大多數(shù)操作都是查詢而非寫(xiě)入，在這些場(chǎng)景中列式存儲(chǔ)能取得更好的性能。像主流的 DBMS 一樣，C-Store 支持標(biāo)準(zhǔn)的關(guān)系型模型。

就像本文開(kāi)頭即提到——列式存儲(chǔ)不是新鮮事。C-Store 的主要貢獻(xiàn)有以下幾點(diǎn)：

通過(guò)精心設(shè)計(jì)的 Projection 同時(shí)實(shí)現(xiàn)列數(shù)據(jù)的多副本和多種索引方式；

用讀寫(xiě)分層的方式兼顧了（少量）寫(xiě)入的性能；

此外，C-Store 可能是第一個(gè)現(xiàn)代的列式存儲(chǔ)數(shù)據(jù)庫(kù)實(shí)現(xiàn)，其設(shè)計(jì)啟發(fā)了無(wú)數(shù)后來(lái)的商業(yè)或開(kāi)源數(shù)據(jù)庫(kù)，就比如 Vertica。

數(shù)據(jù)模型

C-Store 是關(guān)系型數(shù)據(jù)庫(kù)，它的邏輯表和其他數(shù)據(jù)庫(kù)中的并沒(méi)有什么不同。但是在 C-Store 內(nèi)部，邏輯表被縱向拆分成 Projections，每個(gè) Projection 可以包含一個(gè)或多個(gè)列，甚至可以包含來(lái)自其他邏輯表的列（構(gòu)成索引）。當(dāng)然，每個(gè)列至少會(huì)存在于一個(gè) Projection 上。

下圖的例子中，EMP 表被存儲(chǔ)為 3 個(gè) Projections，DEPT 被存儲(chǔ)為 1 個(gè) Projection。每個(gè) Projection 按照各自的 Sort key 排序，在圖中用下劃線表示 Sort key。

什么是列式存儲(chǔ) 與OLTP對(duì)比有什么優(yōu)勢(shì)？

Projection 內(nèi)是以列式存儲(chǔ)的：里面的每個(gè)列分別用一個(gè)數(shù)據(jù)結(jié)構(gòu)存放。為了避免列太長(zhǎng)引起問(wèn)題，也支持每個(gè) Projection 以 Sort key 的值做橫向切分。

查詢時(shí) C-Store 會(huì)先選擇一組能覆蓋結(jié)果中所有列的 Projections 集合作為 Covering set，然后進(jìn)行 Join 計(jì)算重構(gòu)出原來(lái)的行。為了能高效地進(jìn)行 Projections 的 Join（即按照另一個(gè) Key 重新排序），引入 Join Index 作為輔助，其中存儲(chǔ)了 Proj1 到 Proj2 的下標(biāo)映射關(guān)系。

Projection 是有冗余性的，常常 1 個(gè)列會(huì)出現(xiàn)在多個(gè) Projections 中，但是它們的順序也就是 Sort key 并不相同，因此 C-Store 在查詢時(shí)可以選用最優(yōu)的一組 Projections，使得查詢執(zhí)行的代價(jià)最小。

巧妙的是，C-Store 的 Projection 冗余性還用來(lái)實(shí)現(xiàn) K-safe 高可用（容忍最多 K 臺(tái)機(jī)器故障），當(dāng)部分節(jié)點(diǎn)宕機(jī)時(shí)，只要 C-Store 還能找到某個(gè) Covering set 就能執(zhí)行查詢，雖然不一定是最優(yōu)的 Covering set 組合。

從另一個(gè)角度看，C-Store 的 Projection 可以看作是一種物化（Materialized）的查詢結(jié)果，即查詢結(jié)果在查詢執(zhí)行前已經(jīng)被預(yù)先計(jì)算好。并且由于每個(gè)列至少出現(xiàn)在一個(gè) Projection 當(dāng)中，沒(méi)有必要再保存原來(lái)的邏輯表。

為任意查詢預(yù)先計(jì)算好結(jié)果顯然不現(xiàn)實(shí)，但是如果物化某些經(jīng)常用到的中間視圖，就能在預(yù)計(jì)算代價(jià)和查詢代價(jià)之間獲得一個(gè)平衡。C-Store 物化的正是以某個(gè) Sort key 排好序（甚至 JOIN 了其他表）的一組列數(shù)據(jù)，同時(shí)預(yù)計(jì)算的還有 Join Index。

2、Apache ORC

Apache ORC 最初是為支持 Hive 上的 OLAP 查詢開(kāi)發(fā)的一種文件格式，如今在 Hadoop 生態(tài)系統(tǒng)中有廣泛的應(yīng)用。ORC 支持各種格式的字段，包括常見(jiàn)的 Int、String 等，也包括 Struct、List、Map 等組合字段，字段的 meta 信息就放在 ORC 文件的尾部（這被稱為自描述的）。

數(shù)據(jù)結(jié)構(gòu)及索引

為分區(qū)構(gòu)造索引是一種常見(jiàn)的優(yōu)化方案，ORC 的數(shù)據(jù)結(jié)構(gòu)分成以下 3 個(gè)層級(jí)，在每個(gè)層級(jí)上都有索引信息來(lái)加速查詢：

什么是列式存儲(chǔ) 與OLTP對(duì)比有什么優(yōu)勢(shì)？

File Level：即一個(gè) ORC 文件，F(xiàn)ooter 中保存了數(shù)據(jù)的 meta 信息，還有文件數(shù)據(jù)的索引信息，例如各列數(shù)據(jù)的最大最小值（范圍）、NULL 值分布、布隆過(guò)濾器等，這些信息可用來(lái)快速確定該文件是否包含要查詢的數(shù)據(jù)。每個(gè) ORC 文件中包含多個(gè) Stripe。

Stripe Level：對(duì)應(yīng)原表的一個(gè)范圍分區(qū)，里面包含該分區(qū)內(nèi)各列的值。每個(gè) Stripe 也有自己的一個(gè)索引放在 Footer 里，和 File-Level 索引類似。

Row-Group Level ：一列中的每 10000 行數(shù)據(jù)構(gòu)成一個(gè) Row-Group，每個(gè) Row-Group 擁有自己的 Row-Level 索引，信息同上。

ORC 里的 Stripe 就像傳統(tǒng)數(shù)據(jù)庫(kù)的頁(yè)，它是 ORC 文件批量讀寫(xiě)的基本單位。這是由于分布式儲(chǔ)存系統(tǒng)的讀寫(xiě)延遲較大，一次 IO 操作只有批量讀取一定量的數(shù)據(jù)才劃算。這和按頁(yè)讀寫(xiě)磁盤(pán)的思路也有共通之處。

像其他很多儲(chǔ)存格式一樣，ORC 選擇將統(tǒng)計(jì)數(shù)據(jù)和 Metadata 放在 File 和 Stripe 的尾部而不是頭部。

但 ORC 在 Stripe 的讀寫(xiě)上還有一點(diǎn)優(yōu)化，那就是把分區(qū)粒度小于 Stripe 的結(jié)構(gòu)（如 Column 和 Row-Group）的索引統(tǒng)一抽取出來(lái)放到 Stripe 的頭部。這是因?yàn)樵谂幚碛?jì)算中一般是把整個(gè) Stripe 讀入批量處理的，將這些索引抽取出來(lái)可以減少在批處理場(chǎng)景下需要的 IO（批處理讀取可以跳過(guò)這一部分）。

ACID 支持

Apache ORC 提供有限的 ACID 事務(wù)支持。受限于分布式文件系統(tǒng)的特點(diǎn)，文件不能隨機(jī)寫(xiě)，那如何把修改保存下來(lái)呢？

類似于 LSM-Tree 中的 MVCC 那樣，Writer 并不是直接修改數(shù)據(jù)，而是為每個(gè)事務(wù)生成一個(gè) Delta 文件，文件中的修改被疊加在原始數(shù)據(jù)之上。當(dāng) Delta 文件越來(lái)越多時(shí)，通過(guò) Minor Compaction 把連續(xù)多個(gè) Delta 文件合成一個(gè)；當(dāng) Delta 變得很大時(shí)，再執(zhí)行 Major Compaction 將Delta 和原始數(shù)據(jù)合并。

這種保持基線數(shù)據(jù)不變、分層疊加 Delta 數(shù)據(jù)的優(yōu)化方式在列式存儲(chǔ)系統(tǒng)中十分常見(jiàn)，是一種通用的解決思路。

別忘了 ORC 的 Delta 文件也是寫(xiě)入到分布式儲(chǔ)存中的，因此每個(gè) Delta 文件的內(nèi)容不宜過(guò)短。這也解釋了 ORC 文件雖然支持事務(wù)，但主要是對(duì)批量寫(xiě)入的事務(wù)比較友好，不適合頻繁且細(xì)小地寫(xiě)入事務(wù)的原因。

3、Dremel （2010） / Apache Parquet

Dremel 是 Google 研發(fā)的用于大規(guī)模只讀數(shù)據(jù)的查詢系統(tǒng)，用于進(jìn)行快速的 Ad-Hoc 查詢，彌補(bǔ) MapReduce 交互式查詢能力的不足。為了避免對(duì)數(shù)據(jù)的二次拷貝，Dremel 的數(shù)據(jù)就放在原處，通常是 GFS 這樣的分布式文件系統(tǒng)，為此需要設(shè)計(jì)一種通用的文件格式。

Dremel 的系統(tǒng)設(shè)計(jì)和大多 OLAP 的列式數(shù)據(jù)庫(kù)相比，并無(wú)太多創(chuàng)新點(diǎn)，但是其精巧的存儲(chǔ)格式卻變得流行起來(lái)，Apache Parquet 就是它的開(kāi)源復(fù)刻版。要注意的是，Parquet 和 ORC 一樣都是一種存儲(chǔ)格式，而非完整的系統(tǒng)。

嵌套數(shù)據(jù)模型

Google 內(nèi)部大量使用 Protobuf 作為跨平臺(tái)、跨語(yǔ)言的數(shù)據(jù)序列化格式，相比 JSON 要更緊湊并具有更強(qiáng)的表達(dá)能力。Protobuf 不僅允許用戶定義必須（Required）和可選（Optinal）字段，還允許用戶定義 Repeated 字段，意味著該字段可以出現(xiàn) 0～N 次，類似變長(zhǎng)數(shù)組。

Dremel 格式的設(shè)計(jì)目的就是按列來(lái)存儲(chǔ) Protobuf 的數(shù)據(jù)。由于 Repeated 字段的存在，這要比按列存儲(chǔ)關(guān)系型的數(shù)據(jù)困難一些。一般的思路可能是用終止符表示每個(gè) Repeat 結(jié)束，但是考慮到數(shù)據(jù)可能很稀疏，Dremel 引入了一種更為緊湊的格式。

作為例子，下圖左半邊展示了數(shù)據(jù)的 Schema 和 2 個(gè) Document 的實(shí)例，右半邊是序列化之后的各個(gè)列：

什么是列式存儲(chǔ) 與OLTP對(duì)比有什么優(yōu)勢(shì)？

序列化之后的列多出了 R、D 兩列，分別代表 Repetition Level 和 Definition Level，通過(guò)這兩個(gè)值就能確保唯一地反序列化出原本的數(shù)據(jù)。

Repetition Level 表示當(dāng)前值在哪一個(gè)級(jí)別上重復(fù)。對(duì)于非 Repeated 字段只要填上 Trivial 值 0 即可；否則，只要這個(gè)字段可能出現(xiàn)重復(fù)（無(wú)論本身是 Repeated 還是外層結(jié)構(gòu)是 Repeated），應(yīng)當(dāng)為 R 填上當(dāng)前值在哪一層上 Repeat。

舉個(gè)例子說(shuō)明，對(duì)于 Name.Language.Code 我們一共有三條非 NULL 的記錄：

第一個(gè)是 en-us，出現(xiàn)在第一個(gè) Name 的第一個(gè) Lanuage 的第一個(gè) Code 里面。在此之前，這三個(gè)元素是沒(méi)有重復(fù)過(guò)的，都是第一次出現(xiàn)。所以其 R=0

第二個(gè)是 en，出現(xiàn)在下一個(gè) Language 里面。也就是說(shuō) Language 是重復(fù)的元素。Name.Language.Code 中Language 排第二個(gè)，所以其 R=2

第三個(gè)是 en-gb，出現(xiàn)在下一個(gè) Name 中，Name 是重復(fù)元素，排第一個(gè)，所以其 R=1

注意到 en-gb 是屬于第3個(gè) Name 的而非第2個(gè)Name，為了表達(dá)這個(gè)事實(shí)，我們?cè)?en 和 en-gb中間放了一個(gè) R=1 的 NULL。

Definition Level 是為了說(shuō)明 NULL 被定義在哪一層，也就宣告那一層的 Repeat 到此為止。對(duì)于非 NULL 字段只要填上 Trivial 值，即數(shù)據(jù)本身所在的 Level 即可。

同樣舉個(gè)例子，對(duì)于 Name.Language.Country 列：

us 非 NULL 值填上 Country 字段的 Level 即 D=3

NULL 在 R1 內(nèi)部，表示當(dāng)前 Name 之內(nèi)、后續(xù)所有 Language 都不含有 Country 字段，所以D為2。

NULL 在 R1 內(nèi)部，表示當(dāng)前 Document 之內(nèi)、后續(xù)所有 Name 都不含有 Country 字段，所以D為1。

gb 非 NULL 值填上 Country 字段的 Level 即 D=3

NULL 在 R2 內(nèi)部，表示后續(xù)所有 Document 都不含有 Country 字段，所以D為0。

可以證明，結(jié)合 R、D 兩個(gè)數(shù)值一定能唯一構(gòu)建出原始數(shù)據(jù)。為了高效編解碼，Dremel 在執(zhí)行時(shí)首先構(gòu)建出狀態(tài)機(jī)，之后利用狀態(tài)機(jī)處理列數(shù)據(jù)。不僅如此，狀態(tài)機(jī)還會(huì)結(jié)合查詢需求和數(shù)據(jù)的 Structure 直接跳過(guò)無(wú)關(guān)的數(shù)據(jù)。

狀態(tài)機(jī)實(shí)現(xiàn)可以說(shuō)是 Dremel 論文的最大貢獻(xiàn)。但是受限于篇幅，有興趣的同學(xué)請(qǐng)參考文末的“文章參考”。

六、總結(jié)

本文介紹了列式存儲(chǔ)的存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)。拋開(kāi)種種繁復(fù)的細(xì)節(jié)，我們看到，以下這些思想或設(shè)計(jì)是具有共性的：

跳過(guò)無(wú)關(guān)的數(shù)據(jù)。從行存到列存，就是消除了無(wú)關(guān)列的掃描；ORC 中通過(guò)三層索引信息，能快速跳過(guò)無(wú)關(guān)的數(shù)據(jù)分片。

編碼既是壓縮，也是索引。Dremel 中用精巧的嵌套編碼避免了大量 NULL 的出現(xiàn)；C-Store 對(duì) Distinct 值的編碼同時(shí)也是對(duì) Distinct 值的索引；PowerDrill 則將字典編碼用到了極致。

假設(shè)數(shù)據(jù)不可變。無(wú)論 C-Store、Dremel 還是 ORC，它們的編碼和壓縮方式都完全不考慮數(shù)據(jù)更新。如果一定要有更新，暫時(shí)寫(xiě)到別處、讀時(shí)合并即可。

數(shù)據(jù)分片。處理大規(guī)模數(shù)據(jù)，既要縱向切分也要橫向切分，不必多說(shuō)。

閱讀全文

存儲(chǔ)技術(shù)(45615) 存儲(chǔ)技術(shù)(45615)
DSM(17949) DSM(17949)
大數(shù)據(jù)(136505) 大數(shù)據(jù)(136505)

評(píng)論

相關(guān)推薦

5G有什么優(yōu)勢(shì)？

5G有什么優(yōu)勢(shì)？4G LTE-A又如何？

2021-01-06 07:56:28

存儲(chǔ)結(jié)構(gòu)對(duì)比分析及選型建議

。【關(guān)鍵詞】：廣播電臺(tái);;存儲(chǔ)結(jié)構(gòu);;對(duì)比;;選型【DOI】：CNKI:SUN:GBXX.0.2010-03-038【正文快照】：隨著IT技術(shù)的發(fā)展,存儲(chǔ)技術(shù)有了很大的更新和變化。目前,在廣電領(lǐng)域

2010-04-23 11:47:34

Centos7下如何搭建ClickHouse列式存儲(chǔ)數(shù)據(jù)庫(kù)

性能的海量數(shù)據(jù)快速查詢的分布式實(shí)時(shí)處理平臺(tái)，在數(shù)據(jù)匯總查詢方面(如GROUP BY)，ClickHouse的查詢速度非常快。2、數(shù)據(jù)庫(kù)特點(diǎn)(1)列式數(shù)據(jù)庫(kù)列式數(shù)據(jù)庫(kù)是以列相關(guān)存儲(chǔ)架構(gòu)進(jìn)行數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)

2021-01-05 18:03:03

DDR3存儲(chǔ)器接口控制器是什么？有什么優(yōu)勢(shì)？

DDR3存儲(chǔ)器接口控制器是什么？有什么優(yōu)勢(shì)？

2021-04-30 06:57:16

DMA有什么優(yōu)勢(shì)？

DMA有什么優(yōu)勢(shì)

2023-10-09 07:07:30

FPGA有什么優(yōu)勢(shì)？FPGA的應(yīng)用方向是什么？

FPGA的基本特點(diǎn)是什么？FPGA有什么優(yōu)勢(shì)？FPGA的應(yīng)用方向是什么？

2021-10-08 06:43:45

FT232對(duì)比CH430有什么優(yōu)勢(shì)？

FT232對(duì)比CH430有什么優(yōu)勢(shì)

2023-10-09 07:06:07

Linux到底有什么優(yōu)勢(shì)

嵌入式Linux的開(kāi)發(fā)和研究是Linux領(lǐng)域研究的一個(gè)熱點(diǎn)，目前已開(kāi)發(fā)成功的嵌入式系統(tǒng)有一半以上都是Linux。Linux到底有什么優(yōu)勢(shì)，使之取得如此輝煌的成績(jī)呢？本文分為兩大部分：Linux的優(yōu)點(diǎn)

2021-11-04 08:44:07

PCB負(fù)片工藝的優(yōu)勢(shì)有哪些

`請(qǐng)問(wèn)PCB負(fù)片工藝的優(yōu)勢(shì)有哪些？`

2020-01-09 15:03:17

Python是什么？有什么優(yōu)勢(shì)？

Python是什么？有什么優(yōu)勢(shì)？Java是什么？有什么優(yōu)勢(shì)？為什么Lisp是AI開(kāi)發(fā)的頂級(jí)編程語(yǔ)言之一？Prolog是什么？有什么優(yōu)勢(shì)？C ++是什么？主要有哪些應(yīng)用領(lǐng)域？

2021-07-02 06:36:55

RTT對(duì)比freertos的優(yōu)點(diǎn)是什么？

RTT對(duì)比freertos的有什么優(yōu)勢(shì)

2023-11-02 08:27:31

SI4438與CC1101對(duì)比優(yōu)勢(shì)在哪里

、系統(tǒng)成本和規(guī)定的要求。Si4438收發(fā)器專為425-525MHz ISM頻段設(shè)計(jì)，是遠(yuǎn)距離、高可靠無(wú)線電表抄表的理想sub-1GHz無(wú)線解決方案。下面小編就細(xì)細(xì)來(lái)說(shuō)一說(shuō)SI4438與CC1101對(duì)比優(yōu)勢(shì)

2019-11-30 15:30:22

SWD的接口對(duì)比JTAG接口有什么優(yōu)勢(shì)？

SWD的接口對(duì)比JTAG接口有什么優(yōu)勢(shì)

2023-10-09 07:09:03

ZYNQ對(duì)比其他處理器有什么優(yōu)勢(shì)？

ZYNQ對(duì)比其他處理器有什么優(yōu)勢(shì)

2023-11-07 07:01:40

ZigBee有什么優(yōu)勢(shì)?

ZigBee有什么優(yōu)勢(shì)

2023-11-03 06:35:58

ZigBee技術(shù)有什么優(yōu)勢(shì)？

ZigBee技術(shù)有什么優(yōu)勢(shì)？

2021-05-21 06:23:12

pwm相比dac有哪些優(yōu)勢(shì)？

pwm相比dac的優(yōu)勢(shì)有么？

2023-10-28 07:49:58

shineblink Core有哪些優(yōu)勢(shì)？

shineblink Core有哪些優(yōu)勢(shì)？

2022-02-09 06:46:54

sprintf有什么優(yōu)勢(shì)？

sprintf有什么優(yōu)勢(shì)？

2021-10-08 06:18:33

與傳統(tǒng)模式的芯片設(shè)計(jì)進(jìn)行對(duì)比FPGA芯片有哪些優(yōu)勢(shì)

FPGA是什么？FPGA有何作用？與傳統(tǒng)模式的芯片設(shè)計(jì)進(jìn)行對(duì)比，F(xiàn)PGA芯片有哪些優(yōu)勢(shì)？

2021-09-14 07:59:06

為什么MaxCompute采用列式存儲(chǔ)？列式存儲(chǔ)和行式存儲(chǔ)的主要區(qū)別在哪

摘要： 1 為什么要按列存儲(chǔ) 列式存儲(chǔ)(Columnar or column-based)是相對(duì)于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的行式存儲(chǔ)(Row-basedstorage)來(lái)說(shuō)的。簡(jiǎn)單來(lái)說(shuō)兩者的區(qū)別就是如何組織

2018-02-05 11:02:37

為什么我使用protel陣列式粘貼功能時(shí)下標(biāo)不是從1開(kāi)始的

為什么我使用protel陣列式粘貼功能時(shí)下標(biāo)不是從1開(kāi)始的？？

2013-08-09 22:21:45

云存儲(chǔ)的優(yōu)勢(shì)是什么？

真正的云存儲(chǔ)系統(tǒng)將會(huì)是一個(gè)多區(qū)域分布、遍布全國(guó)、甚至于遍布全球的龐大公用系統(tǒng)，使用者需要通過(guò)ADSL、DDN等寬帶接入設(shè)備來(lái)連接云存儲(chǔ)，而不是通過(guò)FC、 SCSI或以太網(wǎng)線纜直接連接一***立的、私有的存儲(chǔ)設(shè)備上。

2019-10-11 09:11:15

什么是Arduino Arduino的優(yōu)勢(shì)有哪些

什么是Arduino？Arduino的優(yōu)勢(shì)有哪些？Arduino開(kāi)發(fā)板有哪幾類型？

2021-09-26 08:44:23

什么是STM32？STM32的優(yōu)勢(shì)有哪些

什么是單片機(jī)？什么是STM32？STM32的優(yōu)勢(shì)有哪些？

2021-11-16 06:15:35

光纖HDMI線對(duì)比銅芯HDMI線有什么優(yōu)勢(shì)？

的8K和10K時(shí)代——HDMI2.1標(biāo)準(zhǔn)。今天給大家詳細(xì)分析一下，和銅芯HDMI線相比，光纖HDMI線有什么優(yōu)勢(shì)？　　1、身材好（體積小、重量輕，柔軟易布線）　　DMI銅芯線跟光纖HDMI線的線芯跟材質(zhì)

2020-09-01 16:04:03

全閃存存儲(chǔ)的VDI場(chǎng)景應(yīng)用

。　　　　3.用戶體驗(yàn)與PC有差距　　　　傳統(tǒng)VDI方案打開(kāi)PPT、Word、Excel以及保存文件，響應(yīng)超過(guò)接近5-10秒鐘。　　　　相對(duì)于傳統(tǒng)存儲(chǔ)設(shè)備，基于華為OceanStor Dorado

2018-11-29 11:41:44

內(nèi)轉(zhuǎn)子電機(jī)對(duì)比外轉(zhuǎn)子電機(jī)有什么優(yōu)勢(shì)？

內(nèi)轉(zhuǎn)子電機(jī)對(duì)比外轉(zhuǎn)子電機(jī)有什么優(yōu)勢(shì)

2023-10-09 07:53:20

北斗模塊對(duì)比GPS模塊的優(yōu)勢(shì)有哪些？

相比GPS模塊，北斗模塊的優(yōu)勢(shì)有哪些？

2020-12-21 07:21:15

華清遠(yuǎn)見(jiàn)STM32MP157開(kāi)發(fā)板對(duì)比imx6ull開(kāi)發(fā)板優(yōu)勢(shì)是什么？

華清遠(yuǎn)見(jiàn)STM32MP157開(kāi)發(fā)板對(duì)比imx6ull開(kāi)發(fā)板優(yōu)勢(shì)是什么？

2022-02-28 11:09:39

單片機(jī)程序和操作系統(tǒng)應(yīng)用程序的對(duì)比

應(yīng)用程序的對(duì)比ROM和RAM一、兩種處理器的結(jié)構(gòu)體系哈佛結(jié)構(gòu)體系（Harvard architecture）?哈佛結(jié)構(gòu)是一種將程序指令存儲(chǔ)和數(shù)據(jù)存儲(chǔ)分開(kāi)的存儲(chǔ)器結(jié)構(gòu)。中央處理器首先到程序指令存儲(chǔ)器中

2021-07-13 09:00:10

在FPGA中找到大矩陣的行列式是否可行？

是否有可能在FPGA中執(zhí)行具有大矩陣的矩陣代數(shù)？這會(huì)比普通PC快嗎？例如，在FPGA中找到大矩陣的行列式是否可行？謝謝，Koyel以上來(lái)自于谷歌翻譯以下為原文Is it possible

2019-04-04 18:46:17

增強(qiáng)型PWM抑制功能對(duì)于直列式電機(jī)控制的五大優(yōu)勢(shì)

文中，將回顧這三種方法，并分享直列式電機(jī)電流感應(yīng)使用增強(qiáng)型脈沖寬度調(diào)制（PWM）抑制的五大優(yōu)勢(shì)。　　如圖1所示，基本上有三種不同的方法來(lái)測(cè)量三相電動(dòng)機(jī)驅(qū)動(dòng)系統(tǒng)中的電流：低側(cè)、直流鏈路和直列測(cè)量。圖1所示

2016-12-09 17:22:03

學(xué)習(xí)行列式鍵盤(pán)的實(shí)現(xiàn)

流水燈我們已經(jīng)學(xué)過(guò)了，那么我們來(lái)學(xué)習(xí)行列式鍵盤(pán)的實(shí)現(xiàn)。我的依舊是IAP15F2K61S2芯片，建的工程是IAP89C52的首先要是寫(xiě)行列式鍵盤(pán)，請(qǐng)將J5跳線帽跳到2，3上，這樣才是只有s4-s7

2021-12-02 08:19:17

常見(jiàn)的flash有哪些

目錄存儲(chǔ)顆粒與外部控制器常見(jiàn)的flash對(duì)比內(nèi)置還是外接Flash使用難度f(wàn)lash選擇總結(jié)NAND Flash被淘汰的原因EMMC的優(yōu)勢(shì)存儲(chǔ)顆粒與外部控制器flash內(nèi)部有一個(gè)存儲(chǔ)顆粒，只跟

2022-01-26 08:08:42

手機(jī)存儲(chǔ)芯片eMMC要被淘汰了嗎？

手機(jī)存儲(chǔ)芯片eMMC要被淘汰了嗎？eMMC有哪些明顯優(yōu)勢(shì)？

2021-06-18 08:17:54

掌握單片機(jī)系統(tǒng)行列式鍵盤(pán)驅(qū)動(dòng)程序的編寫(xiě)方法

擴(kuò)展行列式鍵盤(pán)一、實(shí)驗(yàn)?zāi)康亩?shí)驗(yàn)內(nèi)容三、實(shí)驗(yàn)步驟四、C代碼如下五、實(shí)驗(yàn)結(jié)果六、實(shí)驗(yàn)體會(huì)一、實(shí)驗(yàn)?zāi)康膶W(xué)習(xí)并掌握行列式鍵盤(pán)的設(shè)計(jì)方法和工作原理。掌握單片機(jī)系統(tǒng)行列式鍵盤(pán)驅(qū)動(dòng)程序的編寫(xiě)方法。二、實(shí)驗(yàn)內(nèi)容

2021-12-13 06:55:03

探究GDDR6給FPGA帶來(lái)的大帶寬存儲(chǔ)優(yōu)勢(shì)以及性能測(cè)試（上）

的帶寬有一定的差距。GDDR6和DDR4/5的帶寬對(duì)比。圖2 GDDR與DDR帶寬發(fā)展對(duì)比如果實(shí)現(xiàn)同一個(gè)大帶寬存儲(chǔ)的應(yīng)用，在提供相同的存儲(chǔ)器帶寬的情況下，無(wú)論在設(shè)計(jì)復(fù)雜度，PCB占用面積，還是在功耗方面

2021-12-21 08:00:00

求方陣A所對(duì)應(yīng)的行列式的值

方陣的行列式det(A)：求方陣A所對(duì)應(yīng)的行列式的值。矩陣的秩rank(A)：求矩陣A的秩。>> A=[3,2,1;3,1,5;3,2,3]A =321315323>> det(A)ans = -6>> rank(A)ans =3...

2021-08-17 07:18:05

直列式電機(jī)電流感應(yīng)增強(qiáng)型PWM抑制的五大優(yōu)勢(shì)

，將回顧這三種方法，并分享直列式電機(jī)電流感應(yīng)使用增強(qiáng)型脈沖寬度調(diào)制（PWM）抑制的五大優(yōu)勢(shì)。如圖1所示，基本上有三種不同的方法來(lái)測(cè)量三相電動(dòng)機(jī)驅(qū)動(dòng)系統(tǒng)中的電流：低側(cè)、直流鏈路和直列測(cè)量。圖1所示的是傳統(tǒng)

2018-10-15 09:52:41

硬件光線追蹤的優(yōu)勢(shì)有哪些？

光線追蹤面臨的關(guān)鍵挑戰(zhàn)是什么？硬件光線追蹤的優(yōu)勢(shì)有哪些？

2021-05-31 06:53:09

第三代紅外技術(shù)（IR-III）并不是陣列式

視頻監(jiān)控的發(fā)展方向在于室外，室外監(jiān)控的發(fā)展方向在于夜視，夜視的發(fā)展方向在于紅外技術(shù)，這個(gè)趨勢(shì)越來(lái)越明顯。從第一代傳統(tǒng)LED,到第二代陣列式，再到領(lǐng)先行業(yè)一整年的IR-III技術(shù)，紅外夜視技術(shù)發(fā)生

2011-02-19 09:35:33

請(qǐng)問(wèn)RT1052和stm32F7系列H743對(duì)比有哪些優(yōu)勢(shì)？

RT1052和stm32F7系列H743對(duì)比有哪些優(yōu)勢(shì)？如何選擇這兩種開(kāi)發(fā)板？

2023-10-10 08:29:33

茶葉農(nóng)殘快速檢測(cè)儀器有哪些優(yōu)勢(shì)

茶葉農(nóng)殘快速檢測(cè)儀器有哪些優(yōu)勢(shì)【霍爾德HED-CY12】果蔬茶葉中殘留農(nóng)藥在人體內(nèi)長(zhǎng)期蓄積滯留會(huì)引發(fā)慢性中毒，比急性中毒更為可怕，其主要是通過(guò)生物濃縮、果蔬殘留兩個(gè)方面的途徑

2021-03-25 08:59:16

白酒甲醇測(cè)試儀有什么優(yōu)勢(shì)

白酒甲醇測(cè)試儀有什么優(yōu)勢(shì)【霍爾德HED-C12】甲醇的毒性對(duì)人體的神經(jīng)系統(tǒng)和血液系統(tǒng)影響最大，它經(jīng)消化道、呼吸道或皮膚攝入都會(huì)產(chǎn)生毒性反應(yīng)，甲醇蒸氣能損害人的呼吸道粘膜和視力

2021-03-25 09:10:21

真菌毒素快速檢測(cè)儀有什么優(yōu)勢(shì)

真菌毒素快速檢測(cè)儀有什么優(yōu)勢(shì)【霍爾德HED-YG-ZD】常見(jiàn)的真菌毒素為黃曲霉毒素。1960年英國(guó)引起10萬(wàn)多只火雞死亡的“火雞X病”就是飼料中的黃曲霉毒素引起的。主要癥狀為

2021-03-30 09:16:09

SPMC65P2404A做行列式鍵掃描

本文主要介紹利用SPMC65P2404A單片機(jī)做行列式鍵掃描的處理，可作為用戶系統(tǒng)設(shè)計(jì)的參考。關(guān)鍵詞：SPMC65P2404A、行列式鍵掃描 1 引言　　本系統(tǒng)應(yīng)用凌陽(yáng)科

2009-09-19 10:35:39

1446

直列式爆轟點(diǎn)火器起爆過(guò)程實(shí)驗(yàn)與數(shù)值仿真

摘要: 為了探討爆轟快速點(diǎn)火的特性, 依據(jù)工程應(yīng)用的實(shí)際情況, 利用直列式起爆器設(shè)計(jì)了直列式爆轟點(diǎn)火器及實(shí) 驗(yàn)裝置, 并進(jìn)行了相關(guān)實(shí)驗(yàn)研究. 結(jié)合實(shí)驗(yàn)裝置的特殊結(jié)構(gòu), 建立了直列式

2011-05-04 10:12:12

陣列式麥克風(fēng)在電視機(jī)上的應(yīng)用

在聊天電視上，采用無(wú)線麥克風(fēng)，載波調(diào)制為2.4GHz的方式，已經(jīng)成為主流，但是這種方式的成本明顯偏高。我們提出使用陣列式麥克風(fēng)應(yīng)用在電視上，可以較好解決這兩個(gè)問(wèn)題。

2011-06-13 07:09:10

2013

PIC單片機(jī)的4×4行列式鍵盤(pán)工作原理

電子發(fā)燒友為您提供了PIC單片機(jī)的4×4行列式鍵盤(pán)工作原理!

2011-06-23 10:59:24

5139

飛索半導(dǎo)體推出新一代串列式編碼型快閃記憶體

飛索半導(dǎo)體( Spansion )推出新一代串列式編碼型快閃記憶體產(chǎn)品，將鎖定車用電子、3C消費(fèi)、智慧電表和WiMAX系統(tǒng)四大領(lǐng)域。 Spansion指出，新一代串列式NOR Flash產(chǎn)品功能特色之一，在于產(chǎn)品

2011-09-28 09:55:25

1050

旺宏推出DTR技術(shù)高速串列式NOR flash

旺宏推出Quad 4x75MHz DTR技術(shù)、600Mb/s傳輸速率的高速串列式NOR，可簡(jiǎn)化嵌入式市場(chǎng)平臺(tái)PCB布線與降低成本

2012-01-04 18:16:36

2731

安防視頻監(jiān)控系統(tǒng)之存儲(chǔ)系統(tǒng)選型及技術(shù)對(duì)比

安防視頻監(jiān)控系統(tǒng)之存儲(chǔ)系統(tǒng)選型及技術(shù)對(duì)比，有興趣的同學(xué)可以下載學(xué)習(xí)

2016-05-04 15:48:56

陣列式彈道測(cè)量系統(tǒng)

陣列式彈道測(cè)量系統(tǒng)，有需要的朋友可以下來(lái)看看。

2016-12-17 17:01:46

oltp和olap的區(qū)別_怎么辨別oltp和olap的區(qū)別

當(dāng)今的數(shù)據(jù)處理大致可以分成兩大類：聯(lián)機(jī)事務(wù)處理OLTP（on-line transaction processing）、聯(lián)機(jī)分析處理OLAP（On-Line Analytical

2017-11-13 11:21:12

11102

單元耦合與矩陣組合的陣列式集成電感

集成原理，給出陣列式集成電感的單元位置拓?fù)浜蛦卧M合結(jié)構(gòu)拓?fù)洌⒎治鲎愿谢ジ袉卧驯群痛抛璞扰c電感耦合度的關(guān)系。通過(guò)電路方程推導(dǎo)了多相VRM耦合電感的等效穩(wěn)態(tài)與暫態(tài)電感，獲得多相VRM集成電感耦合度的設(shè)計(jì)準(zhǔn)則。耦合度范圍對(duì)比

2018-01-16 11:02:25

列式存儲(chǔ)是數(shù)據(jù)分析性能殺手锏

Columnar Storage Layout 就是列式存儲(chǔ)，每一個(gè)列的數(shù)據(jù)都被存在一個(gè)數(shù)據(jù)文件中，比如date_key 按照順序存儲(chǔ)在 date_key file 中，Product_sk

2018-04-19 15:43:00

1239

基于GPGPU的大整數(shù)矩陣行列式快速準(zhǔn)確計(jì)算方法

矩陣行列式的準(zhǔn)確計(jì)算是一個(gè)非常基礎(chǔ)的數(shù)學(xué)操作，但是在很多科學(xué)和工程問(wèn)題中卻較為關(guān)鍵。例如，在符號(hào)計(jì)算與計(jì)算機(jī)代數(shù)中，結(jié)式都會(huì)涉及到準(zhǔn)確的數(shù)值行列式運(yùn)算。任意一個(gè)矩陣A的行列式能夠提供許多有價(jià)值的信息

2018-04-24 15:33:53

云存儲(chǔ)技術(shù)與傳統(tǒng)存儲(chǔ)技術(shù)對(duì)比云存儲(chǔ)有何優(yōu)勢(shì)

當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲(chǔ)和管理時(shí)，云計(jì)算系統(tǒng)中就需要配置大量的存儲(chǔ)設(shè)備，那么云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個(gè)云存儲(chǔ)系統(tǒng)，所以云存儲(chǔ)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng)。

2018-09-08 10:37:00

5987

私有云存儲(chǔ)的優(yōu)勢(shì)

本視頻主要詳細(xì)介紹了私有云存儲(chǔ)的優(yōu)勢(shì)，分別是速度優(yōu)勢(shì)、安全優(yōu)勢(shì)、統(tǒng)一管理、易于實(shí)現(xiàn)集中備份及容災(zāi)以及易于擴(kuò)展、升級(jí)方便。

2019-01-04 15:15:32

4460

家庭監(jiān)控系統(tǒng)存儲(chǔ)2種主流存儲(chǔ)方式對(duì)比

監(jiān)控系統(tǒng)存儲(chǔ)成本會(huì)占據(jù)很大一筆費(fèi)用，很多家庭也在為此發(fā)愁。那接下來(lái)我們從價(jià)格與使用兩個(gè)方面的綜合對(duì)比，看看本地存儲(chǔ)與云存儲(chǔ)分別有什么優(yōu)劣勢(shì)吧！

2019-02-01 10:59:00

11456

直列式電機(jī)電流感應(yīng)使用增強(qiáng)型PWM抑制的五大優(yōu)勢(shì)分享

解決問(wèn)題的方法通常不止一種。有時(shí)使用最廣泛的方法并不會(huì)產(chǎn)生最大利益。電機(jī)控制項(xiàng)目的系統(tǒng)設(shè)計(jì)人員使用各種電流測(cè)量方法確保電機(jī)高效運(yùn)行并防止可能的損壞。在電機(jī)設(shè)計(jì)中有三種主要方法可測(cè)量電流。在本博文中，將回顧這三種方法，并分享直列式電機(jī)電流感應(yīng)使用增強(qiáng)型脈沖寬度調(diào)制（PWM）抑制的五大優(yōu)勢(shì)。

2019-02-18 16:06:04

2978

5個(gè)云存儲(chǔ)優(yōu)勢(shì)盤(pán)點(diǎn)

在考慮遷移到云端或多云存儲(chǔ)環(huán)境時(shí)，數(shù)據(jù)存儲(chǔ)管理員應(yīng)該考慮云存儲(chǔ)的優(yōu)勢(shì)。例如，傳統(tǒng)的數(shù)據(jù)存儲(chǔ)系統(tǒng)對(duì)容量有限制，而云存儲(chǔ)服務(wù)提供前所未有的可擴(kuò)展性。此外，云存儲(chǔ)使管理員可以利用多租戶的優(yōu)勢(shì)，以及避免與數(shù)據(jù)遷移相關(guān)的麻煩。

2019-07-21 09:51:23

2658

小米折疊屏手機(jī)對(duì)比華為三星的優(yōu)勢(shì)

折疊屏大爆發(fā)，小米這款手機(jī)對(duì)比華為三星有何優(yōu)勢(shì)？

2019-08-20 16:03:15

6511

區(qū)塊鏈存儲(chǔ)技術(shù)在存儲(chǔ)市場(chǎng)中的優(yōu)勢(shì)

存儲(chǔ)并不是個(gè)新詞，隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，企業(yè)級(jí)存儲(chǔ)、云存儲(chǔ)等已成為人們工作生活的標(biāo)配。與此同時(shí)，伴隨區(qū)塊鏈技術(shù)的發(fā)展與成熟，區(qū)塊鏈存儲(chǔ)的優(yōu)勢(shì)和特點(diǎn)開(kāi)始受到多方關(guān)注。

2019-08-22 11:19:58

638

n階行列式計(jì)算C語(yǔ)言程序免費(fèi)下載

本文檔的主要內(nèi)容詳細(xì)介紹的是n階行列式計(jì)算C語(yǔ)言程序免費(fèi)下載。

2019-10-17 16:38:08

關(guān)于云存儲(chǔ)的五大優(yōu)勢(shì)具體是什么

5G時(shí)代，越來(lái)越多的企業(yè)開(kāi)始選擇在云上存儲(chǔ)數(shù)據(jù)，對(duì)于IT部門(mén)來(lái)說(shuō)，了解云存儲(chǔ)的優(yōu)勢(shì)是很有必要的。今天給大家介紹云存儲(chǔ)的五大優(yōu)勢(shì)，以及它們?nèi)绾螏椭脩艚鉀Q一些常見(jiàn)IT問(wèn)題。

2019-10-21 10:50:41

8682

5G時(shí)代下，云存儲(chǔ)的優(yōu)勢(shì)將日漸凸顯

2019-11-05 14:11:38

950

云存儲(chǔ)相比本地存儲(chǔ)設(shè)備，它的優(yōu)勢(shì)是什么

相比于傳統(tǒng)存儲(chǔ)方式，云存儲(chǔ)的確優(yōu)勢(shì)明顯。后者提高了存儲(chǔ)效率，通過(guò)分布式技術(shù)解決了存儲(chǔ)空間的浪費(fèi)，可以自動(dòng)重新分配數(shù)據(jù)。

2020-04-28 10:29:39

2245

云存儲(chǔ)有哪些優(yōu)勢(shì)

越來(lái)越多的企業(yè)選擇將自己公司的數(shù)據(jù)交給云服務(wù)商提供的云存儲(chǔ)服務(wù)。傳統(tǒng)的數(shù)據(jù)存儲(chǔ)系統(tǒng)對(duì)容量有限制，而云存儲(chǔ)服務(wù)提供前所未有的可擴(kuò)展性。此外，云存儲(chǔ)使管理員可以利用多租戶的優(yōu)勢(shì)，以及避免與數(shù)據(jù)遷移相關(guān)的麻煩。

2020-05-10 09:50:39

2077

對(duì)比其它存儲(chǔ)技術(shù) NAS的優(yōu)勢(shì)

NAS是Network Attactched Storage的縮寫(xiě)，顧名思義就是網(wǎng)絡(luò)附屬云存儲(chǔ)，是一種可連接網(wǎng)絡(luò)，且具備數(shù)據(jù)存儲(chǔ)功能的裝置，支持多種協(xié)議和操作系統(tǒng)。

2020-07-11 09:28:09

1420

銅芯電纜和鋁芯電纜的對(duì)比，哪個(gè)更具有優(yōu)勢(shì)

銅和鋁都是作為電線電纜產(chǎn)品中導(dǎo)體材料的使用，為何銅芯電纜卻比鋁芯電纜通途廣泛，其兩者對(duì)比銅芯電纜又具備哪些優(yōu)勢(shì)。接下來(lái)就由小編為大家解說(shuō)一下銅芯電纜與鋁芯電纜的差距以及相對(duì)比銅芯電纜的優(yōu)勢(shì)

2020-07-17 13:38:33

8319

三種常見(jiàn)數(shù)據(jù)存儲(chǔ)的優(yōu)勢(shì)和不足

數(shù)據(jù)存儲(chǔ)在實(shí)際應(yīng)用中，就是怎么用數(shù)據(jù)庫(kù)把我們的業(yè)務(wù)數(shù)據(jù)保存起來(lái)。從宏觀角度看，大致包含三大類技術(shù)：B-TREE，LSM&SSTable，列式存儲(chǔ)。

2020-08-28 11:07:59

3605

兆易創(chuàng)新序列式編碼型快閃存儲(chǔ)器成功打進(jìn)三星手機(jī)供應(yīng)鏈

中國(guó)大陸兆易創(chuàng)新序列式編碼型快閃存儲(chǔ)器（NOR Flash）成功打進(jìn)三星（Samsung）旗艦智能手機(jī)供應(yīng)鏈，中國(guó)臺(tái)灣廠商表示，目前NOR Flash市況依然穩(wěn)定，并未受到影響。

2020-09-03 16:44:01

1355

傳統(tǒng)存儲(chǔ)面臨的七大挑戰(zhàn)

伴隨著IT演進(jìn)，企業(yè)IT需要同時(shí)滿足業(yè)務(wù)運(yùn)行在物理環(huán)境和虛擬化環(huán)境的應(yīng)用需求。這驅(qū)動(dòng)了對(duì)OLTP、低延遲和存儲(chǔ)IOPs性能需求的不斷提升。

2020-09-04 16:05:58

2385

云服務(wù)器存儲(chǔ)的十大優(yōu)勢(shì)的詳細(xì)介紹

云服務(wù)器存儲(chǔ)優(yōu)勢(shì)有什么？云服務(wù)器服務(wù)是很強(qiáng)大的，除了便捷的建站作用，云服務(wù)器存儲(chǔ)的安全性能也很高，過(guò)去很多企業(yè)都是把數(shù)據(jù)文件存儲(chǔ)在本地服務(wù)器上，但是隨著信息的不斷增長(zhǎng)，內(nèi)部的服務(wù)器很就很明顯不夠用

2021-02-25 14:22:37

2441

數(shù)據(jù)存儲(chǔ)方式的優(yōu)勢(shì)和不足

2021-02-22 10:20:19

2693

ClickHouse列式存儲(chǔ)數(shù)據(jù)庫(kù)的性能特性及底層存儲(chǔ)原理

ClickHouse就是一款使用列式存儲(chǔ)的數(shù)據(jù)庫(kù)，數(shù)據(jù)按列進(jìn)行組織，屬于同一列的數(shù)據(jù)會(huì)被保存在一起，列與列之間也會(huì)由不同的文件分別保存 ( 這里主要指MergeTree表引擎 )。數(shù)據(jù)默認(rèn)使用LZ4

2021-06-30 15:50:21

5904

openGauss數(shù)據(jù)庫(kù)在可計(jì)算存儲(chǔ)CSD上探索

TPC-C是衡量聯(lián)機(jī)事務(wù)處理（OLTP，OnlineTransaction Processing）系統(tǒng)的工業(yè)標(biāo)準(zhǔn)，是行業(yè)中公認(rèn)的權(quán)威和最為復(fù)雜的在線事務(wù)處理基準(zhǔn)測(cè)試。它通過(guò)模擬倉(cāng)庫(kù)和訂單管理系統(tǒng)，測(cè)試廣泛的數(shù)據(jù)庫(kù)功能，包括查詢、更新和 mini-batch事務(wù)（隊(duì)列式小批量事務(wù)）。

2022-04-02 15:25:17

1022

OLAP與OLTP數(shù)據(jù)庫(kù)的區(qū)別是什么

OLAP與OLTP數(shù)據(jù)庫(kù)由于關(guān)注的業(yè)務(wù)不同，所以軟件在工作方式和優(yōu)化方法會(huì)有一些不同。 OLTP業(yè)務(wù)主要業(yè)務(wù)場(chǎng)景是交易記錄的準(zhǔn)確性，因此需要寫(xiě)入具有唯一性，所以傳統(tǒng)針對(duì)OLTP數(shù)據(jù)庫(kù)的優(yōu)化方法將負(fù)責(zé)

2022-05-25 11:29:49

960

對(duì)象存儲(chǔ)是什么對(duì)象存儲(chǔ)的優(yōu)勢(shì)

挑戰(zhàn)者，開(kāi)始對(duì)DAS/NAS/SAN這三種框架存儲(chǔ)方式進(jìn)行挑戰(zhàn)，甚至隨著越來(lái)越多的人進(jìn)行使用和對(duì)比后，都開(kāi)始選擇對(duì)象存儲(chǔ)這種方式來(lái)進(jìn)行儲(chǔ)存數(shù)據(jù)。對(duì)象存儲(chǔ)（Object-based Storage,OBS），也稱為“面向?qū)ο?b class="flag-6" style="color: red">存儲(chǔ)”。他們共同存在于扁平地址空間中，都是

2022-10-16 17:48:41

3507

什么是列存儲(chǔ)，特點(diǎn)及場(chǎng)景在哪？

列式存儲(chǔ)(column-based)是相對(duì)于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的行式存儲(chǔ)(Row-basedstorage)來(lái)說(shuō)的。簡(jiǎn)單來(lái)說(shuō)兩者的區(qū)別就是如何組織表：

2022-11-21 09:27:11

2985

云存儲(chǔ)監(jiān)控解決方案的8大優(yōu)勢(shì)

云存儲(chǔ)監(jiān)控工具正在成為電子監(jiān)控生態(tài)系統(tǒng)的支柱。云存儲(chǔ)監(jiān)控解決方案提供完全私有的云數(shù)據(jù)存儲(chǔ)和備份選項(xiàng)，并具有強(qiáng)大的安全措施。下面，我們來(lái)討論一下云存儲(chǔ)監(jiān)控解決方案的8大優(yōu)勢(shì)。

2023-03-29 16:37:29

1730

云存儲(chǔ)服務(wù)技術(shù)架構(gòu)及云存儲(chǔ)服務(wù)的優(yōu)勢(shì)

petaexpress云存儲(chǔ)服務(wù)是一種海量、安全、低成本、高可靠的云存儲(chǔ)服務(wù)，是一種通過(guò)互聯(lián)網(wǎng)在遠(yuǎn)程服務(wù)器上保存數(shù)據(jù)、訪問(wèn)和管理數(shù)據(jù)存儲(chǔ)服務(wù)。云存儲(chǔ)服務(wù)的優(yōu)勢(shì) 1、總體成本：使用云存儲(chǔ)，不需要購(gòu)買

2023-07-07 16:48:24

400

分布式存儲(chǔ)的7個(gè)特征

什么是分布式存儲(chǔ)呢？如果一個(gè)存儲(chǔ)系統(tǒng)，不管是對(duì)象、塊、文件、kv、log、olap、oltp，只要對(duì)所管理的數(shù)據(jù)做了Partitioning&Replication，不管姿勢(shì)對(duì)不對(duì)，其實(shí)

2023-07-18 14:17:26

567

云視頻存儲(chǔ)是什么？如何工作？有何優(yōu)勢(shì)？

在本文中，小編將給大家分析一下云視頻存儲(chǔ)是什么？如何工作？有何優(yōu)勢(shì)？一、云視頻存儲(chǔ)是什么？云存儲(chǔ)，顧名思義，就是將監(jiān)控錄像存儲(chǔ)在云端的一種方法。與傳統(tǒng)的閉路電視系統(tǒng)不同，在云中存儲(chǔ)錄像的現(xiàn)代監(jiān)控

2023-11-13 17:12:40

692

百度搜索內(nèi)容HTAP表格存儲(chǔ)系統(tǒng)

整套存儲(chǔ)設(shè)計(jì)需要解決的核心問(wèn)題是——如何在OLTP存儲(chǔ)系統(tǒng)中支持OLAP workflow？OLAP workflow在OLTP存儲(chǔ)系統(tǒng)上帶來(lái)的兩個(gè)最主要的問(wèn)題是：嚴(yán)重的IO放大率、存算耦合。

2023-12-05 16:00:58

213