不同數(shù)據(jù)庫對于字符值的排序規(guī)則各不相同，要達(dá)成在不同數(shù)據(jù)庫上對于同樣數(shù)據(jù)集執(zhí)行查詢語句的輸出結(jié)果順序一致性目標(biāo)，則必須進(jìn)行相應(yīng)的設(shè)置或改寫，本文通過對五種數(shù)據(jù)庫的分析，對該問題進(jìn)行了較為深入的分析。

01

概述.

在異構(gòu)數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)遷移之后，為驗(yàn)證數(shù)據(jù)一致性，就需要比對源庫和目標(biāo)庫的同表數(shù)據(jù)是否一致。

為了提高比對效率，一般而言會將數(shù)據(jù)排序并抽取出來后進(jìn)行比對。

在實(shí)際過程中發(fā)現(xiàn)，指定了ORDER BY的同樣兩條SQL語句在不同數(shù)據(jù)庫執(zhí)行后，輸出結(jié)果集的順序經(jīng)常會不同，本文關(guān)注該問題的產(chǎn)生并提供了相應(yīng)的解決方案。

02

數(shù)據(jù)準(zhǔn)備.

本文涉及的數(shù)據(jù)庫為：

Oracle
MySQL
Postgres
Gauss(華為open Gauss)
GoldiLocks（科藍(lán)）

所有的數(shù)據(jù)庫均采用UTF8編碼，且MySQL數(shù)據(jù)庫不區(qū)分大小寫建表。

在各數(shù)據(jù)庫中創(chuàng)建一張測試表LEXSORT，該表僅有一個字符列NAME，具體語句如下:

CREATE TABLE LEXSORT ( NAME VARCHAR(10) );

然后將以下數(shù)據(jù)插入該表中：

INSERT INTO LEXSORT VALUES ('0');
INSERT INTO LEXSORT VALUES ('9');
INSERT INTO LEXSORT VALUES ('a');
INSERT INTO LEXSORT VALUES ('z');
INSERT INTO LEXSORT VALUES ('A');
INSERT INTO LEXSORT VALUES ('Z');
INSERT INTO LEXSORT VALUES ('_');
INSERT INTO LEXSORT VALUES ('~');
INSERT INTO LEXSORT VALUES (NULL);

03

查詢結(jié)果.

在各個數(shù)據(jù)庫中執(zhí)行如下查詢語句：

SELECT * FROM LEXSORT ORDER BY NAME;

其輸出結(jié)果見下圖：

通過上面的結(jié)果可以發(fā)現(xiàn)：

其一，Oracle、Gauss和GoldiLocks的缺省排序保持一致，而與MYSQL和Postgres的各不相同。

其二，數(shù)據(jù)排序的不同體現(xiàn)在兩個方面上

NULL值與非NULL字符值之間的順序
非NULL字符值之間的順序

那么，這背后的機(jī)制是什么呢？又該如何解決呢？

04

數(shù)據(jù)庫分析.

其實(shí)，產(chǎn)生這一現(xiàn)象的原因是各數(shù)據(jù)庫的缺省排序規(guī)則各不相同所致。要解決這一問題，就需要從各數(shù)據(jù)庫自身出發(fā)，了解其排序規(guī)則，并分別進(jìn)行設(shè)置，才可能達(dá)到在不同數(shù)據(jù)庫之間的一致性。

具體如何操作，后文將為您逐一展開。

Oracle數(shù)據(jù)庫

**Oracle數(shù)據(jù)庫提供了控制排序規(guī)則的參數(shù)，可以在系統(tǒng)級別和會話級別分別進(jìn)行設(shè)置，一般而言，為了不影響其他應(yīng)用，我們在會話級別進(jìn)行設(shè)置即可。

1. NULL值的排序規(guī)則

Oracle支持在ORDER BY字句的每個字段上進(jìn)行控制。可以指定為NULLS FIRST或NULLS LAST，即NULL值排在前面還是后面，缺省為NULLS LAST，即NULL值排在其它非NULL值的后面。

Postgres、Gauss和GoldiLocks也采用了同樣的處理，后文不再贅述。

2. 非NULL值的排序規(guī)則

Oracle提供了控制參數(shù)NLS_SORT來指定排序規(guī)則，缺省的排序規(guī)則為BINARY，即按照字符串中每個字符的編碼值進(jìn)行排序，另一個常用排序規(guī)則為BINARY_CI，即按照二進(jìn)制值進(jìn)行排序，同時字母(A-Z，a-z)不區(qū)分大小寫。

根據(jù)以上規(guī)則重新修改一下SQL語句或會話設(shè)置：

ALTER SESSION SET NLS_SORT=BINARY;
ALTER SESSION SET NLS_SORT=BINARY_CI;
SELECT * FROM LEXSORT ORDER BY NAME NULLS FIRST;

此時不同組合后查詢的輸出結(jié)果見下圖：

在上圖中我們會注意到，不區(qū)分大小寫排序時字符“_”的位置似乎有些“飄忽不定”。為了解決這個問題，我們把這些字符對應(yīng)的編碼數(shù)值出來看一下：

根據(jù)編碼值就會發(fā)現(xiàn)，“飄忽不定”的符號“_”的編碼正好位于大寫字母和小寫字母之間，與它存在同樣情況的還有5個字符。這就意味著，Oracle在采用BINARY_CI方式忽略字母大小寫排序時，會自動將所有的字母視為了小寫字母。

MySQL數(shù)據(jù)庫

MySQL數(shù)據(jù)庫在排序控制方面較弱，首先對于NULL值，MySQL自動視為NULLS FIRST，在ORDER BY字句中無相應(yīng)的控制選項(xiàng)。

再看一下字母的排序，MySQL在建表時可以指定區(qū)分大小寫或不區(qū)分大小寫，一旦指定無法再修改，除非重新建表。

因此對于區(qū)分大小寫的庫，其排序規(guī)則會與Oracle的BINARY規(guī)則保持一致。

那么不區(qū)分大小寫的呢？其實(shí)在前面的截圖中已經(jīng)有了體現(xiàn)，不過為了清晰起見，我們將Oracle設(shè)置為NULL FIRST和不區(qū)分大小寫，單獨(dú)拿出來再進(jìn)行一下比較：

此時我們會發(fā)現(xiàn)Oracle和MySQL的排序依然不一致!發(fā)生問題的依然是那個“飄忽不定”的“_”。

顯然，稍加分析后我們就會知道，在不區(qū)分大小寫的情形下，MySQL自動將所有字母視為了大寫字母進(jìn)行排序，正是因?yàn)檫@個區(qū)別，位于大寫和小寫字母之間的那六個字符又一次給我們?nèi)橇寺闊?/strong>

這樣，不區(qū)分大小寫建表的MySQL數(shù)據(jù)庫與Oracle數(shù)據(jù)庫的排序一致性就不存在完美的解決方案！

Postgres數(shù)據(jù)庫

Postgres數(shù)據(jù)庫的缺省排序?qū)ξ襾碚f一直是個迷……

上圖中，符號排在最前面，而“~”的編碼卻比“_”大，相當(dāng)于降序；然后是數(shù)字和字母，而此時又是升序。鑒于本人對Postgres的研究有限，此處暫不作深究，只專注如何解決排序一致性問題。

Postgres提供了collate語句用以調(diào)整排序規(guī)則。將排序規(guī)則設(shè)置為C（必須用雙引號括起來且為大寫字母）或ucs_basic（如果用雙引號括起則必須為小寫）則代表按照字符編碼排序，此時會區(qū)分大小寫。

不區(qū)分大小寫且又要按照編碼值進(jìn)行排序，目前暫未找到合適的方法。

需要注意指定collate和null first時的SQL語句順序問題，當(dāng)二者都需指定時示例語句如下，具體的輸出結(jié)果大家可以自行測試：

SELECT * FROM LEXSORT ORDER BY NAME COLLATE ucs_basic NULLS FIRST;

Gauss數(shù)據(jù)庫

大家都知道Open Gauss實(shí)際上是基于Postgres進(jìn)行的定制，它在增加部分功能的同時也刪減了部分Postgres的功能。不過對于ORDER BY子句，Gauss依然保留了Postgres的能力，也就是說collate子句同樣適用于Gauss數(shù)據(jù)庫，不過Gauss數(shù)據(jù)庫的缺省排序規(guī)則即為按照字符編碼值進(jìn)行排序。

同時，Gauss數(shù)據(jù)庫提供了排序函數(shù)NLSSORT，解決了不區(qū)分大小排序的問題，此時其排序結(jié)果與Oracle保持一致。使用該函數(shù)時需指定排序規(guī)則，不區(qū)分大小寫的規(guī)則為generic_m_ci，具體SQL示例語句如下：

SELECT * FROM LEXSORT ORDER BY NLSSORT(NAME,'nls_sort=generic_m_ci'); SELECT * FROM LEXSORT ORDER BY NLSSORT(NAME,'nls_sort=generic_m_ci') NULLS FIRST;

幾種不同組合的查詢結(jié)果見下圖（未寫明null first時均為nulls last）：

****GoldiLocks數(shù)據(jù)庫 ****

該數(shù)據(jù)庫除了NULLS FIRST/LAST處理與Oracle保持一致外，并沒有可以修改排序規(guī)則的參數(shù)，不過其缺省的排序規(guī)則即為按照字符編碼值進(jìn)行排序。因此在排序一致性方面依然可以與Oracle、Postgres、Gauss做到很好的兼容。

05

總結(jié).

雖然本文起源于數(shù)據(jù)比對場景，不過通過上面的分析，我們可以意識到，排序一致性問題也是異構(gòu)數(shù)據(jù)庫遷移時必須考慮的問題之一。試想一下，如果不做SQL語句改造，原有的業(yè)務(wù)查詢語句在新數(shù)據(jù)庫中結(jié)果集排序可能會發(fā)生變化，進(jìn)而導(dǎo)致后續(xù)處理結(jié)果也可能發(fā)生變化。

通過分析我們也發(fā)現(xiàn)，大多數(shù)數(shù)據(jù)庫的排序一致性可以通過設(shè)置會話參數(shù)或修改SQL語句等來實(shí)現(xiàn)保持不變，不過部分?jǐn)?shù)據(jù)庫，例如本例中的MySQL，卻缺乏完美的解決方案，那么我們就必須要分析其影響并進(jìn)行應(yīng)對。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)庫

數(shù)據(jù)庫

+關(guān)注

關(guān)注
7

文章
3846

瀏覽量
64685

Oracle

Oracle

+關(guān)注

關(guān)注
2

文章
296

瀏覽量
35234

數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1209

瀏覽量
24833

收藏人收藏

掃一掃，分享給好友

復(fù)制鏈接分享

評論

發(fā)布評論請先登錄

相關(guān)推薦

如何解決數(shù)據(jù)庫與緩存一致性

緩存一致性 每次逢年過節(jié)的時候搶票非常艱難，放票的時候那么多人同時去搶票，如果所有人查詢、購票等都去訪問數(shù)據(jù)庫，那數(shù)據(jù)庫的壓力得有多大，這時候很多都會引入緩存，把車票信息放入緩存，這樣可以減少

發(fā)表于 09-25 15:25 ?1165次閱讀

理解數(shù)據(jù)庫的事務(wù):ACID，CAP和一致性

理解數(shù)據(jù)庫的事務(wù)，ACID，CAP和一致性

發(fā)表于 05-04 16:25

一致性規(guī)劃研究

針對一致性規(guī)劃的高度求解復(fù)雜度，分析主流一致性規(guī)劃器的求解策略，給出影響一致性規(guī)劃器性能的主要因素：啟發(fā)信息的有效性，信念狀態(tài)表示方法的緊湊性

發(fā)表于 04-06 08:43 ?12次下載

加速器一致性接口

Zynq PS上的加速器一致性接口（Accelerator Coherency Port, ACP）是一個兼容AXI3的64位從機(jī)接口，連接到SCU（Snoop Control Unit），為PL

發(fā)表于 11-17 15:04 ?3751次閱讀

速度不可測的異構(gòu)多智能體系統(tǒng)一致性分析

近年來，隨著異構(gòu)系統(tǒng)在實(shí)際中的廣泛應(yīng)用，異構(gòu)多智能體系統(tǒng)一致性分析成為研究熱點(diǎn)。針對一階部分智能體控制輸入有界、二階智能體速度不可測的異構(gòu)多

發(fā)表于 11-17 15:08 ?9次下載

時延異構(gòu)多自主體系統(tǒng)的群一致性分析

針對由一階自主體和二階自主體構(gòu)成的異構(gòu)多自主體系統(tǒng)的靜態(tài)群一致性問題，分別提出了在固定連接拓?fù)浜颓袚Q連接拓?fù)浣Y(jié)構(gòu)下的靜態(tài)群一致性算法。通過構(gòu)造Lyapunov-Krasovskii函數(shù)

發(fā)表于 12-19 18:48 ?0次下載

分布式大數(shù)據(jù)不一致性檢測

關(guān)系數(shù)據(jù)庫中可能存在數(shù)據(jù)不一致性現(xiàn)象，關(guān)系數(shù)據(jù)庫數(shù)據(jù)質(zhì)量的一個主要問題是存在違反函數(shù)依賴情況，為

發(fā)表于 01-12 16:29 ?0次下載

優(yōu)化模型的乘性偏好關(guān)系一致性改進(jìn)

針對乘性偏好信息下的決策問題，引入乘性偏好關(guān)系的有序一致性、滿意一致性以及一致性指數(shù)等概念，建立以偏差變量最小化為目標(biāo)函數(shù)的優(yōu)化模型，進(jìn)而構(gòu)

發(fā)表于 03-20 17:28 ?0次下載

緩存與數(shù)據(jù)庫一致性問題如何解決

最近不是正好在研究 canal 嘛，剛巧前兩天看了一篇關(guān)于解決緩存與數(shù)據(jù)庫一致性問題的文章，里邊提到了一種解決方案是結(jié)合 canal 來操作的，所以阿Q就想趁熱打鐵，手動來實(shí)現(xiàn)

發(fā)表于 03-24 14:34 ?693次閱讀

什么是數(shù)據(jù)庫營銷

數(shù)據(jù)庫一致性（database consistency）由一組值定義，數(shù)據(jù)庫系統(tǒng)中的所有數(shù)據(jù)點(diǎn)都必須與這些值保持

發(fā)表于 07-13 11:38 ?640次閱讀

虹科干貨 | 什么是數(shù)據(jù)庫一致性？

數(shù)據(jù)庫一致性（database consistency）由一組值定義，數(shù)據(jù)庫系統(tǒng)中的所有數(shù)據(jù)點(diǎn)都必須與這些值保持

發(fā)表于 07-13 13:56 ?688次閱讀

Redis緩存與Mysql如何保證一致性？

基本流程就是客戶端A請求,先去刪除緩存，然后將數(shù)據(jù)寫入數(shù)據(jù)庫，此時客戶端B查詢先去查詢緩存，緩存沒有返回，去查數(shù)據(jù)庫，此時還沒有完成主從同步，拿到是從庫的舊

發(fā)表于 12-02 14:23 ?971次閱讀

DDR一致性測試的操作步驟

DDR一致性測試的操作步驟? DDR（雙數(shù)據(jù)率）一致性測試是對DDR內(nèi)存模塊進(jìn)行測試以確保其性能和可靠性。在進(jìn)行DDR一致性測試時，需要遵循

發(fā)表于 02-01 16:24 ?1713次閱讀

深入理解數(shù)據(jù)備份的關(guān)鍵原則：應(yīng)用一致性與崩潰一致性的區(qū)別

深入理解數(shù)據(jù)備份的關(guān)鍵原則：應(yīng)用一致性與崩潰一致性的區(qū)別在數(shù)字化時代，數(shù)據(jù)備份成為了企業(yè)信息安全的核心環(huán)節(jié)。但在備份過程中，兩個關(guān)鍵概念——應(yīng)用一

發(fā)表于 03-11 11:29 ?1008次閱讀

異構(gòu)計(jì)算下緩存一致性的重要性

在眾多回復(fù)中，李博杰同學(xué)的回答被認(rèn)為質(zhì)量最高。他首先將緩存一致性分為兩個主要場景：一是主機(jī)內(nèi)CPU與設(shè)備間的一致性；二是跨主機(jī)的一致性。

發(fā)表于 10-24 17:00 ?773次閱讀