詳解Cassandra數據模型
Cassandra是一個開源的分布式數據庫,結合了Dynamo的Key/Value與Bigtable的面向列的特點。
Cassandra的特點如下:
1.靈活的schema:不需要象數據庫一樣預先設計schema,增加或者刪除字段非常方便(on the fly)。
2.支持range查詢:可以對Key進行范圍查詢。
3.高可用,可擴展:單點故障不影響集群服務,可線性擴展。
我們可以將Cassandra的數據模型想象成一個四維或者五維的Hash。
Column
Column是Cassandra中最小的數據單元。它是一個3元的數據類型,包含:name,value和timestamp。
將一個Column用JSON的形式表現出來如下:
- { // 這是一個column
- name: "逖靖寒的世界",
- value: "gpcuster@gmali.com",
- timestamp: 123456789
- }
為了簡單起見,我們可以忽略timestamp。就把column想象成一個name/value即可。
注意,這里提到的name和value都是byte[]類型的,長度不限。
SuperColumn
我們可以將SuperColumn想象成Column的數組,它包含一個name,以及一系列相應的Column。
將一個SuperColumn用JSON的形式表現如下:
- {
- // 這是一個SuperColumn
- name: "逖靖寒的世界",
- // 包含一系列的Columns
- value: {
- street: {name: "street", value: "1234 x street", timestamp: 123456789},
- city: {name: "city", value: "san francisco", timestamp: 123456789},
- zip: {name: "zip", value: "94107", timestamp: 123456789},
- }
- }
Columns和SuperColumns都是name與value的組合。最大的不同在于Column的value是一個“string”,而SuperColumn的value是Columns的Map。
還有一點需要注意的是:SuperColumn’本身是不包含timestamp的。
ColumnFamily
ColumnFamily是一個包含了許多Row的結構,你可以將它想象成RDBMS中的Table。
每一個Row都包含有client提供的Key以及和該Key關聯的一系列Column。
我們可以看看結構:
- UserProfile = {
- // 這是一個ColumnFamily
- phatduckk: {
- // 這是對應ColumnFamily的key
- // 這是Key下對應的Column
- username: "gpcuster",
- email: "gpcuster@gmail.com",
- phone: "6666"
- }, // 第一個row結束
- ieure: {
- // 這是ColumnFamily的另一個key
- //這是另一個Key對應的column
- username: "pengguo",
- email: "pengguo@live.com",
- phone: "888"
- age: "66"
- },
- }
ColumnFamily的類型可以為Standard,也可以是Super類型。
我們剛剛看到的那個例子是一個Standard類型的ColumnFamily。Standard類型的ColumnFamily包含了一系列的Columns(不是SuperColumn)。
Super類型的ColumnFamily包含了一系列的SuperColumn,但是并不能像SuperColumn那樣包含一系列Standard ColumnFamily。
這是一個簡單的例子:
- AddressBook = { // 這是一個Super類型的ColumnFamily
- phatduckk: { // key
- friend1: {street: "8th street", zip: "90210", city: "Beverley Hills", state: "CA"},
- John: {street: "Howard street", zip: "94404", city: "FC", state: "CA"},
- Kim: {street: "X street", zip: "87876", city: "Balls", state: "VA"},
- Tod: {street: "Jerry street", zip: "54556", city: "Cartoon", state: "CO"},
- Bob: {street: "Q Blvd", zip: "24252", city: "Nowhere", state: "MN"},
- ...
- }, // row結束
- ieure: { // key
- joey: {street: "A ave", zip: "55485", city: "Hell", state: "NV"},
- William: {street: "Armpit Dr", zip: "93301", city: "Bakersfield", state: "CA"},
- },
- }
Keyspace
Keyspace是我們的數據最外層,你所有的ColumnFamily都屬于某一個Keyspace。一般來說,我們的一個程序應用只會有一個Keyspace。
簡單測試
我們將Cassandra運行起來以后,啟動命令行,執行如下操作:
- cassandra> set Keyspace1.Standard1['jsmith']['first'] = 'John'
- Value inserted.
- cassandra> set Keyspace1.Standard1['jsmith']['last'] = 'Smith'
- Value inserted.
- cassandra> set Keyspace1.Standard1['jsmith']['age'] = '42'
- Value inserted.
這個時候,Cassandra中就已經有3條數據了。
其中插入數據的各個字段含義如下:
接下來,我們執行查詢操作:
- cassandra> get Keyspace1.Standard1['jsmith']
- (column=age, value=42; timestamp=1249930062801)
- (column=first, value=John; timestamp=1249930053103)
- (column=last, value=Smith; timestamp=1249930058345)
- Returned 3 rows.
這樣,我們就可以將之前插入的數據查詢出來了。
排序
有一點需要明確,我們使用Cassandra的時候,數據在寫入的時候就已經排好順序了。
在某一個Key內的所有Column都是按照它的Name來排序的。我們可以在storage-conf.xml文件中指定排序的類型。
目前Cassandra提供的排序類型有:BytesType, UTF8Type,LexicalUUIDType, TimeUUIDType, AsciiType,和LongType。
現在假設你的原始數據如下:
- {name: 123, value: "hello there"},
- {name: 832416, value: "kjjkbcjkcbbd"},
- {name: 3, value: "101010101010"},
- {name: 976, value: "kjjkbcjkcbbd"}
當我們storage-conf.xml文件中指定排序的類型為LongType時:
<!--
ColumnFamily 在 storage-conf.xml 中定義
-->
<ColumnFamily CompareWith="LongType" Name="CF_NAME_HERE"/>
排序后的數據就是這樣的:
- {name: 3, value: "101010101010"},
- {name: 123, value: "hello there"},
- {name: 976, value: "kjjkbcjkcbbd"},
- {name: 832416, value: "kjjkbcjkcbbd"}
如果我們指定排序的類型為UTF8Type
- <!--
- ColumnFamily 在 storage-conf.xml 中定義
- -->
- <ColumnFamily CompareWith="UTF8Type" Name="CF_NAME_HERE"/>
排序后的數據就是這樣的:
- {name: 123, value: "hello there"},
- {name: 3, value: "101010101010"},
- {name: 832416, value: "kjjkbcjkcbbd"},
- {name: 976, value: "kjjkbcjkcbbd"}
大家可以看到,指定的排序類型不一樣,排序的結果也是完全不同的。
對于SuperColumn,我們有一個額外的排序維度,所以我們可以指定CompareSubcolumnsWith來進行另一個維度的排序類型。
假設我們的原始數據如下:
- { // first SuperColumn from a Row
- name: "workAddress",
- // and the columns within it
- value: {
- street: {name: "street", value: "1234 x street"},
- city: {name: "city", value: "san francisco"},
- zip: {name: "zip", value: "94107"}
- }
- },
- { // another SuperColumn from same Row
- name: "homeAddress",
- // and the columns within it
- value: {
- street: {name: "street", value: "1234 x street"},
- city: {name: "city", value: "san francisco"},
- zip: {name: "zip", value: "94107"}
- }
- }
然后我們定義CompareSubcolumnsWith和CompareWith的排序類型都是UTF8Type,那么排序后的結果為:
- {
- // this one's first b/c when treated as UTF8 strings
- { // another SuperColumn from same Row
- // This Row comes first b/c "homeAddress" is before "workAddress"
- name: "homeAddress",
- // the columns within this SC are also sorted by their names too
- value: {
- // see, these are sorted by Column name too
- city: {name: "city", value: "san francisco"},
- street: {name: "street", value: "1234 x street"},
- zip: {name: "zip", value: "94107"}
- }
- },
- name: "workAddress",
- value: {
- // the columns within this SC are also sorted by their names too
- city: {name: "city", value: "san francisco"},
- street: {name: "street", value: "1234 x street"},
- zip: {name: "zip", value: "94107"}
- }
- }
再額外提一句,Cassandra的排序功能是允許我們自己實現的,只要你繼承org.apache.cassandra.db.marshal.IType就可以了。
原文標題:大話Cassandra數據模型
鏈接: http://www.cnblogs.com/gpcuster/archive/2010/03/12/1684072.html

























