Базы данных: введение, часть восьмая

Илья Тетерин
2011-11-09

(use arrow keys or PgUp/PgDown to move slides)

Много структурированных данных

Column Oriented Database

Bigtable

HBase

Новости

New 5 Billion Page Web Index with Page Rank Now Available for Free from Common Crawl Foundation

Google trends: nosql, hdfs

Bigtable:
A Distibuted Storage System for Structured Data

В 2006 году опубликована статья labs.google.com/papers/bigtable.html.

Описывается система, позволившая хранить петабайты данных на тысячах серверов и используемая в 60+ проектах.

Предоставляет API распределенной, сортированной Map с произвольными текстовыми данными в качестве значений.

Модель данных

Bigtable - распределенная, разряженная, многомерная сортированная Map (ассоциативный массив).

Ключ массива - id ряда, колонка, отметка времени (timestamp).

Значение - произвольный массив байт.

(row:string,column:string,time:int64) -> string

Ряд

Ключ - произвольная строка с максимальной длиной 64K.

Обычно ключ 10-100 символов.

Любая операция в пределах ключа - атомарна с точки зрения пользователя.

Так проще пользователям понимать поведение системы при многих потоках обновления.

Данные сортируются в соответствии с порядком ключей (по алфавиту строчного представления ключа).

Данные автоматически нарезаются на поддиапазоны ключей - tablet - блок данных для раскладки в кластер и регулировки нагрузки.

Таким образом - запросы по малым диапазонам ключей (Иванов-Ивановы) можно обработать на 1 машине.

Подбирая ключи - можно обеспечить локальность данных (обратная запись домена ru.yandex, ru.yandex.company) - данные будут лежать в одном или соседних tablets.

Колонки (family:qualifier)

Column family:

минимальный объект доступа к данным
данные обычно одного типа - по типу и поведению
все данные в column family совместно сжимаются
обычно их немного (100 макс)
название должно быть печатным

Column qualifier:

произвольная последовательность байт
произвольное количество

language:id="en_US"
anchor:ru.yandex.company="http://company.yandex.ru/public/articles/"
anchor:com.google.labs="http://labs.google.com/papers/bigtable.html"

Доступ и хранение - на уровне отдельных column family. Таким образом один процесс - пишет base column family (CF), другой на основании этой CF создает anchor CF etc.

Timestamp

каждая ячейка - с отметкой времени
timestamp = 64-bit int задано сервером или клиентом
отсортированы по убыванию (свежее сверху)
на уровне настроек column family можно задать:
* сколько версий хранить (3-5)
* сколь долго ( 7 дней [ time to live - TTL ])
данные автоматически "прячутся", если превышен TTL
данные выкидываются в ходе garbage collection

Пример: для CF content выставляем N=3 ... и получается, что в архиве хранятся последние три версии страницы, что видел crawler.

Модель в картинках

source:BigTable Model with Cassandra and HBase by Ricky Ho

HBase: The Definitive Guide by Lars George, Sept 2011

Запись в Bigtable

// Open the table
Table *T = OpenOrDie("/bigtable/web/webtable");

// Write a new anchor and delete an old anchor
RowMutation r1(T, "com.cnn.www");
r1.Set("anchor:www.c-span.org", "CNN");
r1.Delete("anchor:www.abc.com");
Operation op;
Apply(&op, &r1);

Чтение из Bigtable

Scanner scanner(T);
ScanStream *stream;
stream = scanner.FetchColumnFamily("anchor");
stream->SetReturnAllVersions();
scanner.Lookup("com.cnn.www");
for (; !stream->Done(); stream->Next()) {
  printf("%s %s %lld %s\n",
    scanner.RowName(),
    stream->ColumnName(),
    stream->MicroTimestamp(),
    stream->Value()); }

Кирпичики

Bigtable:

Живет в общем кластере
Работает на тех же машинах, что и другие процессы (MapReduce)
Поверх GFS - распределенная Google FS - т.е. не заботится о раскладке файлов
Полагается на инфраструктуры кластера - исполнение задач, новые машины, раскладка файлов - "от кластера"
Chubby - распределенный lock service с file / directory структурой - для сериализации операций, для регистрации Bigtable серверов

Ключевые понятия

tablet - содержит данные для диапазона рядов
tablet split - tablet дробится, когда превышает 100-200Мб
tablet server - хранит у себя и отдает клиентам tablet данные ( от 10 до 1000 таблет на сервере )
master server - назначает tablet -> tablet server и отслеживает появление новых нод в кластере
tablet log / write ahead log - данные сначала пишем в лог, дабы не потерять
memtable - живущая в памяти, модифицируемая map, ограниченного размера (o(1))
sstable files - отсортированные, неизменяемые данные на диске
sstable compaction - слияние 2 x sstable одного размера в единый sstable

source:BigTable Model with Cassandra and HBase by Ricky Ho

SSTable (sorted string table)

persistent (настойчивый, упорный, стойкий) - lingvo.yandex.ru/persistent/
сортированная
неизменяемая
map (ассоциативный массив) string -> string
get(key)
iterate where key < x and key > y
сортированный файл данных
индекс ключ - смещение
bloom фильтр - есть ли ключ в sstable файле

HBase - http://hbase.apache.org/

HBase - открытая, доступная реализация Bigtable

HBase is the Hadoop database.

Use it when you need random, realtime read/write access to your Big Data.

This project's goal is the hosting of very large tables -- billions of rows X millions of columns -- atop clusters of commodity hardware.

HBase is an open-source, distributed, versioned, column-oriented store modeled after Google' Bigtable: A Distributed Storage System for Structured Data

HBase provides Bigtable-like capabilities on top of Hadoop.

Книга: HBase: The Definitive Guide by Lars George, Sept 2011

HBase - history

November 2006 - Google releases paper on BigTable
February 2007 - Initial HBase prototype created as Hadoop contrib§
October 2007 - First “usable” HBase (Hadoop 0.15.0)
January 2008 - Hadoop becomes an Apache top-level project, HBase becomes subproject
October 2008 - HBase 0.18.1 released
January 2009 - HBase 0.19.0 released
September 2009 - HBase 0.20.0 released, the performance release
May 2010 - HBase becomes an Apache top-level project
June 2010 - HBase 0.89.20100621, first developer release
January 2011 - HBase 0.90.0 released, the durability and stability release
Mid 2011 - HBase 0.92.0 released, tagged as coprocessor and security release

source: HBase: The Definitive Guide by Lars George, Sept 2011

source: BigTable Model with Cassandra and HBase by Ricky Ho

Список литературы

labs.google.com/papers/bigtable.html
Bigtable: A Distributed Storage System for Structured Data by Fay Chang, et.

HBase: The Definitive Guide: Intro by Lars George, at OReilly

HBase: The Definitive Guide by Lars George, Sept 2011

Блоги:
HBase Architecture 101 - Storage by Lars George
HBase Architecture 101 - Write-ahead-Log by Lars George
BigTable Model with Cassandra and HBase by Ricky Ho
HBase vs. BigTable Comparison by Lars George
WTF is a SuperColumn? An Intro to the Cassandra Data Model by Arin Sarkissan
The Underlying Technology of Messages by Kannan Muthukkaruppan
Myths Rumors Fud Hate NoSQL Cassandra vs hbase by Edward Capriolo
HBase vs Cassandra by Jesse Shieh
Real Life Cassandra by Dave Gardner

Source: Juho Mäkinen, http://www.juhonkoti.net/2010/09/25/example-how-to-model-your-data-into-nosql-with-cassandra

Итого:

Big Data (Большие данные) - своеобразные технические решения
разработанное в большой, закрытой компании решения - публикуются и становятся доступны
доступные решения воспроизводится, разрабатывается, улучшается в Open Source решениях
HStack (Hadoop, HBase, HDFS) - доступный способ выйти на обработку больших данных
HStack используется в больших компаниях - http://wiki.apache.org/hadoop/PoweredBy
для моделирования с использованием преимуществ другого хранения - нужен опыт, через практику.

Вопросы?

Илья Тетерин
@ya_pulser
email: ya.pulser at gmail.com
http://fluffypulser.ru/static/dbcourse/index.html