Обзор

На этих страницах описаны популярные датасеты, которые вы можете загрузить в YDB для ознакомления с функциональностью базы данных и тестирования различных сценариев использования.

Предварительные требования

Для загрузки датасетов вам потребуется:

  1. Установленный YDB CLI
  2. [Опционально] Настроенный профиль подключения к YDB, чтобы не указывать параметры подключения при каждом вызове

Общая информация о загрузке данных

YDB поддерживает импорт данных из CSV-файлов с помощью команды ydb import file csv. Пример запуска команды:

ydb import file csv --header --null-value "" --path <путь_к_таблице> <файл>.csv

Где:

  • --header означает, что в первой строке файла содержится список имён колонок, а сами данные начинаются со второй строки;
  • --null-value "" означает, что пустая строка вместо значения в CSV будет интерпретироваться как null-значение при импорте данных из csv-файла в таблицу.

Для импорта данных нужна заранее созданная таблица в YDB. Основной способ создания таблицы - выполнить YQL-запрос CREATE TABLE. Чтобы не составлять его полностью вручную, можно попробовать выполнить команду импорта из файла, как в любом примере ниже, не создавая перед этим таблицу. В таком случае CLI предложит текст CREATE TABLE, который можно будет взять за основу, при необходимости отредактировать и выполнить.

Для импорта данных в YDB таблица должна быть заранее создана. Обычно таблицу создают с помощью YQL-запроса CREATE TABLE. Однако, вместо того чтобы писать такой запрос вручную, можно запустить команду импорта ydb import file csv так же, как показано в примерах импорта в этом разделе. Если таблица отсутствует, CLI автоматически предложит готовый текст запроса CREATE TABLE, который можно будет использовать для создания таблицы.

Выбор первичного ключа

YDB требует, чтобы у таблицы был первичный ключ. Он значительно ускоряет загрузку и обработку данных, а также позволяет выполнять дедупликацию: строки с одинаковыми значениями в столбцах первичного ключа заменяются друг другом.

Если в импортируемом наборе данных нет подходящих столбцов для первичного ключа, мы добавляем новый столбец с номерами строк и используем его в качестве первичного ключа, так как номер каждой строки уникален в пределах файла.

Особенности и ограничения

При работе с загрузкой CSV-файлов в YDB следует учитывать следующие моменты:

  1. Имена колонок: Названия колонок не должны содержать пробелы или специальные символы.

  2. Типы данных:

    • Строки в формате даты/времени с указанием временной зоны (например, "2019-11-01 00:00:00 UTC") будут импортированы как тип Text
    • Тип Bool не поддерживается в качестве типа колонки, используйте Text или Int64

Доступные датасеты

Предыдущая
Следующая