Обзор
На этих страницах описаны популярные датасеты, которые вы можете загрузить в YDB для ознакомления с функциональностью базы данных и тестирования различных сценариев использования.
Предварительные требования
Для загрузки датасетов вам потребуется:
- Установленный YDB CLI
- [Опционально] Настроенный профиль подключения к YDB, чтобы не указывать параметры подключения при каждом вызове
Общая информация о загрузке данных
YDB поддерживает импорт данных из CSV-файлов с помощью команды ydb import file csv. Пример запуска команды:
ydb import file csv --header --null-value "" --path <путь_к_таблице> <файл>.csv
Где:
--headerозначает, что в первой строке файла содержится список имён колонок, а сами данные начинаются со второй строки;--null-value ""означает, что пустая строка вместо значения в CSV будет интерпретироваться как null-значение при импорте данных из csv-файла в таблицу.
Для импорта данных нужна заранее созданная таблица в YDB. Основной способ создания таблицы - выполнить YQL-запрос CREATE TABLE. Чтобы не составлять его полностью вручную, можно попробовать выполнить команду импорта из файла, как в любом примере ниже, не создавая перед этим таблицу. В таком случае CLI предложит текст CREATE TABLE, который можно будет взять за основу, при необходимости отредактировать и выполнить.
Для импорта данных в YDB таблица должна быть заранее создана. Обычно таблицу создают с помощью YQL-запроса CREATE TABLE. Однако, вместо того чтобы писать такой запрос вручную, можно запустить команду импорта ydb import file csv так же, как показано в примерах импорта в этом разделе. Если таблица отсутствует, CLI автоматически предложит готовый текст запроса CREATE TABLE, который можно будет использовать для создания таблицы.
Выбор первичного ключа
YDB требует, чтобы у таблицы был первичный ключ. Он значительно ускоряет загрузку и обработку данных, а также позволяет выполнять дедупликацию: строки с одинаковыми значениями в столбцах первичного ключа заменяются друг другом.
Если в импортируемом наборе данных нет подходящих столбцов для первичного ключа, мы добавляем новый столбец с номерами строк и используем его в качестве первичного ключа, так как номер каждой строки уникален в пределах файла.
Особенности и ограничения
При работе с загрузкой CSV-файлов в YDB следует учитывать следующие моменты:
-
Имена колонок: Названия колонок не должны содержать пробелы или специальные символы.
-
Типы данных:
- Строки в формате даты/времени с указанием временной зоны (например, "2019-11-01 00:00:00 UTC") будут импортированы как тип Text
- Тип Bool не поддерживается в качестве типа колонки, используйте Text или Int64
Доступные датасеты
- Chess Position Evaluations - оценки шахматных позиций от движка Stockfish
- Video Game Sales - данные о продажах видеоигр
- E-Commerce Behavior Data - данные о поведении пользователей в интернет-магазине
- COVID-19 Open Research Dataset - открытый набор данных исследований COVID-19
- Netflix Movies and TV Shows - данные о фильмах и сериалах на Netflix
- Animal Crossing New Horizons Catalog - каталог предметов из игры