生成步骤
1.在官网上(http://www.tpc.org/tpcds/ )去下载最新的:TPC-DS.
2.解压: 下载的 zip 文件放在 Linux 上解压,并进入他的 tools 目录.
3.编译:make (忽略编译警告,只保证生成过程成功完成). 这里需要Linux安装上了 gcc , gcc c++, expect 等.
4.生成数据:在tools目录下执行:./dsdgen -scale 100 -force (-force:会覆盖原来生成的data,否则不覆盖);生成的25个.dat 的数据文件.
默认只能生成 100GB, 300GB, 1TB, 3TB, 10TB, 30TB and 100TB大小的数据,如果想要生成一个比较小的数据集,可以使用:
- hive中创建相应的数据表,导入之前生成的数据
运行脚本hive_create_table.sql
“hive -f hive_create_table.sql”