• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    sqoop读取postgresql数据库表格导入到hdfs中的实现

    最近再学习spark streaming做实时计算这方面内容,过程中需要从后台数据库导出数据到hdfs中,经过调研发现需要使用sqoop进行操作,本次操作环境是Linux下。

    首先确保环境安装了Hadoop和sqoop,安装只需要下载 ,解压 以及配置环境变量,这里不多说了,网上教程很多。

    一、配置sqoop以及验证是否成功

    切换到配置文件下:cd $SQOOP_HOME/conf

    创建配置环境文件: cp sqoop-env-template.sh sqoop-env.sh

    修改配置文件:conf/vi sqoop-env.sh:修改内容如下

    配置完成后,执行命令sqoop-version ,检查是否成功,如图显示sqoop 1.4.7即成功。

    二、添加postgresql驱动jar包

    因为这里使用sqoop读取postgresql的数据,所以需要将数据库驱动包放到$SQOOP_HOME/lib 下即可 。

    三、导入pg数据库中表到hdfs中

    1、首先要启动Hadoop集群,不然会报错

    执行语句 $HADOOP_HOME/sbin/./start-all.sh

    2、执行sqoop语句进行数据导入到hdfs

    sqoop import \
    
      --connect jdbc:postgresql:localhost:5432/test(数据库的名称)
      --username postgres (填自己的数据库用户名)
      --password 888888 (填自己数据库的密码)
      --table company (自己创建表的名称)
      --m 1 (mapreduce的个数)

    执行结果如图:

    3、检查hdfs上是否成功存储到表数据

    $HADOOP_HOME/bin hdfs dfs -cat /sqoop/part-m-00000(数据目录改成自己的)

    结果如图所示:

    显示使用sqoop 将 postgreql上的表格数据成功导入到hdfs中,这算今天也有点收获了!

    补充:利用Sqoop从PostgreSQL导入数据时遇到的坑

    sqoop import \
    
    --connect "jdbc:postgresql://10.101.70.169:5432/db_name" \
    
    --username "postgres" \
    
    --password "123456" \
    
    --table "test_user"\
    
    --target-dir "/user/hive/warehouse/test.db/test_user" \
    
    --fields-terminated-by '\t' \
    
    --lines-terminated-by '\n' \
    
    --hive-drop-import-delims \
    
    --incremental lastmodified \
    
    --merge-key id \
    
    --check-column update_time \
    
    --last-value "2019-03-25" \
    
    --m 1 \
    
    -- --schema "schema_name" \
    
    --null-string '\\N' \
    
    --null-non-string '\\N' 

    1、-- --schema 一定要放在后面,否则可能导致无运行日志或无法导入数据到指定目录且无法重新执行(报目录已存在)

    2、PostgreSQL 须设置SET standard_conforming_strings = on;,否则--null-string和--null-non-string不起作用;

    3、--null-string--null-non-string放在-- --schema后面,否则执行时报Can't parse input data: '\N'

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

    您可能感兴趣的文章:
    • 在Hadoop集群环境中为MySQL安装配置Sqoop的教程
    • sqoop export导出 map100% reduce0% 卡住的多种原因及解决
    • 解决sqoop从postgresql拉数据,报错TCP/IP连接的问题
    • 解决sqoop import 导入到hive后数据量变多的问题
    • sqoop 实现将postgresql表导入hive表
    • 使用shell脚本执行hive、sqoop命令的方法
    • Sqoop的安装与使用详细教程
    上一篇:解决sqoop import 导入到hive后数据量变多的问题
    下一篇:解决sqoop从postgresql拉数据,报错TCP/IP连接的问题
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    sqoop读取postgresql数据库表格导入到hdfs中的实现 sqoop,读取,postgresql,数据库,