数据社

分类

数据分析(1) 未归档(59)

/ 注册

全部文章（共60篇）

Vertica的这些事（十五）——Vertica报错TM

最近在用Vertica的时候碰到一个问题，Vertica在运行了一段时间后总是出现类似下面的错误 java.sql.SQLException: [Vertica][VJDBC](5065) ERROR: Too many ROS containers exist for the followi...

2018-11-20

0 0

Flink的这些事（二）——Flink开发环境搭建

IEDA开发环境 1、安装java环境参考上一篇文章Flink的这些事（一）——Flink部署 2、安装maven 参考博客Maven安装与配置 3、配置IDEA 参考博客如何使用IntelliJ IDEA 配置Maven 4、pom文件设置 <?xml version=&q...

2018-11-10

0 0

HBase SHELL查询的汉子解析

HBase SHELL查询的汉字解析我们都知道在使用HBase shell查询数据的时候，返回的是16进制的字符串，特别是汉子，我们无法直接看到返回的结果。比如返回的数据是 \xE4\xB9\xB1\xE4\xB8\x96 我们可以使用pyhton，方便的转换该字符，只需要转换为UTF-...

2018-11-10

0 0

hive的这些事（一）——hive数据迁移

比如需要把生产的hive集群数据迁移到另一个集群，hive提供了2个命令工具，可以实现表的批量迁移。 [export/import] 设置默认需要导出的hive数据库在hive目录/etc/alternatives/hive-conf下添加.hiverc vi ~/.hiverc ...

2018-06-05

0 0

Flink的这些事（一）——Flink部署

一、flink介绍 Apache Flink 是一个开源的分布式流处理和批处理系统。Flink 的核心是在数据流上提供数据分发、通信、具备容错的分布式计算。同时，Flink 在流处理引擎上构建了批处理引擎，原生支持了迭代计算、内存管理和程序优化。二、部署环境操作系统环境： flink支持...

2018-05-30

0 0

Spark的这些事（四）——Spark on yarn 动态资源配置

一、YARN的配置首先需要对YARN进行配置，使其支持Spark的Shuffle Service。修改每台集群上的yarn-site.xml： - 修改 <property> <name>yarn.nodemanager.aux-services</name&...

2018-05-30

0 0

Spark的这些事（三）——spark常用的Transformations 和Actions

Transformations map，filter spark最长用的两个Transformations：map，filter，下面就来介绍一下这两个。先看下面这张图：这里写图片描述从上图中可以清洗的看到 map和filt...

2018-05-30

0 0

Spark的这些事（二）——几个概念

1、SparkContext [经常简称为 sc] spark app 的起点和入口，一般用来加载数据集，生成第一个 rdd。 2、定义一个 spark 应用程序所需要的三大步骤的逻辑：加载数据集，处理数据，结果展示。加载数据集加载数据集，这里的数据集大概分为两组: ...

2018-05-30

0 0

Spark的这些事（一）——Windows下spark开发环境搭建

一、首先准备需要安装的软件 scala-2.10.4 下载地址：http://www.scala-lang.org/download/2.10.4.html scala-SDK-4.4.1-vfinal-2.11-win32.win32.x86_64 下载地址：http://scala-ide.or...

2018-05-30

0 0

Vertica的这些事（十四）——Vertica实时消费kafka实现

一、安装环境 Vertica官方提供了消费kafka的方法，需要注意版本对应这里写图片描述消费kafka原理，是Vertica提供的Udx 这里写图片描述 ...

2018-05-30

0 0