mounike

分类

Hadoop(1) hive(6) kafka(1) MySQL(2) shell(2) spark(5) spider(1) UserPortrait(1) VMware(1) Yarn(1) 资料汇总(1)

/ 注册

全部文章（共22篇）

shell批量启动脚本之zookeeper

@zookeeper批量启动脚本 1 #!bin/bash 2 for host in master slave1 slave2 3 do 4 #输出当前服务器的zookeeper启动情况 5 echo "{$host}:{$1}ing..." 6 #...

2020-07-13

0 535

spark如何将数据一步步封装成RDD的

对于spark的研究离不开RDD，但是spark如何将磁盘文件一步步封装成RDD的计算模型的？记录一下这个问题：梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能...

2020-07-13

0 473

Spark与MapReduce的区别是什么？

Spark和MapReduce都是可以处理海量数据，但是在处理方式和处理速度上存在着差异，总结如下： 1.spark处理数据是基于内存的，而MapReduce是基于磁盘处理数据的。 MapReduce是将中间结果保存到磁盘中，减少了内存占用，牺牲了计算性能。 Spark是将计算的中间结...

2020-07-13

0 3443

hadoop中小文件的处理思路

1 小文件的出现原因 hadoop存储数据是按block存储的，现在默认是128M问一个文件块，一个文件块对应一个maptask。但是，读取的文件如果是200M等非128的倍数的文件块，客户端切分数据必然会产生小的数据块。 2小文件造成的问题这些小的数据块的元数据信息（位...

2020-07-13

0 981

hdfs如何保证数据一致性？

1 namenode和SecondaryNamenode（周期性的保存namenode上的元数据信息）元数据一致性。 2 namenode和datanode心跳机制保证副本的重新创建，如果DataNode死了，原来保存在这个机器上的副本就的重新再别的机器上创建了。 3 DataNode与...

2020-07-13

0 1226

kafka的分区策略是什么？

先回顾一下kafka的架构图 kafka分区的本质就是为了解决数据的写入和消费时的负载均衡以及数据的容错。生产者将数据发送到kafka对应的主题，主题中存储数据是按分区存储的；同要消费者消费对应主题中的数据也是按分区消费的，在进一步思考，他是按怎么样的方式去分区的呢？这就是下面要说的kaf...

2020-07-13

0 739

基于大数据的用户画像构建（理论篇）

什么是用户画像？简而言之，用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析而来的高度精炼的特征标识。举例来说，如果你经常购买一些玩偶玩具，那么电商网站即可根据玩具购买的情况替你打上...

2020-07-13

1 624

mysql 快捷键

mysql 快捷键 1.ctrl+q 打开查询窗口 2.ctrl+/ 注释sql语句 3.ctrl+shift +/ 解除注释 4.ctrl+r 运行查询窗口的sql语句 5.ctrl+shift+r 只运行选中的sql语句 6....

2020-07-13

0 799

MySQL资料汇总

目录一下载与安装二安装问题三 mysql8.0远程访问授权是将创建用户和权限分配分开的，先创建授权用户，再分配权限四官方文档五 mysql 窗口函数六 web端sql审核平台七学习一下载与安装 MySQL8.0下载与安装（有百度云盘下载链接）二安装...

2020-07-13

0 616

shell之复制文件脚本

shell之复制脚本 #!/bin/bash #获取输入参数的个数.没有参数直接退出 pcount=$# if((pcount==0));then echo no args; exit; fi #2.获取文件名称 p1=$1 fname=`basename $p1` echo fname=$fn...

2020-07-13

0 374