喵星人_Cat

未归档

Hadoop Yarn(1) Python爬虫(1) 博客(1) 操作系统(4) 数据库(5) 机器学习(24) 海量数据处理(2) 编程语言(16) 网络(4) 网络安全(1)

/ 注册

全部文章 / 未归档（共98篇）

Welcome to my blogs...

欢迎来到我的新博客平台！

2019-07-26

0 622

怎么解决数据倾斜问题？

本文面向的读者是从事数据分析、数据处理（ETL）等相关工作的朋友们，相信大家在工作中一定遇到过数据倾斜的问题，读完本文，你会了解到数据倾斜的定义及其危害、产生的原因及应对措施、常见倾斜场景及解决办法等知识，相信对你今后处理数据倾斜问题会有一定的帮助。目前流行的大数据相关的计算框架之所以能够处理大...

2019-04-19

2 1126

推荐系统系列二：推荐系统的工程实现

下面内容转自大数据与人工智能微信公众号，由于网络上推荐系统的相关学习资料太多太杂，东拼西凑学习很难摸出门道，同时我也在学习推荐系统，因此我将该系列内容摘录到我的博客，方便大家直接在博客中查看，大家一起学习进步，后面我也会阅读推荐系统相关的论文，并在本博客记录笔记，希望大家一起进步哈。 ...

2019-04-10

0 2478

如何优雅的在 Microsoft word中插入代码

近日需要写一些包含代码的Word文档，直接复制代码进去并不优雅，于是从网上发现了这个小工具，和大家分享一下。一、工具 http://www.planetb.ca/syntax-highlight-word 二：操作步骤：第一步：打开上面这个网站，截图如下：第二步：将自己的代码复制...

2019-04-08

0 3025

推荐系统系列一：推荐系统介绍

下面内容转自大数据与人工智能微信公众号，由于网络上推荐系统的相关学习资料太多太杂，东拼西凑学习很难摸出门道，同时我也在学习推荐系统，因此我将该系列内容摘录到我的博客，方便大家直接在博客中查看，大家一起学习进步，后面我也会阅读推荐系统相关的论文，并在本博客记录笔记，希望大家一起进步哈。 ...

2019-04-07

0 9325

LRU算法 + Java实现代码

LRU原理 LRU（Least recently used，最近最少使用）算法根据数据的历史访问记录来进行淘汰数据，其核心思想是“如果数据最近被访问过，那么将来被访问的几率也更高”。最常见的实现是使用一个链表保存缓存数据，详细算法实现如下新数据插入到链表头部；每当缓存命...

2019-04-06

0 1481

Linux top命令里面%CPU和cpu(s)的差别

有的同学会把%CPU和us%搞晕，也就是下图所示在top的时候查看cpu的信息。这时有的同学会问：这两个CPU到底哪个是对的。其实都是对的，只是表达的意思不一样。官方解释如下 Cpu(s)：34.0% us: 用户空间占用CPU百分比 %CPU：上次更新到现在的CPU时间占...

2019-04-01

0 1287

TF-IDF 介绍

最近在学习主题分类的内容，下面是关于TF-IDF通俗易懂的介绍。任务一：现在有一篇长文《中国的蜜蜂养殖》，用计算机提取它的关键词。 1、词频：如果某个词很重要，它应该在这篇文章中多次出现。我们进行"词频"（Term Frequency，缩写为TF）统计。 2、停用词：结果...

2019-02-21

0 919

稀疏矩阵存储格式Compressed Sparse Column Format (CSC）

目的 Compressed Sparse Column Format (CSC)的目的是为了压缩矩阵，减少矩阵存储所占用的空间。这很好理解，手法无法就是通过增加一些"元信息"来描述矩阵中的非零元素存储的位置(基于列)，然后结合非零元素的值来表示矩阵。这样在一些场景下可以减少矩阵...

2019-01-03

0 1147

在缺少高版本glibc的机器上通过修改ELF引用使之成功运行测试实例

问题分析：本篇文档是在《更改引用高版本glibc的程序到引用低版本的glibc》之后的补充文档，如果以后遇到相同问题，首先看我之前原创的《更改文件引用的高版本glibc到低版本glibc》这篇，然后再来看本篇。本篇文档将详细记录一个在低版本glibc机器上运行由a.cpp文件编译之后的a文件...

2018-10-24

0 1640