喵星人_Cat
喵星人_Cat
全部文章
未归档
Hadoop Yarn(1)
Python爬虫(1)
博客(1)
操作系统(4)
数据库(5)
机器学习(24)
海量数据处理(2)
编程语言(16)
网络(4)
网络安全(1)
归档
标签
去牛客网
登录
/
注册
Stay Hungry | yanhao
不积跬步无以至千里
全部文章
/ 未归档
(共98篇)
Welcome to my blogs...
欢迎来到我的新博客平台!
2019-07-26
0
580
怎么解决数据倾斜问题?
本文面向的读者是从事数据分析、数据处理(ETL)等相关工作的朋友们,相信大家在工作中一定遇到过数据倾斜的问题,读完本文,你会了解到数据倾斜的定义及其危害、产生的原因及应对措施、常见倾斜场景及解决办法等知识,相信对你今后处理数据倾斜问题会有一定的帮助。 目前流行的大数据相关的计算框架之所以能够处理大...
2019-04-19
1
792
推荐系统系列二:推荐系统的工程实现
下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。 ...
2019-04-10
0
2308
如何优雅的在 Microsoft word中插入代码
近日需要写一些包含代码的Word文档,直接复制代码进去并不优雅,于是从网上发现了这个小工具,和大家分享一下。 一、工具 http://www.planetb.ca/syntax-highlight-word 二:操作步骤: 第一步:打开上面这个网站,截图如下: 第二步:将自己的代码复制...
2019-04-08
0
2742
推荐系统系列一:推荐系统介绍
下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。 ...
2019-04-07
0
9100
LRU算法 + Java实现代码
LRU原理 LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行淘汰数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高”。 最常见的实现是使用一个链表保存缓存数据,详细算法实现如下 新数据插入到链表头部; 每当缓存命...
2019-04-06
0
1338
Linux top命令里面%CPU和cpu(s)的差别
有的同学会把%CPU和us%搞晕,也就是下图所示在top的时候查看cpu的信息。 这时有的同学会问:这两个CPU到底哪个是对的。 其实都是对的,只是表达的意思不一样。 官方解释如下 Cpu(s):34.0% us: 用户空间占用CPU百分比 %CPU:上次更新到现在的CPU时间占...
2019-04-01
0
1049
TF-IDF 介绍
最近在学习主题分类的内容,下面是关于TF-IDF通俗易懂的介绍。 任务一:现在有一篇长文《中国的蜜蜂养殖》,用计算机提取它的关键词。 1、词频:如果某个词很重要,它应该在这篇文章中多次出现。我们进行"词频"(Term Frequency,缩写为TF)统计。 2、停用词:结果...
2019-02-21
0
834
稀疏矩阵存储格式Compressed Sparse Column Format (CSC)
目的 Compressed Sparse Column Format (CSC)的目的是为了压缩矩阵,减少矩阵存储所占用的空间。这很好理解,手法无法就是通过增加一些"元信息"来描述矩阵中的非零元素存储的位置(基于列),然后结合非零元素的值来表示矩阵。这样在一些场景下可以减少矩阵...
2019-01-03
0
1073
在缺少高版本glibc的机器上通过修改ELF引用使之成功运行测试实例
问题分析: 本篇文档是在《更改引用高版本glibc的程序到引用低版本的glibc》之后的补充文档,如果以后遇到相同问题,首先看我之前原创的《更改文件引用的高版本glibc到低版本glibc》这篇,然后再来看本篇。 本篇文档将详细记录一个在低版本glibc机器上运行由a.cpp文件编译之后的a文件...
2018-10-24
0
1279
首页
上一页
1
2
3
4
5
6
7
8
9
10
下一页
末页