bluetjs
bluetjs
全部文章
算法和数据结构
clickhose(7)
dubbo(12)
es(11)
flink(3)
Java核心要义(42)
JCF(6)
jdk源码(1)
jetty(8)
JVM(12)
kafka(16)
mongo(3)
python(4)
RabbitMQ(1)
redis(20)
shell(4)
spring(19)
storm(4)
web及框架(40)
zookeeper(8)
代码及脚本-git、gradle(3)
工具(2)
接口那些事(1)
数据分析(4)
数据库(27)
日志收集分析(2)
未归档(9)
源码(1)
系统架构(13)
线程、锁、并发(43)
网络原理(3)
自动化测试(1)
设计模式(8)
运维(50)
面来面去(2)
归档
标签
去牛客网
登录
/
注册
bluetjs的博客
全部文章
/ 算法和数据结构
(共24篇)
中文分词工具整理
https://blog.csdn.net/fendouaini/article/details/82027310 一.中文分词 分词服务接口列表 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 、ICTCLAS(2015版) 、ji...
2019-07-15
0
591
百度咋做长文本去重
https://blog.csdn.net/wufaliang003/article/details/78409887 缘起: (1)原创不易,互联网抄袭成风,很多原创内容在网上被抄来抄去,改来改去 (2)百度的网页库非常大,爬虫如何判断一个新网页是否与网页库中已有的网页重复呢? 这是本文要...
2019-07-12
0
447
相似文档查找算法之 simHash 简介及其 java 实现
https://cloud.tencent.com/developer/article/1043655 传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不...
2019-07-12
0
1798
网站文章如何能自动判定是抄袭?一种算法和实践架构剖析
https://www.infoq.cn/article/how-web-article-utomatically-determine-plagiarism 1. 文本指纹介绍 互联网网页存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体...
2019-07-12
0
988
使用SimHash进行海量文本去重
https://www.cnblogs.com/maybe2030/p/5203186.html 在之前的两篇博文分别介绍了常用的hash方法([Data Structure & Algorithm] Hash那点事儿)以及局部敏感hash算法([Algorithm] 局部敏感哈希算法...
2019-07-12
0
730
【应用算法】信息流-推荐系统的去重策略
https://blog.csdn.net/hemin1003/article/details/82819489?utm_source=blogxgwz3 聊两个问题,它们看似和推荐系统没有必然关系,但实际上, 在你构建自己的推荐系统的时候,不可避免地会遇到这两个问题。 去重是刚需 在推荐系统...
2018-11-26
0
595
BloomFilter(大数据去重)+Redis(持久化)策略
原文:https://blog.csdn.net/qq_18495465/article/details/78500472 BloomFilter(大数据去重)+Redis(持久化)策略 背景 之前在重构一套文章爬虫系统时,其中有块逻辑是根据文章标题去重,原先去重的方式是,插入文章之前检查待插入...
2018-11-26
0
0
负载均衡之权重轮询调度算法
http://blog.csdn.net/lululove19870526/article/details/53101490 http://colobu.com/2016/12/04/smooth-weighted-round-robin-algorithm/ ...
2017-09-26
0
518
图解分布式一致性协议Paxos
http://codemacro.com/2014/10/15/explain-poxos/ Paxos协议/算法是分布式系统中比较重要的协议,它有多重要呢? <分布式系统的事务处理>: Google Chubby的作者Mike Burrows说过这个世界上只有一种...
2016-11-09
0
736
Jdk 1.7.0_17中提供的默认的排序算法
http://blog.csdn.net/lingzhm/article/details/45022385 参考自:论文,Dual-Pivot Quicksort algorithm ,by Vladimir Yaroslavskiy。 http://www.sytarena.c...
2016-10-27
0
0
首页
上一页
1
2
3
下一页
末页