bluetjs
bluetjs
全部文章
分类
clickhose(7)
dubbo(12)
es(11)
flink(3)
Java核心要义(42)
JCF(6)
jdk源码(1)
jetty(8)
JVM(12)
kafka(16)
mongo(3)
python(4)
RabbitMQ(1)
redis(20)
shell(4)
spring(19)
storm(4)
web及框架(40)
zookeeper(8)
代码及脚本-git、gradle(3)
工具(2)
接口那些事(1)
数据分析(4)
数据库(27)
日志收集分析(2)
未归档(9)
源码(1)
算法和数据结构(24)
系统架构(13)
线程、锁、并发(43)
网络原理(3)
自动化测试(1)
设计模式(8)
运维(50)
面来面去(2)
归档
标签
去牛客网
登录
/
注册
bluetjs的博客
全部文章
(共410篇)
Elastic Search实战之不停机重建索引(修改映射类型)
https://blog.csdn.net/aiyaya_/article/details/79567091 前言 我们在使用ES的时候,尤其是初学者,通常都会遇到一个问题,那就是文档字段的映射类型创建错误问题,但是ES上却不能像mysql一样直接去修改字段类型,这时便出现了这个棘手的问题,今天让...
2019-07-22
0
797
lasticsearch 创建以及修改索引结构
https://www.cnblogs.com/Rawls/p/10300639.html 从问题出发,这篇内容可以解决以下几个问题: 一:如何开启关闭Es索引(数据库)? 二:如何创建索引(数据库)结构? 三:如何向已有索引(数据库)中添加类型(表)结构? 四:如何向已有类型(表)中添加...
2019-07-22
0
745
干货 | Elasticsearch Nested类型深入详解
https://blog.csdn.net/laoyang360/article/details/82950393 0、概要 在Elasticsearch实战场景中,我们或多或少会遇到嵌套文档的组合形式,反映在ES中称为父子文档。 父子文档的实现,至少包含以下两种方式: 1)父子文档 父子文档在5...
2019-07-22
0
639
Elasticsearch索引mapping的写入、查看与修改
https://blog.csdn.net/hxpjava1/article/details/80801903 mapping的写入与查看 首先创建一个索引: curl -XPOST "http://127.0.0.1:9200/productindex" {"...
2019-07-22
0
1180
simhash海量文本去重的工程化
https://yuerblog.cc/2018/05/30/simhash-text-unique-arch/ simhash算法是google发明的,专门用于海量文本去重的需求,所以在这里记录一下simhash工程化落地问题。 下面我说的都是工程化落地步骤,不仅仅是理论。 背景 互联网上...
2019-07-17
0
922
中文分词工具整理
https://blog.csdn.net/fendouaini/article/details/82027310 一.中文分词 分词服务接口列表 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 、ICTCLAS(2015版) 、ji...
2019-07-15
0
591
百度咋做长文本去重
https://blog.csdn.net/wufaliang003/article/details/78409887 缘起: (1)原创不易,互联网抄袭成风,很多原创内容在网上被抄来抄去,改来改去 (2)百度的网页库非常大,爬虫如何判断一个新网页是否与网页库中已有的网页重复呢? 这是本文要...
2019-07-12
0
447
相似文档查找算法之 simHash 简介及其 java 实现
https://cloud.tencent.com/developer/article/1043655 传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不...
2019-07-12
0
1798
网站文章如何能自动判定是抄袭?一种算法和实践架构剖析
https://www.infoq.cn/article/how-web-article-utomatically-determine-plagiarism 1. 文本指纹介绍 互联网网页存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体...
2019-07-12
0
988
使用SimHash进行海量文本去重
https://www.cnblogs.com/maybe2030/p/5203186.html 在之前的两篇博文分别介绍了常用的hash方法([Data Structure & Algorithm] Hash那点事儿)以及局部敏感hash算法([Algorithm] 局部敏感哈希算法...
2019-07-12
0
730
首页
上一页
1
2
3
4
5
6
7
8
9
10
下一页
末页