标题:为何要学分布式?
只看楼主
zq3332043931
Rank: 1
等 级:新手上路
帖 子:1
专家分:0
注 册:2017-8-15
 问题点数:0 回复次数:0 
为何要学分布式?
一般要做爬虫的话,需要进行站点页面的代码采集,以及图片文字的分析,存储,索引等工作
。如果要求高一些的话,还要有页面的去噪声,权值优化等处理。这需要结合java的网络请求,
搜索引擎的相关算法,中文分词以及倒排索引之类等等,还要考虑是否结合数据库使用。另外,
为了跨过网站的一些拦截与屏蔽的功能,你还要做相关的代理处理,伪造爬虫头部信息等。所以
,三个月的时间,结合实践与代码,感觉基本做不到太多的。
像资源的分类存储,字符集的识别,扫描频率啊之类的,太多问题了。

这还是单机的情况下,分布式你更是难上加难了,可以研究一下elasticsearch,也许对你有一些
帮助。想要当好搜索引擎工程师,大师的爬虫设计经验是必需的。‘
我们跟腾讯课堂合同开设了java分布式的技术分享:
搜索更多相关主题的帖子: 分布 索引 处理 结合 搜索引擎 
2017-08-15 17:46



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-480071-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.210559 second(s), 8 queries.
Copyright©2004-2025, BCCN.NET, All Rights Reserved