您现在的位置是:芭奇站群管理系统 > 软件使用教程大全 > -> 芭奇站群提高采集效率的做法,加排除库和敏感词库

芭奇站群提高采集效率的做法,加排除库和敏感词库

时间:2020-05-29 11:56

新版的 芭奇站群有时发现采集会爬行太多无用的地址,如何提高采集效率的做法,那就加上排除库和敏感词库,具体如下:


芭奇站群V20.3.2版本之后,我们更换了采集前台模式,但会影响采集速度,以下是加一些新版常出现的词和网址, 不想采集他们,提高采集效率的方法。后期我们再优化


加敏感词和加排库库演示教程(复制链接打开查看):
https://imgchr.com/i/8WlS00
https://s1.ax1x.com/2020/03/21/8WlS00.gif
https://i.loli.net/2020/03/21/7afudH6E8zRJjqm.gif
https://ftp.bmp.ovh/imgs/2020/03/37d09d40fcc326e1.gif


注意:如果勾上分组参数1.1.2带敏感词不入库,会导致很多有用的文章也会不采集,因为敏感库中有其他的非法词,不建议勾上。


==============以下是加入敏感词===============
百度百科
百度贴吧
全球最大的中文社区
百度知道
全球最大中文互动问答平台
百度贴吧
百度文库
搜狐视频
百度知道搜索
百度汉语
百度学术
百度图片
发现多彩世界
百度产品大全
百度一下
你就知道
搜狗产品大全
党建搜索
搜狗学术
百度安全验证
百科词条人人可编辑
词条创建和修改均免费
绝不存在官方及代理商付费代编
请勿上当受骗
百度一下,你就知道
百度信誉
404页
搜狐视频
QQ音乐
搜狗搜索快照
百度图片搜索
百度履历
搜狗-免责声明
搜狗搜索帮助中心
搜狗热搜榜
- 搜狗搜索
搜狗搜索



=======以下是设排除库,加入后,要关联网站才有效===================



公共排除库,所有站都可以加

top.sogou.com
fankui.help.sogou.com
scholar.sogou.com
e.weibo.com/sogou
fankui.help.sogou.com
help.sogou.com
dangjian.sogou.com
snapshot.sogoucdn.com
www.baidu.com/search
www.baidu.com/more
wenku.baidu.com/search
bzclk.baidu.com
j.br.baidu.com
cache.baiducontent.com
cache.baidu.com
help.baidu.com




如果只采门户新闻采集源,再加下面的排除库地址。注意:如果用的泛采集,就不要加下面网址,要删除
www.baidu.com/s?rsv_xinwen
www.baidu.com/link?
tieba.baidu.com/f?
image.baidu.com/i?
v.youku.com
zhihu.sogou.com