soogor内容工厂采集说明文档

创建时间: 2023-10-21 12:43:47 :73 更新时间: 2023-10-21 12:43:47
本文适用:

软件版本:SoogorFactory V1.0.1.0

soogor内容工厂的采集是比较简单的

添加采集

任务名称--右键--加入采集

这样任务就会进入采集队列

任务队列

任务队列表头包括:任务ID、任务名称、进度(已得内容/关键词剩余)、开始时间、运行状态

关键词处理

soogor开启任务后,会对关键词进行预处理,通过任务设置的敏感词库,对关键词进行筛查。

含有敏感词的关键词会直接删除

如果关键词需要重复利用的,请提前做好备份.

当关键词的内容完成采集后,soogor会对该域名进行删除处理,这样在下次打开的时候就不会重复的验证采集了。

多线程运行

soogor的采集是多线程采集的,python的很多资料上都说多线程要比多进程的性能要好很多。

多线程采集就需要大家根据自己的情况进行采集的时间间隔。

代理IP:我们通常在代理IP的时候就是把采集频率设置为0。这样会更好的发挥代理IP的效率,其他有关代理IP的内容,我们会在代理IP进行详细的说明

普通采集:这种情况最大的好处就是免费。我们只需要在工作之余将soogor打开,让其自由采集就可以了。但是soogor为多进程采集,所以一定要设置好抓取频率,通常我们实测的12秒,就是一个比较不错的频率,至于无代理状态的多线程,我们建议不要在无代理IP的情况下进行多任务同时采集,效率并没有多高。因为在无代理IP的时候,影响采集效率的是重要因素是本地电脑IP与目标源的交流频率。

但是依然有小伙伴会在无代理IP的情况下使用多进程,有时还需要出现了比代理IP更高的效率。当然这种情况持续的时间有点短,在目标源反应过来后,还是会把IP封禁一断时间的。此时soogor就无法进行有效的采集。当soogor判断为IP封禁后,会自动降低抓取频率,以一个非常低频的状态去验证IP封禁,待IP封禁解开后,就会以正常的状态进行工作了。

采集的启停

在采集队列右侧的“开始采集”和“结束采集”是用来控制采集任务开始和关闭的。

采集进度提示

采集进度最终是有两种提示:

  1. 已得内容/关键词剩余提示:soogor会对采集内容和关键词剩余进行统计,将统计结果在队列中进行显示。
  2. 右下侧有任务进度细节提示。在soogor采集运行的重要部分会在控制台进行提示。比如关键词、采集成功、关键词删除等都会在控制台进行显示。

因为窗口性能和个人PC配置的区别,所以soogor没有把窗口频率设置的太快。所以在代理IP,或高速运行的实际的的运行速度点有滞后。

临时提示:

目前我们认为soogor内容工厂的运行虽然比较稳定的,但是在实测当中,在不同的行业、词库运行时还是有时会出现未知错误,为了更好的抓到bug进行排除,我们目前保留的黑窗运行显示 。当bug出现时,大家可以将黑窗复制发送给我们。我们会根据运行情况进行排除。

 


Copyright © 2022 All Rights Reserved 威海上格软件有限公司 版权所有

鲁ICP备20007704号

Thanks for visiting my site.