宝塔Linux面板生成搜索引擎蜘蛛爬取日志

阿里云优惠活动

什么是搜索引擎蜘蛛?

网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。百科详情

简单来讲:蜘蛛就是搜索引擎爬虫,用于检测我们网站上的内容,并进行检测、筛选、评分……

什么是蜘蛛日志?

从字面意思可理解为:记录蜘蛛访问轨迹的一个文件,就是蜘蛛日志。

看蜘蛛日志有什么用?

用于更改的分析蜘蛛的爬取轨迹,做好网站SEO优化,比如你一个网页出现了404页面,自己没发现,那么如果蜘蛛爬取到这个404链接,就能从蜘蛛日志中反馈,我们就可以第一时间处理这个404链接,使网站不会出现死链

拓展阅读:WordPress网站生成蜘蛛爬行日志

宝塔面板怎么设置生成蜘蛛日志?

其实宝塔面板有自动记录蜘蛛日志的功能,但是就是没有进行切割,会全部存在一个文件内,这样会使蜘蛛文件非常大,而且查阅起来不方便。

这里就介绍一个功能,能完美的切割我们的网站蜘蛛日志。

设置宝塔面板切割日志方法

1、首先进入宝塔面板后台,并在左侧菜单栏进入到“计划任务”,如下图所示:

宝塔面板左侧菜单栏计划任务

2、我们可以看到这里有一个任务设置面板,任务类型包含以下部分:Shell脚本、备份网站、备份数据库、日志切割、释放内存、访问URL

这里我们选择日志切割,并根据下图所示进行添加任务

宝塔面板切割日志任务设置
  • 任务类型:日志切割;
  • 执行周期:可设置每天、N天、每小时、N小时、N分钟、每星期及每月,这里建议一周至两周一次
  • 切割网站:选择需要切割日志的网站即可;
  • 备份到:文件备份位置;
  • 保留最新几份:建议3-5,根据自己需求选择;
  • 最后添加任务
  • 添加完任务后务必下方任务列表点击“执行”。如下图所示:
点击执行任务
注意:

当添加完备份任务,应该手动运行一次,并检查备份包是否完整
磁盘容量不够、数据库密码错误、网络不稳定等原因,可能导致数据备份不完整
备份站点和目录时支持文件或目录排除,请将需要排除功能的插件升级到最新版,如:阿里云OSS等

3、下载蜘蛛文件。

设置后切割任务后,宝塔会根据设置自动执行切割任务,到了指定时间,我们就可以去找到我们的日志文件,进行下载查看,前提是你的文件保存到了本地服务器,如果是阿里云OSS,则需要到阿里云下载。

下载蜘蛛日志文件
  • 首先进入宝塔面板左侧文件
  • 在顶部选择对应的文件目录:根目录→www→wwwlogs
  • 选择对应的文件,点击下载

4、怎么查看蜘蛛日志

下载后需要对文件进行解压,你会看到文件夹里面有一个.log后缀的文件,打开后是一堆英文,就像这样子:

.log后缀蜘蛛日志文件

不要觉得这是乱码现象,其实这就是我们的蜘蛛爬取网站的轨迹信息,只是我们需要借助一款工具对内容进行“翻译”。

5、这里推荐一款日志文件分析工具:光年日志分析

下载光年日志分析:http://xiazai.zol.com.cn/detail/44/439765.shtml#hotArticle

光年日志分析软件使用方法

下载好光年日志分析工具,并解压打开

①点击左上角新建任务

新建分析任务

②默认任务名,日志类型自动检测,并点击下一步

新建任务向导

添加需要分析的文件,并下一步

选择需要分析的文件

④选择报告保存位置,选择桌面即可

选择报告保存位置

⑤是否马上分析,选择

分析完成后会生成一个文件在对应目录,之后我们用浏览器打开文件即可。

分析完成效果图:

  • 蜘蛛分析(分析蜘蛛爬行URL)
    • 概要分析(展示各个蜘蛛爬取量占比)
    • 目录抓取(展示蜘蛛所爬取的网站目录)
    • 页面抓取(展示蜘蛛所爬取的网站页面)
    • IP排行(蜘蛛单个IP爬行量排行)
  • 搜索引擎分析(暂无)
    • 关键词分析(暂无)
  • 状态码分析(分析状态码)
    • 用户状态码(用户返回状态码)
    • 蜘蛛状态码(蜘蛛返回状态码)

总结

关于宝塔Linux面板生成搜索引擎蜘蛛爬取日志教程就讲解到这里,感谢阅读,如有问题请留言告知,谢谢。