分享一个WordPress网站记录蜘蛛爬行日志的功能,方便通过蜘蛛记录来进行优化网站。
1、首先在WordPress主题文件function.php里面加上以下代码:
//蜘蛛爬行日志分析
function get_naps_bot(){
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
if (strpos($useragent, 'googlebot') !== false){
return 'Googlebot';
}
if (strpos($useragent, 'msnbot') !== false){
return 'MSNbot';
}
if (strpos($useragent, 'slurp') !== false){
return 'Yahoobot';
}
if (strpos($useragent, 'baiduspider') !== false){
return 'Baiduspider';
}
if (strpos($useragent, 'sohu-search') !== false){
return 'Sohubot';
}
if (strpos($useragent, 'lycos') !== false){
return 'Lycos';
}
if (strpos($useragent, 'robozilla') !== false){
return 'Robozilla';
}
return false;
}
function nowtime(){
date_default_timezone_set('Asia/Shanghai');
$date=date("Y-m-d.G:i:s");
return $date;
}
$searchbot = get_naps_bot();
if ($searchbot) {
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$url=$_SERVER['HTTP_REFERER'];
$file="robotslogs.txt";
$time=nowtime();
$data=fopen($file,"a");
$PR="$_SERVER[REQUEST_URI]";
fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage\n page:$PR\r\n");
fclose($data);
}
2、在网站根目录创建一个txt文本文件,用于记录日志信息,名称为:robotslogs.txt。
当然也可以在电脑建立文件,然后通过FTP工具上传到根目录。
3、等过一天或者两天,即可看见蜘蛛来访日志信息,不过就是有点乱,不过可以清晰的知道什么搜索引擎蜘蛛在什么时候爬取过什么网页。
4、如果爬取次数多了,robotslogs.txt文件会越来越大,到时候只需要把文件里面过往的记录删除即可,重新记录新的爬取记录。