日志分析是我们这些 SEO 从业人员的最基础的必备能力;通过日志的分析我希望能够了解以下信息内容:
1、该网站目前百度的蜘蛛,是否还来爬行;
2、如果来爬,那么每天爬了多少页面;200 状态的有多少?非 200 状态的页面有多少?
3、百度蜘蛛爬的页面都是那些页面?是一些我想展示给客户的网页,还是一些不相关的页面,比如列表页等;
因为每个日志都有 100M 左右;想要对里面的记录进行分析,需要借助一定的工具;市面有的一些工具多多少少,不能满足自己的一些特定需求;所以根据一个开源的工具,结合自己的需求设计一个自认为比较顺手的日志分析程序是很多高端技术的独家手段。
借助日志分析工具针对各种情况的分析,可以总结出以下问题:
(1)日志中有大量的 404 页面需要检查,分析,处理
(2)有大量的模拟地址进行恶意访问的 IP 地址;
(3)200 状态下,有大量的我不希望爬行和索引的网页
(4)除 200 状态外,还有很多 301,403 等状态的爬行记录;
这些问题需要处理,处理的目的是希望能够给百度蜘蛛一个优良的环境;也就是我们通常说的降噪音;保证百度蜘蛛爬行的效率,从而提升整体网站优化的实际效果。
深圳市天企网络信息技术有限公司致力于互联网品牌建设与网络营销多年,专业领域包括PC、移动网站建设、小程序开发、APP开发、网站优化推广、品牌推广及竞价托管等,公司秉承 “ 客户至上,为客户创造价值 ” 的理念,把握时尚脉搏,不断创新,坚持把整体技术做硬,凭我们团结壮大的技术队伍、丰富的专业技能、坚定的成功信念为客户创造更多的价值。