查看百度蜘蛛爬取的记录

cat rizhi.log|awk ‘$14~/Baiduspider/’ >baidu.txt

只显示某些列

cat rizhi.log|grep “Baiduspider” |awk ‘{print $1 , $4 , $7 , $8 , $9 , $10}’ >Baiduspider.txt

查看网站的404页面

cat rizhi.log|awk ‘$9~/404/’ >404.txt

分析日志内,当天访问次数最多的10个页面,并且按降序排列。

cat rizhi.log|awk ‘{print $7}’|sort|uniq –c|sort –nr|head -10 >example.txt

获取访问最高的10个IP地址

cat rizhi.log|awk  ‘{print $1}’ |sort|uniq -c|sort -nr|head -10 >topip.txt

查看新闻频道的访问和蜘蛛,并且统计数量

cat rizhi.log|awk ‘$14~/Baiduspider/’|awk ‘$7 ~/^/news/ {print $0}’|wc -l

查看百度蜘蛛抓取不重复页面,并统计数量

cat rizhi.log|awk ‘$14~/Baiduspider/’|awk ’{print $7}’ |sort -u|wc -l

查看百度蜘蛛访问网站404状态码

cat rizhi.log|awk ‘$14~/Baiduspider/’|awk ‘$9~/404/’

404失败总数

cat data.log | awk -F ‘t’ ‘{if($4>0&&$4=404) print$4}’ | wc -l |awk ‘{print “Total 404 Items:”$1}’

当前WEB服务器中联接次数最多的ip地址

#netstat -ntu |awk ‘{print $5}’ |sort | uniq -c| sort -nr

 

查看日志中访问次数最多的前10个IP

#cat access_log |cut -d ‘ ‘ -f 1 |sort |uniq -c | sort -nr | awk ‘{print $0 }’ | head -n 10 |less

 

查看日志中出现100次以上的IP

#cat access_log |cut -d ‘ ‘ -f 1 |sort |uniq -c | awk ‘{if ($1 > 100) print $0}’|sort -nr |less

查看最近访问量最高的文件

#cat access_log |tail -10000|awk ‘{print $7}’|sort|uniq -c|sort -nr|less

 

查看日志中访问超过100次的页面

#cat access_log | cut -d ‘ ‘ -f 7 | sort |uniq -c | awk ‘{if ($1 > 100) print $0}’ | less

 

统计某url,一天的访问次数

#cat access_log|grep ’12/Aug/2009’|grep ‘/images/index/e1.gif’|wc|awk ‘{print $1}’

 

前五天的访问次数最多的网页

#cat access_log|awk ‘{print $7}’|uniq -c |sort -n -r|head -20

 

从日志里查看该ip在干嘛

#cat access_log | grep 218.66.36.119| awk ‘{print $1″t”$7}’ | sort | uniq -c | sort -nr | less

 

列出传输时间超过 30 秒的文件

#cat access_log|awk ‘($NF > 30){print $7}’ |sort -n|uniq -c|sort -nr|head -20

 

列出最最耗时的页面(超过60秒的)

#cat access_log |awk ‘($NF > 60 && $7~/.php/){print $7}’ |sort -n|uniq -c|sort -nr|head -100

这些是常用的一些处理命令,如果需要深入研究,可以直接man相关的命令~

sort :排序
默认的情况下是按照字符排序
-n  : 按照数值排序
-u  : 不出现重复的行
-r  :  逆向排序
-t  : 指定分段的符号
-k  :  指定的第几个段

  uniq -u 只显示不重复的行
-d 只显示重复的行
-c 显示出现的几次

wc 统计文本

-c 统计字节数。

-l 统计行数。

-m 统计字符数。这个标志不能与 -c 标志一起使用。

-w 统计字数。一个字被定义为由空白、跳格或换行字符分隔的字符串。

-L 打印最长行的长度。

 

相关文章:

  • 暂无相关文章