最新消息:学生作文网,您身边的作文指导专家!

关于放网站的日记 写日记的网站

话题作文 zuowen 2浏览

【话题作文】

第一篇:《查看网站日志都要分析哪些?》

查看网站日志都要分析哪些?

1,每个目录、每个搜索引擎的抓取量

上边两步把总体抓取量、不重复抓取量记录下来了,然后我们要分析出每个搜索引擎对每一个目录的抓取情况是怎么样的,这样利于进行分块优化,例如当你网站推广流量上升时,你可以知道是哪个目录的流量上升了,然后再往下推,看看是哪个目录的抓取量上升了,哪个目录的抓取量下降了,为什么下降,都可以进行分析的,然后在网站中进行适当的链接结构调整,例如使用nofflow标签等。

2,统计搜索引擎蜘蛛来的次数、来的时间

我们可以使用一些日志分析工具,设定一个标准,例如光年日志分析工具,可以统计出每个搜索引擎蜘蛛每天来的次数,一天一共在我们网站停留了多久,有没有IP蜘蛛一天24小时都在我们网站不停的抓取,这样的蜘蛛越多越好,往往是你网站推广权重提升的表现。这样的数据可以每天都记录下来,在一定的时间段内,进行对比分析,看看停留的时间是不是增加了,来的次数是不是增多了,这样可以判断出网站推广权重是上升还是下降,例如:szjk365.com这个站每天都会在下午五六点左右,这主要是由于网站定期都会进行更新内容,当然2013年春节也不例外。

3,记录搜索引擎蜘蛛的不重复抓取量

上一步我们把蜘蛛的抓取量数据给分析出来了,然后我们要进行去重,也就是搜索引擎的唯一不重复抓取量,其实对于收录来说,许多页面只要抓取一次就可以了,可是在实际操作的过程当中,许多页面都是被重复抓取的,谷歌的技术比较先进一些,重复抓取率也许会低一些,可是百度等搜索引擎,重复抓取率却非常高,你通过网站推广日志分析就可以看出来了,一天如果抓取量上百万,可能好几万次都是抓取首页的,所以许多数据你一定要去分析的,当你分析了后,你会知道问题的严重性。

4,每个搜索引擎的总体抓取量

在日志文件中,明确的记录了每个搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取记录,我们都可以进行记录,使用dos命令或者linux命令都可以去实现的,搜索引擎的收录是由抓取量以及文章质量来决定的,当文章质量不变的情况下,蜘蛛抓取量越大,那么收录的就会越多,我们在进行日志分析时候,一定要清楚的知道网站推广蜘蛛每天的抓取量到底是一个什么情况,而且每天都要记录,也许绝对值说明不了什么,我们可以去看它的网络营销趋势,当某一天抓取量的趋势在下降时,我们就要去找原因了。

第二篇:《网站日记分析的重要性》

很多站长不习惯查看网站日志,其实经常查看网站日志对于做网站优化有很多的辅助作用,尤其是对于刚刚上线的网站。网站日志能为我们提供很多信息,通过网站日志分析,可以更好的对网站进行调整,以达到最佳状态。

很多站长在论坛发问,说新站上线多少天了,为什么没有快照,为什么不收录,其实在那里盲目提问的时候,你有没有花点时间用在研究自己站点的日志文件上,日志文件里包含太多的隐藏信息,只要你用心查看,就会发现,所以找到问题关键,才是解决问题必要前提条件。

对于新站没有收录,我们在网站上线后,天天查看前一天统计出来的日志文件,重点查看蜘蛛有没有来访问正常爬行,爬取了哪些目录,哪些页面,在网站停留时间,来访次数,返回状态码是什么。这样就能对网站情况进行掌握了。

1)如果网站没有蜘蛛来爬行,这种情况可能出现在刚提交的几天,我们可以到一些高权重的网站发布自己网站的链接引蜘蛛过来。{关于放网站的日记}.

2)查看抓取的目录,对于不想让搜索引擎收录的目录和页面,可以用robots.txt来屏蔽掉。

3)对于返回状态,如果有404错误路径记录,我们要做出相就的处理,比如删除死链,或者用robots.txt屏蔽蜘蛛爬行。

天天看日志,就可以了解到网站有没有被搜索引擎抓取了,因为对于新站,刚抓取了不一定会放出来,所以用站长工具不一定看到,只要每天蜘蛛有来访有抓取,迟早是会放出来的,就不再需要我们到网上去问这类问题了。我们只需要做好一项工作,就是坚持更新网站内容,做好用户体验与外部链接。我们应该从哪几个维度来进行数据的整理分析呢?我们从基础信息、目录抓取、时间段抓取、IP抓取、状态码几点分布给大家讲解。

第一、基础信息

我们从日志中能够获取哪里基础信息呢?总抓取量、停留时间(h)及访问次数这三个基础信息,可以从光年日志分析工具中统计出来。然后,通过这三个基础信息算出:平均每次抓取页数、单页抓取停留时间。然后用我们的MSSQL提取蜘蛛唯一抓取量,根据以上的数据算出爬虫重复抓取率。平均每次抓取页数=总抓取量/访问次数???

单页抓取停留时间=停留时间*3600/总抓取量???

爬虫重复抓取率=100%—唯一抓取量/总抓取量

而以上这些数据,我们需要统计出一段时间的数据,看这个时间的整体趋势是怎么样的,这样才能够发现问题,才能够调整网站的整体策略。下面就以一站点()上个月的日志基础信息为例。

这个基础表是上个月的日志的基本信息,我们需要看它的整体趋势来调整,哪些地方需

要加强。

第二、目录抓取

用MSSQL提取出爬虫抓取的目录,分析每日目录抓取量。可以很清晰的看到每个目录的抓取情况,另外可以对比之前的优化策略,优化是否合理,重点的栏目优化是不是预期的效果。

第三、时间段抓取?{关于放网站的日记}.

通过excel中的数组函数,提取每日的时间段的爬虫抓取量,重在分析每日的抓取情况,找到相应的抓取量较为密集的时间段,可以针对性的进行更新内容。同时,还可以看出,抓取不正常情况。

第四,IP段的抓取

通过MSSQL提取日志中的爬虫的IP,通过excel进行统计,每日每个IP的抓取量,同样我们需要看整体,如果IP段没有明显的变化的话,网站升降权是没有多大问题的。因为在网站升权或者降权的时候,爬虫的IP段会更换的。

第五,状态码的统计

在这个之前你需要了解下,HTTP状态码返回值代表是什么。

第三篇:《教你怎么看自己网站的日志和优化》

一、网站日志文件在哪里?

【简单说下网站虚拟主机FTP几个文件夹说明】{关于放网站的日记}.

虚拟主机开通成功之后,会在您的FTP里面自动生成4个文件夹,分别是:"databases","logofiles","others","

1、

2、databases文件夹:该文件夹同logofiles、others文件夹一样,属于不可通过web访问的文件夹,即用户无法通过输入网址来访问这些文件夹下的文件,您可以在这些文件夹下上传一些不希望别人能够访问的文件。比如您可以将access数据库存放在databases文件夹下,这样可以最大化的保证您的数据库安全。

3、logofiles文件夹:logofiles文件夹是日志文件,该文件夹存放您的网站日志文件。通过日志文件您可以查询到网站的一些访问记录。(由于各个空间商的不同,本文件夹的命名也有少许差别有都命为:logofiles或者WEBLOG反正一般都会带上LOG这一个字母)

4、others文件夹:该站点存放您自定义的IIS错误文件。IIS默认的一些错误提示,比如404错误,403错误,500错误等等,如果您觉得这些错误提示不够个性化,您可以将您自定义的错误提示上传到该目录下。

二、怎样分析网站日志文件 分析举例说明

下面已IBM笔记本电脑论坛最近8月份的日志文件为例说明一下,空间日志代码如下:

2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730.html – 80 – 220.181.7.24 Baiduspider+(+/search/spider.htm) 200 0 0 20006

1、首先以百度为例,分析说明:

访问时间:2009-08-23 16:06:03

百度蜘蛛的IP:58.61.160.170

蜘蛛爬这的网址: /nb/html/30/t-12730.html

合来起所表达的意思很明显:IP为58.61.160.170的百度蜘蛛在2009-08-23 16:06:03点43分对此网站上的/nb/html/30/t-12730.html 网页进行收录或更新了。

【补充说明】

2009-08-23 16:06:03是百度蜘蛛来访的日期及时间;

158.61.160.170 是百度蜘蛛的IP

“GET 是服务器的动作,不是GET就是POSP;GET是从服务器上获取内容;/nb/html/30/t-12730.html 使用HTML1.1协议获取相关内容200 是返回状态码,200是成功获取;404是文件没找到;401是需要密码,403禁止查看,500服务器错误。很明显此例子中最后返回是200,为成功获取!

“+(+/search/spider.htm)″表示来路

当然,还有部分空间日志会有这样一些代码,他们表示意思如下:

“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用户所使用的电脑是与Netscape兼容的Mozilla浏览器,Windows NT操作系统,浏览器是IE6.0,装有Alexa Toolbar。

2、接下来说说googlebot,我盼googlebot已经好久了,这几天它终于来了,然后我在上输入网址即可。不用加前缀site:,还有一点,觉得这几个月的雅虎中国在技术上有改进,在网站收录和关键词搜索上,大家可以自己去体会。

说完三大搜索爬虫,再来看看别的二流搜索引擎的爬虫及门户搜索的爬虫:

1)msn: msn(msn live search beta)的搜索技术我个人觉得是难入流的,似乎比门户搜索更差,beta说明搜索版在测试阶段,现在电信采用msn的搜索技术,不知道电信的是什么眼光,呵呵。

2009-08-23 08:22:15 65.55.213.7 – 218.85.132.68{关于放网站的日记}.

– 80 GET 200 /html/down/20070129/550.html

2)Alexa:大名鼎鼎的世界排名Alexa,它的蜘蛛比较难记,是ia_archiver。从严格意义上说,它不知道是不是爬虫,它与纯搜索引擎不同,是来侦测流量的居多,并不是来收录网页的。

3)Iask爱问: 2009-08-23 01:24:44 209.237.238.226 – 218.85.132.68 80 GET /html/internet/20070130/631.html – 200 ia_archiver Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+msnbot-media/1.0+(+

2009-08-23 11:56:47 60.28.164.44 – 218.85.132.68

– 80 GET 200 /html/webpromote/20070203/935.html{关于放网站的日记}.

Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)

4)sogou搜狗:

对于搜狗,我就觉得好笑了。大家记得我说过我的网站是改版过的,Brand是旧网站文件,早被我删除了。而且为了删除除搜索引擎收录的死链接,我在robots.txt文件中写着:Disallow: /Brand ,这当然禁止访问Brand下的文件,我这里想说的是,一、它sogou不遵守robots协议,二、对于已经删除近一个月的文件,它从哪里搜索而来。我真的不太明白了。

2009-08-23 01:34:42 220.181.19.170 – 218.85.132.68 80 GET /404.htm 404;/underwear/Brand/Brand2.htm 200 sogou+spider

5)yodaoice:

对于这个,大家不要感觉惊讶,这是163新开发的搜索引擎,目前处于测试版,界面颇象google风格,但技术年幼,也象搜狗一样乱抓一通。2009-08-23 06:19:29 60.191.80.151 – 218.85.132.68 80 GET /404.htm 404;/underwear/4864.gif 200 yodaoice

第四篇:《网站优化人员要学会查看网站日志》

网站优化人员要学会查看网站日志

作为SEO新手一定要学会查看和分析网站日志,因为从观看这些网站日志代码当中,可以分析出一个网站大体的状况。

网站日志中常见的代码:

网站日志记录了网民访问网站后返回的一些代码,其中常见的是200、304、404,返回代码200说明这个网站访问是正常的,返回代码404说明有一些错误的链接,已经访问不到链接的这个网页,这个情况大多数是站长删除了这个网页,如果返回是304说明这个网站已经很久没有更新了。

网站日志中常见的蜘蛛:{关于放网站的日记}.

在网站日志中你可以看到一些搜索引擎的蜘蛛,常见的有:baiduspider(百度蜘蛛),googlebot(谷歌蜘蛛),msnbot(MSN蜘蛛),slurp(雅虎蜘蛛),youdaobot(有道蜘蛛),sougou+get(web)+spider(搜狗蜘蛛)。

PS:有SEOER反映,在自己的网站日志中根本就没见过以上这些蜘蛛们,这可能是你所用的虚拟主机中没有记录蜘蛛的功能,这个时候你要查看你的网站或你同主机的网站收录是否正常,如果都收录正常,就不用大惊小怪。

结合实例来说一下如何查看网站日志:

先输入你FTP的用户名和密码进入根文件夹,打开日志文件夹—

logfiles,会看到许多以.log结尾的文件,这就是日志文件。 看一下这些代码:

#Software: Microsoft Internet Information Services 6.0 #Version: 1.0

#Date: 2012-05-17 00:00:37

以上代码说明有人在2012.5.17号蜘蛛访问过我的网站所返回的代码。 ——————————————————————————————————————– 123.126.50.72

Sogou+web+spider/4.0(+/docs/help/webmasters.htm#07) 200 0 0 21831 426

大家看到Sogou+web+spider这个了吧,这是说搜狗蜘蛛在17号这天访问过我的站,而最后的200说明网站没问题可以正常访问。

——————————————————————————————————————-

Mozilla/5.0+(compatible;+Baiduspider/2.0;++/search//spider.html) 200 0 0 54892 339

同理baiduspider说明百度蜘蛛访问过我的站,网站访问没问题。

—————————————————————————————————–

2012-05-17 00:06:51 W3SVC372 58.221.29.70 GET /favicon.ico – 80 –

1.86.130.129

Mozilla/4.0+(compatible;+MSIE+7.0;+Windows+NT+5.1;+Trident/4.0;+.NET+CLR+2.0.50727;+360space) 404 0 2 1468 247

看到最后的404没有,说明我的网站有错误链接。而错误链接就出在favicon.ico这个地方。

不懂favicon是什么东东的直接问百度。

浩鑫奉劝大家一定要养成看网站日志的好习惯,尤其学习SEO基础知

识的新手。只有分析日志,才能知道自己的网站问题出在哪里,才能进一步改进,取得进步。

本文作者:赵建飞。文章如转载,除非注明:转载自浩鑫博客

原文地址:

第五篇:《对于网站日志文件该如何去整理分析》

日志是一个强大的源数据经常没有得到充分利用,但有助于保持您的网站的搜索引擎抓取检查的完整性。 服务器日志是由一个特定的服务器进行详细记录了每一个动作。在一个Web服务器的情况下,你可以得到很多有用的信息。如何检索和分析日志文件,并根据您的服务器的响应代码(404,302,500等)的识别问题。我将它分解成2个部分,每个部分突出不同的问题,可以发现在您的Web服务器日志 一、获取日志文件 搜索引擎抓取网站信息必会在服务器上留下信息,这个信息就在网站日志文件里。我们通过日志可以了解搜索引擎的访问情况,一般通过主机服务商开通日志功能,再通过FTP访问网站的根目录,在根目录下可以看到一个log或者weblog文件夹,这里面就是日志文件,我们把这个日志文件下载下来,用记事本 (或浏览器)打开就可以看到网站日志的内容。那么到底这个日志里面隐藏了什么玄机呢?其实日志文件就像飞机上的黑匣子。我们可以通过这个日志了解很多信息,那么到底这个日志给我们传递了什么内容呢?下面先做一个简单的说明。 日期:这将让你一天搜索引擎抓取速度的发展趋势进行分析。 被爬取文件:这将告诉你哪些被抓取的目录和文件,并在某些路段或类型的内容可以帮助查明问题。 状态码:(只列出常见到并能直接反正网站问题的状态码) 200状态码:请求已成功,请求所希望的响应头或数据体将随此响应返回。 302状态码:请求的资源现在临时从不同的URI响应请求。 404状态码:请求失败,请求所希望得到的资源未被在服务器上发现。 500状态码:服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。 – – 提供了哪些网页被爬虫运行到并反应出什么样的问题。 从哪里来:虽然这不一定是有用的分析搜索机器人,/它是非常有价值的,其他的流量分析。 哪种爬虫:这个会告诉你哪个搜索引擎爬虫在你的网页上运行的。 二、解析网站日志文件 现在你需要一个日志分析工具,因为如果你的网站有几M或几十M甚至百M以上的日志数据时,你不可能一条条去看。再说,就算日志数据不多,一条条看也是不科学的。这里用光年seo日志分析工具为大家做个例子。 1.导入文件到您解析软件。

2.分析网站日志及时发现出现的问题 搜索引擎抓取您的网站有最快的方式是看在正在服务的服务器响应代码。404(找不到页面)可能意味着抓取那珍贵的资源被浪费了;302重定向请求的资源现在临时从不同的URI响应请求;500是服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理,可以分析出服务器出现的问题。虽然网站管理工具提供了一些信息,这样的错误,会给你的网站造成一个非常大的影响。 分析的第一步是从您的日志数据,通过光年seo日志分析工具以产生一个数据表。在最基本的层面上,让我们看看哪些搜索引擎的爬虫在爬行这个网站:

通过报表我们想几个问题: a.雅虎蜘蛛总抓取量占了全部的47.12%;那么我从流量统计器看到。没有一个流量是从雅虎搜索引擎过来的。那么这个蜘蛛可不可以禁止他再来访问呢? b.百度蜘蛛(BaiDu Spider )的访问次数、停留的时间、总抓取量反应了什么呢? c.其它搜索引擎的蜘蛛的访问次数、停留的时间、总抓取量那么少的原因是什么呢?有没有改善的方法呢? 接下来,让我们来看看在蜘蛛状态码分析,我们最关心的问题。

这是只显示这个日志有问题的蜘蛛状态码,而已正常200将不被分析。我们将要细看这个表格。总体而言,好到坏的比例看起来很健康,但有一些个别的问题让我们尝试弄清楚这是怎么回事。 302出现的问题数量是可以接受的,但是不代表可以放着不去处理,我们应该有更好的方法来处理这些问题,也许用一个robots.txt指令应排除这些页面被抓取。 404的出现达到109个。在几万的抓取量来说。网站的这个数据也算是可以的。但是也需要解决,找出潜在的问题是隔离404目录或者使用rel =”nofollow”注释这些404链接。当然404的页面也必须要有。 结语 百度网站管理为您提供抓取错误的信息,但在许

转载请注明:中小学优秀作文大全_作文模板_写作指导_范文大全 » 关于放网站的日记 写日记的网站