国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

從測試300萬個超鏈接接學到的

開發 測試
Stack Exchange上有超過三百萬個不同的鏈接。經過很長時間,許多鏈接已經不能用了。最近我花時間編寫了一個工具,它能判斷哪些是壞鏈,能幫助我們來修復壞鏈。

Stack Exchange上有超過三百萬個不同的鏈接。經過很長時間,許多鏈接已經不能用了。

最近我花時間編寫了一個工具,它能判斷哪些是壞鏈,能幫助我們來修復壞鏈。

我們是怎么做的?

首先,我們要對他人的網站心存敬意。

做一個好的網民

● 對每個域名限制請求

我們采用自動過期的set,來確保十秒鐘內對單個域名不會請求多過一次。當我們覺得需要對某些鏈接進行更多的測試時,我們也做了特殊處理。

  1. public class AutoExpireSet<T>  
  2. {  
  3.    
  4.     Dictionary<T, DateTime> items = new Dictionary<T, DateTime>();  
  5.     Dictionary<T, TimeSpan> expireOverride =  
  6.          new Dictionary<T, TimeSpan>();  
  7.    
  8.     int defaultDurationSeconds;  
  9.    
  10.     public AutoExpireSet(int defaultDurationSeconds)  
  11.     {  
  12.         this.defaultDurationSeconds =  
  13.            defaultDurationSeconds;  
  14.     }  
  15.    
  16.     public bool TryReserve(T t)  
  17.     {  
  18.         bool reserved = false;  
  19.         lock (this)  
  20.         {  
  21.             DateTime dt;  
  22.             if (!items.TryGetValue(t, out dt))  
  23.             {  
  24.                 dt = DateTime.MinValue;  
  25.             }  
  26.    
  27.             if (dt < DateTime.UtcNow)  
  28.             {  
  29.                 TimeSpan span;  
  30.                 if (!expireOverride.TryGetValue(t, out span))  
  31.                 {  
  32.                     span =  
  33.                      TimeSpan.FromSeconds(defaultDurationSeconds);  
  34.                 }  
  35.                 items[t] = DateTime.UtcNow.Add(span);  
  36.                 reserved = true;  
  37.             }  
  38.    
  39.         }  
  40.         return reserved;  
  41.     }  
  42.    
  43.     public void ExpireOverride(T t, TimeSpan span)  
  44.     {  
  45.         lock (this)  
  46.         {  
  47.             expireOverride[t] = span;  
  48.         }  
  49.     }  

● 健壯的驗證函數

我們的驗證函數包括了許多我認為非常重要的概念。

  1. public ValidateResult Validate(  
  2.       bool useHeadMethod = true,  
  3.       bool enableKeepAlive = false,  
  4.       int timeoutSeconds = 30 )  
  5. {  
  6.     ValidateResult result = new ValidateResult();  
  7.    
  8.     HttpWebRequest request = WebRequest.Create(Uri)  
  9.                                   as HttpWebRequest;  
  10.     if (useHeadMethod)  
  11.     {  
  12.         request.Method = "HEAD";  
  13.     }  
  14.     else 
  15.     {  
  16.         request.Method = "GET";  
  17.     }  
  18.    
  19.     // always compress, if you get back a 404 from a HEAD  
  20.     //     it can be quite big.  
  21.     request.AutomaticDecompression = DecompressionMethods.GZip;  
  22.     request.AllowAutoRedirect = false;  
  23.     request.UserAgent = UserAgentString;  
  24.     request.Timeout = timeoutSeconds * 1000;  
  25.     request.KeepAlive = enableKeepAlive;  
  26.    
  27.     HttpWebResponse response = null;  
  28.     try 
  29.     {  
  30.         response = request.GetResponse() as HttpWebResponse;  
  31.    
  32.         result.StatusCode = response.StatusCode;  
  33.         if (response.StatusCode ==  
  34.                    HttpStatusCode.Redirect ||  
  35.             response.StatusCode ==  
  36.                    HttpStatusCode.MovedPermanently ||  
  37.             response.StatusCode ==  
  38.                    HttpStatusCode.SeeOther ||  
  39.             response.StatusCode ==  
  40.                    HttpStatusCode.TemporaryRedirect)  
  41.         {  
  42.             try 
  43.             {  
  44.                 Uri targetUri =  
  45.                   new Uri(Uri, response.Headers["Location"]);  
  46.                 var scheme = targetUri.Scheme.ToLower();  
  47.                 if (scheme == "http" || scheme == "https")  
  48.                 {  
  49.                     result.RedirectResult =  
  50.                         new ExternalUrl(targetUri);  
  51.                 }  
  52.                 else 
  53.                 {  
  54.                     // this little gem was born out of  
  55.                     //   http://tinyurl.com/18r  
  56.                     //   redirecting to about:blank  
  57.                     result.StatusCode =  
  58.                            HttpStatusCode.SwitchingProtocols;  
  59.                     result.WebExceptionStatus = null;  
  60.                 }  
  61.             }  
  62.             catch (UriFormatException)  
  63.             {  
  64.                 // another gem ... people sometimes redirect to  
  65.                 //    http://nonsense:port/yay  
  66.                 result.StatusCode =  
  67.                     HttpStatusCode.SwitchingProtocols;  
  68.                 result.WebExceptionStatus =  
  69.                     WebExceptionStatus.NameResolutionFailure;  
  70.             }  
  71.    
  72.         } 

● 從***天開始就設置正確的User Agent字符串

如果什么地方出錯了,你希望他人能夠聯系到你。我們的鏈接爬蟲的user agent字符串為: Mozilla/5.0 (compatible; stackexchangebot/1.0; +http://meta.stackoverflow.com/q/130398)。

● 處理302, 303, 307等頁面跳轉

盡管302和303跳轉非常常見,307卻不多見。它被作為一種針對瀏覽器的錯誤表現的解決方法被引入,解釋見此處。

307***的例子是http://www.haskell.org。我非常不贊同在首頁就跳轉地做法,URL重寫以及其他的工具可以解決這個問題,而不需要有多余的跳轉;但是,首頁跳轉仍舊存在。

當你跳轉時,你需要繼續測試。我們的鏈接測試機會測試最多五層。你需要設置層次上限,否則你會陷入無限循環。

跳轉有時很奇怪,網站有時會把你導向到about:config或一個不存在的URL。檢驗跳轉的頁面信息很重要。

● 當你獲得所需要的信息時,請及時中斷請求

在TCP協議中,包收到時,特殊的狀態會被標記。當客戶端發送給服務器的包中標記了FIN的話,連接會早早的中止。調用request.Abort你可以避免在404時從服務器端下載大量數據。

當測試鏈接時,你經常需要避免HTTP keepalive。因為我們的測試機沒必要給服務器造成不必要得連接負擔。

中斷可以減少壓縮,但我非常贊成啟用壓縮。

● 先使用HEAD請求,再用GET請求

一些服務器不使用HEAD。例如,Amazon完全禁止了,對HEAD請求返回405。在ASP.NET MVC中,人們經常顯式設置路由經過的verb屬性。程序員們在規定使用HttpVerbs.Get時往往沒有使用HttpVerbs.Head。所以當你失敗時(沒有獲得200響應),你需要重新使用GET verb來測試。(譯者:這一段不是很懂,如有錯誤請指正。)

● 忽略robots.txt

開始我打算做一個好網民,解析了所有的robots.txt文件,遵守排除和爬蟲頻率。但事實上許多網站如GitHub, Delicious和Facebook都有針對爬蟲的白名單。所有的爬蟲都被屏蔽了,除了那些著名的允許爬蟲的網站(如Google, Yahoo和Bing)。因為鏈接測試機是不會抓取網頁,關注robots.txt也不現實,所以我建議忽略robots.txt。這在Meta Stack Overflow也有討論。

● 使用合理的超時

測試時,我們給網站30s來響應,但有些網站需要更長時間。你當然不想讓一個惡意的網站讓你的測試機停止。所以我們采用30s作為最長的響應時間。

● 用很多線程來測試鏈接

我用在悉尼的開發電腦來做鏈接測試,顯然串行的三百萬次訪問不知道會占用多長時間。所以我用了30個線程。

并發當然也會帶來一些技術挑戰。你也不想在等待一個域名釋放資源的時候讓一個線程阻塞。

我采用Async類來管理隊列。相對于微軟的任務并行庫(Microsoft Task Parallel Library),我更喜歡Async,因為使用它來限制線程池中的線程數量非常簡單,而且API也簡單易用。

● 一次實效不代表***失效

我仍舊在調整判斷一個鏈接是壞鏈的算法。一次失效有可能是偶然事件。一個星期內的數次失效可能是服務器壞掉或者不幸的巧合。

現在隔天的兩次失效看起來比較可靠 – 我們沒有去尋找最***的算法,而是讓用戶告訴我們什么時候出錯了,但我們相信出錯率不高。

同樣的我們仍舊需要確定在一次成功測試之后多久藥重新測試。我想每隔三個月測一次就足夠了。

測試鏈接的一些有趣發現

Kernel.org被黑了

2011年9月1日,Kernel.org被黑了。你要問,這和測試鏈接有什么關系呢?

事實證明有人破壞了所有的文檔鏈接,這些鏈接今天仍舊不能用。例如http://www.kernel.org/pub/software/scm /git/docs/git-svn.html 在Stack Overflow的150個左右的帖子里出現過,現在它們會將你導向到404頁面,而它的新地址應該在:http://git-scm.com/docs /git-svn。在所有我碰到的壞鏈中,git文檔的壞鏈是最嚴重的。將近影響了6000個帖子。采用Apache的重寫功能來處理它是非常容易的。

有的網站的URL不能給你任何信息

http://www.microsoft.com/downloads/details.aspx?familyid=e59c3964-672d-4511-bb3e-2d5e1db91038displaylang=en 是個壞鏈,在60個左右的帖子中出現。想象下,如果這個鏈接類似于http://www.microsoft.com/downloads/ie- developer-toolbar-beta-3,那么就算微軟打算移走這個鏈接,我們仍舊克一猜測它可能帶我們去到什么頁面。

將你的404頁面做的別致和有用–從GitHub學到的

在所有的404頁面中,GitHub的讓我最生氣。

你問為什么?

它看起來很酷,有相當不錯的視覺效果。有些人就是看什么都不順眼。

嗯,事實上是:

https://github.com/dbalatero/typhoeus 在50個左右的帖子里被引用,而它已經轉移到https://github.com/typhoeus。GitHub沒有使用任何的跳轉,僅僅將你轉到404頁面。

對url采用最基本的解析以確定真正想要去的頁面是非常小的開銷:

對不起,我們沒有找到你鏈接到的頁面。用戶經常會改變賬戶導致鏈接失效。”typhoeus”庫也存在于:https://github.com/typhoeus

是的,沒有任何信息告訴我我犯了個錯誤。GitHub應該讓404頁面變得更有用。對我來說GitHub 404頁面最讓我氣憤地是我花了很多力氣而找不到結果。不要給我漂亮的頁面,能提供一些有用的信息嗎。

你可以做多一步,跳轉到他們新的首頁去,我理解賬號是非常有技巧的,但它看起來在GitHub上是多么不可思議的常見錯誤啊。

在Stack Overflow上我們花了很多時間來優化這種情況,例如“你最喜歡的程序員笑話是什么?”,討論區認為這個問題不會持續很久,所以我們盡可能解釋為什么要移除它,以及哪里可以找到它。

Oracle的問題

Oracle收購Sun對Java生態圈來說是個永遠的沉重的打擊。Oracle的任務是重新樹立品牌,重構Java 生態圈,但這是錯誤的引導。大量的文檔都沒有被正確定向。就連最近的在dev.java.net下的所有項目都沒有正確的跳轉頁面。Hudson這個 Java持續集成的服務器曾經使用https://hudson.dev.java.net/ (譯者注:也失效了),Stack Overflow中150個帖子都引用了它。

個人的教訓

href 標題的重要性

在短鏈的世界里,看起來在URI里使用任何合理的標題不再那么被鼓勵了。事實上過去的三年里你訪問的5%的鏈接都失效了。我相信我的博客中也有許多壞鏈。修復壞鏈是個困難的任務,尤其在沒有上下文的情況下,這項任務變得更加困難。

所以我決定為我的鏈接都加上合理的標題。不僅因為能讓搜索引擎更好地搜索結果,也能讓用戶知道受損的圖片下是什么內容,同時在處理壞的勢后能幫我修復它。

超鏈接是很脆弱的

當我們使用Google時,我們從來沒得到404。它確保我們在雜亂無章的網絡中高效的搜索。測試很多的鏈接告訴你現實并沒有那么的好。那么意味著我要避免使用鏈接嗎?當然不是,知道問題的存在能夠幫我思考我寫下的內容。我會避免寫出失去意義的文章。在Stack Overflow我們經??吹饺缦碌幕貜停?/p>

See this blog post over here. 看看這里的文章。

當外部資源鏈接失效的時候,這種答案就沒有了意義。

原文鏈接: samsaffron.com 

編譯:http://blog.jobbole.com/22288/

責任編輯:林師授 來源: 伯樂在線
相關推薦

2016-01-18 10:06:05

編程

2015-06-29 13:47:19

創業創業智慧

2010-08-23 10:30:05

CSS超鏈接

2012-05-22 09:52:03

jQuery

2013-08-19 12:46:27

2024-04-15 12:54:00

ReactVue列表邏輯

2022-02-22 10:40:27

漏洞網絡攻擊

2022-09-13 08:05:47

AlloyDb架構數據庫

2014-08-06 12:29:33

騰訊開放平臺市場

2015-09-24 09:41:04

Amazon云停機云安全教訓

2010-10-18 09:10:57

Google日歷宕機

2015-06-01 06:42:50

開源公司三大教訓

2009-05-26 09:07:50

Windows 7微軟操作系統

2010-01-15 18:12:28

VB.NET超鏈接

2022-03-21 10:21:50

jQuery代碼模式

2014-12-22 10:09:50

工程師

2021-03-09 09:55:02

Vuejs前端代碼

2022-12-12 11:08:07

數字化轉型企業

2023-11-14 11:18:13

2024-06-13 15:59:30

點贊
收藏

51CTO技術棧公眾號

一区二区三区天堂av| 日韩一级大片在线观看| 91在线视频官网| 亚洲人成电影网站色www| 伊人精品综合| 亚洲欧美一区二区三区国产精品 | 91嫩草在线视频| 成全视频全集| 成人h动漫精品一区二区器材| 欧美日韩1234| 亚洲 激情 在线| 不卡高清视频专区| 成年人黄色在线观看| 欧美亚洲免费| 欧美18视频| 久久国产欧美| 视频一区二区在线| 日韩精品欧美成人高清一区二区| 麻豆一区区三区四区产品精品蜜桃| 国产综合激情| 好吊色欧美一区二区三区 | 亚欧激情乱码久久久久久久久| 26uuu精品一区二区| 男人操女人免费软件| 久久久久国色av免费看影院| 国产黄页在线观看| 欧美激情一区三区| 成人综合av| 欧美日韩在线视频一区| 夜级特黄日本大片_在线| 精品sm捆绑视频| av在线一区不卡| 欧美激情手机在线视频 | 天天射综合网视频| 成人av免费电影| 久久久人人人| 天天干天天色天天爽| 成人激情免费电影网址| 怡红院亚洲色图| 精品久久久久久久久中文字幕 | 亚洲视频电影| 日本高清视频免费在线观看| 久久www人成免费看片中文| 女同性一区二区三区人了人一 | 久热综合在线亚洲精品| 在线不卡视频一区二区| 国产91精品在线观看| 激情五月亚洲色图| 亚洲一区成人在线| 日本伦理一区二区| 久久精品国产电影| 清纯唯美亚洲经典中文字幕| 高清日韩一区| 久久se这里有精品| 激情视频免费网站| 欧美网站大全在线观看| 成人开心激情| 国产精品视频专区| 久久66热re国产| 97影院理论午夜| 日韩女优av电影| 欧美深夜视频| 欧美亚洲另类在线一区二区三区| 丁香激情综合国产| 亚州色图欧美色图| 国产一区二区三区三区在线观看| 欧美日韩伦理| 国产免费一区二区视频| 欧美日韩激情小视频| avav成人| 国产精品久久久久久久久久久久冷| 不卡高清视频专区| 一本一道波多野毛片中文在线| 久久精品91久久久久久再现| 欧美激情aⅴ一区二区三区| 无罩大乳的熟妇正在播放| 欧美亚洲一区二区在线观看| 日本成人手机在线| 日韩电影免费观看在| 亚洲色图第一区| 美女的胸无遮挡在线观看| 国产精品丝袜视频| av成人动漫在线观看| 黄色片免费在线| 国内精品在线一区| 黄页网站大全一区二区| 九色在线视频| 久久全国免费视频| 国产一区不卡在线| 色开心亚洲综合| 国产精品美女免费看| 91啪九色porn原创视频在线观看| 二区在线播放| 国产91免费观看| 不卡的电视剧免费网站有什么| 日本精品在线| 国产裸体写真av一区二区 | 国产成人精选| 免费成人深夜夜行视频| 亚洲成人av一区| 免费观看性欧美大片无片| 欧美精品亚洲精品| 婷婷久久综合九色国产成人| 国产精品宾馆| 好吊妞无缓冲视频观看| 亚洲国产精品999| 99在线|亚洲一区二区| 在线91av| 国产精品美女主播| 亚洲日本在线视频观看| 欧美h版在线观看| 国产九九九九九| 亚洲日本成人网| 极品少妇xxxx精品少妇偷拍| 日本精品600av| 国产综合av一区二区三区| 一本色道久久综合亚洲aⅴ蜜桃| 一个色免费成人影院| 午夜免费一区二区| www.日韩av.com| 成人va在线观看| 欧美日韩五码| 欧美乱做爰xxxⅹ久久久| 日韩精品极品视频免费观看| 欧美一级视频| 在线观看中文字幕的网站| 久久精品国产精品国产精品污| 91精品办公室少妇高潮对白| 亚洲精品a级片| 亚洲人成网址| 亚洲伊人成综合成人网| 一本高清dvd不卡在线观看| 香蕉久久网站| yiren22综合网成人| 精品婷婷色一区二区三区蜜桃| 欧美日韩一区高清| 先锋a资源在线看亚洲| 国产精品剧情一区二区在线观看| 色一情一乱一伦一区二区三区| 日韩精品一区二区三区中文精品| 作爱视频免费观看视频在线播放激情网| 中文字幕av一区| 国产影视一区| 91九色成人| 一级网站免费观看| 亚洲a在线播放| 日韩欧美国产三级电影视频| 日本一区二区三区免费看| 精品免费一区二区三区| 美腿丝袜在线亚洲一区| 精品成人av| 一本色道无码道dvd在线观看| 久久人91精品久久久久久不卡| 亚洲免费av高清| 国产一区亚洲| 中文av在线全新| 人妻少妇被粗大爽9797pw| 91精品国产高清自在线| 欧美日韩在线影院| 久久精品99国产精品日本| 激情久久一区二区| 91污色多多| 国产欧美日韩视频一区二区三区| 亚洲成人在线视频播放| 亚洲国产精品成人久久综合一区 | 日韩精品视频久久| 国产精品激情av在线播放| 欧美日韩一区二区三区四区五区| 男女男精品视频网| 国模大尺度视频一区二区| 中文字幕4区| 亚洲成人自拍| 2019中文在线观看| 日韩欧美123| 中文字幕中文字幕在线一区 | 国产欧美日韩不卡| 欧美日韩国产免费观看视频| 不卡在线视频| 无码人妻少妇伦在线电影| 国产精品极品尤物在线观看| 精品欧美一区二区久久| 国产精品久久久久久久久免费丝袜 | 欧美在线播放一区| 香蕉视频禁止18| 麻豆av免费在线| av 日韩 人妻 黑人 综合 无码| 欧美a级黄色大片| 在线观看完整版免费| 香蕉久久夜色精品国产使用方法 | 国产欧美丝袜| 国产精品一区二区羞羞答答| jizz久久久久久| 模特精品在线| 日韩欧美在线网址| 国内精品久久久久久久| 国产xxxx振车| 欧美艳星kaydenkross| 午夜亚洲视频| 91精选在线观看| 国产精品免费看久久久香蕉|