日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服

robots協議實用13篇

引論:我們為您整理了13篇robots協議范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。

robots協議

篇1

在這種情況下,司法者的權限并不局限于尋找包含robots協議內容的具體法條,而是可以根據實際案情裁量違反Robots協議,是否就違反了《反不正當競爭法》(第二條)中對經營者應當遵循自愿、平等、公平、誠實信用和公認商業道德的強制性規定。認定違法也并不需要將Robots協議上升為法律作為前提,違反規則就可能導致違反法律的結果。

況且,3B案發生背景之一是被告奇虎360簽署了《互聯網搜索引擎服務自律公約》,承諾“遵守機器人協議(Robots協議)”和“限制搜索引擎抓取應有行業公認合理的正當理由,不利用機器人協議進行不正當競爭行為”。360在明確承認Robots協議約束力后又規避了協議,既是違法,又構成違約。

百度在360推出網絡搜索后迅速啟用Robots協議,在百度旗下的知道、貼吧、文庫、百科等產品屏蔽了360爬蟲。需要指出的是,百度拒絕360爬蟲抓取的產品,基本屬于用戶創造內容(UGC)類型的上傳平臺,而百度對這些內容并不直接享有著作權,360因此質疑百度無權拒絕收錄。但UGC平臺身份也無礙百度根據《著作權法》第十四條對相關內容享有作為匯編者的權利。在百度主張反不正當競爭保護情況下,舉證責任更簡化到證明原告合法投入因被告競爭行為受到實際損害及被告競爭行為違反誠實信用或商業道德,而360強行利用百度網站內容已構成搭便車的不正當競爭行為。

360在3B案中,以百度濫用Robots協議作為抗辯,但換個角度看,真正容易被濫用的倒是爬蟲程序。互聯與分享是網絡的基本性格,而信息的多元化也決定了網絡傳播在很多情況下必須受到控制。不受Robots協議限制的Spider程序必然使互聯網陷入嚴重混亂,網站后臺隱私無法保護,網頁更新的舊信息必須完全刪除而不能僅僅屏蔽,音樂、視頻等內容的收費盈利模式遭到毀滅性打擊?;ヂ摼W經過長期博弈逐步擺脫無序狀態,難道只因搜索爬蟲失控又將回到比拼技術暴力的暗黑叢林?這種情景,絕非法治下的互聯網可以接受的。

Robots協議自產生以來在全球受到嚴格遵守,利用Robots協議屏蔽搜索的案例舉不勝舉。比如,Facebook和Twitter長期屏蔽Google,后者除了發發牢騷,卻也不敢采取任何規避手段;默多克的新聞集團一度全面屏蔽Google,后者一直忍到默多克自己投降。在國內,搜索屏蔽360的除了百度,還有騰訊的QQ空間,更有意思的是,QQ空間卻在2012年后對百度和Google開放,360甚至都沒有為此指責騰訊歧視。騰訊盡管向百度開放QQ空間,卻將騰訊微博的內容屏蔽至今,新浪微博也一度加入屏蔽百度的隊列。電商領域可能是互相屏蔽的高地,淘寶從2008年起一直屏蔽百度搜索,京東、蘇寧、當當網等也屏蔽了阿里旗下一淘搜索的爬蟲。

篇2

在這一事件中,我認為當事人涉嫌違反《信息安全技術個人信息保護指南》,該指南制訂中,北京奇虎科技有限公司、北京百度網訊科技有限公司均有參與,理應遵守。違反的原則包括:1、安全保障原則(防止未經授權檢索、公開及丟失、泄露、損毀和篡改個人信息)。2、合理處置原則(不采用非法、隱蔽、間接等方式收集個人信息,在達到既定目標后不再繼續處理個人信息)。3、知情同意原則(未經個人信息主體同意,不處理個人信息)。此外,企業自有版權及所具有其他機構的版權授權,未經許可不得復制。隨意抓取,會造成侵權,涉嫌違反知識產權有關法律。

篇3

篇4

自媒體時代,網絡輿論管理、議題管理和危機管理變得十分困難,解決難題的關鍵是對網絡用戶身份的有效識別。目前,用戶身份識別主要依賴人工檢索結合技術提純的方式,也就是通過在網絡中檢索用戶分享的數據,從中查找身份信息之間的相關關系、身份特征信息,最后結合技術手段獲取真實身份,簡單來說就是先檢索再發現最后收集的過程。優勢是,隨著用戶分享帶來的數據豐富性,可以挖掘的潛在相關關系越豐富。然而,缺陷也很明顯,一是效率不夠,對廣泛互聯網數據的搜索需要花費大量人力;二是缺少真實性評估,相關關系沒有絕對,只有可能性,面對不對稱的檢索結果,真實性勢必受到主觀偏見的影響;三是時效性帶來的數據丟失,無論是用戶的主動刪除還是資源平臺的被動刪除,缺少主動收集機制造成的數據丟失不可避免。

為了解決上述存在的缺陷同時讓優勢大放異彩,本文提出一種用于網絡原型挖掘的AjaxCrawler系統,通過主動收集的方式對現有工作模式進行有效升級。

2 設計目標和詳細設計

網絡原型挖掘的對象主要是提供用戶數據交互的web、bbs站點,而此類站點為了提供更好的用戶體驗多在開發中采用AJAX技術,所以AjaxCrawler的設計重點是實現對支持AJAX技術的動態網頁的有效挖掘。

2.1 設計目標

設計主要考慮幾方面因素:一是抓取質量,針對Web、Bbs采取不同的抓取策略,通過JavaScript解析器實現對AJAX動態頁面完整抓取,同時支持JS代碼中的DOM操作,以獲取頁面元素、修改頁面元素的內容;二是抓取效率,針對網絡延遲、站點限制等因素采取并行策略,使爬蟲同時處理不同的URL,以提高網絡帶寬利用率,加快處理速度;三是抓取策略靈活性,能夠設定采集范圍、采集頻度、采集時間和采集深度,以期能達到最好的特定信息采集效果。

2.2 詳細設計

系統采用四層結構。第一層Client節點是門戶和命令入口,用戶通過它進行任務下發、查看執行結果;第二層Master節點是唯一的控制器,連接Client和Crawler,進行任務的抽取和分發;第三層XCrawler節點由不同的Crawler組成,結構上便于擴展,同時,將Ajax模塊獨立出來以降低系統耦合性,便于針對非JS腳本頁面添加其它引擎;第四層Depository節點是系統倉庫,存儲運行結果等信息,此討論重點將不再提及。本系統的通信庫基于MINA開發,系統各節點之間通信,只需要調用相應的API即可,不用關心通信細節。系統體系結構設計,如圖1所示:

2.2.1 XCrawler設計

XCrawler是具體執行任務的節點,分為WebCrawler、BBSCrawler,架構基本相同,僅抓取策略和方式有所區別。其架構如圖2所示:

爬蟲系統分為兩部分,第一部分是預處理,負責凈化URL,去除不必要抓取的URL,類似于過濾器。第二部分是網頁抓取,由于網頁下載比較耗時,為充分利用資源,采用多線程。抓取階段獲得網頁,析出網頁內部的鏈接,然后進行預處理,以凈化可能包含有以前抓去過的重復URL、Robots協議禁止抓取的URL等。Clean URLs是凈化后的URL庫,存放需要抓取的URL。

2.2.2 頁面預處理

(1)頁面去重 為避免頁面重復抓取,系統包含網頁去重管理機制,建立了一個可維護的HASH表,記錄已處理過的URL的MD5值。頁面預處理通過判斷任務URL的MD5值在HASH表中是否存在,來判斷URL是否重復。

(2)HTTP協議控制和URL文件格式控制 目前只支持HTTP協議,HTTP協議控制用來檢測URL協議,如果不是HTTP協議直接拋棄;系統收集對象是包含用戶身份信息的網頁文本,一些多媒體格式,比如MP3,AVI和JPG等格式并不需要,URL文件格式控制用來過濾不支持的URL。

(3)Robots控制。遇到一個新網站時,首先會通過Robots文件管理模塊獲取該網站的robots.txt文件,然后根據robots.txt的文件規定控制URL的抓取。

2.2.3 AjaxEngine設計

3 AjaxCrawler的實現

3.1 Crawler的實現

對于Internet上不同類型的網站,采用單一的抓取模式、抓取策略,顯然不合適宜。如前文所述,本系統Crawler包括WebCrawler、BbsCrawler兩種Crawler,以下逐一敘述。

3.1.1 WebCrawler

對于最基本的Web內容,設置一定的抓取深度,配置廣告等無關內容的過濾器,依照Web內容更新頻度設定爬蟲的更新頻率,依照詳細設計中的XCrawler的框架,實現較為簡單,這里不再贅述。

3.1.2 BBSCrawler

3.2.2 DOM Builder

DOM Builder建立JS對象與HTML對象的映射,構造DOM樹,觸發事件等功能。本系統借助NokoHTML掃描HTML文本,建立DOM樹。NekoHTML還能增補缺失的父元素、自動用結束標簽關閉相應的元素及不匹配的內嵌元素標簽。使用NekoHTML進行DOM樹建立接口很簡單,使用NekoHTML中DOMParser對網頁進行解析即可。

Rhino在執行JS代碼時,需要根據JS對象與HTML對象映射表修改DOM樹中的元素內容。本系統中,借用了HtmlUnit建立的JS對象與HTML對象之間的映射關系。在Html Unit中,繼承了W3C的DOM接口,同時實現了JS對象與HTML對象之間的映射。

4 結束語

本文在分析了互聯網身份管理的現狀和優缺點后,根據大數據相關關系分析法的理念基礎,提出一種通過爬蟲技術對互聯網交互式站點中開放數據進行主動收集,挖掘其中存在身份信息以及身份信息件存在的相關關系的工作方法,從而通過已知身份挖掘出可能尚未掌握的未知身份信息,同時針對現有交互式網站普遍采用Ajax技術模式詳細設計實現了AjaxCrawler挖掘模型,是現有網絡身份管理模式的升級和有力補充。最后,作者相信隨著科技浪潮的發展,更多的管理困境將找到更好的解決方案。

參考文獻

[1] 馬民虎.互聯網信息內容安全管理教程[M].北京:中國人民公安大學出版社,2008.

[2] 李學凱.面向多任務、多通道并行爬蟲的技術研究[D].哈爾濱:哈爾濱工業大學,2009.

[3] 曾偉輝,李淼.基于JavaScript切片的Ajax框架網絡爬蟲技術研究[J].計算機系統應用,2009.

[4] Viktor Mayer-Sch?nberger,Big Data:A Revolution That Will Transform How We Live, Work,and Think[M].Hodder,2013.

篇5

在抓取網頁的時候,網絡蜘蛛一般有兩種策略:廣度優先和深度優先。

廣度優先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓網絡蜘蛛并行處理,提高其抓取速度。深度優先是指網絡蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網絡蜘蛛在設計的時候比較容易。兩種策略的區別,下圖的說明會更加明確。

由于不可能抓取所有的網頁,有些網絡蜘蛛對一些不太重要的網站,設置了訪問的層數。例如,在上圖中,A為起始網頁,屬于0層,B、C、D、E、F屬于第1層,G、H屬于第2層,I屬于第3層。如果網絡蜘蛛設置的訪問層數為2的話,網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對于網站設計者來說,扁平化的網站結構設計有助于搜索引擎抓取其更多的網頁。

網絡蜘蛛在訪問網站網頁的時候,經常會遇到加密數據和網頁權限的問題,有些網頁是需要會員權限才能訪問。當然,網站的所有者可以通過協議讓網絡蜘蛛不去抓取(下小節會介紹),但對于一些出售報告的網站,他們希望搜索引擎能搜索到他們的報告,但又不能完全**的讓搜索者查看,這樣就需要給網絡蜘蛛提供相應的用戶名和密碼。網絡蜘蛛可以通過所給的權限對這些網頁進行網頁抓取,從而提供搜索。而當搜索者點擊查看該網頁的時候,同樣需要搜索者提供相應的權限驗證。

網站與網絡蜘蛛

網絡蜘蛛需要抓取網頁,不同于一般的訪問,如果控制不好,則會引起網站服務器負擔過重。今年4月,淘寶taobao.com)就因為雅虎搜索引擎的網絡蜘蛛抓取其數據引起淘寶網服務器的不穩定。網站是否就無法和網絡蜘蛛交流呢?其實不然,有多種方法可以讓網站和網絡蜘蛛進行交流。一方面讓網站管理員了解網絡蜘蛛都來自哪兒,做了些什么,另一方面也告訴網絡蜘蛛哪些網頁不應該抓取,哪些網頁應該更新。

每個網絡蜘蛛都有自己的名字,在抓取網頁的時候,都會向網站標明自己的身份。網絡蜘蛛在抓取網頁的時候會發送一個請求,這個請求中就有一個字段為User-agent,用于標識此網絡蜘蛛的身份。例如Google網絡蜘蛛的標識為GoogleBot,Baidu網絡蜘蛛的標識為BaiDuSpider,Yahoo網絡蜘蛛的標識為Inktomi Slurp。如果在網站上有訪問日志記錄,網站管理員就能知道,哪些搜索引擎的網絡蜘蛛過來過,什么時候過來的,以及讀了多少數據等等。如果網站管理員發現某個蜘蛛有問題,就通過其標識來和其所有者聯系。下面是博客中blogchina.com)2004年5月15日的搜索引擎訪問日志:

網絡蜘蛛進入一個網站,一般會訪問一個特殊的文本文件Robots.txt,這個文件一般放在網站服務器的根目錄下,blogchina.com/robots.txt。網站管理員可以通過robots.txt來定義哪些目錄網絡蜘蛛不能訪問,或者哪些目錄對于某些特定的網絡蜘蛛不能訪問。例如有些網站的可執行文件目錄和臨時文件目錄不希望被搜索引擎搜索到,那么網站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單,例如如果對目錄沒有任何限制,可以用以下兩行來描述:

User-agent: *

Disallow:

當然,Robots.txt只是一個協議,如果網絡蜘蛛的設計者不遵循這個協議,網站管理員也無法阻止網絡蜘蛛對于某些頁面的訪問,但一般的網絡蜘蛛都會遵循這些協議,而且網站管理員還可以通過其它方式來拒絕網絡蜘蛛對某些網頁的抓取。

網絡蜘蛛在下載網頁的時候,會去識別網頁的HTML代碼,在其代碼的部分,會有META標識。通過這些標識,可以告訴網絡蜘蛛本網頁是否需要被抓取,還可以告訴網絡蜘蛛本網頁中的鏈接是否需要被繼續跟蹤。例如:表示本網頁不需要被抓取,但是網頁內的鏈接需要被跟蹤。

轉貼于

現在一般的網站都希望搜索引擎能更全面的抓取自己網站的網頁,因為這樣可以讓更多的訪問者能通過搜索引擎找到此網站。為了讓本網站的網頁更全面被抓取到,網站管理員可以建立一個網站地圖,即Site Map。許多網絡蜘蛛會把sitemap.htm文件作為一個網站網頁爬取的入口,網站管理員可以把網站內部所有網頁的鏈接放在這個文件里面,那么網絡蜘蛛可以很方便的把整個網站抓取下來,避免遺漏某些網頁,也會減小對網站服務器的負擔。

內容提取

搜索引擎建立網頁索引,處理的對象是文本文件。對于網絡蜘蛛來說,抓取下來網頁包括各種格式,包括html、圖片、doc、pdf、多媒體、動態網頁及其它格式等。這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準確提取這些文檔的信息,一方面對搜索引擎的搜索準確性有重要作用,另一方面對于網絡蜘蛛正確跟蹤其它鏈接有一定影響。

對于doc、pdf等文檔,這種由專業廠商提供的軟件生成的文檔,廠商都會提供相應的文本提取接口。網絡蜘蛛只需要調用這些插件的接口,就可以輕松的提取文檔中的文本信息和文件其它相關的信息。

HTML等文檔不一樣,HTML有一套自己的語法,通過不同的命令標識符來表示不同的字體、顏色、位置等版式,如:、、等,提取文本信息時需要把這些標識符都過濾掉。過濾標識符并非難事,因為這些標識符都有一定的規則,只要按照不同的標識符取得相應的信息即可。但在識別這些信息的時候,需要同步記錄許多版式信息,例如文字的字體大小、是否是標題、是否是加粗顯示、是否是頁面的關鍵詞等,這些信息有助于計算單詞在網頁中的重要程度。同時,對于HTML網頁來說,除了標題和正文以外,會有許多廣告鏈接以及公共的頻道鏈接,這些鏈接和文本正文一點關系也沒有,在提取網頁內容的時候,也需要過濾這些無用的鏈接。例如某個網站有“產品介紹”頻道,因為導航條在網站內每個網頁都有,若不過濾導航條鏈接,在搜索“產品介紹”的時候,則網站內每個網頁都會搜索到,無疑會帶來大量垃圾信息。過濾這些無效鏈接需要統計大量的網頁結構規律,抽取一些共性,統一過濾;對于一些重要而結果特殊的網站,還需要個別處理。這就需要網絡蜘蛛的設計有一定的擴展性。

對于多媒體、圖片等文件,一般是通過鏈接的錨文本(即,鏈接文本)和相關的文件注釋來判斷這些文件的內容。例如有一個鏈接文字為“張曼玉照片”,其鏈接指向一張bmp格式的圖片,那么網絡蜘蛛就知道這張圖片的內容是“張曼玉的照片”。這樣,在搜索“張曼玉”和“照片”的時候都能讓搜索引擎找到這張圖片。另外,許多多媒體文件中有文件屬性,考慮這些屬性也可以更好的了解文件的內容。

動態網頁一直是網絡蜘蛛面臨的難題。所謂動態網頁,是相對于靜態網頁而言,是由程序自動生成的頁面,這樣的好處是可以快速統一更改網頁風格,也可以減少網頁所占服務器的空間,但同樣給網絡蜘蛛的抓取帶來一些麻煩。由于開發語言不斷的增多,動態網頁的類型也越來越多,如:asp、jsp、php等。這些類型的網頁對于網絡蜘蛛來說,可能還稍微容易一些。網絡蜘蛛比較難于處理的是一些腳本語言(如VBScript和javascript)生成的網頁,如果要完善的處理好這些網頁,網絡蜘蛛需要有自己的腳本解釋程序。對于許多數據是放在數據庫的網站,需要通過本網站的數據庫搜索才能獲得信息,這些給網絡蜘蛛的抓取帶來很大的困難。對于這類網站,如果網站設計者希望這些數據能被搜索引擎搜索,則需要提供一種可以遍歷整個數據庫內容的方法。

對于網頁內容的提取,一直是網絡蜘蛛中重要的技術。整個系統一般采用插件的形式,通過一個插件管理服務程序,遇到不同格式的網頁采用不同的插件處理。這種方式的好處在于擴充性好,以后每發現一種新的類型,就可以把其處理方式做成一個插件補充到插件管理服務程序之中。

更新周期

篇6

要說明的是,這個網站是推一把線下10期學員新做的一個網站,網站內容并不多,項目也是虛擬的,建站的目的是為了通過實踐掌握教學內容,網站的名稱叫:釀蜜坊蜂產品專賣店,網址:,以下簡稱“診斷網站”,不啰嗦了,下面進入如何診斷網站十二步。

第一步,檢查各網頁標題是否設置正確

這個診斷項目是最重要的,網站標題是搜索引擎識別、抓取,收錄網站重要依據,是獲得較好排名和展現給用戶的第一要素,SEO沒有什么比這更重要的啦。見過很多號自稱SEO高手的連個標題都寫不好。

正確的網站頁面標題格式應該如下:(注意:指網站所有頁面)

首頁標題:關鍵詞_網站名稱

欄目頁標題:欄目名稱_網站名稱

內容頁標題:文章標題_欄目頁_網站名稱

診斷網站狀況:

首頁標題:蜂蜜減肥法,蜂蜜面膜,蜂蜜美容小知識—釀蜜坊蜂產品專賣店

欄目頁標題:行業新聞-蜂蜜減肥法,蜂蜜面膜,蜂蜜美容小知識—釀蜜坊蜂產品專賣店

內容頁標題:蜂蜜加白醋能減肥嗎—蜂蜜白醋減肥方法-蜂蜜減肥法,蜂蜜面膜,蜂蜜美容小知識—釀蜜坊蜂產品專賣店

分析:目標網站首頁、欄目頁及內容頁書寫順序正確,標題中還自動重復了首頁標題,有利于搜索引擎對網站內容的理解和抓取。如果你的網站沒有達到此標準,盡快改過來吧。

第二步,檢查首頁標題的長度及符號

在第一步中我們已經談到網頁標題的重要性,首頁標題更是重中之重了,怎樣寫首頁標題不是本文討論的重點,但是你要知道首頁標題要寫好有那些要求。

要求是:標題字數不超過30個漢字,核心關鍵3-5個,用“,”或者“|”線隔開,公司名用“—”聯接,用戶搜索次數最大的關鍵詞排在最前面,不要問我原因,你懂的。

診斷網站狀況:

首頁標題:蜂蜜減肥法,蜂蜜面膜,蜂蜜美容小知識—釀蜜坊蜂產品專賣店

診斷分析:診斷網站首頁標題字數28字。關鍵詞之間才用“,”分隔,公司名用“—”橫線連接,符合要求。

第三步,診斷網頁是否有標題重復與描述重復。

1、各網頁標題診斷

要求:對各個頁面進行診斷,包括首頁、欄目頁、內容頁,每個頁面標題不能重復,否則搜索引擎以為你的網站每個頁面都是相同的內容,而其實每個頁面的內容不可能是相同的,比如“產品中心”欄目是介紹不同產品的,“企業新聞”欄目是發表企業相關新聞動態的。

診斷網站狀況:沒有發現重標題的網頁。

例如:企業簡介欄目標題:關于釀蜜坊-要想身體好,蜂蜜的作用與功效不得了,健康天使——釀蜜坊專賣店;

內容欄目標題:油菜春漿蜂皇漿-蜂蜜減肥法,蜂蜜面膜,蜂蜜美容小知識—釀蜜坊蜂產品專賣店

2、描述重復診斷

與網頁標題診斷一樣,每個頁面都要有不同的描述,切不要都是一樣的描述內容。

要求:準確的描述網頁內容,不能有關鍵詞堆砌。每個頁面都應該有不同的描述。長度合理。

診斷網站狀況:沒有發現重復的網頁標題,但發現一些產品頁描述不正確或者過于簡單,產生的原因是系統自動生成,產品第一段內容很關鍵,尤其是前100字,要對產品進行精準的描述。

診斷分析:雖然網站沒重復的標題及描述,但標題及描述不合理,網頁標題沒有體現該網頁內容,相近度高,原因可能是網站管理系統自動生成標題和描述適成的,對于小型網站或者企業網站,建議網頁標題及描述手寫更準確。

第四步,網站URL的唯一性

網站URL要具有唯一性,如果不相同的頁面有洋同URL,搜索引擎在排名時會分散權重,網站難以獲得好的排名

要求:正確的選擇首選域,內鏈和外鏈要統一,做好301重定向。

診斷網站狀況:

網站首選域為:,內鏈和外鏈基本統一。

訪問/index.html和xxx.cn及都是同一頁面,無301重定向。

網站內鏈和外鏈建設選擇為首選域。

診斷分析:做301轉向對于SEO新人來說,可能技術有難度,這方面可能要請技術人員協助解決。

第五步,網站URL靜態化

雖然百度SEO指南中說,百度蜘蛛對于動態網頁的抓取沒有岐意,但細心的你可以發現獲得良好排名的網站,其URL必然是靜態化的,至于什么是靜態化的網頁,很多初學者說會動的網頁,就是動態的,其實這是錯誤的看法,只要URL中包含“?”“%”等符號,就是動態的網頁,多說了幾句,掃一下盲。

要求:網站全部采用靜態化,有利于網站收錄及排名。

診斷網站狀況:網站所有網頁均是偽靜態

如:/info/contact.html

診斷分析:全站最深層次為三層,符合要求

第六步,診斷圖片ALT屬性

百度官方SEO指南中強調,蜘蛛暫時無法讀取圖片、flash等的內容,網站中出現圖片時,要做好圖片屬性設置,也就是ALT啦,一方面它可以告訴搜索引擎這是關于什么的圖片,另一方面當瀏覽器無法展示圖片時,會以文字的形式展現,還可增加關鍵詞密度。

要求:1、網站所有圖片都加上ALT屬性,命名合理,不重復。

2、圖片上方、或者下方加上關鍵詞錨文本

3、增加圖片頁面的內鏈和外鏈,優化重要圖片

診斷網站狀況:發現網站所有圖片沒有ALT屬性,修改完善圖片ALT屬性,對重要圖片進行優化,做好圖片站內鏈接,圖片周圍多出現關鍵詞和錨文本。

診斷分析:做好ALT屬性可以展現網站對搜索引擎的友好度,增加客戶體驗性。

第七步,診斷robots文件

對收錄及排名沒有影響、不重要的網頁內容,或者不想讓搜索引擎抓取的內容,可以通過robots協議禁止

要求:網站中要有robots文件,并且代碼正確,對不需要搜索引擎抓取的部分進行禁止。

診斷網站狀況:網站有robots文件,對一些無需抓取的內容進行了禁止。

robots文件網址:xxx.cn/robots.txt

診斷分析:robots文件重要,但書寫一定要正確,否則可以事得其反,最好請技術人員解決。

第八步,診斷死鏈接

死鏈接就是用戶點擊無法展示的頁面,或者已經不在的頁面,死鏈接會影響搜索引擎的友好度,會告成因客戶體驗差,而流失目標客戶,嚴重影響轉化率。

要求:網站無死鏈接。

診斷網站狀況:整站無死鏈接

診斷分析:如何診斷死鏈接,查找死鏈接可以借助站長工具,這個不要我多講吧。

第九步,網站404頁面

404頁面是當網站出現死鏈接時,自動轉到404頁面,引導用戶瀏覽其它首頁,避免用戶流失。

要求:網站要有友好的404頁,對死鏈接進行轉化引導。

診斷網站狀況:網站沒有404網頁,設計和完善好404頁面。

第十步,網站空間速度診斷

為什么要求網站空間打開速度要快,這個問題也太小白了吧,你會在一個等了半天也不開的門前,傻等半天嗎?客戶是沒有耐心等待的

要求:網站打開速快,不影響用戶抓取和用戶瀏覽

診斷網站狀況:最快5毫秒,最慢68妙,電信平均:36毫秒,聯通平均:56毫秒

診斷分析:速度就不解釋了,當然是越快越好。

第十一步,快照更新診斷

只有快照更新有規律的網站,才是搜索引擎喜歡的網站,如果你的網站快照好久都沒有更新,那你就要想想是不是百度不愛你啦,百度可能不喜歡你的網站了,我們必須經常更新網站內容,讓蜘蛛不斷有新東西吃,有新鮮感,

要求:百度快照更新不超過去3天,網站有經常更新版塊,如新聞更新、產品更新、評論更新等,并適時更新。

診斷網站狀況:百度第一次快照時間:2012-9-25,最新快照時間2012-10-15,更新速度慢,站內有新聞更新版塊,無用戶評論交互功能。

診斷分析:建議用適當提高網站外鏈和網站內容更新,改善兩次快照間隔時間太長的現象

篇7

面向服務的體系架構(Service-Oriented Architecture, SOA)作為一個全新的網絡架構和組件模型,在提供便利的同時也面臨安全方面的挑戰。SOA系統不但會受到傳統的網絡攻擊,如重放攻擊、注入攻擊等,也會受到各種DDoS攻擊。近日有研究表明,假冒搜索引擎爬蟲已經成為第三大DDoS攻擊工具。本文所介紹的基于SOA架構下的DDoS攻擊檢測方法主要針對當今比較流行的利用網絡爬蟲所發起的DDoS攻擊。

1 SOA安全問題研究

SOA是一個組件模型,它將應用程序的不同功能單元(即服務)通過這些服務之間定義良好的接口和契約聯系起來。SOA目前在很大程度上還是比較依賴Web服務,特別是一些面向服務技術在SOA架構上的應用,導致SOA在提供了良好的便捷的同時也避免不了一些安全隱患。而目前來看SOA往往大多應用在企業級平臺之上,它所承擔的服務不再單純的是一種技術能力,而更多的是一種業務能力和IT資產。因此研究SOA架構下安全問題,特別是安全檢測技術,在風險到來之前提前預測、感知和及時響應具有十分重要的意義。

2 網絡爬蟲技術

2.1 網絡爬蟲概述

網絡搜索引擎的主要數據來源就是互聯網網頁,通用搜索引擎的目司褪薔】贍艿奶岣咄絡覆蓋率,網絡爬蟲(又稱網頁蜘蛛或者網絡機器人),就是一種按照特定規則,自動抓取互聯網信息的腳本或者程序。 搜索引擎利用網絡爬蟲技術爬取Web網頁、文件甚至圖片、音視頻等多媒體資源,通過相應的索引技術處理這些信息后提供給用戶查詢。

2.2 網絡爬蟲的安全性問題

網絡爬蟲策略就是盡可能多的抓取互聯網中的高價值信息,所以爬蟲程序會根據特定策略盡可能多的訪問互聯網上的網站頁面,這毫無疑問會占用目標網站的網絡帶寬和Web服務器的處理開銷,特別是一些小型網站,僅僅處理各種搜索引擎公司的爬蟲引擎就會導致自身服務器“應接不暇”。所以黑客可以假冒爬蟲程序對Web站點發動DDoS攻擊,使網站服務器在大量爬蟲程序的訪問下,系統資源耗盡而不能及時響應正常用戶的請求甚至徹底崩潰。不僅如此,黑客還可能利用網絡爬蟲抓取各種敏感資料用于不正當用途。比如遍歷網站目錄列表;搜索測試頁面、手冊文檔、樣本程序以查找可能存在的缺陷程序;搜索網站管理員登錄頁面;搜索互聯網用戶的個人資料等等。

3 惡意爬蟲DDoS攻擊的防范和檢測

一般情況下,因為特定網站的特殊原因,比如有些網站不希望爬蟲白天抓取網頁,有些網站不希望爬蟲抓取敏感信息等,所以爬蟲程序默認是需要遵守Robots協議,所以限制爬蟲最簡單直接的方法就是設置robots.txt規則。然而并不是所有的搜索引擎爬蟲都會遵守robots規則,所以僅僅設置robots是遠遠不夠的。

3.1 日志分析來檢測惡意爬蟲攻擊

(1)分析服務器日志統計訪問最多的IP地址段。

grep Processing production.log | awk ’{print $4}’ | awk -F’.’ ’{print $1〃.〃$2〃.〃$3〃.0〃}’ | sort | uniq -c | sort -r -n | head -n 200 > stat_ip.log

(2)把統計結果和流量統計系統記錄的IP地址進行對比,排除真實用戶訪問IP,再排除正常的網頁爬蟲,如Google,百度,微軟爬蟲等。很容易得到可疑的IP地址。分析可疑ip 的請求時間、頻率、refer頭等,很容易檢測是否網絡爬蟲,類似如圖1所示日志信息明顯是一個網絡爬蟲。

3.2 基于訪問行為特征檢測爬蟲DDoS

通過日志分析來檢測惡意爬蟲攻擊,無法及時檢測并屏蔽這些spider。所以面對分布式的爬蟲DDoS攻擊,網站很有可能無法訪問,分析日志無法及時解決問題。針對惡意爬蟲程序和正常用戶訪問之間的行為特征不同,爬蟲DDoS程序為了達到占用系統資源的目的,其訪問往往是頻率很高而且呈明顯規律性,明顯區別于真實正常用戶瀏覽訪問時的低頻率和隨機性,所以基于統計數據或者其他應用識別或者IPS技術,可以較容易的生成正常情況下的行為模型,通過采集正常的流量行為可以構造一個正常的網絡行為模型,我們可以把處于正常模型內的流量行為認定為正常行為,一旦和正常行為輪廓有了較大的偏離,可以認定為異?;蛘吖粜袨椤?/p>

4 結語

由于基于SOA的網絡系統下的DDoS攻擊的普遍性,以及網絡爬蟲及其對應技術給現有Web系統帶來的安全威脅。本文提出了一些反惡意爬蟲攻擊的策略和思路,對網站管理及安全人員,有一定的參考意義。隨著基于網絡爬蟲和搜索引擎技術的互聯網應用日益增多,我們有必要針對這些應用帶來的安全問題做更深入的研究。

參考文獻

[1]袁志勇.分布式拒絕服務攻擊的攻擊源追蹤技術研究[D].長沙:中南大學,2009.

[2]何遠超.基于Web的網絡爬蟲的設計與實現[J].網微計算機信息,2007,23(21):119-121.

[3]周偉,王麗娜,張煥國,傅建明.一種新的DDoS攻擊方法及對策[J].計算機應用,2003.01:144.

[4]王希斌,廉龍穎.網絡安全實驗中DDoS攻擊實驗的實現[J].實驗科學與技術,2016,14(1):68-71.

篇8

1 引言

近年來機構知識庫(Institutional Repository,IR)快速穩步增長,已覆蓋了大部分知名高校和科研機構。目前在開放獲取機構資源庫OpenDOAR中注冊登記的IR已有2163家[1],除此以外還有相當一部分數量的IR未在OpenDOAR中注冊。IR做為支持開放獲取的一種重要形式,支持機構實施數字知識資產的長期保存和管理,提高機構及科研人員智力成果的發現幾率、傳播范圍和影響,是吸引機構及科研人員重視和參與IR建設的重要因素。相關的研究也表明,支持開放獲取的論文其引用影響可獲得25%~250%的提升[2]。 而Arlitsch等人[3]的調查結果顯示,當前IR內容被Google Scholar收錄的比率總體上維持在10%~30%的水平,甚至有0%的IR(見圖1)。也就是說,大部分IR的內容沒有得到充分的發現和利用,仍然局限在小范圍內進行交流傳播。

Google Scholar作為一項針對學者和科研人員的免費學術文獻搜索服務,現在已成為學者、研究人員和學生查找專業文獻資料的首選工具[4]。其搜索的范圍涵蓋了幾乎所有知識領域的高質量學術研究資料,包括論文、專業書籍以及技術報告等。Google Scholar不但可以過濾普通網絡搜索引擎中對學術人士無用的大量信息,通過與眾多學術文獻出版商的合作,還加入了許多普通搜索引擎無法搜索到的內容。目前,科研用戶通過網絡來獲取資源,第一選擇就是通過Google等搜索引擎進行大范圍搜索,其次考慮利用專業的學術數據庫,最后才會去翻閱學術期刊。這種檢索順序已經形成了一種社會習慣。

因此,如何解決IR被搜索引擎Google Scholar收錄,提升IR中學術文章被Google Scholar收錄的比率,已成為增強IR內容可發現性和可見性的關鍵。本文以中國科學院研究所IR平臺CAS OpenIR[5]為例,采用學術搜索引擎優化(Academic Search Engine Optimization,ASEO)的策略和方法,通過提升IR在Google Scholar中的索引比率,進而增強IR中內容被發現引用和利用影響力。

[圖1 IR被Google Scholar收錄情況調查表[3]]

2 ASEO策略和目的

ASEO建立在傳統的SEO[6]基礎之上,是從普通的SEO發展而來。由于學術搜索引擎Google Scholar與普通搜索引擎有著明確的定位區別,因此ASEO與SEO有著明顯的不同之處。

SEO指通過采用易于搜索引擎索引的合理技術手段和策略,使網站各項要素適合搜索引擎的檢索原則,從而更容易被搜索引擎收錄和優先排序。SEO基于網頁(Web Page),收錄過程較靈活和容易。IR屬于學術產出的數據庫平臺,有著自身的元數據元素集,其中的學術文章屬于“Academic Invisible Web”[7],不能被Google Scholar直接訪問和索引。因此,在被學術搜索引擎Google Scholar收錄前,需要對IR進行ASEO改造,使其符合Google Scholar索引標準,易于被Google Scholar收錄爬取。即:

(1) 使IR可以被搜索引擎Google Scholar更好地收錄和更新(包括IR的元數據和全文);

(2) 使搜索引擎在規則允許的范圍內進行索引,明確IR的哪些頁面可以被索引收錄,哪些頁面不能被索引收錄;

(3) 在用戶使用Google Scholar搜索時,可以排名靠前的呈現IR中的相關條目,起到推介IR的作用;

(4) 將IR中開放權限的全文納入Google Scholar的全文檢索中,增加IR中論文的可見性,提高論文的被引用率。

3 Google Scholar收錄原則和排名算法

Google Scholar針對學術性數據庫內容的收錄和索引,有明確的收錄原則[8],如:① 被收錄文章需要有唯一的URL;②匿名用戶可免費地通過原文URL進入閱讀被收錄文章;③數據庫服務的Robots.txt協議正確配置,明確允許及禁止Googlebot爬取的路徑及內容范圍;④數據記錄的Meta標簽符合Google Scholar Meta規則,并且必須包含DC.title,DC.creator,DCTERMS.issued三項描述元數據;⑤記錄除了題錄文摘信息外,被收錄記錄必須要有全文;⑥全文格式為PDF格式。

Google Scholar檢索排名繼承了普通Google檢索中應用的PageRank算法[9],即主要看某項學術內容、頁面被引用的情況,同時還將文章全文、作者和出版物等因素納入算法,從而保證檢索結果的高相關性,提高查準率。學術論文被引述的頻度越多,一般判斷這篇論文的權威性就越高,它的PageRank值就越高。

4 面向IR的ASEO策略與方法實現

根據學術搜索引擎Google Scholar收錄、排名的要約特點,本文中筆者將選取ASEO中的關鍵環節,就設計思路和實現的過程做一分析說明。

4.1 搜索引擎注冊

在傳統SEO過程中,網站管理員不用太擔心網站的收錄情況,在網站運行一定時間后搜索引擎的機器人會自動通過已被索引的外部鏈接發現該網站。而學術搜索引擎ASEO過程中,往往需要通過管理員在Google Scholar中對相關的服務進行注冊,來通知機器人將其納入爬取對象。有鑒于此,在研究所IR部署完成后:

(1)要求或者幫助研究所盡快在Google Scholar中完成其IR的注冊和。在Google Scholar注冊IR過程中,除了聲明Google Scholar要求的收錄原則外,還需要聲明IR所用軟件、論文數量、語種、訪問地址。

(2)由于Google Scholar的PageRank算法對網絡分類目錄尤為重視,如果網站被ODP(.

[9]Page,L.,Brin,S.,Motwani,R.andet al.The PageRank Citation Ranking: Bringing Order to the Web[EB/OL].[2012-06-18].http://citeseerxist psu.edu/viewdoc/summary?doi=10.1.1.31.1768.

[10]Dublin Core Collection Description Application Profile[EB/OL].[2012-05-10]. http://ukoln.ac.uk/meta

data/dcmi/collection-application-profile/.

[11]Sitemap[EB/OL].[2012-05-18].http://

/wiki/Sitemap.

篇9

第二確定您所研究的協議的最新版本的RFC文件。

如前文所述,在RFC-2400中有協議的完整清單,按照清單找到的RFC一般是協議的最新版本,如果協議的STATE是Standard就更好了。如下文所分析的FTP協議的RFC文件是RFC-959。

第三,獲取RFC文件

根據RFC文件編號查看以上站點的RFCs文件索引

在里面您可以很快地找到您要找的RFC文件。

第四,閱讀描述協議的RFC文件全文

這不用說了。

第五,實踐

實踐是檢驗真理的唯一標準,雖然互聯網協議不是什么真理,但如果能實踐一下對理解和掌握都有好處,許多互聯網應用層的協議可視程度非常高,協議中許多控制和參數用英文短語來表示,所傳輸的數據如文本也是ASCII碼,如HTTP,FTP等,這類協議單純用Telnet就可以模擬一下客戶端程序的運作,當然,編程實現是最好的鍛煉。

第六,總結

總結確實是不錯的學習方法,自己的文章是一面鏡子。

3.舉例:FTP協議分析

FTP協議的定義在 RFC-959 "FILE TRANSFER PROTOCOL"(Standard,Recommended)。

3.1介紹

FTP 文件傳輸協議(File Transfer Protocol)

FTP協議是一個應用層協議,在TCP上實現的。

開發FTP的目的是

1)促進文件(計算機程序和/或數據)的共享。

2)鼓勵對遠程計算機間接或隱式(implicit)(通過程序)的使用。

3)對用戶屏蔽不同主機系統中的文件儲存的細節。

4)可靠和高效率地實現文件的傳送。

用戶雖然可以直接通過一個終端使用FTP協議,但FTP協議的設計主要是給程序使用的。

3.2常用的FTP命令解釋

由于篇幅所限,這里不對以上每個FTP命令做解釋,這里僅解釋一下作者認為比較重要或常用的FTP命令,如果讀者需要深入了解請參閱 RFC-959 "FILE TRANSFER PROTOCOL"。

USER NAME(USER〈sp〉〈username〉)

本命令的參數〈username〉標識用戶名,服務器憑這個用戶的權限使用文件系統。這個命令一般是在控制連接后的第一個命令。這個命令成功執行后,服務器會等待PASS命令,PASS也成功執行后,用戶才算等錄成功,可以存取Server-FTP中的文件。

PASSWORD(PASS〈sp〉〈password〉)

這個命令是USER命令的補充,向Server-FTP發送由〈password〉所表示的密碼,該命令執行成功,USER命令所指示的〈username〉才算成功登錄。這里的〈password〉是明文傳送。

CHANGE WORKING DIRECTORY(CWD〈SP〉〈pathname〉)

令Server-FTP改變當前目錄到〈pathname〉。

LOGOUT(QUIT)

這個命令表示用戶停止使用FTP,Server-FTP會關閉控制連接。

DATA PORT(PORT 〈SP〉〈host-port〉)

User-FTP這個命令告訴Server-FTP,等待Server-DTP連接的DTP(可能是User-DTP或其他的Server-DTP)的地址,〈host-port〉所指示的就是這個地址,具體的PORT命令形式如下。

PORT h1,h2,h3,h4,p1,p2

以上六個參數都是小于256的數字。

h1,h2,h3,h4表示IP地址,如192,168,0,1 表示IP地址是192.168.0.1的主機。

p1,p2,表示端口號,注意p1和p2都是小于256,所以1000表示為3,232(1000=3*256+232)

RETRIEVE(RETR〈SP〉〈pathname〉)

這個命令請求Server-FTP通過數據連接向User-DTP傳送由〈pathname〉指示的文件的數據。

STOR(RETR 〈SP〉〈pathname〉)

這個命令請求Server-FTP通過數據連接接收User-DTP傳送的數據,數據保存在由〈pathname〉指示的文件中。注意〈pathname〉是在Server-FTP的主機上的。

PRINT WORKING DIRECTORY(PWD)

Server-FTP收到該命令后在回應中返回當前工作目錄名。

LIST(LIST [〈SP〉〈pathname〉])

Server-FTP收到該命令后向User-DTP發送目錄〈pathname〉的文件目錄信息。如果沒有〈pathname〉參數,則返回當前目錄的文件目錄信息。

STATUS(STAT [〈SP〉〈pathname〉])

這個命令的回應有兩種情況,沒有〈pathname〉參數和有〈pathname〉參數。

1)沒有參數,Server-FTP會在回應中返回的一些狀態信息,如以下是我Linux上的Server-FTP返回的信息:

211-zfm.home FTP server status:

Version wu-2.4.2-VR17(1)Mon Apr 19 09:21:53 EDT 1999

Connected to zfl_k6.home(192.168.0.1)

Logged in as fszfl

TYPE:ASCII,FORM:Nonprint;STRUcture:File;transfer MODE:Stream

No data connection

0 data bytes received in 0 files

0 data bytes transmitted in 0 files

0 data bytes total in 0 files

145 traffic bytes received in 0 transfers

4306 traffic bytes transmitted in 0 transfers

4501 traffic bytes total in 0 transfers

211 End of status

2)如果有〈pathname〉參數,則在回應中返回〈pathname〉的目錄信息,如以下是我發送STAT . 的結果:

213-status of .:

total 64

drwxrwxr-x 2 fszfl fszfl 1024 Nov 25 01:37 .

drwx------ 12 fszfl fszfl 1024 Nov 29 00:35 ..

213 End of Status

這個功能好象和LIST有點相似,但LIST中的目錄信息在數據連接中返回的。

HELP [〈SP〉〈string〉]

這是幫助命令,如果沒有參數則返回FTP命令列表,如果有參數則返回〈string〉表示的命令的語法。

3.3 FTP回應

3.3.1 回應的格式

FTP回應有3位數字編碼和有關信息的文本組成,編碼后一個分隔符,如果回應中返回信息的長度大于一行,則編碼后跟減號(-),否則跟空格(〈sp〉)。多于一行的信息可以參考上面的例子。注意最后還有"213 End of Status"表示信息的結束。FTP回應使用的編碼是約定好的,信息文本可以由具體的Server-FTP設計。顯然,編碼為了方便程序設計,文本信息可以方便閱讀。

為了敘述方便,下文把這3位編碼稱為回應碼。

3.3.2 回應碼含義

3位回應碼的每一位都有確定的含義。第一位表示命令的執行結果,表示成功,失敗,或命令沒有完成。第二位表示回應的類型,第三位一般指第二位的進一步細化,預留給將來的發展。

第1位可能的取值:

1yz 初步確認(Positive Preliminary reply)

表示請求的命令已經開始,請等待進一步的回應,在此之前不要發送新的FTP命令。

2yz 完成確認(Positive Completion reply)

表示請求的命令已經成功完成,可以發送新的請求。

3yz 中間狀態確認(Positive Intermediate reply)

請求的命令已經被接受,等待下一條相關的命令提供進一步的信息。這個回應用于一些命令序列中,如USER和PASS,如果USER被接受則可以得到這個回應,表明還需要密碼來完成用戶的登錄。

4yz 暫時否認(Transient Negative Completion reply)

Server-FTP由于一些暫時的原因沒有接收命令,User-FTP最好重新請求這個命令。如果是命令序列,則需要從該序列的第一條指令開始。

5yz 命令有錯(Permanent Negative Completion reply)

命令沒有被接收,具體的拒絕原因由回應碼第二位指出。

第2位可能的取值,描述回應的分類:

x0z 語法(Syntax)- 命令語法不正確,或Server-FTP沒有實現這個功能。

x1z 信息(Information)- 描述如STAT或HELP等命令要求Server-FTP信息的返回。

x2z 連接(Connections)- 描述有關控制和數據連接。

x3z 帳戶和認證(Authentication and accounting)- 登錄過程的回應。

x4z 現在還沒有指定。

x5z 文件系統(File system)- 這個回應反映服務器的文件系統的狀態。

第3位的的含義需要根據第1,2位的值再細化。

3.3.3 回應舉例

3位回應碼的不同組合產生了許多不同的含義,篇幅所限不一一列舉,具體請查 RFC-959。下面是幾個例子:

200 Command okay.

500 Syntax error,command unrecognized.

501 Syntax error in parameters or arguments

篇10

2016年4月11日,浦東法院對本案進行了公開開庭審理。

據澎湃新聞報道,浦東法院在審理后認為,百度地圖和大眾點評在為用戶提供商戶信息和點評內容的服務模式上近乎一致,雙方存在直接競爭關系。百度地圖大量使用大眾點評網的用戶點評,替代其向網絡用戶提供信息,會導致大眾點評網的流量減少。與此同時,百度地圖又推介自己的團購等業務,攫取了大眾點評網的部分交易機會。而百度知道直接向用戶提供來自大眾點評網的點評信息,將一些想獲取點評信息的網絡用戶導流到了百度知道。

法院指出,市場經濟鼓勵市場主體在信息的生產、搜集和使用等方面進行各種形式的自由競爭,但是這種競爭應當充分尊重競爭對手在信息的生產、搜集和使用過程中的辛勤付出。本案大眾點評網的用戶點評信息是漢濤公司的核心競爭資源之一,能給漢濤公司帶來競爭優勢,具有商業價值。漢濤公司為運營大眾點評網付出了巨大的成本,通過法律維護點評信息使用市場的正當競爭秩序,有利于鼓勵經營者創新業務模式,投入成本改善消費者福祉。百度公司大量、全文使用涉案點評信息,實質替代大眾點評網向用戶提供信息,對漢濤公司造成損害,其行為違反了公認的商業道德和誠實信用原則,具有不正當性,構成不正當競爭。

法院同時指出,本案中百度公司的搜索引擎抓取涉案信息雖未違反Robots協議,但這并不意味著百度公司可以任意使用搜索引擎抓取的信息,百度公司應當本著誠實信用的原則和公認的商業道德,合理控制來源于第三方網站信息的使用范圍和方式。

篇11

美麗說遭遇的“危機”,其實是淘寶、百度兩大巨頭之間重新合作的一個結果,但從這結果很難倒推回去說淘寶存在一個刻意針對導購網站的打壓計劃

非刻意的傷害

卻也不介意“假道伐虢”

比“美麗說”被截流更大的新聞是淘寶與百度的重新合作。在此之前,從2008年開始,馬云就在淘寶的Robots.txt協議中全面屏蔽百度蜘蛛——禁止百度搜索結果抓取淘寶內容,時隔5年之后的2013年,淘寶的內容又重新出現在百度上。

眾所周知,百度搜索可以為網站導流,而流量就是財富,但當年馬云為什么會下決心屏蔽百度呢?分析原因應有兩個,其一,馬云認為淘寶已經足夠強大,可以作為一個單獨的世界存在,而不必借助百度;其二,馬云認為百度太強大,如果用戶漸漸習慣直接從百度搜索作為購物入口,淘寶就很可能被拋棄,而百度當時又對自有電商野心勃勃,意欲打造一個“中文互聯網領域最具規模的網上個人交易平臺”。

時隔5年,世界卻已經發生變化。百度現在已經對自有電商基本放棄,與日方合資的B2C網站樂酷天也在去年被徹底關閉,百度對淘寶的威脅大幅度降低。而阿里巴巴最近又在籌劃IPO,對業績快速增長的需求日益迫切。這種情況下,百度、淘寶重新攜手已不是意外。

不僅與百度合作,阿里還同時與360搜索簽署了相關協議。在與360簽署的合作框架中,其商品、購物搜索均通過阿里媽媽旗下一淘網直接向淘寶、天貓等阿里系電商平臺引流。

淘寶不會為了對付美麗說才與百度合作,后者的量級實在太小了。然而,巨頭一打噴嚏,跟班們就要感冒,淘寶與百度的合作又確確實實對美麗說、蘑菇街這樣的淘寶寄生者造成性命之憂。5年前,正因為淘寶屏蔽了百度搜索,才給美麗說這樣的第三方導購網站創造了更大的生存空間,借助社會化電商概念,它們不斷壯大,大有成為淘寶最重要流量入口之勢,淘寶聯盟數據顯示,在2012年的30億元分成金額中,蘑菇街、美麗說等導購網站占比為21%,從淘寶分成超過6億元。從長遠看,這對淘寶不能不說是一大潛在威脅。借助這次與百度恢復合作,馬云應當不介意“假道伐虢”。

更何況,馬云在百度的合作中,也是投了巨資的,即便沒有對付導購網站的確切意圖,它也要購買一些關鍵詞,把目標用戶直接導向淘寶,與其從美麗說導流再分給美麗說,還不如自己購買“美麗說”這樣的關鍵詞,把流量直接導過來。

擺脫對淘寶的依賴

轉型個性化垂直社區的機會

導購網站在巨頭齟齬中漁翁得利,獲得發展良機,現在巨頭握手,它們蒙受池魚之殃,這也算是因果循環了。事實上,如果美麗說們富有遠見的話,早就該預料到這一天。因為淘寶收緊流量入口,防止養虎為患的姿態顯露了已不止一天。根據媒體公開報道,2012年5月,馬云曾針對電商導購、返利類的網站在內部做了幾點指示:不扶持上游導購網站繼續做大,不支持返利類的網站。產業鏈上可以和異業合作,盡量不和同業合作。作為信號,去年底淘寶已經對返利網站下手。去年11月20日,一淘旗下淘寶聯盟公告稱,部分返現類淘寶客在宣傳上夸大返現金額、延長返現賬期、故意設定眾多限制不返利,侵害了消費者利益,并影響了商家價格體系。因此,淘寶聯盟將從2013年1月1日起不再支持針對淘寶站內(包括天貓和淘寶集市)購物返現金給會員或買家的淘寶客模式,只支持返積分、返實物、優惠券等非現金返利方式。

馬云說,阿里的流量入口應該是草原而不是森林。淘寶希望上游有1萬個蘑菇街,每家收入都是2萬元/天。

淘寶和“美麗說”們曾經相愛,但它最希望的是這些導購網站有永遠“做小”的覺悟,只要你不奢望登堂入室,那我也不介意一直包養,淘寶最介意的是導購網站越做越大,控制了淘寶的入口,或者這些與淘寶合作密切的網站被競爭對手買走,進而給淘寶來個釜底抽薪。

篇12

0 引 言

對于無線定位系統,已經有很多文獻對此進行了分析。無線定位技術是一項古老而又年輕的技術。定位通常是指確定地球表面某種物體在某一參考坐標系中的位置。傳統的定位技術和導航密不可分,導航是指引導交通工具或其他物體從一個位置移動到另一個位置的過程,這一過程通常需要定位進行輔助。隨著RFID系統閱讀距離的增長,對標簽的定位需求也變得越來越緊迫。文獻[1]的蜂窩網無線定位的各種研究也非常適合RFID系統的定位。文獻[2]重點研究了射頻識別RFID室內算法研究。

射頻識別系統包括一個標簽和讀寫器。當隨著操作距離的增長,在閱讀器閱讀范圍內的標簽數量會隨之增長,并且閱讀器要同時閱讀多卡?,F在市場上很多閱讀器已經能夠同時閱讀和辨識多卡,但是他們不能在物理上定位標簽的具置。隨著閱讀器和標簽性能的提升,操作距離的增長使閱讀器有能力大范圍得到定位信息,位置信息作為辨識信息的增加變得越來越重要。為了方便敘述,借鑒文獻[3]將后面待定位的目標稱為標簽或移動臺,將參與定位的射頻識別讀寫器簡稱為基站或閱讀器。

無線及移動通信設備的普及帶動了人們對位置感知服務的需求,人們需要確定物品的三維坐標并跟蹤其變化。現有的定位服務系統主要包括基于衛星定位的GPS 系統、基于紅外線或超聲波的定位系統及基于移動網絡的定位系統。RFID 的普及為人與物體的空間定位與跟蹤服務提供了一種新的解決方案。RFID 定位與跟蹤系統主要利用標簽對物體的唯一標識特性,依據讀寫器與安裝在物體上的標簽之間射頻通信的信號強度來測量物品的空間位置,主要應用于GPS 系統難以應用的室內定位。典型的RFID 定位與跟蹤系統包括微軟公司的Radar 系統[4]、MIT Oxygen 項目開發的Cricket 系統[5] 、密歇根州立大學的LANDMARC 系統[6]。日本九州大學的帶有RFID標簽閱讀器的機器人利用周圍標簽位置數據進行自我定位[7]。這些應用針對RFID 標簽價格低廉的特點,通過引入參考標簽,采用RFID 標簽作為參考點[6],能夠提高系統定位精度,同時降低系統成本。

針對采用副載波通信的RFID系統,文獻[8]采用了離散頻譜校正得到相位,操作相對比較復雜。我們也可以把副載波看做是基帶,同樣也可以使用本文提出對標簽反射波的跳頻變相檢測法進行距離計算,該方法能夠快速得到精確的距離數值。當然在這個頻段中只有反射調制式射頻系統能夠利用本文介紹的相位檢測法進行精確的距離測量。相對其他方法比如時間差法,場強法等則無法提供在載波波長距離內的精度[2,3]。

1 射頻識別相位測距法

在超高頻射頻識別系統中,典型的是ISO/IEC18000-6協議,它有Type A、B、C三種,表1所列為他們工作方式的定義。在超高頻射頻識別系統中,電子標簽從閱讀器發出的電磁波中獲取能量,閱讀器通過調制發送的載波給標簽發送信息,并且給標簽發送無調制的載波并通過接收標簽的后向散射獲取標簽返回的信息。由此可見,閱讀器和電子標簽之間的通信是半雙工的,標簽在后向散射的時候不獲取閱讀器的指令。由于是短距離無線通信,為了使得標簽解調方便,閱讀器到標簽之間的通信方式主要是幅度調制,而電子標鑒的后向散射是通過調制閱讀器的無調制載波來返回信息,主要的調制方式是幅度調制或者相位調制。

由于射頻識別系統利用了如圖1所示的反射調制技術,系統在標簽反射阻抗不變的情況下,反射回來的信號幅度和相位跟距離有關。距離長了,標簽反射到讀寫器的信號會減弱,相位會隨著距離而呈周期變化。反射回來的信號幅度往往因天線的方向角,周圍環境變化(如標簽貼近金屬板),反射信號強度而顯著不同,所以接收信號的強度很難反應標簽和讀寫器之間的距離。

由于是短距離通訊,標簽和讀寫器之間往往在直視距離,所以,相對來說相位測距受環境變化影響要小很多。根據天線互易定理,在視距情況下,標簽的閱讀距離不會受收發天線方向系數影響,同時不受極化的影響。標簽天線在受外界影響變形時,閱讀距離會相應減小。

圖1 反射調制射頻識別系統原理圖

2 跳頻變相位測距原理

假設無源反射調制標簽對反射信號是采用OOK調制的,并且標簽天線的阻抗沒有隨著頻率變化(或者變化非常小可以忽略)。

讀寫器發射頻率為f的載波信號,標簽將一部分載波信號反射回讀寫器,I/Q解調器得到標簽反射信號載波和發射的載波相干得到它的幅度和相位信息。幅度表示反射信號的強度,相位θ則會隨著標簽和讀寫器的距離而改變,可以由下式求出:

(1)

其中c為光速,L為讀寫器到標簽的距離,f為載波頻率。

由于讀寫器檢測到的θT取值范圍只有0~2π,所以當標簽和讀寫器距離L比較長時,θT將會由下式表示:

(2)

其中[ ]符號表示取整數。

由式(2)可以看出,直接用θT來求標簽和讀寫器距離L將會出現整周模糊度的問題。

現在依舊假設標簽和讀寫器距離不變。讀寫器的頻率范圍是860~960 MHz,屬于跳頻系統。令θ1為頻率f1時標簽反射載波在讀寫器的相位,頻率f2時標簽反射載波在讀寫器的相位是θ2。

(3)

由這個方程組,我們求得

(4)

其中Δθ=θ2-θ1,Δf=f2-f1。

在取f1和f2時避免-π

3 相位的獲取

讀寫器直接下變頻從I/Q解調器得到接收信號的I、Q兩路正交信號如圖2所示。他們和標簽反射波信號的幅度A和相位θ的關系是

(5)

所以

(6)

圖2 I/Q星座圖

4 距離測量值修正

由于前面的推導都是在理想情況下進行的,實際上讀寫器和標簽之間的傳輸信道并不一定是理想的。對于RFID系統來說,電磁波的主要方式是視距傳播和非視距傳播。當然視距傳播對信號做出主要貢獻。這里主要研究L的修正及θ的修正這兩個問題。

4.1 L的修正

由于解調器離天線還有一定的距離,設為L',不考慮色散等問題,剛才實際的讀寫器天線到標簽的距離應該修正為

LA-T=L-L' (7)

4.2 θ的修正

標簽的反射阻抗在各個頻率上不一定相等,由于是相位檢測所以我們主要關心阻抗的相位變化。令f2時標簽的阻抗和f1時阻抗相位差為θ'(好的標簽設計這個值應該很?。9示嚯x使用下式計算:

(8)

4.3 總的修正

綜合(7)式和(8)式,我們可以得出總的修正式:

(9)

可以令

L修= (10)

這樣就將所有的修正歸結為一個修正,所以有

L修 (11)

實際上,只要把標簽貼到讀寫器天線上即令LT-A=0,則這個時候由Δθ和Δf可以直接求得L修。

5 相位測距誤差分析

由(4)可知,標簽到閱讀器距離L是相位角Δθ和頻率Δf的函數,記為L=L(Δθ,Δf)。

(12)

(13)

所以它的全微分為

(14)

L的方差為

(15)

6 結 語

以上介紹的是利用兩個頻點(跳頻)的不同相位來定位的方法,實際上可以多采集一個頻點來進行定位計算得到更精確的距離估計值,或者和場強法結合進行估計。圖3為不同頻率間隔下,電子標簽反射回來的相位差和標簽距離之間的關系圖。

圖3 不同頻率間隔下角度和標簽距離的坐標圖

射頻識別系統包括一個標簽和讀寫器。當隨著操作距離的增長,在閱讀器閱讀范圍內的標簽數量會隨著增長,并且閱讀器要同時閱讀多卡。現在市場上很多閱讀器已經能夠同時閱讀和辨識多卡,但是大部分不能在物理上定位標簽的具置。隨著閱讀器和標簽性能的提升,操作距離的增長使閱讀器有能力大范圍得到定位信息,位置信息作為辨識信息的增加變得越來越重要了。本文提出跳頻變相位檢測法進行距離計算,能夠快速得到精確的數值,所有采用反射調制式的射頻系統都能夠利用本文介紹的跳頻相位檢測法進行精確的距離測量。

參考文獻

[1] 沈宇超,沈樹群,樊榮,等.射頻識別系統中通信協議的模塊化設計[J].通信學報,2001, 22(2):54-58.

[2] 李科讓.一種實用的非接觸式IC卡讀寫器系統的設計[J].重慶郵電學院學報(自然科學版),2001,6(S1):141-143.

[3] 范平志,鄧平,劉林.蜂窩網無線定位[M].北京:電子工業出版社,2002.

[4] P. Bahl, V. N. Padmanabhan. RADAR:An In-Building RF-based User Location and Tracking System [Z].In Proc. of Joint Conference of the IEEE Computer and Communications Societies (INFOCOM), 2000.

[5] Nissanka B. Priyantha, Anit Chakraborty, Hari Balakrishnan:The Cricket Location-Support System [Z].The 6th ACM International Conference on Mobile Computing and Networking , Boston, MA, August 2000.

篇13

第1章 SEO概述

1.1 SEO簡介

1.1.1 SEO“何許人也”

1.1.2 為什么要學習SEO

1.1.3 SEO適合哪些人

1.1.4 SEO人員應該具備哪些素養

1.2 正確理解SEO

1.2.1 SEO不等于作弊

1.2.2 SEO內容為王

1.2.3 SEO與SEM的關系

1.2.4 SEO與付費排名的關系

第2章 網站設計影響SEO的因素

2.1 如何選擇搜索引擎喜歡的域名

2.1.1 哪些域名后綴權重高

2.1.2 域名長短是否影響SEO

2.1.3 中文域名是否影響SEO

2.1.4 域名存在的時間對SEO有什么影響

2.1.5 如何選擇一個合適的域名

2.1.6 為域名取名的技巧

2.2 如何選擇搜索引擎喜歡的空間

2.2.1 如何選擇空間合適的位置

2.2.2 空間的速度對SEO的影響

2.2.3 如何保障空間更穩定

2.2.4 選擇空間還是選擇服務器

2.2.5 支持在線人數為多少

2.2.6 是否支持404錯誤頁面

2.3 如何制定搜索引擎喜歡的網站構架

2.3.1 W3C標準對SEO的影響

2.3.2 DIV+CSS對SEO的影響

2.3.3 靜態化頁面對SEO的影響

2.3.4 目錄級別對SEO的影響

2.3.5 目錄文件名對SEO的影響

2.3.6 網頁大小對SEO的影響

2.3.7 如何使用robots.txt

2.4 如何制定搜索引擎喜歡的網站標簽

2.4.1 標題(Title)的設計技巧

2.4.2 描述(Description)的設計技巧

2.4.3 關鍵詞(Keywords)的設計技巧

2.4.4 認識更多Meta

第3章 關鍵詞與SEO

3.1 關鍵詞的重要性

3.2 關鍵詞密度

3.2.1 什么是關鍵詞密度

3.2.2 糾正對關鍵詞密度的錯誤看法

3.2.3 什么是適當的關鍵詞密度

3.2.4 關鍵詞放在網頁哪些位置最好

3.2.5 關鍵詞密度的基本原則

3.2.6 如何增加關鍵詞密度

3.2.7 如何查詢關鍵詞密度

3.2.8 谷歌和雅虎的喜好分析

3.3 關鍵詞趨勢

3.3.1 什么是關鍵詞趨勢

3.3.2 帶你認識谷歌熱榜

3.3.3 帶你認識百度風云榜

3.3.4 帶你認識百度指數

3.3.5 尋找關鍵詞趨勢的小竅門

3.4 什么是長尾關鍵詞

3.4.1 如何選擇長尾關鍵詞

3.4.2 如何制作網站欄目

3.4.3 如何制作網站專題

第4章 內容策略

第5章 鏈接策略

第6章 數據監測與分析

第7章 SEO進階

第8章 網站經典SEO案例分析

第9章 如何利用SEO技術進行網絡創業與賺錢

附錄1 SEO服務協議范本

附錄2 SEO工作進度與安排、價款、交付和驗收方式示例

附錄3 網站SEO方案范本

附錄4 需要了解的操作理論

編輯推薦

網絡SEO世界,在別人看來可能是玄妙莫測的異度空間,但在楊帆這里卻如他手中玩轉自如的魔方,只需他略施小計便乖乖受降,排兵布陣任其調遣,秩序、章法早已自在心中。此次楊帆將其多年實戰中總結的經驗著書分享,實為中國互聯網營銷界之幸事!全書深入淺出、注重實戰,即使你是一個第一次接觸網絡SEO的新鮮人,亦可按圖索驥,挖到網絡里屬于你的第一桶金!

——陳墨網絡營銷機構創始人 陳墨

搜索引擎已經擁有98%的網民滲透率并占據78.7%的網民獲取信息途徑。對于各類網絡創業者來說,無論是初期建站推廣、中期商業運營,還是后期用戶經營,都可謂是“得搜索者方能得網絡天下”,本書就是一本既實用又實惠的親身傳授如何獲得網絡天下的“寶典”。

——北京億瑪在線科技有限公司(億告、億起發)總裁 柯細興

目前網站制作的重心已從制作的本身轉向網站的推廣運營,網站的流量大小受搜索引擎排名的影響,SEO無論在行業網站還是地域網站都已經成為必木可少的環節。本書從各個角度,用實戰和具體的參數來定義和指導SEO,講述如何結合自己網站的實際情況;結合網站本身的資源開展SEO并進行長期規劃。讀者可以結合自身網站,分步進行嘗試,不斷總結升華。

——站長網admin5.com創始人圖王

SEO這一決定網站流量的關鍵技術在此書中得到了具體、全面而細致的詮釋。楊帆布此書中毫無保留地闡述了自己為多家知名網站提供SEO服務的實戰經驗。如果你是一個SEO新人,讀此書后你會迅速領悟SEO的真諦。如果你對SEO已經有了一定了解,瀆此書后你將進入一個SEO新的境界!

友情鏈接
相關精選
主站蜘蛛池模板: 茌平县| 驻马店市| 平果县| 佛冈县| 奉贤区| 屏东县| 疏附县| 澄城县| 商洛市| 西平县| 渝中区| 万荣县| 吴桥县| 黄龙县| 荆州市| 无棣县| 南昌市| 潢川县| 阿克陶县| 汕头市| 沛县| 长沙市| 文登市| 湟中县| 无锡市| 临湘市| 克山县| 通许县| 墨脱县| 赣榆县| 大新县| 琼中| 景泰县| 阳城县| 平罗县| 淮北市| 城固县| 新疆| 涟源市| 香格里拉县| 和田市|