
網(wǎng)站優(yōu)化之baidu中文分詞算法大全
隨著搜索經(jīng)濟(jì)的崛起,人們開始越加關(guān)注全球(全世界)各大搜索引擎(Engine)(search engine)的性能、技術(shù)和日流量。作為公司,會(huì)根據(jù)搜索引擎的知名度以及日流量來選擇是否要投放廣告等;作為 普通網(wǎng)民,會(huì)根據(jù)搜索引擎的性能和技術(shù)來選擇自己喜歡的引擎查找資料;作為技術(shù)人員,會(huì)把有代表性的搜索引擎作為研究對象。 搜索引擎經(jīng)濟(jì)的崛起,又一次向人們證明了網(wǎng)絡(luò)所蘊(yùn)藏的巨大商機(jī)。網(wǎng)絡(luò)離開了搜索將只剩下空洞雜亂的數(shù)據(jù),以及大量等待去費(fèi)力挖掘的金礦。
但是,如何設(shè)計(jì)一個(gè)高效的搜索引擎我們可以以百度所采取的技術(shù)手段來探討如何設(shè)計(jì)一個(gè)實(shí)用的搜索引擎。搜索引擎涉及到許多技術(shù)點(diǎn),比如查詢處理(chǔ lǐ),排序算法,頁面(webpage)抓取算法,CACHE機(jī)制,ANTI-SPAM等等。這些技術(shù)細(xì)節(jié)(detail),作為商業(yè)(business)公司的搜索引擎服務(wù)提供商比如百度,GOOGLE等是不會(huì)公之于眾的。我們可以將現(xiàn)有的搜索引擎看作一個(gè)黑盒,通過(tōng guò)向黑盒提交輸入,判斷黑盒返回的輸出大致判斷黑盒里面不為人知的技術(shù)細(xì)節(jié)。
查詢處理與分詞是一個(gè)中文搜索引擎(search engine)必不可少的工作,而百度作為一個(gè)典型的中文搜索引擎一直強(qiáng)調(diào)其 ;中文處理 ;方面具有其它搜索引擎所不具有的關(guān)鍵(解釋:比喻事物的重要組成部分)技術(shù)和優(yōu)勢。
佛山網(wǎng)站優(yōu)化公司所考慮的因素不僅僅是搜索引擎,也包括充分滿足用戶的需求特征、清晰的網(wǎng)站導(dǎo)航、完善的在線幫助等,在此基礎(chǔ)上使得網(wǎng)站功能和信息發(fā)揮最好的效果。也就是以企業(yè)網(wǎng)站為基礎(chǔ),與網(wǎng)絡(luò)服務(wù)商、合作伙伴、顧客、供應(yīng)商、銷售商等網(wǎng)絡(luò)營銷環(huán)境中各方面因素建立良好的關(guān)系。那么我們就來看看百度到底采用了哪些所謂的核心技術(shù)。
網(wǎng)站優(yōu)化之百度分詞算法查詢處理
用戶向搜索引擎提交查詢,搜索引擎一般在接受到用戶查詢后要做一些處理,然后在索引數(shù)據(jù)庫(Database)里面提取相關(guān)的信息。那么百度在接受到用戶查詢后做了些什么工作呢?
假設(shè)用戶提交了不只一個(gè)查詢串
比如 ;信息(xìn xī)檢索 理論 工具 ;。那么搜索引擎(search engine)首先做的是根據(jù)分隔符比如空格,標(biāo)點(diǎn)符號,將查詢串分割成若干子查詢串,比如上面的查詢就會(huì)被解析為:《信息檢索,理論,工具》三個(gè)子字符串;這個(gè)道理簡單,我們接著往下看。
假設(shè)提交的查詢有重復(fù)的內(nèi)容,搜索(search)引擎怎么處理呢?
比如查詢 ;理論 工具 理論 ;百度是將重復(fù)(repeat)的字符串當(dāng)作只出現(xiàn)過一次,也就是處理成等價(jià)的 ;理論 工具 ;而GOOGLE顯然是沒有進(jìn)行歸并,而是將重復(fù)查詢子串的權(quán)重增大進(jìn)行處理。佛山網(wǎng)站優(yōu)化公司就是通過SEO技術(shù)使得我們網(wǎng)站在搜索引擎上的友好度和站內(nèi)用戶的良好體驗(yàn)度上升。這樣做的目的很簡單,就是為了讓我們的網(wǎng)站在搜索引擎的排名靠前并且得到很好的客戶轉(zhuǎn)換率。那么是如何得出這個(gè)結(jié)論的呢?我們可以將 ;理論 工具 ;提交給百度,返回341,000篇文檔,大致看看第一頁的返回內(nèi)容。OK。繼續(xù),我們提交查詢 ;理論 工具 理論 ;在看看返回結(jié)果,仍然是那么多返回文檔,當(dāng)然這個(gè)不能說明太多問題,那看看第一頁返回結(jié)果的排序,看出來了嗎?順序完全沒有變化,而GOOGLE 則排序有些變動(dòng),這說明百度是將重復(fù)的查詢歸并成一個(gè)處理的,而且字符串之間的先后出現(xiàn)順序基本不予考慮。
假設(shè)提交的中文查詢包含英文單詞,搜索引擎是怎么處理的?
比如查詢 ;電影BT下載 ;百度的方法(method)是將中文字符串中的英文當(dāng)作一個(gè)整體保留,并以此為斷點(diǎn)將 中文切分開,這樣上述的查詢就切為《電影,BT,下載》,不論中間的英文是否一個(gè)字典里能查到的單詞也好,還是隨機(jī)的字符也好,都會(huì)當(dāng)作一個(gè) 整體來對待。至于為什么,你用查詢 ;電影dfdfdf下載 ;看看結(jié)果就知道了。當(dāng)然如果查詢中包含數(shù)字,也是如此辦理。
到目前為止,一切很簡單,也很清楚,百度怎么處理用戶查詢的呢?
歸納如下:首先根據(jù)分割符號將查詢分開,然后看看是否有重復(fù)的字符(zì fú)串,如果有,就拋棄多余的,只保留一個(gè),接著判斷是否有英文或者數(shù)字,如果有的話,把英文或者數(shù)字當(dāng)作一個(gè)整體保留并把前后的中文切開。
END
網(wǎng)站優(yōu)化之百度(BIDU)中文分詞原理圖
首先,講講百度的分詞時(shí)機(jī)或者條件問題,是否是個(gè)中文字符串百度就拿來切一下呢?非也,要想被百度的分詞程序榮幸的分割一下也是要講條件的,哪能是個(gè)字符串就切割啊?你當(dāng)百度是賣鋸條的么?
那么什么樣的字符串才滿足被切割的條件呢?