Web日志挖掘的定義Web日志是指在服務(wù)器上有關(guān)Web訪問(wèn)的各種日志文件,包括訪問(wèn)日志、引用日志、代理日志、錯(cuò)誤日志等文件,這些文件中包含了大量的用戶訪問(wèn)信息,如用戶的IP地址、所訪問(wèn)的uRL、訪問(wèn)日期和時(shí)間、訪問(wèn)方法(GET或POST)、訪問(wèn)結(jié)果(成功、失敗、錯(cuò)誤),訪問(wèn)的信息大小等。Web日志挖掘是將數(shù)據(jù)挖掘應(yīng)用于Web日志記錄文件,發(fā)現(xiàn)用戶瀏覽模式,分析站點(diǎn)的使用情況。還可應(yīng)用于協(xié)助管理者優(yōu)化站點(diǎn)結(jié)構(gòu),提高站點(diǎn)的訪問(wèn)效率,構(gòu)造合理的Web服務(wù)器。提高用戶訪問(wèn)的有效性。這對(duì)于優(yōu)化web站點(diǎn)來(lái)說(shuō)非常有意義。
Web日志挖掘的過(guò)程
數(shù)據(jù)收集Web13志挖掘可以通過(guò)各個(gè)方面對(duì)13志文件進(jìn)王春霞:講師碩士基金項(xiàng)目:河南省教育廳自然科學(xué)基金資助項(xiàng)目行收集,例如從服務(wù)器端數(shù)據(jù)收集、客戶端數(shù)據(jù)收集、代理服務(wù)器端數(shù)據(jù)收集。
數(shù)據(jù)預(yù)處理
數(shù)據(jù)凈化數(shù)據(jù)凈化是指刪除web服務(wù)器13志中與挖掘算法無(wú)關(guān)的數(shù)據(jù)。一般來(lái)說(shuō)只有13志中HTML文件與用戶會(huì)話相關(guān)。用戶一般不會(huì)顯式地請(qǐng)求頁(yè)面上的圖形文件。它們是根據(jù)HTML的超文本引用標(biāo)記自動(dòng)下載的。web13志文件的目的是獲得用戶的行為模式并不關(guān)心那些用戶沒(méi)有顯式請(qǐng)求的文件。所以通過(guò)檢查URL的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)。例如:將日志中文件的后綴名為GIF、JPEG、JPG等的圖形文件刪除。另外,后綴名為CGI的腳本文件也應(yīng)被刪除。具體到實(shí)際的系統(tǒng)就使用一個(gè)缺省的后綴名列表幫助刪除文件。列表可以根據(jù)正在分析的站點(diǎn)類(lèi)型進(jìn)行修改,例如:對(duì)一個(gè)主要包含圖形文檔的站點(diǎn)。日志中GIF和JPEG文件可能代表了用戶的請(qǐng)求。此時(shí)就不能將圖形文件刪除。進(jìn)行數(shù)據(jù)凈化的還有一個(gè)方面,比如:有些網(wǎng)站的頁(yè)面用戶在提出請(qǐng)求時(shí)。Web服務(wù)器拒絕該頁(yè)面的請(qǐng)求。那么應(yīng)該過(guò)濾掉非法請(qǐng)求的頁(yè)面,對(duì)正常的頁(yè)面進(jìn)行數(shù)據(jù)處理是很有價(jià)值的。但是如果考慮的是網(wǎng)絡(luò)安全方面的問(wèn)題。就另當(dāng)別論考慮非法請(qǐng)求的頁(yè)面的情況。
用戶識(shí)別識(shí)別用戶對(duì)于會(huì)話識(shí)別特別是為用戶提供個(gè)性化的服務(wù)非常重要,目前由于本地緩存代理服務(wù)器和防火墻的存在、為用戶動(dòng)態(tài)的分配IP地址想要識(shí)別出每一個(gè)用戶變得很復(fù)雜。
針對(duì)用戶的識(shí)別有幾種最可能的解決辦法:
如果IP地址相同,但是代理日志中表明用戶的瀏覽器或操作系統(tǒng)改變了,就應(yīng)當(dāng)認(rèn)為每個(gè)不同的代理就表示不同的用戶。將用戶的訪問(wèn)日志和站點(diǎn)的拓?fù)浣Y(jié)構(gòu)結(jié)合,構(gòu)造用戶的瀏覽路徑。如果當(dāng)前請(qǐng)求的頁(yè)面同用戶已瀏覽的頁(yè)面之間沒(méi)有鏈接關(guān)系。那么就認(rèn)為存在另外具有相同IP地址的多個(gè)用戶不同的IP就認(rèn)為就是不同的用戶。Cookie是由Web服務(wù)器產(chǎn)生的記號(hào)存在于客戶端(用戶的機(jī)器),用于識(shí)別用戶的會(huì)話。它是一種自動(dòng)跟蹤Web站點(diǎn)訪問(wèn)者的標(biāo)記。當(dāng)用戶對(duì)Web資源提出請(qǐng)求時(shí)將為該用戶產(chǎn)生唯一的Cookie用于識(shí)別對(duì)話。在隨后的請(qǐng)求中,瀏覽器將該唯一的Cookie發(fā)送回服務(wù)器用來(lái)識(shí)別對(duì)話
會(huì)話識(shí)別在跨越時(shí)間區(qū)段較大的Web服務(wù)器日志中,用戶可能多次訪問(wèn)了該站點(diǎn)。會(huì)話識(shí)別的目的就是將用戶的訪問(wèn)記錄分為單個(gè)會(huì)話。最簡(jiǎn)單的方法是利用超時(shí),如果兩頁(yè)間請(qǐng)求時(shí)間的差值超過(guò)一定的界限就認(rèn)為用戶開(kāi)始了一個(gè)新的會(huì)話。JPitkow的實(shí)驗(yàn)證明,比較合理的時(shí)間長(zhǎng)度應(yīng)該是255分鐘。這種方法很簡(jiǎn)單但是準(zhǔn)確性很差。還有一種方法是訪問(wèn)日志法,它能劃分同一IP的并發(fā)訪問(wèn)但存準(zhǔn)確性仍存在局限性。
路徑補(bǔ)充在識(shí)別用戶會(huì)話過(guò)程中的另一個(gè)問(wèn)題是確定訪問(wèn)日志中是否有重要的請(qǐng)求沒(méi)有被記錄。這就是路徑補(bǔ)充所做的工作,解決的方法類(lèi)似于用戶識(shí)別中的方法。如果當(dāng)前請(qǐng)求的頁(yè)與用戶上一次請(qǐng)求的頁(yè)之間沒(méi)有超文本鏈接那么用戶很可能使用了瀏覽器上的“BACK”按鈕調(diào)用緩存在本機(jī)中的頁(yè)面。檢查訪問(wèn)日志確定當(dāng)前請(qǐng)求頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來(lái)源。若訪問(wèn)日志不完整,可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過(guò)這種方法將遺漏的頁(yè)面請(qǐng)求添加到用戶的會(huì)話文件中。
Web日志挖掘的應(yīng)用一優(yōu)化Web站點(diǎn)
優(yōu)化Web站點(diǎn)步驟優(yōu)化Web站點(diǎn)方法很簡(jiǎn)單,需要對(duì)日志文件進(jìn)行預(yù)處理、模式識(shí)別最后是模式分析。其步驟為:先進(jìn)行預(yù)處理去掉不相關(guān)的數(shù)據(jù)項(xiàng)減少數(shù)據(jù)庫(kù)的存儲(chǔ)空間。比如:操作系統(tǒng)和瀏覽器、文件大小等等。模式識(shí)別是得到一個(gè)用戶訪問(wèn)的頁(yè)面數(shù)據(jù)庫(kù),并且是按照針對(duì)不同的用戶所訪問(wèn)頁(yè)面的字母序的形式排列;字母序有助于挖掘的快速進(jìn)行。模式分析就是利用數(shù)據(jù)挖掘的算法解決實(shí)際性的問(wèn)題。在優(yōu)化網(wǎng)站設(shè)計(jì)時(shí),就是將每一個(gè)用戶訪問(wèn)的頁(yè)面抽象為點(diǎn)而頁(yè)面到頁(yè)面之間鏈接抽象為線這樣就構(gòu)造出很多用戶的拓?fù)浣Y(jié)構(gòu)圖,然后找出這些圖之間的相關(guān)性及其從一些頁(yè)面到另一些頁(yè)面之間的最高訪問(wèn)頻率,最后可構(gòu)造出整個(gè)web站點(diǎn)的拓?fù)鋱D。可將整個(gè)的WEB站點(diǎn)的所有頁(yè)面抽象為數(shù)字,那么可以得出很多路徑的數(shù)字排序。我們可以利用聚類(lèi)中的頁(yè)面聚類(lèi)找出這些數(shù)字之間的相關(guān)性很容易得出頁(yè)面到頁(yè)面間的訪問(wèn)頻度。最后找出頁(yè)面訪問(wèn)頻度最高的路徑就是要構(gòu)造該網(wǎng)站的拓?fù)浣Y(jié)構(gòu)圖。根據(jù)該網(wǎng)站的拓?fù)浣Y(jié)構(gòu)圖,重新構(gòu)建該網(wǎng)站,進(jìn)而提高網(wǎng)站的利用率。
優(yōu)化Web站點(diǎn)算法構(gòu)造網(wǎng)站的部分算法的說(shuō)明:首先將整個(gè)Web站點(diǎn)可以看成是一個(gè)完全圖,因?yàn)樗拿總€(gè)Web頁(yè)都有一條從主頁(yè)到該頁(yè)面的鏈接,反過(guò)來(lái)一般也都有后退和返回按鈕。我們可以現(xiàn)將整個(gè)的頁(yè)面做一個(gè)映射,主頁(yè)記為1,其次,它的鏈接頁(yè)面可以定義為2,順序3,4,13。下面可以根據(jù)論文中上述知識(shí)找出每一個(gè)用戶的訪問(wèn)頁(yè)面路徑。將路徑的信息轉(zhuǎn)換成矩陣的形式去做,實(shí)現(xiàn)起來(lái)比較方便。
結(jié)束語(yǔ)優(yōu)化Web站點(diǎn)是通過(guò)Web日志分析系統(tǒng)挖掘的結(jié)果,改進(jìn)站點(diǎn)信息的組成結(jié)構(gòu),調(diào)整網(wǎng)站的內(nèi)容,形成用戶感興趣的web頁(yè),然后存在web服務(wù)器上,最后當(dāng)用戶訪問(wèn)的時(shí)候顯示給用戶,使之更好地為用戶提供服務(wù)。
掃一掃
加客服微信
服務(wù)熱線
0514-87330378