亚洲中文字幕无码不卡电影,欧美牲交a欧美牲交,香蕉视频久久久

WEB日志挖掘?qū)崿F(xiàn)網(wǎng)站優(yōu)化

2008-03-26 15:14:41

Web數(shù)據(jù)挖掘是應(yīng)用于Internet的研究，是從半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的Web頁(yè)面中。抽取感興趣的、潛在的模式。當(dāng)前研究的主要有三種技術(shù)：Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用挖掘。針對(duì)Internet的研究它是一個(gè)半結(jié)構(gòu)化的系統(tǒng)，很難對(duì)它進(jìn)行處理，但Web服務(wù)器中的日志記錄具有良好的數(shù)據(jù)結(jié)構(gòu)，非常有利于數(shù)據(jù)挖掘的進(jìn)行。Web日志挖掘是web使用挖掘的一個(gè)分支它作為Web挖掘的一個(gè)重要組成部分，具有獨(dú)特的理論和實(shí)踐意義。

Web日志挖掘的定義Web日志是指在服務(wù)器上有關(guān)Web訪問(wèn)的各種日志文件，包括訪問(wèn)日志、引用日志、代理日志、錯(cuò)誤日志等文件，這些文件中包含了大量的用戶訪問(wèn)信息，如用戶的IP地址、所訪問(wèn)的uRL、訪問(wèn)日期和時(shí)間、訪問(wèn)方法(GET或POST)、訪問(wèn)結(jié)果(成功、失敗、錯(cuò)誤)，訪問(wèn)的信息大小等。Web日志挖掘是將數(shù)據(jù)挖掘應(yīng)用于Web日志記錄文件，發(fā)現(xiàn)用戶瀏覽模式，分析站點(diǎn)的使用情況。還可應(yīng)用于協(xié)助管理者優(yōu)化站點(diǎn)結(jié)構(gòu)，提高站點(diǎn)的訪問(wèn)效率，構(gòu)造合理的Web服務(wù)器。提高用戶訪問(wèn)的有效性。這對(duì)于優(yōu)化web站點(diǎn)來(lái)說(shuō)非常有意義。

Web日志挖掘的過(guò)程

數(shù)據(jù)收集Web13志挖掘可以通過(guò)各個(gè)方面對(duì)13志文件進(jìn)王春霞：講師碩士基金項(xiàng)目：河南省教育廳自然科學(xué)基金資助項(xiàng)目行收集，例如從服務(wù)器端數(shù)據(jù)收集、客戶端數(shù)據(jù)收集、代理服務(wù)器端數(shù)據(jù)收集。

數(shù)據(jù)預(yù)處理

數(shù)據(jù)凈化數(shù)據(jù)凈化是指刪除web服務(wù)器13志中與挖掘算法無(wú)關(guān)的數(shù)據(jù)。一般來(lái)說(shuō)只有13志中HTML文件與用戶會(huì)話相關(guān)。用戶一般不會(huì)顯式地請(qǐng)求頁(yè)面上的圖形文件。它們是根據(jù)HTML的超文本引用標(biāo)記自動(dòng)下載的。web13志文件的目的是獲得用戶的行為模式并不關(guān)心那些用戶沒(méi)有顯式請(qǐng)求的文件。所以通過(guò)檢查URL的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)。例如：將日志中文件的后綴名為GIF、JPEG、JPG等的圖形文件刪除。另外，后綴名為CGI的腳本文件也應(yīng)被刪除。具體到實(shí)際的系統(tǒng)就使用一個(gè)缺省的后綴名列表幫助刪除文件。列表可以根據(jù)正在分析的站點(diǎn)類(lèi)型進(jìn)行修改，例如：對(duì)一個(gè)主要包含圖形文檔的站點(diǎn)。日志中GIF和JPEG文件可能代表了用戶的請(qǐng)求。此時(shí)就不能將圖形文件刪除。進(jìn)行數(shù)據(jù)凈化的還有一個(gè)方面，比如：有些網(wǎng)站的頁(yè)面用戶在提出請(qǐng)求時(shí)。Web服務(wù)器拒絕該頁(yè)面的請(qǐng)求。那么應(yīng)該過(guò)濾掉非法請(qǐng)求的頁(yè)面，對(duì)正常的頁(yè)面進(jìn)行數(shù)據(jù)處理是很有價(jià)值的。但是如果考慮的是網(wǎng)絡(luò)安全方面的問(wèn)題。就另當(dāng)別論考慮非法請(qǐng)求的頁(yè)面的情況。

用戶識(shí)別識(shí)別用戶對(duì)于會(huì)話識(shí)別特別是為用戶提供個(gè)性化的服務(wù)非常重要，目前由于本地緩存代理服務(wù)器和防火墻的存在、為用戶動(dòng)態(tài)的分配IP地址想要識(shí)別出每一個(gè)用戶變得很復(fù)雜。

針對(duì)用戶的識(shí)別有幾種最可能的解決辦法：

如果IP地址相同，但是代理日志中表明用戶的瀏覽器或操作系統(tǒng)改變了，就應(yīng)當(dāng)認(rèn)為每個(gè)不同的代理就表示不同的用戶。將用戶的訪問(wèn)日志和站點(diǎn)的拓?fù)浣Y(jié)構(gòu)結(jié)合，構(gòu)造用戶的瀏覽路徑。如果當(dāng)前請(qǐng)求的頁(yè)面同用戶已瀏覽的頁(yè)面之間沒(méi)有鏈接關(guān)系。那么就認(rèn)為存在另外具有相同IP地址的多個(gè)用戶不同的IP就認(rèn)為就是不同的用戶。Cookie是由Web服務(wù)器產(chǎn)生的記號(hào)存在于客戶端(用戶的機(jī)器)，用于識(shí)別用戶的會(huì)話。它是一種自動(dòng)跟蹤Web站點(diǎn)訪問(wèn)者的標(biāo)記。當(dāng)用戶對(duì)Web資源提出請(qǐng)求時(shí)將為該用戶產(chǎn)生唯一的Cookie用于識(shí)別對(duì)話。在隨后的請(qǐng)求中，瀏覽器將該唯一的Cookie發(fā)送回服務(wù)器用來(lái)識(shí)別對(duì)話

會(huì)話識(shí)別在跨越時(shí)間區(qū)段較大的Web服務(wù)器日志中，用戶可能多次訪問(wèn)了該站點(diǎn)。會(huì)話識(shí)別的目的就是將用戶的訪問(wèn)記錄分為單個(gè)會(huì)話。最簡(jiǎn)單的方法是利用超時(shí)，如果兩頁(yè)間請(qǐng)求時(shí)間的差值超過(guò)一定的界限就認(rèn)為用戶開(kāi)始了一個(gè)新的會(huì)話。JPitkow的實(shí)驗(yàn)證明，比較合理的時(shí)間長(zhǎng)度應(yīng)該是255分鐘。這種方法很簡(jiǎn)單但是準(zhǔn)確性很差。還有一種方法是訪問(wèn)日志法，它能劃分同一IP的并發(fā)訪問(wèn)但存準(zhǔn)確性仍存在局限性。

路徑補(bǔ)充在識(shí)別用戶會(huì)話過(guò)程中的另一個(gè)問(wèn)題是確定訪問(wèn)日志中是否有重要的請(qǐng)求沒(méi)有被記錄。這就是路徑補(bǔ)充所做的工作，解決的方法類(lèi)似于用戶識(shí)別中的方法。如果當(dāng)前請(qǐng)求的頁(yè)與用戶上一次請(qǐng)求的頁(yè)之間沒(méi)有超文本鏈接那么用戶很可能使用了瀏覽器上的“BACK”按鈕調(diào)用緩存在本機(jī)中的頁(yè)面。檢查訪問(wèn)日志確定當(dāng)前請(qǐng)求頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來(lái)源。若訪問(wèn)日志不完整，可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過(guò)這種方法將遺漏的頁(yè)面請(qǐng)求添加到用戶的會(huì)話文件中。

Web日志挖掘的應(yīng)用一優(yōu)化Web站點(diǎn)

優(yōu)化Web站點(diǎn)步驟優(yōu)化Web站點(diǎn)方法很簡(jiǎn)單，需要對(duì)日志文件進(jìn)行預(yù)處理、模式識(shí)別最后是模式分析。其步驟為：先進(jìn)行預(yù)處理去掉不相關(guān)的數(shù)據(jù)項(xiàng)減少數(shù)據(jù)庫(kù)的存儲(chǔ)空間。比如：操作系統(tǒng)和瀏覽器、文件大小等等。模式識(shí)別是得到一個(gè)用戶訪問(wèn)的頁(yè)面數(shù)據(jù)庫(kù)，并且是按照針對(duì)不同的用戶所訪問(wèn)頁(yè)面的字母序的形式排列；字母序有助于挖掘的快速進(jìn)行。模式分析就是利用數(shù)據(jù)挖掘的算法解決實(shí)際性的問(wèn)題。在優(yōu)化網(wǎng)站設(shè)計(jì)時(shí)，就是將每一個(gè)用戶訪問(wèn)的頁(yè)面抽象為點(diǎn)而頁(yè)面到頁(yè)面之間鏈接抽象為線這樣就構(gòu)造出很多用戶的拓?fù)浣Y(jié)構(gòu)圖，然后找出這些圖之間的相關(guān)性及其從一些頁(yè)面到另一些頁(yè)面之間的最高訪問(wèn)頻率，最后可構(gòu)造出整個(gè)web站點(diǎn)的拓?fù)鋱D。可將整個(gè)的WEB站點(diǎn)的所有頁(yè)面抽象為數(shù)字，那么可以得出很多路徑的數(shù)字排序。我們可以利用聚類(lèi)中的頁(yè)面聚類(lèi)找出這些數(shù)字之間的相關(guān)性很容易得出頁(yè)面到頁(yè)面間的訪問(wèn)頻度。最后找出頁(yè)面訪問(wèn)頻度最高的路徑就是要構(gòu)造該網(wǎng)站的拓?fù)浣Y(jié)構(gòu)圖。根據(jù)該網(wǎng)站的拓?fù)浣Y(jié)構(gòu)圖，重新構(gòu)建該網(wǎng)站，進(jìn)而提高網(wǎng)站的利用率。

優(yōu)化Web站點(diǎn)算法構(gòu)造網(wǎng)站的部分算法的說(shuō)明：首先將整個(gè)Web站點(diǎn)可以看成是一個(gè)完全圖，因?yàn)樗拿總€(gè)Web頁(yè)都有一條從主頁(yè)到該頁(yè)面的鏈接，反過(guò)來(lái)一般也都有后退和返回按鈕。我們可以現(xiàn)將整個(gè)的頁(yè)面做一個(gè)映射，主頁(yè)記為1，其次，它的鏈接頁(yè)面可以定義為2，順序3，4，13。下面可以根據(jù)論文中上述知識(shí)找出每一個(gè)用戶的訪問(wèn)頁(yè)面路徑。將路徑的信息轉(zhuǎn)換成矩陣的形式去做，實(shí)現(xiàn)起來(lái)比較方便。

結(jié)束語(yǔ)優(yōu)化Web站點(diǎn)是通過(guò)Web日志分析系統(tǒng)挖掘的結(jié)果，改進(jìn)站點(diǎn)信息的組成結(jié)構(gòu)，調(diào)整網(wǎng)站的內(nèi)容，形成用戶感興趣的web頁(yè)，然后存在web服務(wù)器上，最后當(dāng)用戶訪問(wèn)的時(shí)候顯示給用戶，使之更好地為用戶提供服務(wù)。

?? ?

宏瑞官方公眾號(hào)
客服微信

關(guān)于我們

揚(yáng)州宏瑞科技有限公司成立于2008年初，主要從事品牌網(wǎng)站建設(shè)\
高端網(wǎng)站定制\軟件定制開(kāi)發(fā)\微信小程序開(kāi)發(fā)，服務(wù)客戶超過(guò)1000家。
致力于為企業(yè)提供可靠的網(wǎng)站建設(shè)解決方案。

: 免費(fèi)通話; 在線QQ

點(diǎn)擊QQ聊天; 客服微信

掃一掃
加客服微信

服務(wù)熱線
0514-87330378; 在線留言; 返回頂部

国产99久久精品一区二区 夜夜躁日日躁 _亚洲三级av在线_www.av视频_国产精品一区二区三区久久

宏瑞官方公眾號(hào)

客服微信

關(guān)于我們

友情鏈接：

国产99久久精品一区二区夜夜躁日日躁 _亚洲三级av在线_www.av视频_国产精品一区二区三区久久