引論:我們為您整理了13篇神經網絡文本分類范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。
篇1
The Researching of Web Text Classification Based on RBF Neural Network
XU Chun-yu
(Information Engineering Department, Liaoning Provincial College of Communications, Shenyang 110122, China)
Abstract:Web text classification is the automatic classification for Web information and it makes the use of text classification technology. The technology makes user find resource that they want quickly. The data from the Web is divided into sample data set and test data set after feature extraction in the process of text classification. Sample data set is inputted to the RBF network and the RBF network is trained. Test data set is inputted the RBF to validate after training the network. Experimental results show that RBF network achieved better classification results.
Key words: web text classification; RBF network; gauss Function; gradient descent algorithm
近年來,web已經成為擁有數十億個異構的、半結構化的、動態的分布式信息空間,這些web信息源中有80%以上的信息是以web文本的形式出現的,如何從這些海量的web信息資源中尋找并獲取有價值的信息和知識模式,已經成為信息處理的一個關鍵問題,web文本分類有助于人們完成這個目標[1]。
1 web文本分類
文本分類就是先根據已有的樣例文本找出能描述并區分文本類別的分類器,然后利用該分類器對新的未分類的文本進行分類。根據機器學習的觀點,文本自動分類問題可以歸結為一個機器學習任務:假定全體文本空間為D,預定義的文本類別集合為C{c1,c2,…,c3}。待學習分類法稱為目標分類器,記作y,一般來說,y是從文本集到類別集的一個映射,即y:DC,通常情況下該映射存在,但沒有解析表達式。文本分類中機器學習的目的就是找到映射y的一個近似表達式或估計:y:DC,使對于D中所有文本d有h(d)=y(d),或使得h(d)≠y(d)的概率最小。其中h為分類器[3]。
隨著web上海量文本信息的增加,文本分類技術的處理對象從普通的文檔擴展到了web文本,即形成了web文本分類技術,顯然,文本分類技術是web文本分類技術的基礎。
2 RBF神經網絡
徑向基函數(Radial Basis Function,簡稱RBF)神經元網絡是在借鑒生物局部調節和交疊接受區域知識的基礎上提出的一種采用局部接受域來執行函數影射的人工神經元網絡。在人的大腦皮層區域中,局部調節及交疊的感受是人腦反映的特點。RBF網絡同BP網絡類似,也是一種三層前饋式神經網絡,輸入層節點傳遞輸入信號到隱含層,隱含層節點由像高斯函數那樣的輻射狀作用函數構成,而輸出層節點通常是簡單的線性函數。網絡模型如圖1所示。
從RBF的網絡模型圖可以看出,RBF網絡由兩部分組成,第一部分為非線性變換層,它的輸出公式如公式(1)所示:
(1)
其中X={x1,x2,…xn}為輸入向量,Ci={Ci(1),Ci(2),…Ci(N)}為第i個非線性變換單元的中心向量,Ct(q)表示第t個中心的第q個分量,σi為第i個非線性變換單元的寬度,||?||表示的是范數,通常情況下取2范數,g(?)表示的是非線性函數關系,一般取Gauss函數,Gauss函數的函數關系如公式(2)所示:
(2)
第二部分:線性合并層,它的作用是將變換層的輸出線性加權合并,公式如(3)所示,其中l為隱含層神經元的個數,m為輸出層神經元的個數。
(3)
RBF網絡通過徑向基函數能夠更確切的描述人類神經元的活動特性。在中心附近的區域內網絡的輸出最大,網絡的輸出隨著中心距離的增大,逐漸減小,而這個過程的快慢則是由σ參數來決定的,σ越大則函數輸出曲線越平緩,對輸入的變化就越不敏感,因此,可以通過調節σ來進一步模擬人類的神經元。RBF網絡最常用的算法是梯度下降法,常用的訓練就是選定某種性能指標,然后采用梯度下降的方法來校正網絡參數,使該網絡性能指標取得最優值,因此RBF網絡的學習實質上就是一個最優化問題。具體的訓練算法為:對于一般的RBF網絡結構,取性能指標如公式(4)所示。
(4)
其中,i為網絡的輸出,具體關系式如下面的(5)式、(6)式和(7)式所示:
(5)
(6)
(7)
由上面的三個公式可以看出, J是關于Cj,wjt和σj的函數。網絡的訓練過程就是調整以上三組參數,使J趨于最小。求取J對各網絡參數wts,ct(q),σt的偏導數,其中1≤t≤P(P是隱含層單元的個數),1≤s≤M(M是輸出層單元的個數),1≤q≤N(N是輸出層單元的個數),得到參數的校正方法。具體的校正方法為:權值wts的校正方向如公式(8)所示:
(8)
中心ct(q)的校正方向如公式(9)所示:
(9)
寬度σt的校正方向如公式(10)所示:
(10)
由此,可以得到RBF網絡的梯度下降法校正公式如(11)所示:
(11)
其中,1≤t≤P,1≤s≤M,1≤q≤N,P為隱含層單元個數,N為輸入層單元個數,M為輸出層單元個數,λ為步長,通常λ=0.05左右。
隱含層到輸出層之間的變換是線性變換,所以采用的是比較成熟的RLS算法。給定樣本輸入,則在當前的網絡隱含層單元中心Cj及寬度σj(1≤j≤P)參數下,隱含層單元輸出向量為HT=[h1,h2,…,hP],P為隱含層單元個數。
Y=HTW (12)
其中,Y=[y1,y2,…,yM],W=[w1,w2,…,wM],wi=[w1i,…,wpi],這樣,根據RLS算法有權值的修正遞推公式如公式(13)所示:
(13)
這樣,按照上面的公式對網絡參數不斷地進行循環校正,最終網絡性能將達到所要求的性能指標[5]。
3 實驗
實驗過程中,首先設計網絡拓撲結構,確定RBF網絡輸出層神經元個數,根據類別的個數來確定輸出層神經元的個數,實驗數據分別屬于10個類別,因此網絡輸出層神經元個數為10。輸入層神經元的個數為文檔在進行特征提取之后向量的維數,實驗中,經過降維以后的每篇文檔特征向量的維數為30,所以將網絡的輸入層神經元的個數選取為30。由于輸入樣本空間是確定的,可以預先給定一個隱含層節點數,只要與輸入樣本的實際類別數相差不是很大時,就可以使用梯度下降法來不斷修正網絡的中心值,使網絡的特性逼近于實際系統,這種方法比較簡單,也是一種比較常用的方法,因此,實驗中隱含層神經元的個數取值為9。
RBF網絡結構設計完成之后就可以對網絡進行訓練了,實驗數據來自中國期刊網上下載的600篇文檔,涵蓋了政治、經濟、教育、娛樂等10個類別,每個類別包含60篇文檔,選取其中的500篇文檔作為樣本訓練集,每個類別選擇50篇,另外100篇文檔作為網絡的測試集。首先需要對實驗數據進行文本特征提取、降維等過程。其次采用的是Matlab軟件進行編程以實現網絡的訓練,網絡訓練完成以后,輸入測試集中的數據,測試網絡能否正確地將相關的文檔區分到各個類別中。表1是RBF網絡的分類結果。
4 結論
從上面的訓練結果分析,RBF網絡能夠將大部分的文本正確地劃分到所屬類別,對于體育、娛樂、外語方面的文檔能夠取得較高的識別率,對于政治、經濟、軍事等方面的文檔的識別率較低,主要原因是這些類別的文檔中互相包含著相關的特征信息,這種類型的文檔在進行文本分類的時候,需要在文本特征提取的時候進行相應的處理,以使得在輸入神經網絡的時候能夠得到正確的分類結果。從實驗結果可以看出,RBF網絡完全可以應用到文本分類中來,并且能夠取得較好的分類效果。
參考文獻:
[1] 蒲筱哥.Web自動文本分類技術研究綜述[J].情報科學,2009:233.
[2] Crimmins F, Smeaton A, Dkaki T, et al.Information discovery on the internet[J].IEEE Intell.Syst.,1999(14):55-62.
[3] 王曉慶. 基于RBF網絡的文本自動分類的研究[D].南昌:江西師范大學,2003:9.
[4] Abhijit S, Rober B. 神經網絡模式識別及其實現[M].徐勇,荊濤,譯.北京:電子工業出版社,1999:30-32,57-114.
[5] 柯慧燕. Web文本分類研究及應用[D].武漢:武漢理工大學,2006:14-15,16-17.
篇2
申明:本網站內容僅用于學術交流,如有侵犯您的權益,請及時告知我們,本站將立即刪除有關內容。 摘 要:本文提出了一種新的基于改進的AD址INE神經網絡DTMF信號檢測算
篇3
隨著設備復雜化程度的提高,對故障診斷的快速性和準確性提出了更高的要求。將神經網絡應用于故障診斷中已成為一個非?;钴S的研究領域。利用神經網絡強大的分類能力,進行故障模式的分類與學習,診斷出故障。
Huang在前人研究的基礎上提出了一種稱為極限學習機(Extreme Learning Machine,ELM)的學習方法,在保留計算精度的同時可以大幅度的縮減訓練的時間。將ELM運用到設備故障診斷中,極大提高了診斷的快速性和準確性。
一、極限學習機研究現狀
ELM自2004年提出就一直受到學者的極大興趣。我們從ELM的理論和應用兩方面進行闡述。
1.1 ELM的理論
對于傳統ELM算法,網絡結構、激活函數類型以及隱層神經元的選擇對其泛化性能都有重要的影響。為了提高計算效率,使得ELM適用于更多應用領域,研究者提出了許多ELM擴展算法。
1.2 ELM的應用
研究人員已嘗試利用ELM方法解決現實中各種模式分類問題。隨著ELM自身理論的進一步發展和完善,在人臉識別、文本分類、醫療診斷等領域中應用廣泛。
二、故障診斷技術研究現狀
故障診斷技術是由于建立監控系統的需要而發展起來的。其發展至今經歷了3個階段。新的診斷技術帶來了領域內算法的革新,設備精密程度的提高也對診斷實時性提出了更高的要求。如何保證故障的快速準確診斷成了診斷技術發展重要內容。
基于神經網絡的故障診斷運用廣泛,然而傳統的神經網絡學習方法存在許多問題。與傳統的神經網絡相比,極限學習機方法通過隨機選取輸入權值及隱層單元的偏置值,可以產生唯一的最優解,并具有參數易于選擇以及泛化能力好等特點,在眾多領域有著廣泛應用。
三、基于極限學習機的故障診斷方法研究
3.1基于ELM的故障診斷流程
(1)數據預處理。按照選取的特征向量和故障類型對故障樣本進行預處理,并將處理后的樣本按比例分為訓練樣本集和測試樣本集。
(2)ELM的學習算法主要有以下3個步驟:確定隱含層神經元個數;隨機設定輸入層與隱含層間的連接權值和隱含層神經元的偏置;選擇隱含層神經元激活函數,進而計算隱含層輸出矩陣計算輸出層權值。
(3)用訓練好的ELM模型對測試樣本集進行分類,并輸出分類結果。
3.2基于改進ELM的故障診斷
篇4
學號:XX
姓名:XX
2020年10月25號
基于深度神經網絡的標題分類研究
XX
摘要:新聞是人們對時事、最新行業相關消息了解的重要途徑,本文將新聞標題作為新聞分類的切入點,由于新聞標題屬于文本中的短文本類別,所以本文主要通過利用深度學習相關方法對新聞標題短文本進行分類,針對前期分類出現過的問題,結合深度學習網絡并引入的SVM 模型,解決新聞分類以及短文本分類過程中的常見困難問題。
關鍵詞:深度學習;SVM;標題分類
1 引言
隨著大數據時代的來臨,我們日常的信息規模呈現出爆炸式增長的趨勢。數據挖掘和人工智能逐漸成為時代的主題??s小信息規模的方法有很多種,而分類就是其中一種極其有效的方式,所以它當前仍是吸引國內外學者研究的重點問題和熱點問題。文本分類是在自然語言處理領域廣泛研究的問題,在工業領域內,現在已經有著較為成熟的應用,無論是樸素貝葉斯還是決策樹又或是最大熵以及神經網絡都在工業領域有著相關應用。而文本分類技術在新聞分類領域的應用仍然有限,當前的文本分類系統大多基于統計學原理再結合相關機器學習方法訓練相關數據集,從而得到所需的分類器并使用其達成對無標簽數據進行分類的目的。在2017 年自然語言處理及中文計算會(NLPCC)也曾對新聞分類相關問題設立相關課題,這也間接表現出了其可能為文本分類領域的發展研究做出較大的貢獻。
由于中文新聞文本分類起步較晚,再加以復雜精深的漢語語法的影響,使得之前關于中文新聞文本分類的研究相比于英文顯得稍微落后,但現在伴隨各種中文新聞語料庫的出現和完善,中文新聞文本分類漸漸走上正軌。以往對新聞進行分類時通常是解析新聞的正文,由于部分新聞的篇幅較長,往往導致了新聞分類時的效率低下。而通過中文新聞標題對中文新聞文本進行分類,相比與傳統的新聞分類來說在分類效率上可以得到很大的優化。除此之外,新聞標題往往是對新聞主題的高度概括,以有限的字數對全文內容進行凝煉,所以這屬于一個短文本分類領域的相關問題。通過對中文新聞標題分類的研究,對短文本分類領域的部分問題有著借鑒意義。
2 算法原理與系統設計
2.1 算法原理
支持向量機(Support Vector Machine ,SVM)的主要思想是:建立一個最優決策超平面,使得該平面兩側距離該平面最近的兩類樣本之間的距離最大化,從而對分類問題提供良好的泛化能力。對于一個多維的樣本集,系統隨機產生一個超平面并不斷移動,對樣本進行分類,直到訓練樣本中屬于不同類別的樣本點正好位于該超平面的兩側,滿足該條件的超平面可能有很多個,SVM正式在保證分類精度的同時,尋找到這樣一個超平面,使得超平面兩側的空白區域最大化,從而實現對線性可分樣本的最優分類。支持向量機中的支持向量(Support Vector)是指訓練樣本集中的某些訓練點,這些點最靠近分類決策面,是最難分類的數據點。SVM中最優分類標準就是這些點距離分類超平面的距離達到最大值;“機”(Machine)是機器學習領域對一些算法的統稱,常把算法看做一個機器,或者學習函數。SVM是一種有監督的學習方法,主要針對小樣本數據進行學習、分類和預測,類似的根據樣本進行學習的方法還有決策樹歸納算法等。
2.2 詳細設計
簡單的Python機器學習實現新聞標題自動分類,爬蟲獲取的新浪新聞的分類,先對新聞進行分詞,手動分類一些分詞后的標題,然后以它為輸入做SVM模型訓練,然后用訓練好的SVM模型對其他標題做預測。
3 系統實現
#news_classify.py
import xlrd
import xlwt
import jieba
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.svm import SVC
def read_data(file, sheet_index=0):
"""讀取文件內容"""
workbook = xlrd.open_workbook(file)
sheet = workbook.sheet_by_index(sheet_index)
data = []
for i in range(0, sheet.nrows):
data.append([x for x in sheet.row_values(i) if x.strip()])
return data
def get_classified_sample():
"""返回手動分類的新聞"""
data = read_data('test.xls')
return {
'經濟': data[1] + data[14] + data[20],
'社會': data[2] + data[3] + data[4] + data[9] + data[17] + data[18],
'政法': data[5] + data[6] + data[7] + data[8] + data[11] + data[13] + data[15] + data[16] + data[19],
'軍事': data[10],
'娛樂': data[12],
}
def classify():
"""進行分類"""
# 一共分成5類,并且類別的標識定為0,1,2,3,4
category_ids = range(0, 5)
category = {}
category[0] = '經濟'
category[1] = '社會'
category[2] = '政法'
category[3] = '軍事'
category[4] = '娛樂'
corpus = []# 語料庫
classified_sample = get_classified_sample()
for k, v in classified_sample.items():
line = ' '.join(classified_sample[k])
corpus.append(line)
data = read_data('test.xls')
# 把未分類的文章追加到語料庫末尾行
# 21開始是因為我手動分類了前20條
for lst in data[21:]:
line = ' '.join(lst)
corpus.append(line)
# 計算tf-idf
vectorizer = CountVectorizer()
csr_mat = vectorizer.fit_transform(corpus)
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(csr_mat)
y = np.array(category_ids)
# 用前5行已標分類的數據做模型訓練
model = SVC()
model.fit(tfidf[0:5], y)
# 對5行以后未標注分類的數據做分類預測
predicted = model.predict(tfidf[5:])
# 結果
# print(len(predicted))
for i in range(len(predicted) - 1):
print(corpus[i + 5], '============》', category[predicted[i]])
if __name__ == '__main__':
classify()
4 實驗或測試結果
程序運行后出現如下界面(一部分):
中巴經濟走廊“圍堵”印度?新華社: 印度想太多了============》娛樂
央行報告:上海已經基本確立國內金融中心地位============》社會
國網北京電力: 北京地區煤改電今年累計破100 萬戶============》娛樂
湖南沅江原市長肖勝利犯三罪判5 年: 為升遷送13 萬============》娛樂
顏寧為何從清華跳槽去普林斯頓?她終于說出原因============》娛樂
國家文物局公布346 萬件全國館藏文物信息供監督============》娛樂
里皮首次對續約中國男足表態:我說了我愿意( 圖) ============》經濟
5 結論
本項目實現的是以標題分類為核心的Python程序的一個簡單嘗試,本項目采用爬蟲獲取的新浪新聞的分類,利用機器學習,深度學習的方法完成了標題分類任務,但模型還有待改進。
參考文獻
篇5
Research on vegetables Disease Diagnosis Model Based on Fuzzy Neural Network
WEI Qing-feng,LUO Chang-shou,CAO Cheng-zhong,GUO Qiang
(Institute of Agriculture Science and Technology Information, Beijing Academy of Agriculture and Forestry Sciences, Beijing, 100097)
Abstract: To explore the effective method for the diagnosis of vegetables diseases, through reasonable division of symptoms, using input vector construction method which contained characteristics of symptoms and membership grade, a vegetables disease diagnosis of fuzzy neural network model was constructed. The experimental results showed that the input vector construction method had effectively expressed the disease diagnosis rule, the model had strong fault tolerant ability, and the average diagnostic accuracy was 85.5%.
Key words: fuzzy neural network; vegetable; disease; diagnosis
收稿日期:2013-01-30
基金項目:國家現代農業科技城綜合信息“三農”服務平臺建設項目(PT01);北京市自然科學基金項目(9093019);北京農業科學院信息所
創新基金項目(SJJ201203)
作者簡介:魏清鳳(1983-),女,湖北武漢人,助理研究員,碩士,主要從事農業信息技術的研究工作,(電話)13439026360(電子信箱)
;通訊作者,羅長壽,副研究員,(電話)010-51503387(電子信箱)。
病害是影響蔬菜優質生產的重要制約因素之一。我國農村基層還相對缺乏有經驗的病害診斷專家,對蔬菜病害不能正確判斷,不但延誤了防治最佳時機,還嚴重降低了蔬菜品質。
當前農業病害診斷技術方法主要有圖像分析診斷[1-4]、專家系統診斷[5-7]以及人工神經網絡診斷[8]等?;趫D像分析的病害診斷方法其圖像的獲取受環境光照的影響較大,且需要專業人員在室內進行數據分析和識別,時效性差,無法實時滿足具體生產實踐的要求?;趯<蚁到y的診斷方法,采用 IF-THEN產生式推理,存在診斷知識獲取有瓶頸、推理規則更新難、容錯能力差、串行搜索運行效率低等不足。近年基于人工神經網絡的方法無需建立推理規則,具有自學習及并行處理能力,較引人注目,但存在對病害癥狀的典型性、非典型性模糊特點無法區分度量,樣本診斷規律學習不充分等問題。模糊神經網絡可以將不確定的癥狀信息通過模糊隸屬集來表示,能解決診斷系統中的不確定性知識表示、并行推理等問題,對具有模糊性復雜性的蔬菜病害診斷非常適用。此文利用模糊系統和神經網絡相結合的方法,在對病害特征模糊量化方法研究的基礎上,建立能夠實際應用的蔬菜病害模糊神經網絡診斷模型,為蔬菜病蟲害防治提供依據。
1 蔬菜病害診斷知識整理
一般研究中,將植株的發病部位劃分為根、莖、葉、花、果5個部分[9]。由于部分蔬菜病害(如猝倒?。┰诿缙诩幢憩F出典型癥狀,因此,為提高診斷的全面性和準確性,將蔬菜植株發病表現最終劃分為根、莖蔓、葉、花、果、苗6個部分。表示如下:
S={Si | i=1,2,3,4,5,6}
式中,Si表示根、莖蔓、葉、花、果、苗6個部分中的1個。
以“北京農業數字資源中心”中蔬菜病害數據庫的知識為基礎,結合文獻資料、植保專家咨詢及案例分析,對病害特征知識根據根、莖蔓、葉、花、果、苗6個部分進行分別提取,建立二維知識表。
2 病害癥狀重要性劃分及隸屬函數
不同癥狀對病害診斷的貢獻程度不同,一些特征明顯的癥狀表現往往是確定某種病害的重要依據。通常用模糊的自然語言來描述癥狀對于病害識別的重要程度,這里將其劃分為典型癥狀、主要癥狀、一般癥狀3個層次(表1)。
將癥狀重要性隸屬函數定義為模糊語言值,根據專家經驗法,確定不同層次的隸屬度如下:
L(Si)=1.0 Si∈a0.7 Si∈b0.4 Si∈c i={1,2,3,4,5,6}
L為Si的隸屬度,a、b、c為癥狀類型。
3 基于術語統一描述的病害癥狀向量構建
一般方法中,直接利用診斷資料的原始文本,以癥狀表現部位為單元賦權值(或隸屬度)作為樣本分量構建輸入向量[10],不僅存在向量攜帶信息量少、向量模長短不一、診斷規律體現不明顯等問題,還容易產生相同的樣本向量對應不同病害種類的錯誤情況,不能較好地對病害原因進行區分,這也勢必影響到診斷的準確性。對此,本方法將原始資料的自然語言樣本映射到共同語義空間中,統一利用病狀病癥的相關術語對癥狀資料的原始文本進行描述,并根據術語的定義值以及癥狀重要性隸屬度來確定語義樣本的樣本值,從而構建輸入向量,能有效豐富向量信息承載量,充分表達診斷規律,具體如下。
3.1 自然語言癥狀的術語映射
本環節即是對原始自然語言病害癥狀資料在共同語義空間中利用相關術語進行統一描述。根據植物學知識,感病植株的外觀病態表現可分為病狀和病征兩大類。共同語義空間的病害癥狀術語如表2所示。
根據病害癥狀表,癥狀的自然語言描述轉化為術語描述。如辣椒枯萎病莖蔓部自然語言癥狀={水浸狀腐爛,后全株枯萎,病部白色霉狀物},經語義空間映射后,S2={濕腐,枯死,霉狀物},其樣本定義值D(S2)為{0,0,2,2,0,1}。
3.2 輸入向量的構建
綜合樣本定義值和癥狀重要性隸屬度,形成具有癥狀特征和癥狀重要性信息的向量。為了降低輸入向量維度,對矩陣中同列均為0值的列進行簡約,形成最終輸入向量矩陣。輸入向量表示為:
Xi={D(S1)×L(S1),D(S2)×L(S2),……,D(Si)×L(Si)}
其中,D(Si)為Si癥狀的樣本定義值,L(Si)為Si癥狀的重要性隸屬度。
4 蔬菜病害診斷模型建立
蔬菜病害診斷神經網絡模型采用模糊BP神經網絡構建(圖1)。模糊系統和神經網絡按串聯方式連接,用模糊系統對原始知識進行前處理,用神經網絡進行病害診斷。
第一層為輸入層,其每一個節點代表一個輸入變量,它將樣本定義值傳遞到模糊層。
第二層為模糊層,基于癥狀樣本定義值和癥狀隸屬度構建輸入向量。
第三層為隱含層,實現輸入變量模糊值到輸出變量模糊值映射。隱含層節點數確定方法如下:
l=■+a 0
式中,l為隱含層神經元個數,n為輸入層神經元個數,m為輸出層神經元個數,a為取值0~10之間的常數。
第四層為輸出層,輸出向量采用“n中取1”的二進制編碼法。其中n為編碼長度,即病害總數。每組編碼中僅有1位為1,其余n-1位為0,表示某一種病害。診斷過程中,最大向元值對應著可疑病害。該最大值若接近0, 則表示發生相對應病害的可能性很小;若接近1,則表明發生相對應病害的可能性極大。
5 診斷測試分析
以番茄白絹病、番茄猝倒病、番茄根霉果腐病、番茄青枯病等19種病害為例,經上文方法構建20維輸入向量(部分輸入如表3),19維輸出向量(部分輸出向量如表4)。設隱層單元15個,目標誤差0.000 1,循環1 000次,采用Levenberg-Marquardt 算法進行訓練,并開發系統界面,對訓練好的模型從診斷容錯性和診斷準確性兩個角度進行分析。
5.1 模型診斷容錯性測試
在實際應用過程中,用戶提供的病害癥狀無法與樣本完全一致,病害典型癥狀被選的可能性最大,但部分主要癥狀和一般癥狀存在A-誤選(提供癥狀與樣本癥狀不一致)、B-多選(提供癥狀多于樣本癥狀)、C-少選(提供癥狀少于樣本癥狀)、A+B-多選及誤選、A+C-少選及誤選的情況,據此選取用戶5組具有代表性測試數據(表5),以番茄潰瘍病為例來檢驗模型的容錯性,輸出結果如表6。
樣本輸出向量中第17位為向元最大值,則表明該輸出結果為番茄潰瘍病。在5組具有代表性的用戶測試數據中,輸出向量的向元最大值始終在第17位,說明診斷模型具有較強的容錯能力。同時,當用戶“誤選”、“多選”,以及“多選+誤選”時,輸出向量第17位向元值分別為0.999 9、0.987 6、0.921 6,接近樣本模擬值1;當用戶“少選”以及“少選+誤選”時,輸出向量第17位向元值分別為0.778 6、0.594 6,較之其他組測試數據,較遠離樣本模擬值1,說明用戶提供的病害癥狀信息越多,進行正確診斷的可能性越大。
5.2 模型診斷準確性測試
將本研究與一般方法中直接利用癥狀權值作為輸入向量的一般神經網絡診斷模型進行準確性比較。測試數據包括兩類,即實驗室根據田間數據資料生成的數據,以及涉農用戶根據實際生產情況進行癥狀選擇操作生成的數據。經植保專家驗證,獲得測試結果平均值見表7。
統計結果顯示,室內室外測試中,基于模糊神經網絡的診斷方法較一般神經網絡在正確率方面均有所提高,說明本研究的思路方案是有效的。其中,實驗室所利用的田間數據資料測試結果好于農戶實際應用。其原因在于,實驗室所使用的田間數據資料較接近文獻資料中的診斷知識,且基于模糊神經網絡的蔬菜病害模型具有較好的容錯性,因此診斷正確率較高。外部基層農戶則完全按照自己在生產中見到的癥狀表現進行選擇操作而形成測試數據,更為真實地反映了模型的實際應用情況。由于實際生產中存在多個病害夾雜同時表現的復雜情況,這一定程度上影響了診斷正確率,因此也說明在該方面努力能進一步提高模型的實用性。
6 小結
利用基于術語統一描述的病害癥狀量化方法,能構建既能描述癥狀特征又能反映癥狀重要性的輸入向量,更能有效地體現病害診斷規律。經過誤選、多選、少選、多選+誤選、少選+誤選的5組測試中,診斷結果仍然能指向正確的病害,模型容錯推理能力較強。將模糊數學方法引入神經網絡中,結合基于術語統一描述的病害癥狀量化方法,建立基于模糊神經網絡的蔬菜病害診斷模型,較之一般基于神經網絡的病害模型,診斷準確性得到了有效提高。
由于農業生產中病害作用的復雜性,今后將在多個病害同時作用的診斷方面進一步努力探索,以提高模型的生產實用性。同時,隨著移動網絡技術的迅猛發展以及移動設備終端的日益普及,將進行蔬菜病害診斷系統的研究,以期為蔬菜病蟲害防治咨詢提供更加便捷、靈活、有效的服務。
參考文獻:
[1] LAI J C, MING B, LI S K, et al. An image-based diagnostic expert system for corn diseases[J]. Agricultural Sciences in China,2010(8):1221-1229.
[2] 李 旺,唐少先.基于圖像處理的農作物病害識別研究現狀[J].湖南農機(學術版),2012,39(1):176-178.
[3] 劉連忠,張 武,朱 誠. 基于改進顏色特征的小麥病害圖像識別技術研究[J]. 安徽農業科學,2010,40(26):12877-12879.
[4] 鄒修國. 基于計算機視覺的農作物病蟲害識別研究現狀[J]. 計算機系統應用,2011,20(6):238-242.
[5] MANSINGH G, REICHGELT H, BRYSON K O. CPEST: An expert system for the management of pests and diseases in the Jamaican coffee industry[J]. Expert Systems with Applications,2007,32(1):184-192.
[6] 林 瀟,李紹穩,張友華,等.基于本體的水稻病害診斷專家系統研究[J].數字技術與應用,2010(11):109-111.
[7] GHOSH I, SAMANTA R K. Teapest:An expert system for insect pest management in tea[J].Applied Engineering in Agriculture,2003,19(5):619-625.
篇6
MSTN基因的研究進展及其應用
制備條件對Ru/ZrO_2·xH_2O催化酯加氫制備醇活性的影響
微波萃取法制備桔??傇碥?/p>
基于DSP的紅外成像電力在線檢測系統的研究
LBG與SOFM應用于矢量量化的比較研究
超寬帶高功率脈沖輻射源氣體開關的研究
高壓直流牽引供電網的初步研究
智能醫用超聲波霧化器的設計
基于Wincc的炭黑裝置監控系統
定點CORDIC算法的誤差控制
基于各向異性擴散的多細節圖像消噪方案
基于S7-300和ACS800的橋式起重機控制系統改造
LiH薄膜制備技術進展
拉普拉斯方程有限差分法的MATLAB實現
關于不定方程組y~2-10x~2=9,z~2-17x~2=16
關于不定方程x~2+49~n=y~3的唯一整數解
基于非單調線搜索的無記憶擬牛頓法的全局收斂性
不動點、壓縮映射原理的進一步研究
弱橫向擾動下的熱塵埃等離子體中的塵埃聲孤波
時間域上拋物型方程正反演解的穩定性分析
Frattini子群的一些推廣
不動點定理在微分方程中的應用
超空間F_1(X)的可縮性
熱傳導方程反問題的數值解法
一類時滯廣義系統的魯棒控制
距離矢量路由算法的改進方案
基于JSP的電子郵件系統設計與實現
基于web的自適應學習系統的研究與設計
一種改進的基于分布式Caching的自適應搜索機制
Linux下嵌入式動態Web技術設計實現
基于窗函數的FIR濾波器的設計
力學試題庫管理系統的開發
單片機C51與匯編語言混合調用的實現
基于P2P覆蓋樹網絡的流媒體傳輸技術
數字校園信息顯示系統建設方案研究溫度對長鏈α-烯烴溶液聚合法合成原油減阻劑的影響
β-環糊精與常用的兩種光譜探針包絡作用對比研究
微波技術在竹漿漂白中的應用
基于蟻群尋路的圖像分割算法
公交車自動報站系統的設計
基于遺傳BP神經網絡的非平穩時間序列預
基于BP算法的神經網絡內??刂破?/p>
基于51單片機的可變調音樂演奏系統
基于神經網絡對光纖智能結構的損傷評估
基于改進互信息的特征提取的文本分類系統
CTIA型讀出電路的噪聲抑制
離心流化床的基本原理及發展趨勢
電驅微差6R關節型開鏈機械手工作空間運動學逆解
焦磷酸鹽鍍銅工藝研究
篇7
1.1 流程分析
本文需求并不要求更智能化的識別方式,而是通過語義分析法,通過對特殊關鍵詞和關鍵詞組合的方式進行識別得到文本分類結果。本文的研究內容主要用于識別和分析500字符之內的自然文本。這部分自然文本主要應用在對網絡頁面文本進行分析,同時用于對捕捉到的超文本標識代碼進行內容文本和代碼段的識別,業務流程圖如圖1所示。
1.2 模塊分析
傳統語義分析算法來自人工輸入的特定文本之間的判斷,一般語義分析算法只能識別80~120個關鍵詞[5]。但此種規模的識別字典完全不能適應本文要求對自然文本的識別,所以本文采用三層識別方法見圖2。
P1.1:根據固定關鍵詞,識別超文本標識語言中的標識段數據,并將其剔除。
P1.2:根據自學習關鍵詞,識別自然文本中的關鍵詞,根據詞頻和關聯度進行價值估計。
P1.3:根據自學習關鍵詞,識別自然文本的含義,評估不同文本段之間的相似度,對文本段進行歸納整理。
而本軟件的自學習部分(P2)不從傳統的人工智能算法中得到關鍵詞字典,而是采用語義分析中常用的聯系算法進行關鍵詞管理[6]。自學習部分放在云端服務器上,自學習結果采用軟件更新的方式發送到客戶端。自學習產生的流量來自服務器與互聯網之間的聯系,并不占用GPRS通道。
軟件的移動端部分(P3)通過相對固定的關鍵詞字典集合,根據實際分析得到的數據匹配結果進行遠端比較,但大部分數據需要提交到P1模塊進行局端比較。在移動端形成比較字符串后,可以較大程度地實現GPRS鏈路的數據最小化。
1.3 數據流分析
P1模塊輸入數據D1.1為P1.1的關鍵詞字典數據,該數據以數據庫表的形式保存在數據庫中,形成表dataPinSOL。該數據主要用于輔助識別字段中的無信息量字符串,如超文本標識語言中的標識字符串等。
P1模塊輸入數據D1.2為P1.2的關鍵詞字典數據,該字典數據來自自然文本中經常出現的字符串,以及用戶易搜索的字符串。這部分字符串來自對海量信息的比較,海量信息來自互聯網遍歷捕捉文本和搜索引擎的采集文本。
P1模塊輸入數據D1.3為P1.3的關鍵詞字典數據,該字典數據來自對D1.2數據進行進一步挖掘得到的與D1.2數據經常合并出現的字典數據。這部分字典數據同樣來自語義分析的分析法。
因為本文算法不采用無限遞歸法[7],而是采用了三層計算的架構,而將語義分析段代碼用于多層不限制遞歸。所以P1模塊的數據流相對簡單。P1模塊的輸出數據流為DL1,定義為比較結果字符串。該字符串作為搜索引擎對語義識別的結果字符串,不具備人腦識別的功能,但可以在計算機論文中給自然語言提供鏡像,可以讓較為模糊的自然語言在計算機中得到識別和模糊對比。
P2有兩個輸入量,P2.1來自合作搜索引擎的搜索字符串數據,該數據運行在光纖數據干線上,數據量較大,不會在GPRS鏈路中出現。此部分合作搜索引擎的數據采集內容主要包括搜索字符串,搜索時間,發生IP,發生IP地域,捆綁賬號等。P2.2來自網絡隨機遍歷采集的各種超文本,這些超文本數據采用單字段采集和多關鍵詞分析的方式進行挖掘,所以數據結構較為簡單。
2 算法設計
因為篇幅限制,本文僅討論和展示部分核心代碼和算法的設計,較復雜的算法過程不再給出偽碼。P1.1是超文本對比算法,超文本對比算法使用了最經典的語義分析算法。而P1.2和P1.3采用的算法是在經典的語義分析算法的基礎上做的擴增[8],這部分擴增可以讓語義分析算法更加適用于自然語言下的文本分類。
本文算法的最主要成果是使用最小的CPU和RAM資源,對自然語言文本進行比較,從而獲得更高效的適應當前互聯網云服務市場的軟件[9]。
2.1 超文本對比函數算法(P1.1局部)
讀字典數據表,做對比循環函數。
對比循環函數偽碼如下:
OPEN TABLE DICT
DO WHILE DICT NOT EOF
GET DIG_DICT RECORDSET FORM DICT
OPEN TEXTFILE
GET L_DIG_DICT LENTH DIG_DICT
FOR I 0 TO LENTH TEXTFILE
GET T_TEXTFILE MIDDLE TEXTFILE I L_DIG_DICT
GET SUMSHOW COMPARE DIG_DICT T_TEXTFILE
NEXT I
LOOP
RETURN SUMSHOW
2.2 數據邏輯網絡的實現(P1.2局部)
數據邏輯網絡主要是在數據庫中使用數據結構實現數據的邏輯網絡,每個數據都有若干個上級數據和若干個下級數據[10]。每個單個數據一般不超過15個漢字(32字符)。上級數據和下級數據使用專用字段存儲,每個字段使用二維數組的方式進行管理。二維數組包括目標字符串(32字符),響應頻率,最后響應時間3項。
為了充分調動數據邏輯網絡,采用了全新的遍歷算法,對每個記錄下的兩個二維數組字段進行分別遍歷,以對文章內容進行逐一比較和計算。在比較中同時記錄其他詞語的詞頻,進一步對兩個二維數組字段進行維護和更新。因為篇幅限制,只在本文模型下進行設計分析。
2.3 文本相似度評估算法(P1.3局部)
本文采用的文本相似度評估算法分為兩段:
第一段對輸入文本進行比較評估,對字典中每個關鍵詞進行詞頻分析,同時對關鍵詞出現的位置進行[t]檢驗和[χ2]檢驗,將結果使用Minmax處理為(0,1)值域。將每個處理結果進行匯總制表。與此同時,將輸入文本與每個關鍵詞的關聯詞進行詞頻分析,同時對關鍵詞的關聯詞位置進行[t]檢驗和[χ2]檢驗,將結果同樣使用Minmax處理為(0,1)值域。Minmax結果設計為小數點后12位小數。將每個處理結果進行匯總制表。
第二段將第一段中形成的兩個數據表與系統中存儲的數據表進行[t]檢驗和[χ2]檢驗,獲取檢驗結果的[P]值。當[P<]0.05時,認為兩篇文章具有相似度,且[P]值越小,文章的相似度越高。本文算法經過檢驗,完全相同的兩篇自然語言文章輸入系統后,兩篇文章的[P]值接近于0,表示本文算法擁有較高的識別性。
3 結 語
本文就基于語義分析在計算機技術文本分類中的應用進行了軟件工程分析和設計,在面向對象的設計模型中,本文實現了不使用任何神經網絡遞歸算法就可以得到高效率的軟件系統。這個算法系統可以在移動互聯網設備中得到較廣泛的應用。
篇8
篇9
中圖分類號:TP319
文獻標識碼:A 文章編號文章編號:16727800(2016)011013403
0 引言
中國是世界上最大的煙草生產國和消費國[1]。煙草銷售是煙草行業管理中最為關鍵的部分,準確的煙草銷售預測能為煙草生產、運輸、配送提供指導,而要進行準確的煙草銷售預測必須找到合適的預測方法。因此,如何設計高精度的煙草銷售預測方法是煙草行業管理的重要課題。
傳統煙草銷售量預測方法的研究主要集中在對煙草零售經營者訂單的管理分析中,而且采用銷售人員意見匯總法、德爾菲法(經理及員工的意見)等為主的人工預測方法[2]。這種人工預測方法業務流程較多,浪費大量的人力、物力,并且還可能引起煙草資源分配的不公平,難以滿足市場需求。從機器學習的角度上看,煙草銷售量的預測屬于回歸問題[3],而回歸包括線性回歸和非線性回歸。文獻[4]在對煙草銷售量數據進行分析的基礎上,提出了一種線性預測模型,但由于煙草銷售量受季節、人口、市場、節假日等一系列因素的共同影響,并不適合采用線性回歸方法進行預測。在非線性回歸方法中,較為常用的有神經網絡和支持向量機(SVM)。文獻[5]基于BP神經網絡對煙草銷售量進行建模并預測,而神經網絡是基于經驗風險最小化,不僅泛化能力較差,而且存在局部極小點問題[6],因此神經網絡雖然對原始數據的擬合能力較強,但對未來數據的推廣能力較差,而對未來數據的推廣能力往往更能反映學習機器的實用價值。支持向量機基于結構風險最小化,泛化能力強且預測精度高。因此,本文采用支持向量機方法對煙草銷售量進行建模預測。
1 支持向量回歸機
2 預測方法
2.1 數據預處理
本文收集到了云煙品牌一個品類2006年1月~2011年10月共6年的銷售數據,銷售數據信息中包括銷售量、銷售日期(年月日)、倉庫編號、發票信息、審核人信息等,其中對銷售量預測影響最大的是銷售日期及對應的銷售量。由于中國的香煙銷售對陰歷呈現出更強的規律性,因此將銷售統計數據轉換為以陰歷月為標準。
2.2 數據歸一化處理
由表1可以看出,各列數據屬性不同,數值范圍相差較大。為避免數值范圍較大的屬性控制數值范圍較小的屬性,使數據具有統一性和可比性,將屬性值都歸一化[10]為[0,1]之間。歸一化所用公式為:
2.3 模型定階
由于煙草銷售量預測屬于經濟預測,因此它不僅與當前日期有關,更與之前的銷售信息有關。為確定當前銷售量與前多少個月的銷售信息關系最大,需要通過拓階[11]的方法來確定。
設煙草銷售量數據的一個樣本為{yi,yeari,monthi},yi為第i個樣本中的煙草銷售量,yeari為當前年份,monthi為當前月份。其中,yeari和monthi為樣本的自變量,yi為樣本的因變量。通過拓階能夠更為準確地得到自變量和因變量的函數依賴關系。當階數為n時,表示將前n個樣本中的信息添加到當前樣本中的自變量中。即用前n個月的銷售信息和當前年月來預測當前銷售量。此時,自變量總數為(3×n+2),其中n為階數。通過SVM由低階到高階逐步進行拓階,模型每拓一階,自變量相應地增加 3個。對于每一次的拓階,以MSE最小為標準決定是否接受拓階。設SVM(n)為拓階n次后的模型,SVM(n+1)為拓階n+1次后的模型,比較兩者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓階,并進行下一步拓階;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓階,并停止拓階,最終得到最優階數n。通過對煙草數據的拓階,得到拓階結果如圖2所示。
2.4 回歸模型的參數選擇
當訓練模型確定后,通過支持向量回歸機進行預測。由于徑向基核函數的準確率較高,并且大多數SVM默認的核函數也是徑向基核函數[12],本文亦采用徑向基核函數。
3 實驗結果與分析
以云煙數據集為例,選擇2006年1月-2010年12月的銷售量數據為訓練樣本,以2011年1-10月的銷售量數據為測試樣本。在本文算法實現過程中,實驗環境配置如表2所示。
4 結語
通過預測煙草銷售量可以提前了解煙草的銷售動態,為煙草物流、倉儲等部門提供決策依據。本文基于支持向量機建立煙草銷售預測的多維時間序列模型。實驗證明,根據本文方法建立的模型所預測的結果與實際結果基本一致,能夠比較準確地反映煙草銷售量的變化趨勢。對比實驗也證明,與其它幾種方法相比,本文方法預測誤差最小。綜上,本文所述方法是合理有效的,可以應用到實際煙草銷售量預測中。
參考文獻:
[1] 蔣德B.我國煙草業國際化戰略研究[J].北方經濟,2012(14):9495.
[2] 利普?科特勒,洪瑞云,梁紹明,等.市場營銷管理 [M].亞洲版?2版.北京:中國人民大學出版社,2001.
[3] 鄭逢德,張鴻賓.拉格朗日支持向量回歸的有限牛頓算法[J].計算機應用,2012,32(9):25042507.
[4] 張素平.基于乘法模型的內蒙古烏蘭察布市卷煙總銷量預測研究[J].內蒙古科技與經濟,2012(21):3335.
[5] 仲東亭,張h.BP神經網絡對煙草銷售量預測方法的改進研究[J].工業技術經濟,2007,26(9):115118.
[6] 劉蘇蘇,孫立民.支持向量機與RBF神經網絡回歸性能比較研究[J].計算機工程與設計,2011,32(12):42024205.
[7] 鄧乃揚,田英杰.數據挖掘的新方法――支持向量機[M].北京:科學出版社,2004
[8] 肖建,于龍,白裔峰.支持向量回歸中核函數和超參數選擇方法綜述[J].西南交通大學學報,2008,43(3):297303.
[9] 單黎黎,張宏軍,張睿,等.基于主導因子法的裝備維修保障人員調度值預測[J].計算機應用,2012,32(8):23642368.
[10] 彭麗芳,孟志青,姜華,等.基于時間序列的支持向量機在股票預測中的應用[J].計算技術與自動化,2006,25(3):8891.
[11] 向昌盛,周子英.基于支持向量機的害蟲多維時間序列預測[J].計算機應用研究,2010,27(10):36943697.
[12] 譚征,孫紅霞,王立宏,等.中文評教文本分類模型的研究[J].煙臺大學學報:自然科學與工程版,2012,25(2):122126.
[13] CHERKASSKY V,MULIER F.Learning from data: concepts,theory and methods[M].NY:JohnViley&Sons,1997.
[14] YONG M,XIAOBO Z,DAOYING P,et al.Parameters selection in gene selection using Gaussian kernel support vector machines by genetic algorithm[J].Journal of zhejiang university science B,2005,6(10):961973.
篇10
自動找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時發出帶有具體地點方位信息的警報。
自動判斷人群的密度和人流的方向,提前發現過密人群帶來的潛在危險,幫助工作人員引導和管理人流。
醫療
對醫學影像進行自動分析的技術。這些技術可以自動找到醫學影像中的重點部位,并進行對比比分析。
通過多張醫療影像重建出人體內器官的三維模型,幫助醫生設計手術,確保手術
為我們每個人提供康建議和疾病風險預警,從而讓我們生活得更加健康。
智能客服
智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對問題的意義進行分析(比如客戶是詢問價格呢還是咨詢產品的功能呢),進行準確得體并且個性化的回應。
自動駕駛
現在的自動駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達、衛星定位系統(北斗衛星導航系統BDS、全球定位系統GPS等)等,來對行駛環境進行實時感知。智能駕駛系統可以對多種感知信號進行綜合分析,通過結合地圖和指示標志(比如交通燈和路牌),實時規劃駕駛路線,并發出指令,控制車子的運行。
工業制造
幫助工廠自動檢測出形態各異的缺陷
3. 概念什么是人工智能?
人工智能是通過機器來模擬人類認知能力的技術。
人工智能的三種訓練方式分別是監督學習、非監督學習、強化學習。下文會一一介紹。
二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征
花瓣數量、顏色
人工設計特征
先確定哪些特征,再通過測量轉化為具體數值
深度學習特征
這里先不提及,文章后面會說
2. 感知器
老師給了一道題:
要區分兩種鸞尾花,得畫出一條直線區分兩類花,你可以畫出無數條直線,但是哪條才是最好的呢?
怎么辦呢?我可是學渣啊,靠蒙!
隨便找三個數a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,
每朵花的兩個特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預測] = 1,此時 y[實際] = 1 (樣本設定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實際] – y[預測] = 0.
重復以上兩步,得出所有的『實際值和預測值的差距的綜合,記為 Loss1
可怎么知道是不是最優的直線呢?繼續猜啊!繼續懵!像猜世界杯一樣猜就好了。
通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導數,高中有學的?。┫陆档姆较蚶^續猜數字,具體過程大概是這樣子的:
上述所屬的實際值和預測值的差距 實際上是一種損失函數,還有其他的損失函數,比如兩點間直線距離公式,余弦相似度公式等等可以計算預測結果和實際結果之間的差距。
劃重點:損失函數就是現實和理想的差距(很殘酷)
3. 支持向量機
*判斷依據的區別也導致了損失函數的不同(但依舊是猜)
直觀的說,縫隙(上圖的分類間隔)越大越好
4. 多分類
如果有多種花怎么辦?
一趟植物課上,老師請來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。
老師綜合了各位專家的意見后,告訴同學們,這是一盤梅花。
小明:這老師是不是傻,一朵花是啥都不知道,還要請三個專家
老師:你給我滾出去
實際計算過程就是通過用 2.2 和 2.3 等方法訓練的二分類器,分別輸出對應的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉化成概率呢?這就要用到歸一化指數化函數 Softmax(如果是二分類就用 Sigmoid函數),這里就不拿公式來說,可以直觀的看看書中這個表格就懂了:
5. 非監督學習第 2.2 能從預測值和實際值的差別判斷”是否猜對了”,是因為生物老師告訴了學渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實際的類別也不告訴學渣(非監督式學習),學渣不知道樣本分別是什么花。
那該怎么辦呢?
機器學習的入門課程總是在講鸞尾花,也是夠煩的。
這里我們換個場景:
假如你是某直播老板,要找一堆小主播,這時候你有一堆應聘者,然而你只有她們的胸圍和臀圍數據。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應該怎么挑選呢?
這時候你把她們的胸圍和臀圍都標準在一張二維坐標圖上:
這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。
用某種計算方式(比如平均值)找到這個聚類的中心。點離聚類中心越近,代表越相似。
求出每個聚類中的點到藍色聚類中心點和黃色聚類中心的距離
如果一個點離黃色聚類中心更近卻被你隨手劃到了藍色分組(上圖用紅色邊框標出的小方塊),那么就把它劃入黃色分組。
這時因為分組范圍和分組內包含哪些小姐姐都發生了變化。這時候你需要以 步驟3 的方法重新計算聚類的中心
重復步驟 4 (算點中心距離)-> 重復步驟 5 (調整黃色小姐姐們和藍色小姐姐們)-> 重復步驟 3 (算中心),一直循環這個過程直到藍色和黃色聚類下所包含的小姐姐不再發生變化。那么就停止這一循環。
至此,小姐姐們已經被分為兩大類。你可以得出兩類小姐姐:
計算機在沒有監督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個到平臺看看誰更能干。效果更好的,以后就以那個聚類的樣本特征擴充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干
老師:你給我滾出去
上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓練過程可以看下圖,有個直觀的了解:
三、這是什么物品(圖像識別)1. 特征提取人類感官特征
花瓣顏色、花瓣長度、有沒有翅膀(區分貓和小鳥)、有沒有嘴巴和眼睛(飛機和小鳥)
感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網格)數值特征
人工設計特征
深度學習特征
通過卷積提取圖像特征
劃重點:卷積的作用就是提取圖像有用信息,好比微信把你發出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內容。
1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2維卷積 1*2+3*0+2*4+4*2=28…
通過卷積就可以得到圖像的特征信息,比如邊緣
垂直邊緣檢測
水平邊緣檢測
方向梯度直方圖
2. 深度學習和傳統模式分類的區別既然有傳統模式分類,為什么還要神經網絡呢?
區別就在于傳統的模式分類需要人為設置特征,比如花瓣長度、顏色等等。而深度學習省略掉人工設計特征的步驟,交由卷積操作去自動提取,分類器的訓練也同時融入到神經網絡當中,實現了端對端的學習
劃重點:端對端學習(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價。
3. 深(多)層神經網絡存在的問題一般來說,神經網絡層數增多,會提高準確率。但是,網絡層數加深導致:
過擬合學渣把高考預測試題的答案都背一遍而不理解,考試的時候,如果試題是考生背過的,那么考生就能答對;如果沒背過那么考生就不會回答了。我們就可以說,學渣『過擬合了預測試題。
與之對應的是:欠擬合渣得不能再渣的人,連預測試題都背不下來,即使考試試題和預測試題一模一樣,他也只能答對30%。那么就可以說這種人~~欠揍~~欠擬合。
有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網上很火很勵志的一個公式,權重在多層網絡中相乘,比如每一層的權重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學習過程中,學習將變得非常慢。(好比從一個碗頂部放下一個小球,在底部徘徊的速度會越來越慢)
非凸優化學習過程可能在局部最小值(極小值)就停止了,因為梯度(斜率)為零。在局部最低停止而不是全局最低停止,學習到的模型就不夠準確了。
看圖感受一下
你說的底不是底,你說的頂是什么頂
解決的辦法
均勻初始化權重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠鏈接(Shortcut)涉及到比較多數學邏輯,這里就不展開說明了。
4. 應用人臉識別
自動駕駛把汽車頂部拍攝到的圖片切分層一個個小方塊,每個小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識別各種交通標識等等。再配合雷達等判斷物體距離。
四、這是什么歌(語音識別)1. 特征提取人類感官特征音量、音調、音色
通過采樣、量化、編碼。實現聲波數字化(聲波轉電信號)
人工設計特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內人對低頻聲音比較敏感而對高頻聲音不敏感)。
關系為:
在每一個頻率區間對頻譜求均值,它代表了每個頻率范圍內聲音能量的大小。一共有26個頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(Mel-FrequencyCepstralCoefficients,MFCCs)
深度學習特征通過 3.1 所介紹的 1維卷積進行特征提取
2. 應用音樂風格分類
輸入:音頻文件特征:聲音特征輸出:音樂種類
語音轉文字
輸入:音頻文件特征:聲音特征輸出:聲學模型(比如26個英文字母)
再把聲學模型送入另外的學習器
輸入:聲學模型特征:語義和詞匯輸出:通順的語句(可以查看第6點,如何讓計算機輸出通順的語句)
聽歌識曲通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個特征向量。對數據庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計算相似度(兩個向量的距離可以用余弦公式算夾角大小或者兩點間距離公式來算)
五、視頻里的人在做什么(視頻理解,動作識別)1. 介紹視頻,本質是由一幀幀圖片連續組成的,因為人視覺的暫留效應(Persistence of vision,人眼在觀察景物時,光信號傳入大腦神經,并不立即消失,讓人產生畫面連續的印象),看上去是連續的,也就是視頻。識別視頻里面有什么物體,可以用上文說過的圖像識別和分類方法去實時分析單幀圖像,比如:
但是視頻相對于圖像有一個更重要的屬性:動作(行為)。
怎么從一個連續的視頻分析動作呢?
舉個例子,像上圖那只二哈,腿部的像素點相對于黃色的方框(框和狗相對靜止)在左右”移動”,這里的”移動”我們引入一個概念——光流(一個像素點從一個位置移動到另一個位置),通過像素點移動形成的光流作為神經網絡的訓練特征(X),『奔跑作為訓練目標值(Y),經過多次的迭代訓練,機器就可以擬合得出一個 Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。
2. 光流假設,1)相鄰兩幀中物體運動很小2)相鄰兩幀中物體顏色基本不變
至于神經網絡是怎么跟蹤某個像素點的,這里不展開說明。
第 t 時刻的點指向第 t+1 時刻該點的位置,就是該點的光流,是一個二維的向量。
整個畫面的光流就是這樣:
整個視頻的光流(軌跡)是這樣的
不同的虛線代表圖像上某個點移動的軌跡
假設視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經網絡即可進行分類訓練。
進一步優化,可以把光流簡化為8個方向上的,把視頻某一幀的所有光流累加到這八個方向上得出某一幀的光流直方圖,進一步得出 8 維的特征向量。
六、一段文字在表達什么(自然語言處理)1. 特征提取
這里有4個句子,首先進行分詞:
去掉停用詞(副詞、介詞、標點符合等等,一般在文本處理上都有一個停用詞表)
編碼詞表
句子向量化
這樣就得到一個句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網絡或者 LSTM 循環神經網絡作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓練標簽值 Y,迭代訓練得到的模型可以用于情感分析或文本分類等任務。
2. 進階詞向量化厲害-牛逼、計算機-電腦是同義詞。光從上面的步驟,我們可能認為厲害和牛逼是兩個完全不一樣的詞語,但其實他們是近似的意思,怎么才能 AI 學習知道這點呢?需要從多個維度去進一步給詞語更豐富的內涵,比如:
舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個維度擴展之后,就得到“男人”這個詞的特征向量(1,0, 0.5,0,1)
逆向文檔頻率一個詞在一類文章出現的多,而在另外分類的文章出現的少,越能說明這個次能代表這篇文章的分類。比如游泳在體育類的文章中出現的多(2次),而在工具類的文章出現的少(0次),相比其他詞語(1次)更能代表體育類的文章。
假設句子中有 N 個詞, 某個詞出現次數為 T,一共有 X 個句子,該詞語在 W 個句子出現,則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)
3. 應用
七、讓計算機畫畫(生成對抗網絡)從前有個人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:
第一次他畫成這樣子了:
鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫…
經過了10萬次”畫畫-鑒別”的過程,這個臨摹者畫出來的畫,鑒賞家居然認為這是真的原作,以高價買入了這副畫。
這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對抗網絡(GAN)的核心。
通過生成器,把隨機像素點有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實畫面之間的差距,并告訴生成器要往什么方向去優化。多輪的訓練之后,生成器就學會了畫『真畫了。
計算機是怎么把隨機像素點變成有意義的畫面的呢?我們通過一個簡化的例子來看看。
直線上一些均勻分布的點,經過 y=2x+1變換后變成了非均勻分布。一張隨機排布的像素點畫面,經過某個f(x) 變換后就會變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。
下圖為計算機生成手寫數字的過程
劃重點:函數可以變換數據分布(庫克說:可以把直的變成彎的)
八AlphaGo是怎么下棋的?(強化學習)1. 粗略認知監督/無監督訓練:盡可能讓每一次任務正確強化學習:多次任務是否達成最終目標
每一次任務都準確,不就是能達成最終目標嗎?我們來看一個例子:
一家批發商店的老板愛麗絲要求她的經理比爾增加銷售額,比爾指導他的銷售員多賣一些收音機,其中一個銷售員查爾斯弄到了一個可以獲利的大單,但是之后公司因為供應緊缺無法交付這些收音機。
應該責怪誰呢?
從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務沒完成)。
但是從比爾的角度,查爾斯成功地完成了他的銷售任務,而比爾也增加了銷量(子任務達成)?!缎闹巧鐣返?.7章
2. AlphaGo下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個空的位置就是一個分支,然后預測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預測器。
但是由于圍棋19X19的超大棋盤,空間復雜度高達10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。
要降低復雜度,關鍵是要降低搜索的廣度和深度。
我們栽培一顆小盆栽的時候,如果不對枝葉進行修剪,那么養分就會浪費在沒長好的枝條上。需要及時對枯萎或者異常的枝條進行修剪以保證養分往正常(或者說我們希望它生長的方向)枝條上輸送。
同樣的道理,有限的計算機算力如果浪費在窮盡所有圍棋走法上,將導致棋局推演非常慢,而且耗費大量的時間也難以找到最優的方案。
是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹,加快較優落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價值評估器(哪個棋盤的贏的概率更大),把沒有價值的棋局先去掉不再往下遍歷,這就同時減少了搜索的廣度和深度。
其中,落子預測器有個名稱,叫做政策網絡(policy network)價值評估器有個名稱,叫做價值網絡(value network)政策網絡(policy network)利用蒙特卡洛搜索樹從當前棋局推演(隨機下棋)到最終的棋局,最終勝則回報為正,反之回報為負。之后該算法會反向沿著該對弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分數提高,與此對應將敗者的落子方案分數降低,所以之后遇到相同局面時選擇勝者方案的概率就會增加。因此可以加速落子選擇,稱為快速走子網絡。
通過 政策網絡 + 價值網絡 + 蒙特卡洛搜索樹 實現最優落子方案的選擇,同時兩個機器人互相對弈,這樣就不停地訓練網絡,學習落子方案。
3. 定義接下來說一下枯燥的定義
什么是強化學習?
當我們關注的不是某個判斷是否準確,而是行動過程能否帶來最大的收益時使用強化學習(reinforeement learning)。比如在下棋、股票交易或商業決策等場景中。
強化學習的目標是要獲得一個策略(poliey)去指導行動。比如在圍棋博弈中,這個策略可以根據盤面形勢指導每一步應該在哪里落子;在股票交易中,這個策略會告訴我們在什么時候買入、什么時候賣出。
一個強化學習模型一般包含如下幾個部分:
一組可以動態變化的狀態(sute)
對于圍棋棋盤上黑白子的分布位置對于股票交易來說,就是股票的價格
一組可以選取的動作(metion)
對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點,買入或者賣出的股票以及數量。
一個可以和決策主體(agent)進行交互的環境(environment)這個環境會決定每個動作后狀態如何變化。
篇11
搜索引擎技術自誕生之日起就成為互聯網中最吸引人的技術之一,各種商業化的搜索引擎已經成了人們使用互聯網時不可缺少的工具。傳統搜索引擎的工作原理是服務提供商利用網絡爬蟲(Web crawler,也被稱作網絡蜘蛛(Web spider)或網絡機器人(robot),通過一些種子站點按照深度優先或者廣度優先的搜索策略對可以爬行到的資源進行掃描、下載,并將下載的信息以快照或全文方式存儲在數據庫中,建立相關索引,當用戶在搜索引擎的用戶界面中輸入搜索關鍵字后,搜索引擎訪問數據庫,返回數據庫中與搜索關鍵字匹配的紀錄。隨著互聯網中網頁資源的快速增長,傳統的搜索引擎在某些方面的缺陷也越來越明顯:①搜索結果不夠全面。傳統搜索引擎希望鏡像整個Web世界,搜索引擎追求的是盡量多的處理及存儲網絡爬蟲爬回的網頁,但不同的搜索引擎由于受到服務器位置、網絡帶寬、爬行算法、服務器容量等因素的影響,服務器中存儲的資源是有限的,任何一個搜索引擎不可能存儲并索引網絡上所有的網頁信息。即使是全球最大的搜索引擎Google,其索引的頁面數量也僅占Web總量的40%左右。②搜索周期增加,影響信息的實效性。隨著Web資源的快速增長,傳統搜索引擎網絡爬蟲的爬行周期不斷增加,數據庫更新時間越來越長。每一個網頁都有自己的生命周期,網頁的更新速度可能會快于搜索引擎數據庫的更新速度,當搜索引擎把數據庫中已經過期的信息反饋給用戶時,用戶可能根本無法打開相關鏈接或者打開的是過期的網頁。③搜索結果的針對性不強。用戶輸入一個關鍵字后返回很多結果,但存在大量重復,很多結果并不是用戶需要的。通過對歐洲和美國9個主要的搜索引擎日志的統計分析,認為用戶對于搜索結果的查看呈減少趨勢。普通用戶僅僅會察看搜索引擎返回的前若干條數據,對于其他搜索結果,很多用戶沒有耐性全部看完。不同專業背景的人,對于同一個關鍵詞的理解可能大相徑庭,同樣的“蘋果”一詞,有人可能理解成為食品,有人可能理解成為蘋果公司或者其IT產品。
鑒于傳統搜索引擎的這些缺陷,一些學者提出了垂直式搜索引擎的概念,即該搜索引擎不以爬行所有的Web頁面為目標,僅僅在互聯網中快速爬行某一部分Web頁面并存儲,這樣的搜索引擎既可以節約網絡帶寬資源,又可以縮短搜索引擎數據庫的更新周期,使搜索引擎得到實時性更好的網頁。De Bra等最先提出的主題爬行(topic crawling)搜索引擎通過限定爬行主題,提高了搜索精度,成為垂直式搜索引擎的代表。主題爬行技術的核心是爬行策略與算法,本文從主題爬行技術的基本原理出發,對其策略進行分類,沿著爬行策略及算法的改進,分析了主題爬行策略與算法的研究熱點,為主題爬行技術的進一步研究提供參考。
1 主題爬行原理
主題爬行是在傳統網絡爬行技術基礎上,加入文本分類、聚類以及Web挖掘等相關技術用于捕獲特定主題的Web信息。主題爬行技術的應用可以提高搜索精度,降低搜索引擎對網絡資源的占用,縮短搜索引擎數據庫的更新周期?;谥黝}爬行技術的搜索引擎與傳統搜索引擎最大的區別在于:該搜索引擎的網絡爬蟲是面向主題的。傳統搜索引擎的網絡爬蟲在爬行過程中采用的是“通吃”策略,不分類別、不分內容全部爬行并下載;基于主題的網絡爬蟲在爬行前或者爬行過程中根據已經爬行的結果有選擇性的進行預測下一步爬行并下載。
主題爬行過程通常由三部分構成:①分類器(clas―sifter),主要對已抓取網頁的元素進行計算,判斷其主題相關度,確定是否對該網頁中所包含的超級鏈接進一步抓?。虎谔崛∑?distilIer),該模塊存儲待下載隊列,并確定待下載隊列的優先級;③爬行器(crawler),該模塊在分類器和提取器的指導下,執行網頁抓取工作。主題爬蟲的爬行過程為爬行器根據不同的爬行策略執行爬行操作,抓取網頁送人分類器中,分類器對已經抓取的網頁進行處理,根據設定主題及其域值判斷該網頁的主題相關性,結合其他參數,確定是否對該網頁包含的超級鏈接進一步爬行。如果爬行,則送入提取器中的隊列,由提取器根據隊列規則確定其爬行優先極。Chakrabarti等人 1999年正式提出了個性化主題搜索引擎的概念,該搜索引擎不以傳統的關鍵詞作為搜索內容,而是在某一限定范圍內,通過計算Web頁面內容與主題的相關性,決定主題爬蟲是否值得進一步搜索。其中,主題是由一些范例文檔來確定的,該主題爬蟲實時查找與文檔詞典有相關性的網頁,保證了搜索頁面的時效性與針對性。
2 主題爬行基本爬行策略與算法
主題爬行技術的核心是爬行的策略與算法,由于主題爬蟲與傳統網絡爬蟲在爬行目標上有很大差別,因此,除了采用傳統網絡爬蟲的爬行策略之外,主題爬蟲在爬行過程中還要采用有效爬行策略與算法盡快爬到并抓取與主題相關的網頁。Sotiris Batsakis等人將主題爬行策略分成三類:經典主題爬行策略、改進的主題爬行策略、基于語義的主題爬行策略。經典爬行策略主要指主題爬行的“魚群搜索策略”(fish search),改進的主題爬行策略主要指“鯊魚搜索策略”(sharksearch)、“最優最先(best first)搜索策略”等。
魚群搜索策略是以“魚群搜索算法”(fish algo―rithm)為基礎的主題爬行策略,魚群搜索算法是一種基于群體動物行為的智能優化算法,該算法模仿魚群在覓食和繁殖時的表現,動態調整種群的個數。在魚群搜索策略中,每個網頁相當于一條魚,如果遇到滿足給定條件的相關網頁,則該魚繁殖小魚,并對該網頁發出的鏈接進一步探索;否則食物減少,如果一條魚的食物減為零,則該魚將停止尋食并放棄對該鏈接的爬行。魚群搜索策略中某一超級鏈接是否放人提取器中待下載,取決于該鏈接的父鏈接與主題的相關性。關于待下載鏈接與主題的相關性,De Bra L”提出了通過比較已下載網頁內容與主題關鍵字是否匹配,引入二元分類方法(1代表相關,O代表不相關)來計量相關性。
改進的主題爬行策略是基于魚群搜索策略基礎的改進,Hersoviei M”。提出采用向量空間模型(vectorspace model)來計量相關性,向量空間模型不以整數0、1來計量相關性,而是通過多個參數比較,采用O一1之間的實數來計量。該方法除了用已下載網頁內容和主題關鍵詞是否簡單匹配來判斷相關性,還通過計算
錨文本(anchor)等其他參數與主題的相關性來計量。這種改進的搜索策略比魚群搜索策略在爬行的準確率(precision rate)和召回率(recall rate)上有很大的進步,該搜索策略被稱之為“鯊魚搜索策略”(shark search)。在“鯊魚搜索策略”中,已下載網頁中頁面內容、錨文本內容、鏈接內容(URL)及父頁(指向包含鏈接頁面的Web頁)的相關性等都作為主要參數用來計量待下載網頁與主題的相關性,通過計算確定待下載網頁是否進人提取器隊列中。關于參數向量的選擇,Cho J等提出了重要度向量,該重要度向量由幾個部分構成:①已下載頁面逆文獻頻率法(inverse document frequency,IDF)的關鍵詞相關度;②已下載Web頁的重要鏈接指向個數(backlink count);③已下載頁面指向鏈接的重要度值(pagerank);⑧URL位置矩陣(10cation metrics)等四個參數作為衡量相關性的向量。
隨著研究的不斷深入,“鯊魚搜索策略”也不斷完善,該方法中向量空間模型的參數越多,相關性計量越準確,但參數增加使計算量也隨之增加,因此,過多的參數對爬行速度有一定影響。但Zhumin Chen等”。對各種主題爬蟲的運行時間進行了實驗分析比較,該學者認為,相對于網絡中的下載等待時間來說,相關性計算的時間很少,有時甚至不到下載時間的十分之一,因此頁面相關性的計算對爬行速度的影響是可以忽略的。在“鯊魚搜索策略”的基礎上,Menczer F等提出了“最優最先”(best first)搜索策略,這一策略通過計算向量空間的相關性,把相關性“最好”的頁面放入最優先下載的隊列,另外,“最優最先”搜索策略采用了術語頻度(TF)值計算文本相似度,減少了部分計算量。根據文獻,由于只選擇與主題相關性很大的鏈接,而忽略某些當前相關性不高但下級鏈接中包含很高相關性鏈接的網頁,最優最先算法具有很大的貪婪性,該算法只能找到局部范圍內的最優解,難以得到全局范圍內的最優解。因此,該搜索策略只適用于小范圍內的主題爬行,對于大范圍的主題爬行,容易過早地陷入Web空間中局部最優子空間的陷阱。
作為一種有效表現概念層次結構和語義的模型,本體論(ontology)被廣泛地應用到計算機科學的眾多領域。美國斯坦福大學的知識系統實驗室學者TomGruber提出了本體是概念化的顯式表示,Studer在Gruber的基礎上擴展了本體的概念,提出本體是共享概念模型的明確形式化規范說明。本體具有良好的概念層次結構和對邏輯推理的支持,可以解決信息源之間結構和語義的異構,W3C在2004年提出了Web本體語言(Web ontology language,OWL)的標準?;诒倔w的網絡爬蟲認為概念上使用相似術語的頁面應具有一定的相關性。M.Ehrig等學者將本體應用于主題爬蟲的分離器中,首先通過定義術語的相關性,建立本體術語集合,通過對已下載網頁處理并對本體庫的比較分析,計算其相關性,確定是否將待下載鏈接放入分離器,提高了主題爬行的準確度與召回率。Jason J.Jung提出基于語義主題爬行的開放式決策支持系統,該開放系統主要包括基于上下文語義的主題爬蟲通過域內鏈接進行區域內知識發現及知識的處理,為開放式決策支持系統迅速提供知識?;谡Z義的主題爬行技術中,本體庫的構建及完善是一項復雜的工作,因此應用范圍有限。
3 爬行策略與爬行算法的改進
雖然魚群搜索策略、鯊魚搜索策略、最優最先搜索策略是主題爬蟲常用的搜索策略,但由于互聯網中網站結構的多樣性及復雜性,很多學者在主題爬行算法中嘗試采用其他的搜索算法實現較高準確率與召回率。相繼提出了采用模糊算法、人工神經網絡、遺傳算法、粗集理論等方法指導主題爬蟲的爬行過程。
作為最優最先搜索策略的改進,李學勇等采用模擬退火算法作為爬行的啟發式搜索算法,與爬行中的“隧道技術”結合改進主題爬蟲。模擬退火算法從某一較高初溫出發,伴隨溫度參數的不斷下降,結合概率突跳特性在解空間中隨機尋找目標函數的全局最優解。該算法在選擇優化解方面具有非貪婪性,在爬蟲搜索過程中,每次除了選擇評價值最優的鏈接,還以一定概率有限度地接收評價值次優的鏈接,確保有一定價值的鏈接有機會被選中。“隧道技術”使爬蟲有機會穿過相關性低的區域進入相關性高的區域,當頁面內容的相關度低于設定的閾值時,通過擴大主題范圍,使更多的相關鏈接加入到鏈接優先級隊列,提高相關網頁的召回率。模擬退火算法是一種隨機算法,雖然可以比較快地找到問題的近似最優解,但不一定能找到全局的最優解。因此,將模擬退火算法應用于最優最先搜索策略并不能完全保證主題爬行的魯棒性。
遺傳算法(genetic algorithm)是模擬生物進化論與遺傳學結合的計算模型,在最優解搜索領域具有一定優勢,自從密西根大學的Holland教授提出該算法后,由于其魯棒性、自組織性強等優點,在很多方面有廣泛的應用。Jialun Qin等學者采用遺傳算法實現主題爬蟲在特定域內的爬行,通過初始化、內容分析選擇、鏈接分析雜交、變異等幾個步驟實現主題爬蟲在特定域內的爬行。根據文獻,該算法的應用在某些Web頁的主題爬行中具有較好的準確率與召回率。遺傳算法應用于主題爬行技術中存在編碼方式的確定、適應性函數的確定等問題,由于網站結構、網頁類型的不同需要采取不同的標準。遺傳算法也存在局部最優陷阱問題,單純使用遺傳算法進行主題爬行時也會存在無法穿越隧道的問題。
隱馬爾柯夫模型(HMM)作為一種統計分析模型,在信號識別等領域有廣泛的應用,隱馬爾柯夫鏈在相關性評估應用中具有一定優勢。Hongyu Liu等提出基于隱馬爾柯夫模型的算法來評估待下載頁面與主題之間的相關性。該系統包括三個步驟:①進行數據收集;②依據相關性模式建模;③根據模型對待下載頁面評估并進行主題爬行。該算法的應用可以提高主題爬蟲在分離器中的處理精度,但由于計算量的增加,會降低處理效率。
人工神經網絡近來日益受到人們的關注,因為它特有的非線性、自適應性、自學習性為解決復雜問題提供了一種相對比較有效的簡單方法。Hai-Tao Zhengr提出采用基于本體的人工神經網絡(ANN)實現自學習爬行,系統框架分為三個步驟:①進行數據準備;②通過現有的數據集對人工神經網絡進行訓l練;③將訓練過的主題爬蟲應用于實際爬行,取得較高的準確率與召回率。人工神經網絡存在訓練時間長、學習算法的通用性低等缺點,所以,將人工神經網絡應用于主題爬行中,也存在樣本學習時間長,學習算法不具有通用性等缺點。因此,人工神經網絡僅僅適用于小范圍的主題爬行。
除以上算法的改進,很多學者還嘗試采用其他計
算方法改善主題爬蟲的搜索性能,Suman Saha等。應用粗集理論對未下載的Web頁面進行預測,判斷其與主題相關性,該方法提高了爬行頁面的準確率,降低了噪聲。Huaxiang Zhang等提出利用Q學習及在線半監督學習理論在待訪問的URL列表中選擇與主題最相關的URL,相關值的計算基于模糊理論及Q值理論。
雖然很多學者嘗試通過不同的軟計算方法改進主題爬蟲,但由于互聯網中網站結構與網站內容多樣復雜,這些算法往往應用于某些網站時具有較高的準確率與召回率,但是應用于另一些網站時準確率與召回率會下降。主題爬蟲的準確率與召回率除了受網站結構、主題爬蟲的爬行策略與算法等因素的影響,還受爬行入口位置、Web服務器性能等其他相關因素影響。
4 主題爬行策略與算法的研究熱點
篇12
1.在金融學研究中文本大數據的挖掘方法
傳統研究方法通常采用人工閱讀方法對文本信息進行識別,因為文本數量龐大、信息構成復雜,人工識別效率較低,而且信息識別質量不穩定,信息識別效果受到閱讀者專業素養、理解能力等多方面因素影響。計算機技術發展后逐漸被應用于分析文本大數據,利用計算機技術獲取語料,對文本資料進行預處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開展深入分析[1]。在分析文本大數據時,主要采取如下流程:(1)從眾多信息來源中獲取語料,對語料文檔進行解析,明確文本定位,清洗數據,獲得文本分詞,標注詞性,將其中停用詞清除。(2)構建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語義關聯性。(4)監督機器學習、詞典語法處理[2]。
1.1獲取語料
獲取語料的方法主要分為兩種:(1)人工獲取;(2)利用網絡工具爬取或抓取。其中人工獲取語料投入成本較高,耗時較長,需要投入大量人力,因此網絡抓取的可行性相對較高[3]。網絡抓取方法可有效應對大量文本量,在一定程度上降低文本大數據獲取難度。在網絡抓取語料時,需要借助編程語言,通過直接抓取或爬取的方法獲取文本大數據。采用此種語料獲取模式具有兩方面顯著優勢,不僅獲取文本信息耗時較短,效率較高,而且可直接使用編程語言整理內容和規范形式,為后續文本分析工作奠定基礎[4]。
1.2預處理環節
獲取目標語料后,前期需要預處理文本,解析、定位文本,清洗數據,標注分詞與詞性,最后去除停用詞。金融市場通常要求企業采用PDF格式作為信息披露文檔格式,文本預處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數據環節中,利用計算機程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達式進行財務報告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內容結構外,還包括超文本標記語文、腳本語等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內容,需要刪除和清洗相關信息,從文本中篩選有價值的核心內容[6]。文本分詞處理與文本語言密切相關。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據中文語言習慣,詞語為最小語言單位,可獨立使用。基于此種背景,分析文本時需要專門分詞處理中文文本,例如:使用Python開源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業績說明會以及企業財務報告均可使用該類工具處理,完成分詞。在針對中文文本進行分詞處理時,其中實施難度較高的部分是識別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時,需要科學選擇分詞方法,采用“jieba”針對文本進行分詞處理時,選擇分詞模式是否科學直接影響分詞精準度。分詞處理新詞時,需要用戶在相應模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識別新詞[7]。語義信息被識別的關鍵依據是詞性等語法特征,詞語切分后標記詞語詞性操作被稱為詞性標注。詞性標注操作可幫助計算機進行詞語種類識別,避免詞語歧義,對語法結構進行有效識別,從而促進計算機順利進行語義分析。詞性標注時,中英文操作方法不同,詞性劃分英文單詞要求比較嚴謹,利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細詞性信息。在處理中文詞語中,并無明確詞性指示,詞性識別依據主要為語法、語義等。簡言之,英文詞性識別標記注重形式,漢語詞性標記以語義為主。在處理文本信息時,需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達有限,然而對于句子語法結構完整性而言非常重要的詞語。停用詞導致文本數據具有更繁瑣維度,導致分析文本的成本較高。英文中動詞、連詞、冠詞均為常見停用詞。中文處理方法比較復雜,必須結合語言習慣分析停用詞,不僅需要處理特殊符號、標點符號,還需要處理連詞、俚語。除此之外,應根據具體研究內容確定停用詞。在進行文本情緒研究時,特定標點符號、語氣詞等會影響文本表達的情感信息,對于此類信息需要予以保留,從而保證文本情感程度得到準確分析。
1.3文檔表示環節
文本數據為高維度數據,具有稀疏特點,使用計算機處理文本數據時難度較高,預處理實施后,必須通過特定方式表示文檔信息,通過此種處理降低后續計算機分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術具有可視化特點,是文本大數據技術之一。所謂本文可視化,即使用視覺符號顯示復雜內容,展示文本規律。根據生物特性,人們習慣于通過視覺獲取文本信息,實現文本可視化可提高信息提取效率。使用詞云技術可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構建基礎是無嚴格語序要求的文字詞組存在[9],以此種假設為前提,文本相當于眾多詞語集合,采用向量化方法表達文本,在此過程中只計算各個詞語出現頻率。在詞袋模型中含有兩種構建方法:(1)獨熱表示法;(2)詞頻-逆文檔頻率法。前者的應用優勢是可行性較高,操作難度較低。例如:現有如下兩個文檔:(1)文檔一:“經濟學中文本大數據使用”;(2)文檔二:“金融學中文本大數據使用”。以文檔一、文檔二為基礎建設詞表,根據詞序實施詞袋化處理,確定詞袋向量。對于出現的詞,以“1”表示,未出現的詞以“0”表示。但是在實際操作中,不同詞語在文檔中出現頻率存在差異,通常文本中高頻詞數量較少,許多詞匯使用頻率較低。為體現文檔中不同詞語的作用,對單詞詞語賦予權重。TF-IDF是計算文檔定詞語權重的有效方法。含有詞語i文檔數描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個文件中詞語i頻率描述為tfi,j,第j個文檔內詞語數量描述為aj,第i個文檔內詞語i權重描述為tf-idfi,j,則公式應表示為[10]其中,的前提條件是不低于1,0定義為其他情況。較之獨熱表示法,TF-IDF方法的特點是對每個單詞賦予不同權重。在賦予其權重的基本方法時文本中該詞匯出現頻率越高,其重要性越高,與此同時語料庫中該詞匯出現頻率越高,則其重要性相應降低。詞嵌入處理中,主要是在低緯度連續向量空間嵌入指定高維空間,該高維空間維數包括全部詞數量。在金融學領域中進行文本研究時,詞嵌入技術通常采用Word2vec技術,該技術中主要使用CBOW技術與Skip-Gram神經網絡模型,針對神經網絡進行訓練,促使其有效捕獲詞語中包含的上下文信息,對詞語進行向量化映射,得到的向量語義信息更加豐富,信息密度更大,信息維度更低。主題模型中應用頻率較高的是LDA模型,應用此種模型進行文本分析屬于無監督機器學習法,通過此種方法才能夠大量集中語料中提取主題信息。在應用該方法時,將生成文檔的過程分為兩步,首先假定各文檔具有對應主題,從這些主題中抽取一個主題,然后假定文檔具有對應詞匯,對比之前抽取的主題,從詞語中選取一個與主題對應的詞語。完成上述迭代后,將其與文檔中各詞語擬合,從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優勢是,與手動編碼相比,該模型性能更完善,可有效分類大規模文檔。該模型做出的文本主題分類支持復制,準確性較高,而采用人工手段分類文本時較易受到主觀性影響。此外,使用此種模型時,無需人工分類進行關鍵詞、規則設定。LDA模型的缺點是在主題預設個數時,受到研究者主觀因素影響,選擇主題個數的數量受此影響顯著,因此生成主題過程與歸類文本主題時較易受到相關影響。
1.4抽取文本特征的方法
文本特征是指文本可讀性、相似性、文本情緒以及語義關聯性。其中文本可讀性即讀者在閱讀文本時是否可較容易地理解文本信息。在編輯文本時應保證文本具有較高可讀性,保證投資者通過閱讀文本可有效理解文本信息,即確保文本對投資者投資行為產生積極影響。有研究者在文本分析中使用迷霧指數,該類研究認為,迷霧指數與年報可讀性呈負相關。年報文本字數、電子文檔規格也是影響年報可讀性的重要因素。在使用迷霧指數評價文本可讀性時,常見的問題是,隨機排序句子中詞語將導致文本難以理解,然而正常文本和經過隨機排序處理的文本在分析計算時,顯示相同迷霧指數。不僅如此,在進行商業文本測量時采用迷霧指數作為依據具有顯著缺陷,例如,當對企業披露信息進行可讀性分析時,難以有效劃分年報可讀性與該企業實際復雜性?;诖朔N背景,在針對年報文本可讀性進行評價時,需要結合企業業務復雜性等影響,提出非文本因素[11]。在提取文本情緒時,通常采用有監督機器學習法與詞典法進行提取操作。詞典法即在文本情緒、語氣語調研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復制。不僅如此,建設詞典時還需要融合大量金融學專業知識,從而使詞典與金融文本分析需求一致。使用現有多種類詞典、文獻等分析媒體報道情緒,針對財務報告進行語氣語調分析,以及進行電話會議等進行語氣語調分析等。中文大數據分析時,通常是以英文詞典、詞庫等為模板,構建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評估股市崩盤風險高低。在詞典法應用中需要結合加權法進行文本情緒分析[12]。有監督機器學習法包括支持向量機、樸素貝葉斯等方法。采用此類方法時,重點環節在于對分類效果進行檢驗和評價。交叉驗證法是常見檢驗方法。有監督機器學習法的缺點是必須人工編碼設置訓練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復制。其優點是分類精確度較好。
2.文本大數據分析
大數據分析主要是進行財務報告等公司披露文本信息、搜索指數、社交網絡文本以及財經媒體報道等進行分析。通過文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語義特征、語氣語調等,然后分析股票市場行為與文本特征等相關性。分析披露文本信息時,主要是利用文本信息對企業財務、經營、管理層長效經營信息等進行研究。在進行此類研究時,重點是分析文本可讀性、相似性,以及分析語氣語調。披露文本可讀性較高時,有利于投資者有效獲取公司信息,影響投資行為。迷霧指數理論認為,財務報告具有較高可讀性的企業通常具有更長久的利潤。此外,有研究者提出,財務報告可讀性直接影響盈余預測離散性和可靠性。財務報告可讀性較低時,公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過控制財務報告可讀性可對投資者行為做出影響[13]。在針對企業發展情況和股票市場發展趨勢進行分析時,披露文本語氣語調具有重要參考價值。相關研究認為,MD&A語氣內含有增量信息,該類信息為企業長效經營能力進行預測,同時可根據該類信息分析企業破產風險。管理者情緒狀態可表現在電話會議語氣中,此種語氣分散情況與經營決策具有相關性,同時語氣對投資者感知、分析師評價產生影響。分析財經媒體報道時,主要關注媒體情緒,分析媒體報道著眼點,針對經濟政策進行分析,了解其不確定性,此外還需要研究媒體報道偏向信息、假新聞等。進行社交網絡文本研究時,主要是分析策略性信息披露情況與文本情緒。搜索指數研究方面,主要通過搜索指數了解投資者關注度。
篇13
0 引言
目前,煤礦巷道支護設計很大程度上依賴于工程技術人員的工程判斷力和實踐經驗,具有很大的盲目性,導致有些巷道支護效果不佳,部分巷道出現前掘后修、前修后壞的狀況。有些巷道支護設計參數偏于保守,制約著礦井安全高效水平的提高。科學地尋找支護參數設計在安全和經濟兩方面的最佳結合點,是開展巷道圍巖穩定性分類研究的主要目的。據統計,相當一部分巷道失穩的原因是由于基本的支護方案不合理造成的,究其原因是不準確的巷道圍巖分類。因此,準確地把握巷道圍巖穩定性分類是巷道支護設計的基礎,開發出便于現場工程技術人員能夠直接使用的可視化圍巖分類系統亟待解決。本文以模糊聚類理論基礎,建立回采巷道圍巖穩定性分類Fuzzy模型,利用matlab語言編寫模型程序,實現了回采巷道圍巖穩定性分類可視化系統。
1 回采巷道圍巖分類Fuzzy模型
影響回采巷道圍巖穩定性的因素很多,依照指標選取的重要性原則、獨立性原則、明確性原則、易獲取原則[1],選取巷道埋深、巷道底板巖層強度、巷道頂板8m范圍內綜合強度、巷道幫部巖(煤)層強度、直接頂厚度與采高比值N、直接頂初垮步距、巷煤柱寬度7個指標,以神東布爾臺礦區為工程背景,收集回采巷道樣本。其中頂板巖層的綜合強度,采用頂板8m范圍內各個巖層的單軸抗壓強度的綜合平均值。大量的實踐經驗表明,距離巷道頂部表面的巖層越近對巷道穩定性的影響越大[2]。如圖1所示,頂板巖層的強度采用如下公式(1)計算。
(1)
式中:
A――巷道頂板上部三角形區域面積;
a――巷道寬度;Ai為第i分層區域面積;
――第i分層的單軸抗壓強度。
1.1 數據無量綱化及單位化處理
樣本分類的7個指標的量綱不盡相同,在數據使用必須對原始數據進行無量綱化處理,按照統計學原理,本文采用公式(2)進行無綱量化處理(Z-score)。
(2)
(3)
(4)
式中:
――第i個樣本的的第j個指標;
――第j指標的平均值,計算公式(3);――第j指標的標準差,計算公式(4)。
為消除各指標絕對值大小對聚類分析的影響,要對去量綱化的樣本數據進行單位化[2],如公式(4)所示,把原始數據壓縮在0~1之間。
(5)
式中:
{xij}min――第j個指標實測中最小值;
{xij}max――第j個指標實測中最大值。
1.2 回采巷道分類指標加權處理
數據無量綱化及單位化處理沒有改變各指標對分類結果的影響,事實上,各個分類指標對巷道圍巖穩定性的影響程度是不同的,有主次之分。如果把這些影響程度不同的指標平等的對待,無疑是要影響分類結果的準確性[3]。因此,在進行模糊聚類分析時,為區分這些指標對圍巖穩定性的影響程度,需要對每一個指標進行加權處理。加權的具體實施方法,就是在各指標經標準化處理后的數據上乘以相應的權值。確定權值的途徑很多,這是里采用多元回歸分析法確定本分類中7個指標的權值,并用層次分析法加以檢驗[4],最終得到各指標分類權值如表1所示。
1.3 數據標定及聚類
標定就是計算出被分類對象間相似程度的統計量(i,j=1,2,……n。n為被分類對象的個數),從而確定論域上的模糊關系矩陣。常用的方法有:歐氏距離法、數量積法、相關系數法、夾角余弦法等[5]。本文采用歐氏距離法來進行標定。如公式(6)所示。
(6)
式中:
――表示第條回采樣本巷道的第k個標準化處理后的指標 ;
――表示第條回采樣本巷道的第k個標準化處理后的指標。
聚類就是在已經建立的模糊相似矩陣的基礎上[6],以不同的閾值進行截取,從而得到不同的分類。這里采用基于模糊等價關系的聚類法。具體作法是,將加權模糊相似矩陣進行改造,使之具有傳遞性,轉化為加權模糊等價關系矩陣,給出不同的閾值進行聚類[7]。最終把寸草塔二礦回采巷道圍巖穩定性分為分為5類:非常穩定;穩定;較穩定;不穩定,極不穩定。上述對圍巖穩定性的評語用拉丁字母表示為:I,II,III,IV,V;各指標聚類中心值如表2所示。
1.4 構造單項指標的隸屬函數
回采巷道圍巖穩定性狀態共分為5類,分類指標數為7,Xi (i=1,2,…,7)表示第i分類指標取巷道聚類中心值的集合,論域Xi上模糊子集完全由它的隸屬函數所確定,其中為某類別巷道第i指標的聚類中心值,隸屬函數中的應當滿足[8]:
(1) 當時,,其中為第j級巷道第i分類指標的的聚類中值。顯然,第j級標準巷道應100%屬于第j級;
(2) 當遠離時,隸屬函數值應變小。隸屬函數種類很多,如正態型、戒上型、戒下型和降半型等。根據巷道各分類指標的分布特征,本文采用如公式(7)的正態型分布函數。
(7)
式中:
――取各級聚類中心值的第i指標的標準差。
1.5 巷道模糊綜合評判及頂底板移近量預測
利用上述單項指標隸屬函數,計算回采巷道的隸屬函數值,得到初始模糊關系矩陣R。因為各分類指標的權值矩陣是單位化的,為方便分類結果的使用,初始模糊關系矩陣R必須單位化。單位化后的模糊關系矩陣為運用模糊單位化后的模糊關系矩陣,與各分類指標所占權值矩陣A進行矩陣相乘運算,權值矩陣由表3中得出,即:
A=(0.122 0.1 0.21 0.03 0.11 0.113 0.3)
運算見下公式(8)。
(8)
得到隸屬度矩陣,求得最大隸屬度及最大隸屬度所在的列向量位置,進而判別巷道穩定性類別。
通過該隸屬矩陣可以進一步預測巷道頂底板移近量,目前預測巷道頂底板移近量尚無精確的公式,通過巷道圍巖穩定性隸屬度矩陣預測巷道頂底板移近量(如表3)不失為一種簡單有而又相對準確的方法,如公式(9)。
U=u1×b1+ u2×b2+……+ u5×b5 (9)
上式中:
b1,b2,……b5――巷道圍巖穩定性隸屬矩陣中各類巷道的隸屬度;
u1,u2,……u5――各類巷道圍巖移近量的平均值。
2 可視化系統開發
Matlab是一款優秀的面向對象的數值計算軟件[11],在GUI編程過程中需要使用變量來實現函數之間的數值傳遞,借用Eidt Text(編輯文本)及Listbox(下拉類表)的Tag(標簽)來定義、使用函數變量;本系統主要有四大功能模塊組成:1)求聚類中心;2)頂板綜合強度計算;3)數據裝載及運算;4)顯示模型運算結果;系統運行調試結果如圖2所示。
3 系統應用
3.1 應用工程背景
根據某礦43301工作面為工程背景,工作面北部北部為43煤輔運、膠運和回風三大巷,西側為43301工作面已準備完畢,東側為43303工作面已回采完畢,南側為43煤風氧化帶邊界,43302-1與43302-2工作面南北間隔5條排矸巷相距128m;上部18-28m有42201、42202、42224工作面采空塌陷區。
3.1.1、煤層頂板、底板特征
43302工作面老頂為細砂巖,厚度約為13.7-18.8m,平均15.35m,白色,泥質膠結,水平層理。
直接頂為泥巖,厚度約為0-1.5m,平均1.15m,灰黑色,粉砂質,質軟,易冒落,底部含有植物葉碎片化石。
直接底為泥巖,厚度約為0.10-0.70m,平均0.35m,深灰色,含巖屑及植物化石,遇水泥化嚴重。
3.1.2、地質構造及水文地質特征
工作面地表廣覆第四系松散沉積物,地形起伏變化比較大,43302-1回采區上部18-22m有42煤42201、42202綜采工作面采空塌陷區。43302-2回采區上部22-28m有42煤42201、42103、42224綜采工作面采空塌陷區。工作面內地層總的趨勢是以極緩的坡度向北西傾斜的單斜構造,傾角1-3°,斷層不發育,后生裂隙發育。
工作面地表廣覆第四系松散沉積物,地形起伏變化比較大,43302-1工作面回采區上部18-22m有42煤42201和42202工作面采空塌陷區,43302-2工作面回采區上部22-28m有42煤42201、42103、42224綜采工作面采空塌陷區,采空區內有大量積水,施工探放水孔11個,累計疏放積水17800m3,采空區內局部低洼地帶可能仍有少量積水,因此必須加大雨季工作面采空塌陷區溝谷地帶洪水的管理工作,以確保礦井安全生產。
工作面地表溝壑發育,上覆松散層厚度變化較大,雨季大氣降水一方面通過松散層及基巖裂隙直接下滲補給井下,用類比法預測切眼地段初次垮落時的涌水量為30m3/h,工作面正?;夭捎克?0m3/h,工作面最大涌水量50m3/h。
3.2 巷道圍巖穩定性分類
根據以上地質因素和采礦技術因素,量化各分類指標,如見表4所示,運用建立的模糊聚類模型進行巷道圍巖穩定性分類。
代入公式7,得到初始隸屬函數矩陣R。由于權值矩陣是單位化的,所以要對初始隸屬函數矩陣R單位化,得到單位化的隸屬函數矩陣。
把代入公式8,得到隸屬度矩陣。從中可以看出該巷道圍巖穩定性的隸屬度,I類巷道圍巖隸屬度為0.0973,II類巷道圍巖隸屬度為0.1679,III類巷道圍巖隸屬度為0.2145,IV類巷道圍巖隸屬度0.3059,V類巷道圍巖隸屬度為0.2144,最大隸屬度為0.3059,從而判定該巷道從屬于IV類巷道,屬于不穩定較難支護圍巖。
3.3 預測巷道頂底板移近量
依照表3,建立巷道頂底板移近量單位行向量U=(30,75,250,500,1200),把行向量U與列向量B代入公式9,預測該巷道頂底移近量U為496.3mm。接近IV圍巖頂底板平均移近量500mm,處于400-600mm之間,很大程度上證明了該模型的可靠性。
4 結論
利用影響回采巷道圍巖穩定性的7個指標因素,采用模糊聚類理論,建立圍巖穩定性分類模型,實現分類的綜合評判及巷道頂底板移近量預測,為巷道支護設計提供依據;考慮到頂板巖層節理的影響,以巷道寬度、各巖層強度及厚度、8米內巖層數為基本參數,求得頂板綜合強度,采動系數以直接頂厚度與采高比值N量化。采用matlab語言編寫,完成系統四大功能模塊,實現系統的可視化,方便現場工程技術人員使用。
參考文獻
[1] 鄧???基于人工神經網絡的巷道圍巖分類與支護參數優化研究[D],安徽理工大學,2009,6.
王存文.基于BP人工神經網絡的煤巷圍巖穩定性分類研究[D],山東科技大學,2005,5.
[2] 李迎富.潘三深井動壓回采巷道圍巖穩定性分類及其支護設計[D].安徽理工大學,2006,3-5.
[3] Hurt K. New Development in rock bolting[J].Colliery Guardian,2006,27(7):53-54.
[4] 賀超峰.基于BP神經網絡的回采巷道圍巖分類[J].礦業工程研究,2012,27(3):6-9.
[5] 刑福康,蔡坫,劉玉堂.煤礦支護手冊[M]. 北京:煤炭工業出版社,1998:483-487.
[6] bination of The Boundary Element and Finite Element Methods[J] .Prog in Boundary Element Meth,2004,46(1):3-7.
[7] 王廣德.復雜條件下圍巖分類研究[J].中國煤炭,2010,23(08):27-29.
[8] 黃其芳.人工神經網絡對隧道圍巖進行分類的應用研究[J].西部探礦工程,2007,38(5):18-22.