97人人超碰国产精品最新老片,日本成人在线免费电影

擅長(zhǎng)用通俗易懂的方式講解深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法，熟悉Tensorflow，PaddlePaddle等深度學(xué)習(xí)框架，負(fù)責(zé)過(guò)多個(gè)機(jī)器學(xué)習(xí)落地項(xiàng)目，如垃圾評(píng)論自動(dòng)過(guò)濾，用戶分級(jí)精準(zhǔn)營(yíng)銷，分布式深度學(xué)習(xí)平臺(tái)搭建等，都取了的不錯(cuò)的效果。

背景介紹

在我們?nèi)粘Ｉ钪?，?jīng)常會(huì)受到各種垃圾郵件，譬如來(lái)自商家的廣告、打折促銷信息、澳門博彩郵件、理財(cái)推廣信息等，一般來(lái)說(shuō)郵件客戶端都會(huì)設(shè)置一定的關(guān)鍵詞屏蔽這種垃圾郵件，或者對(duì)郵件進(jìn)行歸類，但是總會(huì)有一些漏網(wǎng)之魚。??不過(guò)，自己手動(dòng)做一個(gè)垃圾郵件分類器也并不是什么難事。傳統(tǒng)的機(jī)器學(xué)習(xí)算法通常會(huì)采用樸素貝葉斯、支持向量機(jī)等算法對(duì)垃圾郵件進(jìn)行過(guò)濾，今天我們主要講如何用PaddlePaddle手寫一個(gè)垃圾郵件分類器。當(dāng)然，在講PaddlePaddle做垃圾郵件處理之前，先回顧一下傳統(tǒng)的機(jī)器學(xué)習(xí)算法是如何對(duì)垃圾郵件進(jìn)行分類的。

了解數(shù)據(jù)集

首先先了解一下今天的數(shù)據(jù)集：trec06c。trec06c是一個(gè)公開的垃圾郵件語(yǔ)料庫(kù)，由國(guó)際文本檢索會(huì)議提供，分為英文數(shù)據(jù)集（trec06p）和中文數(shù)據(jù)集（trec06c），其中所含的郵件均來(lái)源于真實(shí)郵件保留了郵件的原有格式和內(nèi)容。文件下載地址：trec06c文件格式：

trec06c│└───data│ │ 000│ │ 001│ │ ...│ └───215└───delay│ │ index└───full│ │ index

文件內(nèi)容：

垃圾郵件示例：本公司有部分普通發(fā)票（商品銷售發(fā)票）增值稅發(fā)票及海關(guān)代征增值稅專用繳款書及其它服務(wù)行業(yè)發(fā)票,公路、內(nèi)河運(yùn)輸發(fā)票?？梢砸缘投惵蕿橘F公司代開，本公司具有內(nèi)、外貿(mào)生意實(shí)力，保證我司開具的票據(jù)的真實(shí)性。希望可以合作!共同發(fā)展!敬侯您的來(lái)電洽談、咨詢！聯(lián)系人：李先生聯(lián)系電話：13632588281 如有打擾望諒解，祝商琪。正常郵件示例：講的是孔子后人的故事。一個(gè)老領(lǐng)導(dǎo)回到家鄉(xiāng)，跟兒子感情不和，跟貪財(cái)?shù)膶O子孔為本和睦。老領(lǐng)導(dǎo)的弟弟魏宗萬(wàn)是趕馬車的。有個(gè)洋妞大概是考察民俗的，在他們家過(guò)年。孔為本總想出國(guó)，被爺爺教育了。最后，一家人基本和解。順便問(wèn)另一類電影，北京青年電影制片廠的。

數(shù)據(jù)預(yù)處理

拿到數(shù)據(jù)后我們可以很清楚的看到郵件的內(nèi)容，但并不是所有的內(nèi)容都是我們需要的，在這里我們僅提取了郵件中的中文來(lái)作為訓(xùn)練語(yǔ)料。如果仔細(xì)觀察的話，會(huì)發(fā)現(xiàn)不是所有的郵件都能直接打開，數(shù)據(jù)的編碼格式也需要轉(zhuǎn)換成utf-8格式方便我們后面訓(xùn)練使用。所以我們需要對(duì)原始數(shù)據(jù)做一些數(shù)據(jù)預(yù)處理，包括以下幾個(gè)內(nèi)容。

基本步驟

轉(zhuǎn)換源數(shù)據(jù)編碼格式為utf-8格式

過(guò)濾字符

去除所有非中文字符，如標(biāo)點(diǎn)符號(hào)、英文字符、數(shù)字、網(wǎng)站鏈接等特殊字符。

過(guò)濾停用詞

對(duì)郵件內(nèi)容進(jìn)行分詞處理

訓(xùn)練代碼

下面是具體的代碼 transfer.py：

# -*- coding: utf-8 -*-#Created by huxiaoman 2018.1.28#transfer.py:生成spam和ham數(shù)據(jù)import jiebaimport sysimport osimport re# 判斷郵件中的字符是否是中文def check_contain_chinese(check_str): for ch in check_str.decode('utf-8'): if u'\u4e00' <= ch <= u'\u9fff': return True return False# 加載郵件數(shù)據(jù)的labeldef load_label_files(label_file): label_dict ={} for line in open(label_file).readlines(): list1 = line.strip().split("..") label_dict[list1[1].strip()] = list1[0].strip() return label_dict# 加載停用詞詞表def load_stop_train(stop_word_path): stop_dict = {} for line in open(stop_word_path).readlines(): line = line.strip() stop_dict[line] = 1 return stop_dict# 讀取郵件數(shù)據(jù)，并轉(zhuǎn)換為utf-8格式，生成spam和ham樣本def read_files(file_path,label_dict,stop_dict,spam_file_path,ham_file_path): parents = os.listdir(file_path) spam_file = open(spam_file_path,'a') ham_file = open(ham_file_path,'a') for parent in parents: child = os.path.join(file_path,parent) if os.path.isdir(child): read_files(child,label_dict,stop_dict,spam_file_path,ham_file_path) else: print child[10:] label = "unk" if child[10:] in label_dict: label = label_dict[child[10:]] # deal file temp_list = [] for line in open(child).readlines(): line = line.strip().decode("gbk",'ignore').encode('utf-8') if not check_contain_chinese(line): continue seg_list = jieba.cut(line, cut_all=False) for word in seg_list: if word in stop_dict: continue else: temp_list.append(word) line = " ".join(temp_list) print label if label == "spam": spam_file.write(line.encode("utf-8","ignore") + "\n") if label == "ham": ham_file.write(line.encode("utf-8","ignore")+"\n")# 生成word2vec詞表def generate_word2vec(file_path,label_dict,stop_dict,word_vec): parents = os.listdir(file_path) fh1 = open(word_vec,'a') i = 0 for parent in parents: child = os.path.join(file_path,parent) if os.path.isdir(child): generate_word2vec(child,label_dict,stop_dict,word_vec) else: print child[10:] i += 1 print i label = "unk" if child[10:] in label_dict: label = label_dict[child[10:]] # deal file temp_list = [] for line in open(child).readlines(): line = line.strip().decode("gbk",'ignore').encode('utf-8') if not check_contain_chinese(line): continue if len(line) == 0: continue seg_list = jieba.cut(line, cut_all=False) for word in seg_list: if word in stop_dict: continue else: temp_list.append(word) line = " ".join(temp_list) fh1.write(line.encode("utf-8","ingore")+"\n")if __name__=="__main__": file_path = sys.argv[1] label_path = sys.argv[2] stop_word_path = "stop_words.txt" word_vec_path = "word2vec.txt" spam_data = "spam.txt" ham_data = "ham.txt" label_dict = load_label_files(label_path) stop_dict = load_stop_train(stop_word_path) read_files(file_path,label_dict,stop_dict,spam_data,ham_data)

運(yùn)行腳本

run.sh：

bashif [ $1 = "test" ]; then echo "test" python transfer.py ../test/ ../trec06c/full/indexelse echo "whole" python transfer.py ../trec06c/data/ ../trec06c/full/indexfi

運(yùn)行方式：

sh run.sh

運(yùn)行結(jié)果：

ham.txt: 正樣本，正常郵件。共21373條數(shù)據(jù)。

示例：我就鬧不明白了只要你本人不介意跟你爸爸媽媽有何干為啥要說(shuō) 呢 ..... 首先謝謝大家安慰我。但是我確實(shí) 很難受，我有自己的苦衷。我不敢和我媽媽說(shuō) 的這種情況。我媽媽是那種特別容易擔(dān)心的那種類型。而且我又不在她身邊。我家是外地的。如果和媽媽說(shuō) 了，她一定不會(huì) 同意我和在一起的。媽媽對(duì) 身體健康看的特別重要。有一年姐夫那年經(jīng)常流鼻血，媽媽都特別擔(dān)心，老催姐姐帶著去看看。

spam.txt: 負(fù)樣本，垃圾郵件。共41627條數(shù)據(jù)。

示例：您好以下是特別為閣下發(fā) 的香港信息圖片、景點(diǎn) 等不知道閣下是否喜希望沒(méi)有打擾到閣下如果無(wú)法看到下面內(nèi)容請(qǐng) 稍侯或者直接進(jìn)入香港行網(wǎng) 域名論壇地址真誠(chéng) 為您服務(wù)

word2vec.txt: 包含所有郵件分詞的內(nèi)容，為Word2Vec提供訓(xùn)練預(yù)料。共63000條數(shù)據(jù)。

示例：我覺(jué)得，負(fù)債不要緊，最重要的是能負(fù)得起這個(gè) 責(zé)任來(lái) ，欠了那么多錢，至少對(duì) 當(dāng)初拿出愛(ài)心來(lái) 的網(wǎng)友們有個(gè) 交待，還，還是不還了，或者，是有這個(gè) 心但實(shí)在沒(méi) 能力，說(shuō)明一聲還都好不要連 ID 都不激活了，連手機(jī)號(hào) 都換了 … … 別說(shuō) 外地的了，就連北京的網(wǎng)友都找不到他 … … 他當(dāng)時(shí) 在水木 fl 版的那陣，我旁觀了全過(guò)程。

生成詞向量

傳統(tǒng)方法的局限性

我們知道，分詞后的數(shù)據(jù)是不能直接拿到模型里去訓(xùn)練的，我們需要把詞語(yǔ)轉(zhuǎn)換成詞向量才能進(jìn)行模型的訓(xùn)練，這樣一個(gè)詞可以有一個(gè)多維的詞向量組成。??傳統(tǒng)的方法是one-hot encoding，即用一個(gè)長(zhǎng)向量來(lái)表示一個(gè)詞，向量的長(zhǎng)度為詞典的大小，向量的分量只有一個(gè)1，其余全為0，1的位置即對(duì)應(yīng)改詞在詞典中的位置，如電腦表示為：[0 0 0 0 0 1 0 0 0 0 ]，耳機(jī)表示為[0 0 0 0 0 0 0 1 0 ]這種方式如果采用稀疏存儲(chǔ)，表達(dá)簡(jiǎn)潔，占用空間少，但是這種方法也有幾個(gè)缺點(diǎn)，一是容易受維數(shù)災(zāi)難的困擾，尤其是將其用于 Deep Learning的一些算法時(shí)；二是不能很好地刻畫詞與詞之間的相似性，即任意兩個(gè)詞之間都是孤立的。光從這兩個(gè)向量中看不出兩個(gè)詞是否有關(guān)系，損失大部分信息，導(dǎo)致結(jié)果會(huì)有較大偏差。

Word2Vec方法的優(yōu)勢(shì)

在1968年Hinton又提出了Distributed REpresentation，可以O(shè)ne-hot encoding的缺點(diǎn)。其基本想法是直接用一個(gè)普通的向量表示一個(gè)詞，這種向量一般長(zhǎng)成這個(gè)樣子：[0.792, ?0.177, ?0.107, 0.109, ?0.542, ...]，也就是普通的向量表示形式。維度以 50 維和 100 維比較常見。當(dāng)然一個(gè)詞怎么表示成這么樣的一個(gè)向量需要通過(guò)訓(xùn)練得到，訓(xùn)練方法較多，word2vec是最常見的一種。需要注意的是，每個(gè)詞在不同的語(yǔ)料庫(kù)和不同的訓(xùn)練方法下，得到的詞向量可能是不一樣的。詞向量一般維數(shù)不高，一般情況下指定1000、500維就可以了，所以用起來(lái)維數(shù)災(zāi)難的機(jī)會(huì)現(xiàn)對(duì)于one-hot representation表示就大大減少了。??由于是用向量表示，而且用較好的訓(xùn)練算法得到的詞向量的向量一般是有空間上的意義的，也就是說(shuō)，將所有這些向量放在一起形成一個(gè)詞向量空間，而每一向量則為該空間中的一個(gè)點(diǎn)，在這個(gè)空間上的詞向量之間的距離度量也可以表示對(duì)應(yīng)的兩個(gè)詞之間的“距離”。所謂兩個(gè)詞之間的“距離”，就是這兩個(gè)詞之間的語(yǔ)法，語(yǔ)義之間的相似性。??一個(gè)比較不錯(cuò)的應(yīng)用方法是，得到詞向量后，假如對(duì)于某個(gè)詞A，想找出這個(gè)詞最相似的詞，在建立好詞向量后的情況，對(duì)計(jì)算機(jī)來(lái)說(shuō)，只要拿這個(gè)詞的詞向量跟其他詞的詞向量一一計(jì)算歐式距離或者cos距離，得到距離最小的那個(gè)詞，就是它最相似的。??所以在這里我們選擇了word2vec方法來(lái)訓(xùn)練生成詞向量。關(guān)于word2vec的原理大家可以在網(wǎng)上搜索學(xué)習(xí)，此處不再贅述。

實(shí)現(xiàn)代碼

在數(shù)據(jù)預(yù)處理中我們生成的word2vec.txt就可以放到此處訓(xùn)練word2vec模型生成詞向量了，具體實(shí)現(xiàn)代碼如下: word2vec.py

# -*- coding: utf-8 -*-# Created by huxiaoman 2018.1.28# word2vec.py:生成word2vec模型import osimport sysimport numpy as npfrom gensim.models.word2vec import Word2Vecfrom gensim.corpora.dictionary import Dictionaryimport codecsreload(sys)sys.setdefaultencoding( "utf-8" )class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__(self): for fname in os.listdir(self.dirname): for line in codecs.open(os.path.join(self.dirname, fname),"r", encoding="utf-8",errors="ignore"): yield line.strip().split()# word2vec.txt數(shù)據(jù)的地址train_path = "rawData/"# 生成的word2vec模型的地址model_path = "/modelPath/"sentences = MySentences(train_path) # 此處min_count=5代表5元模型，size=100代表詞向量維度，worker=15表示15個(gè)線程model = Word2Vec(sentences,min_count = 5,size=100,workers=15)#保存模型model.save(model_path+'/Word2vec_model.pkl')

運(yùn)行方式

python word2vec.py

運(yùn)行結(jié)果

Word2vec_model.pkl

模型訓(xùn)練

生成正負(fù)樣本數(shù)據(jù)并將詞語(yǔ)全部轉(zhuǎn)化為詞向量后我們就可以把數(shù)據(jù)灌倒模型里進(jìn)行訓(xùn)練了，本篇中將采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法svm來(lái)進(jìn)行訓(xùn)練。

具體步驟

加載數(shù)據(jù)集

劃分訓(xùn)練集train、驗(yàn)證集val與測(cè)試集test

定義訓(xùn)練模型，并訓(xùn)練

驗(yàn)證準(zhǔn)確率

實(shí)現(xiàn)代碼

# 構(gòu)建svm模型，加載數(shù)據(jù)等代碼詳見githubdef get_svm_model(x_train,y_train,x_val,y_val): model = SVC(C=1,kernel='rbf',max_iter=10,gamma=1,probability=True) model.fit(x_train,y_train) pred=model.predict(x_val) fpr,tpr,thresholds = roc_curve(y_val, pred, pos_label=2) score = metrics.f1_score(y_val,pred) print score

運(yùn)行方式

python train_svm.py

運(yùn)行結(jié)果

0.73343221

小結(jié)

本篇文章作為用PaddlePaddle處理垃圾郵件實(shí)戰(zhàn)系列的預(yù)熱，主要講了如何對(duì)文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理與過(guò)濾，如何生成詞向量以及用傳統(tǒng)的機(jī)器學(xué)習(xí)方法--支持向量機(jī)訓(xùn)練模型，得到的準(zhǔn)確率為0.73343221。其結(jié)果的好壞取決于詞典的大小，詞向量維度的大小，svm的基本參數(shù)的調(diào)整，在實(shí)際操作過(guò)程中還需要不斷的調(diào)參才能達(dá)到最優(yōu)的效果。下一篇我們將帶領(lǐng)大家如何用PaddlePaddle來(lái)做垃圾郵件處理，用深度學(xué)習(xí)的方法對(duì)垃圾郵件進(jìn)行分類，看看效果是否比傳統(tǒng)的機(jī)器學(xué)習(xí)方法要更好，性能和速度是否能有一定的提升。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8449

瀏覽量
133136
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1209

瀏覽量
24851

原文標(biāo)題：PaddlePaddle垃圾郵件處理實(shí)戰(zhàn)（一）

文章出處：【微信號(hào)：AI_shequ，微信公眾號(hào)：人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

如何防范垃圾郵件？

; 　3．被黑客利用成助紂為虐的工具。如在2000年2月，黑客攻擊雅虎等五大熱門網(wǎng)站就是一個(gè)例子。黑客先是侵入并控制了一些高帶寬的網(wǎng)站，集中眾多服務(wù)器的帶寬能力，然后用數(shù)以億萬(wàn)計(jì)的

發(fā)表于 12-21 11:08

防范垃圾郵件的秘訣！

;nbsp; 　3．被黑客利用成助紂為虐的工具。如在2000年2月，黑客攻擊雅虎等五大熱門網(wǎng)站就是一個(gè)例子。黑客先是侵入并控制了一些高帶寬的網(wǎng)站，集中眾多服務(wù)器的帶寬能力，然后用數(shù)以億

發(fā)表于 01-07 17:54

看我如何防范垃圾郵件?。?！

2000年2月，黑客攻擊雅虎等五大熱門網(wǎng)站就是一個(gè)例子。黑客先是侵入并控制了一些高帶寬的網(wǎng)站，集中眾多服務(wù)器的帶寬能力，然后用數(shù)以億萬(wàn)計(jì)的垃圾郵件

發(fā)表于 05-31 15:36

樸素貝葉斯過(guò)濾郵箱里的垃圾郵件

樸素貝葉斯垃圾郵件識(shí)別

發(fā)表于 03-18 11:28

基于協(xié)同過(guò)濾的垃圾郵件過(guò)濾系統(tǒng)

針對(duì)當(dāng)前垃圾郵件過(guò)濾技術(shù)中郵件性質(zhì)評(píng)價(jià)難及郵件附件判斷難的問(wèn)題，提出協(xié)同過(guò)濾模型，設(shè)計(jì)一個(gè)多層次垃圾郵件

發(fā)表于 04-10 08:39 ?26次下載

代價(jià)敏感支持向量機(jī)在垃圾郵件過(guò)濾中的應(yīng)用

支持向量機(jī)在垃圾郵件過(guò)濾中能達(dá)到較高的分類準(zhǔn)確率，實(shí)際應(yīng)用中，將正常郵件誤判為垃圾郵件會(huì)給用戶造成更大的損失。該文提出一

發(fā)表于 04-22 10:01 ?14次下載

基于樸素貝葉斯算法的垃圾郵件網(wǎng)關(guān)

本文針對(duì)垃圾郵件過(guò)濾問(wèn)題，結(jié)合中文自身的特點(diǎn)，把廣泛適用于英文文本和郵件分類的樸素貝葉斯過(guò)濾方法應(yīng)用在垃圾郵件網(wǎng)關(guān)郵件過(guò)濾層；把信息增益修剪

發(fā)表于 08-14 14:28 ?17次下載

基于Bayes的一種改良垃圾郵件過(guò)濾模型

文章首先分析了垃圾郵件的產(chǎn)生機(jī)理，介紹了目前比較常見的幾種垃圾郵件過(guò)濾技術(shù)，然后從樸素貝葉斯的理論依據(jù)出發(fā)，針對(duì)當(dāng)前應(yīng)用于重要商業(yè)領(lǐng)域的垃圾郵件過(guò)濾系統(tǒng)的不足

發(fā)表于 08-18 09:39 ?6次下載

垃圾郵件(Spam)與郵件過(guò)濾技術(shù)

垃圾郵件(Spam)與郵件過(guò)濾技術(shù) 垃圾郵件一直是Internet的頑癥之一。垃圾郵件不僅浪費(fèi)

發(fā)表于 03-02 11:40 ?1117次閱讀

垃圾郵件詳解

垃圾郵件詳解引言我們中的大多數(shù)人每天都會(huì)收到垃圾郵件。只不過(guò)有些人收到的多一些，有些人則少一些，但是對(duì)于擁有電子郵件賬戶的人來(lái)說(shuō)，

發(fā)表于 08-05 10:12 ?1386次閱讀

CCERT中文垃圾郵件過(guò)濾解決方案

Chinese_rules.cf是用于業(yè)界廣泛使用的免費(fèi)垃圾郵件過(guò)濾系統(tǒng) SpamAssassin的中文垃圾郵件過(guò)濾規(guī)則集。由于以前沒(méi)有中文的過(guò)濾規(guī)則集，SpamAssassin對(duì)中文郵件過(guò)濾的準(zhǔn)確性不高。CCERT反

發(fā)表于 04-18 21:37 ?28次下載

中文垃圾郵件過(guò)濾郵件服務(wù)器的實(shí)現(xiàn)_李玉峰

中文垃圾郵件過(guò)濾郵件服務(wù)器的實(shí)現(xiàn)_李玉峰

發(fā)表于 03-19 11:41 ?1次下載

反垃圾U-Mail郵件網(wǎng)關(guān)是如何防范垃圾郵件、病毒、釣魚軟件的攻擊？

首先當(dāng)然是建立一個(gè)最龐大的數(shù)據(jù)樣本庫(kù)，這個(gè)庫(kù)里收羅了世界各地最新涌現(xiàn)出來(lái)的垃圾郵件、病毒、釣魚軟件標(biāo)本，U-Mail依托在全球主要中心城市架設(shè)的服務(wù)器，能夠第

發(fā)表于 05-20 00:07 ?8070次閱讀

一個(gè)簡(jiǎn)單的偽貝葉斯垃圾郵件過(guò)濾主程序資料免費(fèi)下載

本文檔的主要內(nèi)容詳細(xì)介紹的是一個(gè)簡(jiǎn)單的偽貝葉斯垃圾郵件過(guò)濾主程序資料免費(fèi)下載。

發(fā)表于 04-10 08:00 ?0次下載

企業(yè)究竟該如何做好郵件安全防護(hù)，防止垃圾郵件的攻擊？

據(jù)不完全統(tǒng)計(jì)，全球超80％的企業(yè)郵箱用戶，都曾遭遇過(guò)垃圾郵件的攻擊。企業(yè)郵箱長(zhǎng)期受到大量垃圾郵件的侵?jǐn)_，嚴(yán)重影響了員工工作效率，而且還容易漏掉正常郵件，直接影響企業(yè)業(yè)務(wù)的開展。企業(yè)究竟該如何做好

發(fā)表于 10-08 11:04 ?3460次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

如何用PaddlePaddle手寫一個(gè)垃圾郵件分類器

評(píng)論

如何防范垃圾郵件？

防范垃圾郵件的秘訣！

看我如何防范垃圾郵件?。?！

樸素貝葉斯過(guò)濾郵箱里的垃圾郵件

基于協(xié)同過(guò)濾的垃圾郵件過(guò)濾系統(tǒng)

代價(jià)敏感支持向量機(jī)在垃圾郵件過(guò)濾中的應(yīng)用

基于樸素貝葉斯算法的垃圾郵件網(wǎng)關(guān)

基于Bayes的一種改良垃圾郵件過(guò)濾模型

垃圾郵件(Spam)與郵件過(guò)濾技術(shù)

垃圾郵件詳解

CCERT中文垃圾郵件過(guò)濾解決方案

中文垃圾郵件過(guò)濾郵件服務(wù)器的實(shí)現(xiàn)_李玉峰

反垃圾U-Mail郵件網(wǎng)關(guān)是如何防范垃圾郵件、病毒、釣魚軟件的攻擊？

一個(gè)簡(jiǎn)單的偽貝葉斯垃圾郵件過(guò)濾主程序資料免費(fèi)下載

企業(yè)究竟該如何做好郵件安全防護(hù)，防止垃圾郵件的攻擊？