女人被狂躁到高潮视频免费无遮挡,内射人妻骚骚骚,免费人成小说在线观看网站,九九影院午夜理论片少妇,免费av永久免费网址

當(dāng)前位置:首頁 > > 充電吧
[導(dǎo)讀]欲先攻其事必先利其器1、 安裝nltk,使用[python]?view plain?copypip?install?nltk??2、 在命令行下執(zhí)行??[python]?view plain?copy

欲先攻其事必先利其器
1、 安裝nltk,使用[python]?view plain?copypip?install?nltk??

2、 在命令行下執(zhí)行??

[python]?view plain?copyimport?nltk??nltk.download('punkt')??一段原始文本要可以處理必須經(jīng)過幾個(gè)階段,一般而言主要有
1、文本清理,清理掉一些不必要的字符,比如使用BeautifulSoup的get_text,一處非ascii字符等等
2、語句分離,一大段原生文本,處理成一系列的語句,用計(jì)算機(jī)術(shù)語而言就是將一個(gè)字符串分割成若干字符串,可以使用"."或者"。"或者nltk_tokenize預(yù)置的預(yù)處理函數(shù),(使用方式 from nltk.tokenize import sent_tokenize)
3、標(biāo)識(shí)化處理,機(jī)器所能理解的最小單位是單詞,所以我們?cè)谡Z句分離的基礎(chǔ)上還要進(jìn)行分詞操作,也就是將一個(gè)原生字符串分割成一系列有意義的單詞NLP標(biāo)識(shí)化處理的復(fù)雜性根據(jù)應(yīng)用的不同而不同,標(biāo)識(shí)器有很多,比如split,word_tokenize和regex_tokenize
4、詞干提取,較為粗糙的規(guī)則處理過程,修枝剪葉,比如eating,eaten 共同的詞根是eat,我在處理時(shí),認(rèn)為eating和eaten就是一個(gè)eat就ok
5、詞性還原,包含了詞根所有的變化,詞性還原操作會(huì)根據(jù)當(dāng)前上下文環(huán)境,將詞根還原成當(dāng)前應(yīng)該表現(xiàn)的形式使用方式(from nltk.stem import WordNetLemmatizer)

6、停用詞移除,比如無意義的the a? an 等詞匯會(huì)被移除,一般停用詞表示人工定制的,也有一些是根據(jù)給定語料庫自動(dòng)生成的nltk包含22種語言的停用詞表

根據(jù)以上觀點(diǎn),涉及到的python代碼是:

[python]?view plain?copy#?-*-?coding:?utf-8?-*-??import?re??import?requests??import?operator??from?bs4?import?BeautifulSoup??from?nltk.tokenize?import?sent_tokenize,wordpunct_tokenize,blankline_tokenize,word_tokenize??import?nltk??import?pymysql??import?os????def?mysql_select():??????#?打開數(shù)據(jù)庫連接??????db?=?pymysql.connect(host="localhost",user="root",passwd="root",db="csdn",charset="utf8")??????#?使用cursor()方法獲取操作游標(biāo)??????cursor?=?db.cursor()??????cursor.execute("SELECT?*?FROM?`article_info`?ORDER?BY?RAND()?LIMIT?1")??????#?提交到數(shù)據(jù)庫執(zhí)行??????result?=?cursor.fetchall()??????db.close()??????return?result????str_text?=?mysql_select()??#文本清理,我只需要content的內(nèi)容??str_text?=?str_text[0]??#獲得content??str_text?=?str_text[3]??#進(jìn)行文本清理,去掉html??soup?=?BeautifulSoup(str_text,?'lxml')??str_text?=?soup.get_text()??#print("文本清理的結(jié)果:?"+?str_text)??#語句分離器??text_list?=?sent_tokenize(str_text)??#標(biāo)識(shí)化處理,針對(duì)所有的語句進(jìn)行標(biāo)識(shí)化處理??word_list?=?[]??#使用nltk的內(nèi)置函數(shù)進(jìn)行語句分離??for?sentence?in?text_list:??????item_list?=?word_tokenize(sentence)??????word_list.extend(item_list)??result_1_word_list?=?[]??for?word?in?word_list:??????blank_list?=?blankline_tokenize(word)??????result_1_word_list.extend(blank_list)??????'''''?print("查看分詞結(jié)果")?for?item?in?result_1_word_list:?????print(item)?????'''??#去掉停用詞??stop_words?=?[word.strip().lower()?for?word?in?['{','}','(',')',']','[']]??clean_tokens?=?[tok?for?tok?in?result_1_word_list?if?len(tok.lower())>1?and?(tok.lower?not?in?stop_words)]??token_nltk_result?=?nltk.FreqDist(clean_tokens)??for?k,v?in?token_nltk_result.items():??????print(str(k)+"?:?"+str(v))??token_nltk_result.plot(10,cumulative=True)??

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

納祥科技推出太陽能+Type-C雙充電自行車前燈方案,方案核心模塊包含太陽能板、單片機(jī)、三極管、3顆LED燈珠與1200mAh電池,通過低功耗單片機(jī)與三極管驅(qū)動(dòng),支持強(qiáng)光/弱光/爆閃3種模式,高流明遠(yuǎn)射程,適配多種車型

關(guān)鍵字: 方案開發(fā) 電子方案 自行車前燈方案 納祥科技

慕尼黑2025年9月11日 /美通社/ -- 當(dāng)?shù)貢r(shí)間9月9日,賽力斯動(dòng)力在德國(guó)慕尼黑國(guó)際車展期間舉辦技術(shù)發(fā)布與交流會(huì),正式在海外市場(chǎng)推出全新一代賽力斯超級(jí)增程、高效發(fā)動(dòng)機(jī)和新一代分布式電驅(qū)動(dòng)系統(tǒng),同時(shí)與來自全球的汽車產(chǎn)...

關(guān)鍵字: 慕尼黑 分布式 發(fā)動(dòng)機(jī) 新能源汽車

慕尼黑2025年9月11日 /美通社/ -- 高端智能電動(dòng)汽車品牌問界(AITO)在2025年德國(guó)國(guó)際汽車及智慧出行博覽會(huì)(IAA MOBILITY)上,正式發(fā)布了其最新全球產(chǎn)品陣容——專為中東市場(chǎng)深度本地化打造的AIT...

關(guān)鍵字: AI 智能駕駛 測(cè)試 生態(tài)系統(tǒng)

舍弗勒首次為中國(guó)頭部車企大規(guī)模生產(chǎn)高壓逆變磚 天津工廠一年內(nèi)完成量產(chǎn)準(zhǔn)備,逆變器模塊性能參數(shù)顯著提升 與合作伙伴羅姆半導(dǎo)體共研尖端碳化硅技術(shù),效率更高、性能更優(yōu) 模塊化可擴(kuò)展設(shè)計(jì)使逆變磚易于集成,可廣泛...

關(guān)鍵字: 逆變 高壓 逆變器 集成

舍弗勒以"專注驅(qū)動(dòng)技術(shù)的科技公司"為主題亮相IAA MOBILITY 2025(B3館B40展臺(tái)) 合并緯湃科技后首次亮相IAA MOBILITY,展示拓展后的汽車產(chǎn)品組合 憑借在軟件、...

關(guān)鍵字: 電氣 軟件 驅(qū)動(dòng)技術(shù) BSP

拉斯維加斯2025年9月11日 /美通社/ -- 在9月8日至11日舉辦的RE+ 2025展會(huì)上,全球綜合儲(chǔ)能解決方案供應(yīng)商德賽電池(Desay Battery)全面展示了其創(chuàng)新成果,并宣布與深圳市華寶新能源股份有限公司...

關(guān)鍵字: 電池 電芯 人工智能 鋰電

香港2025年 9月12日 /美通社/ -- 全球領(lǐng)先的互聯(lián)網(wǎng)社區(qū)創(chuàng)建者 - 網(wǎng)龍網(wǎng)絡(luò)控股有限公司 ("網(wǎng)龍"或"本公司",香港交易所股票代碼:777)欣然宣布,其子公司My...

關(guān)鍵字: AI 遠(yuǎn)程控制 控制技術(shù) BSP

慕尼黑2025年9月12日 /美通社/ -- 慕尼黑當(dāng)?shù)貢r(shí)間9月10日,在2025德國(guó)國(guó)際汽車及智慧出行博覽會(huì)(IAA MOBILITY)上,國(guó)際獨(dú)立第三方檢測(cè)、檢驗(yàn)和認(rèn)證機(jī)...

關(guān)鍵字: 測(cè)試 慕尼黑 模型 HUBER

上海2025年9月12日 /美通社/ -- 近日,國(guó)際獨(dú)立第三方檢測(cè)、檢驗(yàn)和認(rèn)證機(jī)構(gòu)德國(guó)萊茵TÜV大中華區(qū)(簡(jiǎn)稱"TÜV萊茵")為上海...

關(guān)鍵字: 測(cè)試 信息安全 安全管理 開關(guān)

廣州2025年9月12日 /美通社/ -- 9月11日,由國(guó)際獨(dú)立第三方檢測(cè)、檢驗(yàn)和認(rèn)證機(jī)構(gòu)德國(guó)萊茵TÜV大中華區(qū)(簡(jiǎn)稱"TÜV萊茵"...

關(guān)鍵字: 數(shù)字化 供應(yīng)鏈 控制 電子
關(guān)閉