政策法规文本挖掘
1.载入相应分析包
1 | library(Rwordseg) |
2.通过网络爬虫获取该网页的文本信息
1 | web <- read_html(x = "http://www.gov.cn/xinwen/2020-06/30/content_5522993.htm") |
3.通过编写函数删去停词
1 | stopwords<-unlist(read.table("chineseStopWords.txt",fileEncoding = "GBK",stringsAsFactors=F)) ### 读入中文停词数据 |
4.通过词云实现文本高频词可视化
1 | word.top100 <- tail(wordsData,100) |
关于中央全面深化改革委员会第十四次会议的高频词