My blog


  • Home

  • Archives

Text ming

Posted on 2019-07-17

shell learning

shell输出重定向

类型 符 号 作 用
标准输出重定向 command >file 以覆盖的方式,把 command 的正确输出结果输出到 file 文件中。
标准输出重定向 command >>file 以追加的方式,把 command 的正确输出结果输出到 file 文件中。
标准错误输出重定向 command 2>file 以覆盖的方式,把 command 的错误信息输出到 file 文件中。
标准错误输出重定向 command 2>>file 以追加的方式,把 command 的错误信息输出到 file 文件中。
正确输出和错误信息同时保存 command >file 2>&1 以覆盖的方式,把正确输出和错误信息同时保存到同一个文件(file)中。
正确输出和错误信息同时保存 command >>file 2>&1 以追加的方式,把正确输出和错误信息同时保存到同一个文件(file)中。
正确输出和错误信息同时保存 command >file1 2>file2 以覆盖的方式,把正确的输出结果输出到 file1 文件中,把错误信息输出到 file2 文件中。
正确输出和错误信息同时保存 command >>file1 2>>file2 以追加的方式,把正确的输出结果输出到 file1 文件中,把错误信息输出到 file2 文件中。

Text ming

Posted on 2019-07-09

政策法规文本挖掘

1.载入相应分析包

1
2
3
4
library(Rwordseg)
library(rvest)
library(RColorBrewer)
library(wordcloud2)

2.通过网络爬虫获取该网页的文本信息

1
2
3
4
5
web <- read_html(x = "http://www.gov.cn/xinwen/2020-06/30/content_5522993.htm")
words<-web %>% html_nodes("p") %>% html_text()
text<-paste(words,sep = "")
textTemp <- gsub("[0-90123456789< > ~]","",text) ### 剔除数字和特殊字符
data<-unlist(lapply(X=textTemp, FUN=segmentCN)) ### 对获取文本利用NLP分词器分词

3.通过编写函数删去停词

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
stopwords<-unlist(read.table("chineseStopWords.txt",fileEncoding = "GBK",stringsAsFactors=F)) ### 读入中文停词数据
### 删去停词的函数
removeStopWords <- function(x,stopwords) {
temp <- character(0)
index <- 1
xLen <- length(x)
while (index <= xLen) {
if (length(stopwords[stopwords==x[index]]) <1)
temp<- c(temp,x[index])
index <- index +1
}
temp
}

date <-lapply(data,removeStopWords,stopwords) ### 传入多参数进行停词删除
words <- lapply(date,strsplit," ")
wordsNum <- table(unlist(words))
wordsNum <- sort(wordsNum) ### 根据词频排序
wordsData <- data.frame(words =names(wordsNum), freq = wordsNum)

4.通过词云实现文本高频词可视化

1
2
3
4
5
6
7
8
word.top100 <- tail(wordsData,100) 

row.names(word.top100)<-word.top100$words
word.top100<-word.top100[,2:3]
colnames(word.top100)<-c("word","freq")
colors<-brewer.pal(8,"Set2")
wordcloud2(word.top100,size = 2, minRotation = -pi/6, maxRotation = -pi/6,
rotateRatio = 1,fontFamily = "微软雅黑")

关于中央全面深化改革委员会第十四次会议的高频词

My certificate

Posted on 2019-07-09

我的证书

1.获奖证书

2016年大学生西部计划新疆专项优秀志愿者

江苏省遗传学会作物研讨会报告优秀奖

长三角研究生学术论坛三等奖

2.毕业证书

chapter02

Posted on 2019-06-10

第二章 次数分布与平均数和变异数

1.次数(frequence)分布

(1)意义

定义

由不同区间内变量出现的次数构成的分布

作用

一、初步了解变量的分布特点

二、便于进一步计算和分析

三、化繁为简

(2)步骤

1.求极差

$$R = max(y_1,y_2,y_3,…,y_n) - min(y_1,y_2,y_3,…,y_n)$$

$n$:样本总量

2.确定组数

$k$

3.确定组距

$$i = R/k$$

取整:取小数位数较少的非整数

4.写出分组数列

$$L_1 = min(y_1,y_2,y_3,…,y_n)-i/2$$

$L_1$:第一组的低限

5.统计各区间变量出现的个数

原则

(1)完全

包含所有的观察值

(2)互斥

任意一个观察值只有一个组区,半开半闭区间 [,)

(3)一致

每一个区组组距相等。

(3)次数分布表

分布特点

(1)分布范围
(2)大部分观察值的分布范围(80%)
(3)分布的对称性和中心

连续性变量(continuous variable)

在任意两个观察值之间能出现具有微小差异的第三个观察值的一类变量。

间断性变量(discrete variable)

只能取整数的变量(每株穗数、每穗粒数)

(4)次数分布图

连续性变量(continuous variable)

一、直方图
二、折线图

间断性变量(discrete variable)

一、柱型图
二、饼图
三、散点图

(5)频率分布

频率(relative frequency)

频率分布:不同区间内观察值出现的频率构成的分布。

(6)累计频率分布

定义

指小于指定值的变量(观察值)出现的频率,组区及其累计频率构成的分布。

2.平均数

变量集中性的度量

1.算术平均数

有限总体:$y_1$,$y_2$,$y_3$,…,$y_N$

$$\mu =\frac{ \sum_{i=1}^Ny_i}{N}$$

样本:$y_1$,$y_2$,$y_3$,…,$y_n$

$$\overline{y} =\frac{ \sum_{i=1}^ny_i}{n}=\frac{\sum y}{n}$$

加权平均数

$$\overline{y} = \frac{ \sum_{i =1}^kf_i*y_i}{\sum_{i=1}^kf_i}=\frac{\sum fy}{\sum f}$$

$f_i$:权重(weight)

性质

$\sum_{i=1}^n(y_i-\overline{y})=0$

(1)离均差之和为零

$\sum_{i=1}^n(y_i-\overline{y})^2=SS=min$

(2)离均差之和的平方最小

$SS$:Sum of square

2.几何平均数(G)

平均增长率

$y_1,y_2,y_3,…y_n$

$G = \sqrt[n]{y_1.y_2.y_3…y_n} =(\prod_{i=1}^ny_i)^{\frac{1}{n}}$

$\prod$: 连乘符号

$ \lg G = \frac{1}{n}\lg\prod_{i-1}^ny_i=\frac{1}{n}(\lg y_1+\lg y_2+ …+\lg y_n) = \frac{1}{n}\sum_{i=1}^n \lg y_i$

变量对数的算术平均数的反对数

3.调和平均数(H)

平均速度,平均密度

毛细管长度 水位上升($cm/min$)
0-10 6
10-20 4
20-30 2

$H = \frac{10}{\frac{1}{3}.(\frac{10}{6}+\frac{10}{4}+\frac{10}{2})}=\frac{36}{11}$

4.中位数(median)

$Md = L+\frac{i}{f}(\frac{n}{2}-C)$

$L$:中位数所在组的下限

$i$:组距

$f$:中位数所在组的次数

$n$:总次数

$C$:小于中位数所在组的累加次数

5.众数

出现次数最多的观察值

$M_0 = L + \frac{f_2}{f_1+f_2}. i$

$L$ : 次数最多组的下限

$f_1$:次数最多组上方的次数

$f_2$:次数最多组下方的次数

$i$ :组距

2.变异数

离散性质的度量

1.极差

$R$:一组观察值最大值减去最小值

$R = max(y) - min(y)$

2.方差和标准差

总体方差(常数)

$\sigma^2 = \frac{\sum_{i =1}^N(y_i - \mu)^2}{N}$

总体的标准差(常数)

$\sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum_{i =1}^N(y_i - \mu)^2}{N}}$

样本方差(变数)

$s^2 = \frac{\sum_{i =1}^n(y_i - \overline{y})^2}{n-1}=\frac{SS}{n-1}$

自由度:$df$(dgree of freedom)

$df = n-1$

$n$:观察值的个数

$1$: 约束条件的个数

样本方差又称均方:$MS$(mean of square)

样本标准差

$s = \sqrt{\frac{SS}{df}}$

通常用样本方差来估计总体方差

无偏估计

$\overline{y} \longrightarrow \mu$

$s^2 \longrightarrow \sigma^2$

极大似然估计

$s_0^2= \frac{SS}{n}\longrightarrow \sigma^2$

3.变异系数 CV

相对变异的度量

$CV = \frac{s}{\overline{y}}.100$

$SS = \sum(y-\overline{y})^2 = \sum y^2 - \frac{(\sum y)^2}{n}$

$\sum y^2$:原点距

$\frac{(\sum y)^2}{n}$:矫正项

$(y-\overline{y})^2$:中心距

加权方差和加权标准差

$s^2 = \frac{\sum fy^2 - \frac{(\sum fy)^2}{\sum f}}{\sum f -1}$

四分位数

四分位数的计算方法为:将一组数据的n个数从小到大排列

$Q_1$:下四分位数

$Q_2$: 中位数

$Q_3$:上四分位数

4.偏度和峰度

$SK$ (skewness)偏度

$SK = \frac{\overline{y}-\mu_0}{s}$

$SK > 0$:正偏态,右尾长

$SK <0$:负偏态,左尾长

$SK = \frac{\frac{1}{n}.\sum(y-\overline{y})^3}{s^3}$

$K = \frac{\frac{1}{n}(y-\overline{y})^4}{s^4}-3$

与正态分布相比

$K > 0$:相对正态分布更集中

$K < 0$:相对正态分布更分散

chapter01

Posted on 2019-06-05

第一章 绪论

1.农业实验统计的基本方法

(1)因素(factor)的分解

因素(factor):构成事物的要素、成分、条件。

因素的分类(生产因素、试验因素、环境因素)

生产因素

自然因素:温、光、气、热

人为因素:土、肥、水、种、保、密、管、工

社会因素:体制、价格、劳动力、销售

举例:

光照:时间长短、强弱、波长

肥料:施肥的时间、方式、种类

试验因素

一般是1~3个试验因素

分类条件:

(1)可控

(2)可划分为不同的等级和水平

环境因素

定义:除了试验因素外,其余都称为环境因素。

分类条件:遵循唯一差异原则

(2)处理(treatment)

唯一差异原则

唯一差异原则:除了试验因素之外,其他环境因素都需要一致。

定义

处理(treatment):单因素试验的任一水平(等级)或是多因素试验的不同水平的组合。

举例:

品种(A)和施肥(B)

品种(A):$a_1$ ,$a_2$

施肥(B):$b_1$ ,$b_2$ ,$b_3$ ,$b_4$

$k = a*b$

$k$: 处理的个数

$a$: 品种的水平

$b$: 施肥的水平

(3)水平的比较

水平间反应量的比较

效应(effect)

定义

效应(effect):在单因素试验中,不同水平下试验结果的差;在多因素试验下处理之间试验结果的差。

分类

简单效应(simple effect)

主要效应(main effect) : 简单效应的平均数

交互作用效应(ineration effect):简单效应差数的平均数

例子

举例

N1P1:200 kg

N1P2:230 kg

N2P1:260 kg

N2P2:310 kg

$$
\hat{y} =
$$
交互作用:一个因素的简单效应随另一个简单效应的变化而变化。

正互作:一个因素的简单效应随另一个因素的简单效应的增加而增加。

负互作 :一个因素的简单效应随另一个因素的简单效应增加而减少。

无互作:一个因素的简单效应随另一个因素的简单效应变化而无变化。

2.试验误差(error)

(1)试验误差的意义

(1)环境因素太多

(2)田间试验

(3)试验对象

定义

由于环境这样或那样的不一致对对处理造成的一种偶然(随机)效应。

(2)试验误差的影响

(3)试验误差的来源及控制

1.试验材料的差异

2.管培措施的差异

3.自然或外界因素的差异

(4)试验设计技术

3.生物统计及其功用

1.意义

属于方法论范畴

变量(varilable)

2.功用

(1)描述性统计

一、集中性

平均数

二、离散性

变异数

(2)统计推断

总体(population)
参数(parameter)
样本(sample)
统计数(statistic)
统计假设测验
参数估计

(3)方差分析

(变异分析)

(4)相关与回归分析

针对多个变量之间的分析

r(相关系数)

度量两个变量之间线性相关密切程度

回归分析
概率论
数理统计

(5)试验设计

Qian JiaYi

5 posts
© 2020 Qian JiaYi
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4