1 Segment(分词)

分词主要是对中文的，因为英文词单词之间有空格。

1.1 最大匹配法

1.1.1 FMM(正向最大匹配)

Forward Maximum Matching，从左往右取词，取词初始长度为词典中最长单词的长度，每次右边减一个字，直到在词典中匹配或剩下1个单字，如rollingstoneapps，设词典中最长单词的长度为8，则匹配顺序如下，

rollings x
rolling  √
stoneapp x
stoneap  x
stonea   x
stone    √
apps     √

则分词结果为，

rolling stone apps

1.1.2 BMM(反向最大匹配法)

Backward Maximum Matching，与正向最大匹配类似，不同之处是从右向左取词。

1.1.3 双向最大匹配法

综合正向和反向的结果，因为有的句子只能正向匹配到，有的只能反向匹配到。选择正向和反向中分词数少的作为结果，若分词数相同，则选择词长为1的单词少的作为结果。

1.1.4 最小匹配法

与最大匹配相反，取词长度从2加到词典中的最大单词长度，每次右边加一个字，取词长度不能为1，要不然分词结果就都是长度为1的词了。

1.1.5 评价

优点
- 理论上可以匹配任意类型的串，包括英文、拼音、数字以及这些的混排，只要把相应的类型放入词典即可
- 速度相对较快，因为不需要列出所有的分词可能
缺点
- 分词结果是上下文无关的，不包含语义信息
- 一些词匹配不到，例如drivereallyfast会先找到driver，然后无法识别eallyfast，可以结合Trie树进行一些回溯，或者综合双向匹配和最小匹配的结果
- 不能将长度为1的词放入词典中，因为这可能使得所有分词都是长度为1的词
- 词典如果不全可能就匹配不到
优化
- 按单词长度切分成多个词典，查找指定长度的词时无需搜索全部字典(如果词典底层用的是哈希表，性能提升不大)
- 词典使用布隆过滤器、Trie树或自动机

1.2 基于N-Gram的分词

一个句子可能有很多的分词结果，本算法利用已有的语料库，使用N-Gram，找出概率最大的分词结果。首先将一句话中的所有词匹配出来，构成词图(是一个有向无环图DAG)，然后从起点到终点找一条概率最大的路径。构建DAG用的是词典，计算概率用的是文章这种有上下文的语料库。

可能的分词结果有，

南京/市/长江/大桥
南京/市/长江大桥
南京市/长江/大桥
南京市/长江大桥
南京/市长/江/大桥
南京/市长/江大桥
南京市长/江/大桥
南京市长/江大桥

第一种分词结果的概率为， \(P(南京市长江大桥)=P(南京)·P(南京|市)·P(南京市|长江)·P(南京市长江|大桥)\) 而概率可以近似为，其中w是词典中的词， \(P(Sentence)=\prod_{i=1}^l P(w_{1}...w_{i-1}|w_{i})≈\prod_{i=1}^l P(w_{i-1}|w_{i})\) 即， \(P(南京市长江大桥)=P(南京)·P(南京|市)·P(市|长江)·P(长江|大桥)\) 这些概率都能在语料库中计算。

这个算法的语料库是句子，概率是词；Android Package Readable的语料库是词，概率是字母。

评价

优点
- 能够识别出所有的可能
- 分词结果结合上下文语义
缺点
- 对于拼音、数字这种，没有语料库或者语料库很少的就无法计算概率
- 速度相对较慢
优化
- 拼音的语料库可以用汉语的语料库，然后将汉字转为拼音

1.3 HMM(隐马尔可夫模型)

Hidden Markov Model

Viterbi算法

1.4 常用库

jieba
wordsegment
wordninja

2 StopWords(停用词)

一些出现频率很高但没有实际意义的词在处理时需要去掉，如”的”，”了”，”the”，”to”等。一般是先分词，然后过滤停用词。

3 词干化和词形化

stemming(词干化)：采用直接缩减的方法，去掉复数，过去式，进行时等，只保留词根 \(cats=>cat，cycling=>cycl，drove=>drove\)
lemmatization(词形化)：采用词性转变的方法 \(cats=>cat，cycling=>cycle，drove=>drive\)

4 关键词提取

4.1 TF-IDF(词频-逆文档频率)

一种用于信息检索与数据挖掘的常用加权技术，常用于挖掘文章中的关键词。对于一篇文章，出现频率最高的词很可能是关键词，这就是词频TF， \(TF=该词在文章中出现的次数/该文章的总词数\) 而一些出现频率很高的词，比如”xxx系统”，在其他文章中也是常出现的，这种在关键词中靠后，赋予比较小的权重，这就是逆文档频率IDF，衡量了一个词能够在多大程度上代表他所处的这个句子， \(IDF=log(语料库的文档数/包含该词的文档数)\) 对其进行平滑，得到， \(IDF=log((语料库的文档数+1)/(包含该词的文档数+1)+1)\) 加1是为了防止没有文档包含这个词，分母变0。最终的TF-IDF如下， \(TF-IDF=TF*IDF\) 该值越大说明词频越高并且在其他文章中出现的少，因此权重越高，越可能是关键词。

4.2 TextRank

TextRank是根据PageRank改进而来的，可以完成关键词提取和文本摘要任务(关键句提取)。

关键词提取

首先进行分词，TextRank中的节点是分词后的词语，例如，原始文本内容为“淡黄的长裙，蓬松的头发，牵着我的手看最新展出的油画”，分词后得到[淡黄长裙蓬松头发牵我手看最新展出油画]，边是滑动窗口中同时出现的词语，若给定窗口为3，依次滑动，得到[淡黄长裙蓬松]、[长裙蓬松头发]等等，得到边淡黄-长裙、长裙-蓬松、蓬松-头发等等，最终得到的图是无向的，然后就可以利用PageRank的公式，计算各个词语的TextRank值，选出值最高的作为关键词。 \(TR(A)=(1-d)+d*(∑TR(Ti)/Out(Ti))\)

文本摘要任务

文本摘要任务，也可以理解为关键句提取，图中的节点变为了句子，首先计算各个句子之间的相似度，相似度可以通过两种方式计算，一是将句子分词，对词向量化并加和平均，然后计算余弦相似度；二是通过如下公式， \(Similarity(Si,Sj)=|\{wk|wk∈Si\&wk∈Sj\}|/log(|Si|)+log(|Sj|)\) 其中，Si、Sj分别表示两个句子，wk表示句子中的词，分子的意思是同时出现在两个句子中的词的个数，分母是两个句子中词的个数和，分母这样的设计可以抑制较长的句子在相似度计算上的优势。

对相似度设定一个阈值，相似度大于阈值的两个句子之间有边相连，相似度作为边的权值，在PageRank公式的基础上，利用以下公式计算TextRank值，选出最高的作为文本摘要， \(TR(A)=(1-d)+d*(∑(TR(Ti)*w1/∑w2)\) Ti代表在图中与A相连的句子，w1代表A和Ti的相似度，w2代表与Ti相连的句子的相似度，分母就是对这些相似度进行了求和。

TF-IDF和TextRank都严重依赖于分词结果，TextRank相对于TF-IDF，可以更充分地利用文本元素之间的关系，但要构造词图并进行迭代计算，因此速度更慢。两者都倾向于将高频词作为关键词。

5 文本特征表示

文本表示可以分为离散表示和分布式表示，离散表示的代表是词袋模型，分布式表示的代表是词嵌入模型。

5.1 Bag Of Words(词袋模型)

词袋模型忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的，就像一个词袋一样。

5.1.1 VSM(向量空间模型)

Vector Space Model，用一个向量表示一个文本，向量的每一个元素对应一个单词，其数值是该单词的词频或者TF-IDF等。语料库有多少类别，向量就有多少位，比如性别有[‘male’,’female’]，地区有[‘CN’,’USA’,’JP’]，就可以用一个五维向量[‘is_male’,’is_female’,’is_CN’,’is_USA’,’is_JP’]表示。这种方式的缺点是数据会非常稀疏。

5.1.1.1 One-Hot(独热编码)

向量的每一位用1/0表示是否有或者没有，如一个中国男性就可以表示为[1,0,1,0,0]，。

5.1.1.2 TF-IDF

TF-IDF不仅可以用作关键词提取，还可以用于文本表示，向量的值为TF-IDF。例如，给定四个文本，

['Chinese Beijing Chinese',
 'Chinese Chinese Shanghai',
 'Chinese Macao',
 'Tokyo Japan Chinese']

那么构造的VSM向量为，

['Beijing', 'Chinese', 'Japan', 'Macao', 'Shanghai', 'Tokyo']

元素的值为其TF-IDF值，以第一条文本’Chinese Beijing Chinese’为例，

TF-IDF('Chinese')=(2/3)*(log(5/5)+1)=0.67
TF-IDF('Beijing')=(1/3)*(log(5/2)+1)=0.64

后面的5代表的是文本总数(平滑+1)，5和2分别代表包含’Chinese’的文本总数和包含’Beijing’的文本总数，那么，最终的向量为，

[0.64,0.67,0,0,0,0]

可以使用sklearn的TfidfVectorizer函数来计算TF-IDF得到VSM；函数CountVectorizer能够计算词频矩阵，同时参数中可以设置停用词。

5.1.1.3 N-Gram

连续出现的N个词/字母。N-Gram相当于一种VSM向量的构造方式，向量的值还是通过上面两种方式计算的，比如实习的项目Readable Detector就是用2-Gram或3-Gram构造了向量[‘aa’,’ab’,’ac’,…]，然后用词频TF作为值(可以改进成TF-IDF)。N-Gram还可以结合马尔科夫链，比如项目Gibberish-Detector。

改进版：NNLM、RNNLM。

5.1.2 TM(主题模型)

Topic Model

5.1.2.1 LSA(潜在语义分析)

5.1.2.2 LDA(隐含狄利克雷分布)

5.2 Word Embedding(词嵌入模型)

5.2.1 Word2Vec

Word2Vec相当于使用神经网络对One-Hot进行了降维，并且考虑了上下文关系，能表示语义信息。使用的神经的网络是一个简化版的，其隐藏层没有激活函数，也就是线性的单元，输出层用的是Softmax。我们并不是用该网络来预测，而是用训练出的参数构造词向量。

5.2.1.1 CBOW

Continuous Bag-of-Words，网络的输入是某一个特征词的上下文相关的词对应的One-Hot，输出是该词的One-Hot，

设VSM的长度为V(上图为4)，希望得到的词向量长度为N，选定单词为coffee，窗口大小为2，则输入的上下文单词为I、drink、everyday，将这些单词的One-Hot向量分别乘以共享的输入权重矩阵W_V×N，所得的向量相加求平均作为隐藏层向量(其实相当于是K-Hot直接乘)，然后乘以输出权重矩阵W’_N×V，得到输出，与Label比较，用反向传播法更新参数矩阵。

训练完成后，每个单词的One-Hot乘以输入权重矩阵W_V×N得到的就是我们需要的词向量。由于One-Hot只有1位是1，因此可以用如下的方式加快计算，

5.2.1.2 Skip-Gram

与CBOW相反，输入是选择的特征词的One-Hot，输出是上下文相关的词的One-Hot。例如我们有一句话，The quick brown fox jumps over lazy dog，选定单词为brown，窗口大小为2，则输出的上下文单词为The、quick、fox，jumps，则我们获得一组训练数据(brown,The)，(brown,qucik)，(brown,fox)，(brown,jumps)，

整个句子就能获得一组训练数据，然后放入网络训练，训练好之后，同CBOW一样，每个单词的One-Hot乘以输入权重矩阵W_V×N得到的就是我们需要的词向量。

在CBOW中，预测行为的次数跟整个文本的词数几乎是相等的，复杂度约为O(V)，设窗口大小为K，Skip-Gram的复杂度约为O(KV)，因此CBOW训练得更快。在Skip-Gram当中，每个词都要受到周围的词的影响，进行K次的预测、调整，因此当数据量较少或者为生僻词时，这种多次的调整会使得词向量相对的更加准确；尽管在CBOW中，每个词也是会受到多次周围词的影响，但是它的调整是跟周围的词一起调整的，调整的值会平均分到该词上，相当于该生僻词没有受到专门的训练。因此Skip-Gram对于罕见词、罕见搭配更友好，而CBOW可以更好地表示更频繁的单词。此外，由于能够衍生出更多的训练样本，Skip-Gram非常适合小训练集。

NLP

自然语言处理基础