textrank教程java - 编程好6文档

参考文章：https://www.cnblogs.com/Luv-GEM/p/10884493.html

在TextRank之前我们需要先了解一下PageRank算法。事实上它启发了TextRank！PageRank主要用于对在线搜索结果中的网页进行排序。

PageRank对于每个网页页面都给出一个正实数，表示网页的重要程度，PageRank值越高，表示网页越重要，在互联网搜索的排序中越可能被排在前面。

假设整个互联网是一个有向图，节点是网页，每条边是转移概率。网页浏览者在每个页面上依照连接出去的超链接，以等概率跳转到下一个网页，并且在网页上持续不断地进行这样的随机跳转，这个过程形成了一阶马尔科夫链，比如下图：
在这里插入图片描述
每个笑脸是一个网页，既有其他网页跳转到该网页，该网页也会跳转到其他网页。在不断地跳转之后，这个马尔科夫链会形成一个平稳分布，而PageRank就是这个平稳分布，每个网页的PageRank值就是平稳概率。

所以PageRank的定义意味着网页浏览者按照以下方式在网上随机游走：以概率d按照存在的超链接随机跳转，以等概率从超链接跳转到下一个页面；或以概率(1-d)进行完全随机跳转，这时以等概率（1/n）跳转到任意网页。

两种算法的相似之处：

用句子代替网页
任意两个句子的相似性等价于网页转换概率
相似性得分存储在一个方形矩阵中，类似于PageRank的矩阵M

不过公式有些小的差别，那就是用句子的相似度类比于网页转移概率，用归一化的句子相似度代替了PageRank中相等的转移概率，这意味着在TextRank中，所有节点的转移概率不会完全相等。
在这里插入图片描述

输出：

简要介绍一下word2vec模型参数含义

sentences: 我们要分析的语料，可以是一个列表，或者从文件中遍历读出。后面我们会有从文件读出的例子。
size: 词向量的维度，默认值是100。这个维度的取值一般与我们的语料的大小相关，如果是不大的语料，比如小于100M的文本语料，则使用默认值一般就可以了。如果是超大的语料，建议增大维度。
window：即词向量上下文最大距离，这个参数在我们的算法原理篇中标记为c，window越大，则和某一词较远的词也会产生上下文关系。默认值为5。在实际使用中，可以根据实际的需求来动态调整这个window的大小。如果是小语料则这个值可以设的更小。对于一般的语料这个值推荐在[5,10]之间。
sg: 即我们的word2vec两个模型的选择了。如果是0，则是CBOW模型，是1则是Skip-Gram模型，默认是0即CBOW模型。
hs: 即我们的word2vec两个解法的选择了，如果是0，则是Negative Sampling，是1的话并且负采样个数negative大于0，则是Hierarchical Softmax。默认是0即Negative Sampling。
negative:即使用Negative Sampling时负采样的个数，默认是5。推荐在[3,10]之间。这个参数在我们的算法原理篇中标记为neg。
cbow_mean: 仅用于CBOW在做投影的时候，为0，则算法中的xw为上下文的词向量之和，为1则为上下文的词向量的平均值。在我们的原理篇中，是按照词向量的平均值来描述的。个人比较喜欢用平均值来表示xw,默认值也是1,不推荐修改默认值。
min_count:需要计算词向量的最小词频。这个值可以去掉一些很生僻的低频词，默认是5。如果是小语料，可以调低这个值。
iter: 随机梯度下降法中迭代的最大次数，默认是5。对于大语料，可以增大这个值。
alpha: 在随机梯度下降法中迭代的初始步长。算法原理篇中标记为η，默认是0.025。
min_alpha: 由于算法支持在迭代的过程中逐渐减小步长，min_alpha给出了最小的迭代步长值。随机梯度下降中每轮的迭代步长可以由iter，alpha， min_alpha一起得出。这部分由于不是word2vec算法的核心内容，因此在原理篇我们没有提到。对于大语料，需要对alpha, min_alpha,iter一起调参，来选择合适的三个值。

word2vec的训练:

输出：

上一篇：厦门java教程

下一篇： java 教程 vo

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.bianchenghao6.com/h6javajc/4735.html

相关文章：