如何使用Word2Vec计算出现在文本某处的句子的概率

让我们从一个抽象的方式开始吧。 假设我需要计算句子中单词的概率。 人们可以简单地运行马尔可夫链模型或一些条件概率模型来确定句子中单词的概率。 word2vec模型确定给定单词(目标单词)相对于其周围单词(skip-gram)的可预测性可能性,或者让周围单词(CBOW)决定目标单词的概率。 softmax函数生成的概率值纯粹是语法上的,不是语义上的或顺序的。 顺序,我的意思是,通过理解句子中单词的顺序来生成目标单词的概率。 因此,我同意Leonid Boytsov(未定义),word2vec无法生成文档中句子出现的概率,因为word2vec不是马尔可夫模型的生成模型。 但是,对于word2vec来说,事情是正确的: 1.它从两个模型生成目标词的概率:CBOW和Skip-gram。 它从训练语料库中读取句子以生成这些概率值向量。 所以,在模型训练的最后,你有一个单词和他们的向量词汇。 人们可以通过平均单词向量和跨单词的概率,将这些单词向量用于语料库中句子的概率。 (可以测试这种方法,并且可以采用基于频率或基于模型的方法作为基线来比较结果)。 可以执行实验列表以查看它是否正常工作: 1.保留或删除:停用词或文章。 2.如果我们仅使用语料库中的名词短语生成句子的概率怎么办? (POS标签)…