主页 NLP分词WordEmbeding
Post
Cancel

NLP分词WordEmbeding

前言

学习过程中记录一下python代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
#!/usr/bin/env python
# coding:utf8

import sys
reload(sys)
sys.setdefaultencoding('utf8')


# 加载包
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

# 训练模型
# sentences = LineSentence('wiki.zh.word.text')
# size:词向量的维度
# window:上下文环境的窗口大小
# min_count:忽略出现次数低于min_count的词
# model = Word2Vec(sentences, size=128, window=5, min_count=5, workers=4)

# 保存模型
# model.save('word_embedding_128')

# 如果已经保存过模型,则直接加载即可
# 前面训练并保存的代码都可以省略
model = Word2Vec.load("word_embedding_128")

# 使用模型
# 返回和一个词语最相关的多个词语以及对应的相关度
items = model.most_similar(u'中国')
for item in items:
	# 词的内容,词的相关度
	print item[0], item[1]

# 返回两个词语之间的相关度
model.similarity(u'男人',  u'女人')

参考分词如下:

哈工大分词
jieba分词
stanford分词

该博客文章由作者通过 CC BY 4.0 进行授权。

使用Python操作MySQL数据库

Learning AV Foundation(五)播放视频