東引甌越

不断学习, 与时俱进.

嗨,我是孙亚洲(@sunyazhou13),一名来自北国冰城的iOS开发者,也搞过一些mac.现居帝都北京.开发数年有余,没有为往圣续绝学深感惭愧,今2017年开始写博客.望诸位同仁多多指教.


NLP分词WordEmbeding

前言

学习过程中记录一下python代码

#!/usr/bin/env python
# coding:utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
# 加载包
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
# 训练模型
# sentences = LineSentence('wiki.zh.word.text')
# size:词向量的维度
# window:上下文环境的窗口大小
# min_count:忽略出现次数低于min_count的词
# model = Word2Vec(sentences, size=128, window=5, min_count=5, workers=4)
# 保存模型
# model.save('word_embedding_128')
# 如果已经保存过模型,则直接加载即可
# 前面训练并保存的代码都可以省略
model = Word2Vec.load("word_embedding_128")
# 使用模型
# 返回和一个词语最相关的多个词语以及对应的相关度
items = model.most_similar(u'中国')
for item in items:
# 词的内容,词的相关度
print item[0], item[1]
# 返回两个词语之间的相关度
model.similarity(u'男人', u'女人')

参考分词如下:

哈工大分词
jieba分词
stanford分词

最近的文章

Learning AV Foundation(五)播放视频

前言很久没有写Learning AV Foundation相关的文章了,言归正传本篇介绍一下简单的视频播放 了解视频播放之前我们来看戏AVPlayer需要的一些组件模型 AVPlayerAVPlayer是一个用来播放基于基于时间的视听媒体的控制对象,支持播放: 本地 媒体文件 异步下载 媒体文 …

于  Learning AV Foundation, iOS开发, macOS开发 继续阅读
更早的文章

使用Python操作MySQL数据库

前言为了实现不斷學習 與時俱進周末把大部分时间放在了学习Python上.在最近的学习中有一些有价值的部分都摘录整理出来放到博客上,以免后续用到的时候忘记时回来翻翻博客. 我是在study.163.com的这个《全栈数据工程师养成攻略》课程中学习的,推荐大家学习一下. 本篇主要内容主要分为三个大部分 …

于  python, web开发 继续阅读