本人使用搜狗全网新闻数据:http://www.sogou.com/labs/resource/ca.php
下载完整版,完整版(711MB)
新闻语料格式说明:
数据格式为
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本
处理目的:删除无效标签,对有效文本内容进行分词,生成可用于word2vec的训练语料
1)处理文件,将文本文件修改成标准的xml文件
在文件开始位置添加:<?xml version=/"1.0/" encoding=/"UTF-8/"?>/r/n
<docs>/r/n
在文件末尾位置添加:
/r/n</docs>
生成xml文件格式:
<?xml version=/"1.0/" encoding=/"UTF-8/"?>
<docs>
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
.......(此处省略无数个doc)
</docs>2)使用sax解析xml文本
读取xml中的title和content,使用ansj标题和内容进行分词,将分解结果写入另一个文件中,该文件为训了语料
结果生成的文本语料为2.12 GB
代码下载地址:http://download.csdn.net/detail/PRogrammeryu/9765032
如何利用生成的词向量文件进行文本分类和文本聚类?待续
新闻热点
疑难解答