最近想学习一些python数据分析的内容,就弄了个爬虫爬取了一些数据,并打算用Anaconda一套的工具(pandas, numpy, scipy, matplotlib, jupyter)等进行一些初步的数据挖掘和分析。
在使用matplotlib画图时,横坐标为中文,但是画出的条形图横坐标总是显示“框框”,就去查资料解决。感觉这应该是个比较常见的问题,网上的中文资料也确实很多,但是没有任何一个彻底解决了我遇到的问题。零零碎碎用了快3个小时的时间,才终于搞定。特此分享,希望能帮到有同样问题的童鞋。
运行环境:
python2.7 Linux Centos7 用conda安装的matplotlib和pandas问题:
matplotlib画图,无法显示中文问题原因:
linux操作系统以及matplotlib的字体库中,没有可用的中文字体 matplotlib包默认只支持ASCII码,不支持unicode码网上资料总结:
修改matplotlib的资源配置文件,例如增加"Simhei"字体(这个字体并不是所有的linux系统都有的好嘛!修改了并没有作用) 给linux安装中文字体,并修改matplotlib的资源配置文件。(呵呵,并没有作用)解决方案:
其实也是综合了网上的各种解决方案。总体说来有以下几个步骤:
1. 获取matplotlibrc文件所在路径。在jupyter notebook中获取:
import matplotlibmatplotlib.matplotlib_fname()
例如,我的这个文件在:
u'~/miniconda2/lib/python2.7/site-packages/matplotlib/mpl-data/matplotlibrc'
后续步骤会修改此文件中的font参数。
2. 看看系统中的所有字体,以及可用的中文字体。也是在jupyter nb中:
from matplotlib.font_manager import FontManagerimport subprocessfm = FontManager()mat_fonts = set(f.name for f in fm.ttflist)print mat_fontsoutput = subprocess.check_output( 'fc-list :lang=zh -f "%{family}/n"', shell=True)print '*' * 10, '系统可用的中文字体', '*' * 10print outputzh_fonts = set(f.split(',', 1)[0] for f in output.split('/n'))available = mat_fonts & zh_fontsprint '*' * 10, '可用的字体', '*' * 10for f in available: print f
做完上述操作,会发现“可用的字体”这里为空。因为没有中文字体给matplotlib用(所以才会中文都显示“框框”)
3. 假设操作系统中没有中文字体。此时下载一个ttf中文字体,并在cenos中安装。要安装那种系统能检测font-family的,否则无效。我在这个网站下载的:http://font.chinaz.com/130130474870.htm
解压rar文件。在 /usr/share/fonts 路径下创建存放此字体的文件夹yourfontdir,并下载的ttf文件复制到yourfontdir中(可以给文件改个英文名,方便操作)
4. 给cenos安装这个字体。
cd /usr/share/fonts/yourfontsdir#生成字体索引信息. 会显示字体的font-familysudo mkfontscalesudo mkfontdir#更新字体缓存:fc-cache
新闻热点
疑难解答