天气真的是越来越冷啦,有时候我们想翻看网页新闻,但是又冷的不想把手拿出来,移动鼠标翻看。这时候,是不是特别想电脑像讲故事一样,给我们念出来呢?人生苦短,我有python啊,试试用 Python 来朗读给你听吧。
网页转换成语音,步骤无外乎:
网页正文识别,获取到正文的文本内容;
文本转语音,通过接口将文本转换成语音文件;
语音文件的发声,即将语音文件读出;
1 网页正文识别
之所以用 Python,就是因为 Python 有着丰富的库,网页正文识别也不在话下。这里用
readability、goose3
1.1 readability
readability 支持 Python3,使用 pip install readability-lxml 安装即可。
readability 使用起来也很方便:
import requestsfrom readability import Documentresponse = requests.get('http://news.china.com/socialgd/10000169/20180616/32537640_all.html')doc = Document(response.text)print(doc.title())
但是 readability 提取到的正文内容不是文本,里面仍包含 HTML 标签。
当然也可以结合其他组件再对 HTML 进行处理,如 html2text,我们这里就不再延伸,有兴趣的可以自行尝试。
1.2 goose3
Goose 本来是一个用 Java 编写的文章提取器,后来就有了 Python 实现版: goose3 。
使用起来也很方便,同时对中文支持也不错。使用 pip install goose3 即可安装。
>>> from goose3 import Goose>>> from goose3.text import StopWordsChinese>>> url = 'http://news.china.com/socialgd/10000169/20180616/32537640_all.html'>>> g = Goose({'stopwords_class': StopWordsChinese})>>> article = g.extract(url=url)>>> print(article.cleaned_text[:150])
北京时间6月15日23:00(圣彼得堡当地时间18:00),2018年世界杯B组一场比赛在圣彼得堡球场展开角逐,伊朗1比0险胜摩洛哥,伊朗前锋阿兹蒙半场结束前错过单刀机会,鲍哈杜兹第95分钟自摆乌
龙。这是伊朗20年来首度在世界杯决赛圈取胜。
本届世界杯,既相继出现替补便进球,贴补梅开二度以及东道主
可以看出网页正文提取效果还不错,基本满足我们的要求,可以使用!
注意:goose 还有另外一个 Python2 的版本:Python-Goose,使用方法和 goose3 基本一样。
2 文本转语音
文本转语音,百度、阿里、腾讯、讯飞等都有提供 REST API 接口,阿里和腾讯的申请相对时间较长,阿里的貌似还要收费,百度和讯飞的在线申请后即可使用。
没办法,好的东西得来总是要曲折一些。其中百度的没有调用量的限制(其实默认是 200000 次/天),讯飞有每天 500 次的限制。
新闻热点
疑难解答