翻译功能,一般是调用第三方API。大概流程是,在一些提供翻译服务的站点注册帐号,然后申请API权限,之后再调用其API接口或SDK,即可实现翻译功能。
一般情况下,这些翻译机构都提供一定的免费额度,超出部分会按字数收费。
本文以蜜蜂采集器为例,调用百度翻译接口,实现文本翻译功能。
插件介绍
蜜蜂采集器的插件功能,分为列表页网址插件、数据处理插件、标签数据处理插件、文件上传插件、内容发布插件、消息通知插件。每一种插件都支持PHP、Python、Nodejs、Go四种编程语言。
其中,数据处理插件是在一条采集记录中的所有标签字段采集完毕之后调用,针对的是单条数据记录,可以对单条记录的所有标签内容进行处理。标签数据处理插件是在标签数据采集过程中的标签数据二次处理阶段调用,针对的是一次内容采集中的一个标签数据,只能对单条记录的一个标签字段进行处理。
对于翻译功能,一般是在内容采集阶段,对标签内容进行翻译处理。所以,数据处理插件和标签数据处理插件都可以执行翻译操作。为了更通用,这里采用标签数据处理插件。
功能实现
关于采集规则的编写,这里略过。主要说一下翻译功能。
打开主菜单“帮助”——“应用市场”。类型选择“标签数据处理插件”。搜索“翻译”,可以看到“百度翻译公共版”和“百度翻译API版”。“百度翻译公共版”无需申请百度翻译接口权限,但有使用频次限制;如果需要大量调用翻译功能,请使用“百度翻译API版”。选择对应插件,点击“下载”导入。
创建标签数据处理配置后,可以在“标签数据处理配置管理”列表中找到对应的配置项。
先看一下这个插件的输入参数使用说明:
- appid / 密钥: 从百度翻译开放平台的管理控制台获取。
- from: 翻译源语言。可设置为auto。参考通用翻译API接入文档的“常见语种列表”。
- to。: 翻译目标语言。不可设置为auto。参考通用翻译API接入文档的“常见语种列表”。
因此,“标签数据处理配置管理”列表中找到对应的配置项,点击“修改”。然后根据说明填写这四个参数。
在百度翻译开放平台中,找到“通用文本翻译API”,申请开通“通用文本翻译API”,即可。开通后,每月有一定量的免费额度。
之后,将百度翻译开放平台的管理控制台中的appid / 密钥
填充到采集器的配置项中,设置from
为zh
,设置to
为en
。
转到采集规则的编辑窗口。启用“标签数据二次处理”,并添加“调用插件”处理项,选择刚刚配置好的翻译配置,即可。如图:
测试采集规则。点击下方的“测试”,测试是否正常执行。在“网址采集”的测试窗口,双击记录项 或 点击“测试内容采集”,即可获得测试网址。
至此,我们就实现了中文翻译为英文的功能。
希望这篇文档的介绍,可以抛砖引玉,也能让你了解采集器的使用,可以去蜜蜂采集器官网https://zhi200.com下载最新版本客户端。
发表评论 取消回复