如何使用蜜蜂采集器采集北京新发地市场农产品价格行情

后知科技 2120 阅读 0 评论 0 点赞

蜜蜂采集器的使用教程 - 采集北京新发地市场农产品价格行情

本文以北京新发地市场农产品价格行情采集为例，介绍列表页网址中的时间格式化参数的使用方法。

页面分析

数据来源：北京新发地市场官网。

使用浏览器打开北京新发地市场官网，按F12打开浏览器的开发者工具。设置时间范围为当天，点击“查询”。可以看到.../getPriceData.html这样的POST请求，返回内容为JSON格式。我们试着将POST请求的网址和参数改装成GET方式，发现也可以正常访问，因此，就以此地址的GET请求来采集。

采集规则实现

格式化网址源：.../getPriceData.html?limit=1000&current=1&pubDateStartTime=[参数]&pubDateEndTime=[参数]&prodPcatid=&prodCatid=&prodName=，两个参数都是时间变化格式，且时间格式为yyyy-MM-dd，从0到0天，也就是只采集当天数据。这里将limit改为1000，因为一天的数据是469条，我们一次获取完毕，避免频繁请求。勾选“列表页网址即为内容页网址”。

内容采集。各标签均勾选“页内循环采集标签内容”，提取方法为JsonPath。在“循环采集”设置页面，勾选“每个循环采集的结果以新记录保存”。这里，因为是Json方式获取的，所以采用循环采集的方式，将每个子项都采集为一个新纪录。

id：JsonPath提取规则为["list"][*]["id"]；
一级分类：JsonPath提取规则为["list"][*]["prodCat"]；
一级分类id：JsonPath提取规则为["list"][*]["prodCatid"]；添加标签数据二次处理项“字符串替换”，将null替换为空，因为这里会出现null值；
二级分类：JsonPath提取规则为["list"][*]["prodPcat"]；
二级分类id：JsonPath提取规则为["list"][*]["prodPcatid"]；添加标签数据二次处理项“字符串替换”，将null替换为空，因为这里会出现null值；
品名：JsonPath提取规则为["list"][*]["prodName"]；
最低价：JsonPath提取规则为["list"][*]["lowPrice"]；
平均价：JsonPath提取规则为["list"][*]["avgPrice"]；
最高价：JsonPath提取规则为["list"][*]["highPrice"]；
规格：JsonPath提取规则为["list"][*]["specInfo"]；
产地：JsonPath提取规则为["list"][*]["place"]；
单位：JsonPath提取规则为["list"][*]["unitInfo"]；
发布日期：JsonPath提取规则为["list"][*]["pubDate"]。

运行采集任务，查看采集数据结果。

至此，就实现了北京新发地市场农产品价格行情数据的采集。

本文分类：蜜蜂采集器PC版使用文档
本文标签：蜜蜂采集器采集器网页采集信息采集采集器软件建站建站工具建站教程网络爬虫
浏览次数：2120 次浏览
发布日期：2023-04-05 10:00:45
本文链接：https://zhi200.com/cms/mifengcaijiqiPCbanshiyongwendang/133.html

上一篇 > 如何使用蜜蜂采集器采集海关进口重点商品数据
下一篇 > 使用蜜蜂采集器实现博客搬家功能

如何使用蜜蜂采集器采集北京新发地市场农产品价格行情

蜜蜂采集器的使用教程 - 采集北京新发地市场农产品价格行情

页面分析

采集规则实现

评论列表共有 0 条评论

发表评论取消回复

如何使用蜜蜂采集器采集北京新发地市场农产品价格行情

蜜蜂采集器的使用教程 - 采集北京新发地市场农产品价格行情

页面分析

采集规则实现

[视频] 如何将蜜蜂采集器的采集数据发布为xlsx格式的Excel表格文件

如何将蜜蜂采集器的采集数据发布为xlsx格式的Excel表格文件

[视频] 使用蜜蜂采集器实现“采集一次再发布到多个站点”的几种方法

使用蜜蜂采集器实现“采集一次再发布到多个站点”的几种方法

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复