案例3:获取天气预报信息 需求说明 搭建开发环境,实现从“hao123.com”中获取当地天气预报信息,从控制台输出结果 分析 访问网址:https://www.hao123.com 分析网站URL、文档内容特征 获取网页内容 拆分出需求内容 控制台输出结果 搭建WebMagic开发环境 示例代码 import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.pipeline.ConsolePipeline; import us.codecraft.webmagic.processor.PageProcessor; public class WeatherRepo implements PageProcessor{ // 部分一:抓取网站的相关配置,包括编码、抓取间隔、重试次数等 private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override // process是定制爬虫逻辑的核心接口,在这里编写抽取逻辑 public void process(Page page) { // 部分二:定义如何抽取页面信息,并保存下来 page.putField("city", page.getHtml().xpath("//span[@class='weather2-item']/text()").toString()); page.putField("info_today", page.getHtml().xpath("//div[@data-hook='weather']/text()").toString()); page.putField("temperature_today", page.getHtml().xpath("//div[@data-hook='tempera']/text()").toString()); page.putField("info_tomorrow", page.getHtml().xpath("//div[@data-hook='weather-tomorrow']/text()").toString()); page.putField("temperature_tomorrow", page.getHtml().xpath("//div[@data-hook='tempera-tomorrow']/text()").toString()); } @Override public Site getSite() { return site; } public static void main(String[] args) { Spider.create(new WeatherRepo()) //从"https://www.hao123.com"开始抓 .addUrl("https://www.hao123.com") .addPipeline(new ConsolePipeline()) // 控制台输出 .run(); } } ————————————————
Java实现网络爬虫 案例代码3:使用webmagic框架获取天气预报
来源:这里教程网
时间:2026-03-03 18:25:40
作者:
编辑推荐:
相关推荐
-
雷神推出 MIX PRO II 迷你主机:基于 Ultra 200H,玻璃上盖 + ARGB 灯效
2 月 9 日消息,雷神 (THUNDEROBOT) 现已宣布推出基于英
-
制造商 Musnap 推出彩色墨水屏电纸书 Ocean C:支持手写笔、第三方安卓应用
2 月 10 日消息,制造商 Musnap 现已在海外推出一款 Oce
热文推荐
- Oracle 19c安装GI(Standalone Oracle Restart)
- Oracle DB replay性能测试
Oracle DB replay性能测试
26-03-03 - 甲骨文与红帽扩大合作,将Red Hat Enterprise Linux引入 Oracle Cloud Infrastructure
- 甲骨文发布 2023 年云计算领域的五大预测
甲骨文发布 2023 年云计算领域的五大预测
26-03-03 - 监控视频存储压缩解决方案
监控视频存储压缩解决方案
26-03-03 - 强敌勇、追兵紧,星巴克艰难“守擂”
强敌勇、追兵紧,星巴克艰难“守擂”
26-03-03 - 从备份片中恢复某个指定得归档或者数据文件
从备份片中恢复某个指定得归档或者数据文件
26-03-03 - VIAVI唯亚威Trilithic DSP 系列测试仪
VIAVI唯亚威Trilithic DSP 系列测试仪
26-03-03 - VIAV唯亚威网线光纤认证测试仪
VIAV唯亚威网线光纤认证测试仪
26-03-03 - 大事务导致的OGG抽取进程每天7:39定时延时,运行极其缓慢
大事务导致的OGG抽取进程每天7:39定时延时,运行极其缓慢
26-03-03
