几年前在做一个购物网站的数据抓取工作中,偶然的机会邂逅了HtmlUnit了。记得当时怎么也捉取不到页面上的价格数据,而httpfox也追踪不到价格数据的URL,正当我一愁莫展的时个,HtmlUnit出现并帮我解决了问题。所以今天我要说声谢谢,也将HtmlUnit推荐给大家。
3.1 获取页面的TITLE、XML代码、文本
3.2 使用不同版本的浏览器打开
3.3 找到页面中特定的元素
tips:有些元素中没有id和name或其他节点,可以通过找他的子节点和父节点之间规律的方法来获取该元素,具体方法参考:https://blog.csdn.net/_/article/details/
其核心代码为:
3.4 元素检索
3.5 提交搜索
如果你只是爬取一个js不多的网站我建议换下面这个依赖
比较详细的xpath讲解:https://testerhome.com/topics/20296
css选择器:(我更加钟爱)
有 setAttribute()方法节点的属性样式,setNodeValue()设置节点value值。是不是英语一下子就提高了?几乎所有的标签可以找到与之对应的的类,下面看我的实战:这是一个在线填写温度的excel文档 如果访问改地址,他会提示登陆网页上有登录按钮,如果登录过网页上是没有登录按钮,我们现在模拟打开自动登录框:
注意:htmlunit引用的jar包不全是会奇怪的报错
使用maven方法比较方便
参考:https://blog.csdn.net/weixin_/article/details/
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.bianchenghao6.com/h6javajc/12443.html