爬虫学习之Jsoup简单练习

(35) 2024-02-12 19:12

Hi,大家好,我是编程小6,很荣幸遇见你,我把这些年在开发过程中遇到的问题或想法写出来,今天说一说爬虫学习之Jsoup简单练习,希望能够帮助你!!!。

Jsoup

抓取网页后,需要对网页解析,可以使用字符串处理工具解析页面,也可以使用正则表达式

jsoup 的作用:是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据

jsoup的主要功能如下:

1.从一个URL,文件或字符串中解析HTML;

2.使用DOM或CSS选择器来查找、取出数据;

3.可操作HTML元素、属性、文本;

创建练习类

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第1张

解析URL

第一个参数是访问的url,第二个参数是访问的超时时间

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第2张

使用标签选择器,获取title标签中的内容

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第3张

输出结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第4张

读取文件

准备一个简易的HTML文件

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第5张

获取这个

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第6张

读取文件,获取字符串,代码及结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第7张

使用dom方式遍历文档

解析文件获取document对象

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第8张

依据id获取,这个是id的内容,我们获取这个内容

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第9张

编写代码,显示结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第10张

依据标签获取,我们获取这个标签的内容

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第11张

代码及结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第12张

依据class获取,获取内容

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第13张

代码和结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第14张

依据属性,属性内容

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第15张

代码和结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第16张

接下来从元素中获取数据

首先从元素中获取ID

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第17张

从元素中获取className

文本

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第18张

代码及结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第19张

如果内容是两个class

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第20张

那么代码及结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第21张

从元素中获取属性

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第22张

代码及结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第23张

获取元素的所有属性

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第24张

代码及结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第25张

从元素中获取文本内容,这个之前有,代码和结果

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第26张

爬虫学习之Jsoup简单练习_https://bianchenghao6.com/blog__第27张

今天的分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。

上一篇

已是最后文章

下一篇

已是最新文章

发表回复