当前位置:网站首页 > Java教程 > 正文

spiderman java教程



Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。

 * 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 10 个扩展点。横跨蜘蛛线程的整个生命周期。 * 通过简单的配置就可以将复杂的网页内容解析为自己需要的业务数据,无需编写一句代码 * 多线程

  • 首先,确定好你的目标网站以及目标网页(即某一类你想要获取数据的网页,例如网易新闻的新闻页面)
  • 然后,打开目标页面,分析页面的HTML结构,得到你想要数据的XPath,具体XPath怎么获取请看下文。
  • 最后,在一个XML配置文件里填写好参数,运行Spiderman吧!

这里有篇文章介绍示例: HTTP://my.oschina.NET/laiweiwei/blog/

这里只说下Chrome浏览器,其他浏览器估计也差不多,只不过插件不同而已。

  • 首先,下载xpathonclick插件,HTTPS://chrome.Google.com/websTore/search/xpathonclick
  • 安装完毕之后,打开Chrome浏览器,可以看到右上角有个“X Path” 图标。
  • 在浏览器打开你的目标网页,然后点击右上角的那个图片,然后点击网标上你想要获取XPath的地方,例如某个标题
  • 这时候按住F12打开JS控制台,拖到底部,可以看到一串XPath内容
  • 记住,这个内容不是绝对OK的,你可能还需要做些修改,因此,你最好还是去学习下XPath语法
  • 学习XPath语法的地方:http://www.w3school.com.cn/xpath/index.ASP

  • 上一篇: java 高职 教程
  • 下一篇: java动画效果教程
  • 版权声明


    相关文章:

  • java 高职 教程2025-03-06 18:58:02
  • java自动接口教程2025-03-06 18:58:02
  • 深入理解java虚拟机 视频教程2025-03-06 18:58:02
  • 学java看谁的教程2025-03-06 18:58:02
  • java文件加密教程2025-03-06 18:58:02
  • java动画效果教程2025-03-06 18:58:02
  • java android 教程2025-03-06 18:58:02
  • java系统教程全套2025-03-06 18:58:02
  • java教程全套书单2025-03-06 18:58:02
  • java教程哪里有2025-03-06 18:58:02