瀑布流的功能开发完了,感觉还不错,地址是:http://www.656463.com/waterfall,其中也有一些知识点,和大家分享一下。既然是瀑布流,就会涉及到图片,在这里我是获取本站文章中的图片,所以本节就是用jsoup获取文章中的图片
jsoup简单介绍
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
使用jsoup很简单,就是下载jar包,然后就能用里面的API进行解析了
中文地址是:http://www.open-open.com/jsoup/
下载jsoup地址:http://jsoup.org/download,最新版是jsoup-1.7.2.jar
获取文章图片
获取文章的图片,就是用jsoup在文章内容里解析出文章路径
List<String> imgs = JsoupUtil.getImgSrc(article.getContent());
解析工具类
/** * 解释HTML获取图片列表 * @param html HTML内容 * @return 图片列表 */ public static List<String> getImgSrc(String html){ List<String> imgSrcs= new ArrayList<String>(); Document doc = Jsoup.parse(html); Elements imgs = doc.getElementsByTag("img"); for (Element img : imgs) { String imgSrc = img.attr("src"); if(imgSrc!=null && imgSrc.trim().length()>0){ imgSrcs.add(imgSrc); } } return imgSrcs; }
简单吧,就这样了
本文链接:用jsoup获取文章中的图片-瀑布流系列文章,由领悟书生原创
转载请注明出处【http://www.656463.com/article/348】
相关推荐
javascript获取img标签,以及img的src连接地址,测试代码。
html中获取图片 文章中提取图片 正则获取图片 富文本提取图片路径 字符中中获取图片路径 html中获取图片 文章中提取图片 正则获取图片 富文本提取图片路径 字符中中获取图片路径 html中获取图片 文章中提取图片 正则...
-----C#.net 文章中的网址与图片名提取实例代码-----
文章配图:可以设置为关闭、背景颜色、背景图片、Pixabay API。 提取文章内容图片作为缩略图:当文章没有缩略图时,尝试提取文章内容里的图片作为缩略图。
然后,我们定义了多张图片的路径,并遍历这些图片路径,调用OCR SDK提取图片文字,并输出提取的文字。 需要注意的是,OCR SDK需要从百度AI平台获取,需要先注册百度AI平台账号并创建OCR应用,然后获取API Key和...
asp截取文章中的第一个图片的函数 简单实用方便
如果文章内容没有图片,可以配置是否在内容页显示缩略图,让文章图文并茂。 只有主题支持缩略图功能,才会显示缩略图。 1、支持设置文章配图接口,让配图更简单。 2、支持设置缩略图大小。 3、支持设置默认缩略...
主要介绍了php实现获取文章内容第一张图片的方法,涉及对正则表达式的操作,非常具有实用价值,需要的朋友可以参考下
代码案例 Python OCR 使用easyocr库将图片中的文章提取出来
功能:新增文章特色图片(缩略图)字段 文章:https://kunnan.blog.csdn.net/article/details/119925759
本文实例讲述了php获取文章内容第一张图片的方法。分享给大家供大家参考,具体如下: <?php $temp=mt_rand(1,4); $pattern="/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg|\.png]))[\'|\"].*?[\/]?>/"; $...
易优一键获取微信公众号文章插件,可获取微信文章的标题、封面、摘要、发布时间、内容|图片可本地化、支持多网址采集。 应用场景 用户有时候需要手工把微信文章采集到网站很麻烦,另外微信图片防采集需要一张张...
PHP文章内容管理系统,个人博客系统是一个通用的文章内容管理系统,基于开源的caozha-admin开发,采用前后端分离的模板和标签化方式,支持文章内容管理、栏目分类管理、评论管理、友情链接管理、远程图片获取器等...
该资源包含一个使用scrapy下载文章图片,并使用item设计封装需要获取的属性,简单易懂
11.采集:按目标文章分页、保存图片时增加水印、自动分页字数、规则导入导出、自动提取文章中第一张图片为幻灯。 12.前台会员登录保存Cookies控制、后台多管理员及权限控制、前台会员上传图片控制。 13.站内关键字...
复制代码 代码如下:/** * 获取替换文章中的图片路径 * @param string $xstr 内容 * @param string $keyword 创建照片的文件名 * @param string $oriweb 网址 * @return string * */function replaceimg($xstr,...
所有SEOER都必须做的一件事,就是网站内容的原创性,这里分享一款可以把我们买的图书的内容抓取变成电子文档,轻松搞定原创文章! 是做SEO不错的功能软件!
1、文章可以在后台进行自动分页(通过插入[PAGE]标签进行自动分页) 2、文章内部链接功能:通过添加的专题关键字在文章内容中自动识别,生成超链接 3、文章的HTML编辑功能:可视化编辑
- 下载文章中包含的所有图片 - 将文章内容保存为HTML文件 - 自动创建相应的目录结构,将文章和图片保存到当前工作目录 3. 使用方法非常简单,只需运行脚本并输入要抓取的版块URL即可。爬虫会自动开始工作,无需其他...