SpringBoot Maven项目调用第三方接口获取值
使用spring的restTemplate方式
引入依赖1234<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId></dependency>
HttpClient工具类1234567891011121314151617181920212223242526272829import org.springframework.beans.factory.annotation.Autowired;import org.springframework.stereotype.Component;import org.springframework.web.client.RestTemplate;import java.util.Map; @Componentpublic class HttpClient { @Autowired private ...
Python中使用Requests爬虫实现赶集网数据提取
前言之前两篇request文章,爬取的是文章固定标签id,唯一值这里我通过爬取赶集网上的找房,爬了一点数据,主体上和爬小说是差不多的。
代码1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859# coding:utf-8import requestsfrom lxml import etreeimport pymysql # 获取网页源代码url = 'http://sh.ganji.com/zufang/'req = requests.get(url)selector = etree.HTML(req.content)# link链接link = selector.xpath('//*[@class="f-list-item ershoufang-list"]/dl/dd/a/@href')# 标题title = selector.xpath('// ...
Python中使用Requests爬虫实现网页源码提取
获取开发者模式(F12)下的网页源码两种引入request的方式,最终再通过request获取网页所以源码
第一种:引入request方式引入request方式,from urllib import request
123456789101112from urllib import request # 网站网址url = "http://sh.ganji.com/zufang/"# 打开URLreq = request.urlopen(url)# 获取URLhtml = req.read() # 解码成utf-8格式html = html.decode("utf-8")# 输出源码print(html)
第二种:引入request方式引入request方式,import urllib.request
12345678910import urllib.request # 网站网址url = "http://sh.ganji.com/zufang/"# 打开URLreq = urllib.request.urlopen(u ...
Java中如何使用Jsoup提取本地HTML页面的标签内容
引入Maven依赖
12345<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.2</version></dependency>
代码123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements; public class JsoupTest { /** * 读HTML文件 * ...
Linux下升级安装python3.8,并配置pip及yum
前言博主用的阿里云服务器的CentOS 7,自带的python版本是python-2.7.5,需要再安装一个 python-3.8.1
所以如何在需要在不删除python-2.7.5的情况下,在安装一个python3.8.1版本的,
1python -V
安装Python3.8.1进入Python官网进行下载合适的python,Python官网下载地址
12345678910# 解压tar -zxf Python-3.8.1.tgz# 安装依赖包yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc libffi-devel# 进入python目录cd Python-3.8.1# 编译./configure --prefix=/usr/local/python3# 安装make && make install
将系统默认的python备份
我这里之前自带的就是python2.7.5版本,为了避免文件重名,所以我直 ...
如何通过自然语言处理(NLP)实现文章摘要提取
前言为了方便使用,我这里只是整理了网上的几种提取摘要的的使用方法,不做任何代码解析。这几种方法我都成功测试过了,但是提取出来数据是有差异的,这里建议这几种方法对比参考后再使用。
Java,使用Classifier4J支持英文提取,不支持中文提取使用该方法,需要引入classifier4J.jar
Classifier4J-0.6.zip
123456789101112import net.sf.classifier4J.summariser.ISummariser;import net.sf.classifier4J.summariser.SimpleSummariser; public class Classifier4J { public static void main1(String[] args) { String str= "Here is the content of the article"; //SimpleSummariser s = new ...
Python中使用Requests爬虫实现小说爬取
前言这里只需要一个py文件就能实现数据采集它区别于之前记录的方式,这里没有使用Scrapy框架,直接通过Requests提取使用Requests,需要提前下载好第三方插件库代码注释我已经写的挺清晰的了~~~
目标:
创建普通的python爬虫项目
爬取正确的数据(1) 对爬取的数据进行格式转换
爬取的数据进行数据库存储
新建一个py文件文件名:myCrawler.py
py代码如下12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061# coding:utf-8import requestsfrom lxml import etreeimport pymysql # 执行命令:python myCrawler.pydef job(): # 获取网页源代码 url = 'http://book.zongheng.com/chapter/885037/58155562.html' ...
Python中使用Scrapy实现服务部署及定时调度
前言这篇记录一下如何部署Scrapy项目
上传项目通过Xftp将项目丢到服务器的 /home 目录下
执行项目非调度执行先在服务器的 /home 路径下创建两个文件夹 crawler、logs执行爬虫(scrapy crawl test),并打印日志(/home/logs/crawlerDemo.log),代码如下:
1cd /home/crawler/crawlerDemo && nohup scrapy crawl test > /home/logs/crawlerDemo.log 2>&1 &
调度执行同样的,先在服务器的 /home 路径下创建两个文件夹 crawler、logs新建一个调度py文件,注意:调度py文件需要建在这一层级中,否则会出现意想不到的惊喜 ~ ~ ~
1234567891011121314151617181920212223242526272829303132333435363738import loggingimport scheduleimport subprocessimport os # 需要调 ...
Python中使用Scrapy爬虫实现MySQL数据库存储
前言Python刚接触,基础不好,都是现拉过来直接搞爬虫,脑子笨,边学边记录。这里使用Scrapy框架,相关信息需自行百度。这里是在【《Python笔记》Scrapy爬虫(1)本地存储】的代码基础,并需要满足下面几个条件
使用Scrapy框架,需要提前下载好第三方库目标:
本地安装所需要的各种环境,按照自己需要的安装
创建scrapy爬虫项目
爬取正确的数据
对爬取的数据进行格式转换
爬取的数据进行本地存储(存入txt文…
目标:
爬取正确的数据(1) 对爬取的数据进行格式转换(2) 根据自定义规则,拆分标题、章节数
爬取多个章节,支持分页,下一页爬取
爬取的数据存入数据库(1) 新建数据库(2) settings.py中配置数据连接信息(3) 引入已经写好的mysql.py(4) 判断数据库是否存在,避免爬取的数据重复(5) 新数据存库
引入 mysql.py我这里直接引用别人写好的 mysql.py 数据库连接工具,也可以自己手写
123456789101112131415161718192021222324252627282930313233343536373839 ...
Python中使用Scrapy爬虫实现本地存储
前言这里使用Scrapy框架,相关资料需自行百度。注意,使用Scrapy框架,需要提前下载好第三方库 pip install xxxx
目标:
本地安装所需要的各种环境,按照自己需要的安装
创建Scrapy爬虫项目
爬取正确的数据
对爬取的数据进行格式转换
爬取的数据进行本地存储(存入txt文件中)
升级pip到最新版本1python -m pip install --upgrade pip
安装Scrapy框架所需第三方类库1pip install scrapy
新建一个目录,并通过命令在该目录下创建一个Scrapy爬虫项目 crawlerDemo1scrapy startproject crawlerDemo
找到该项目,导入到Pycharm中,表结构如下:
在spiders包下创建一个python文件,并敲入代码
我这里在spiders包内新建了一个py文件,myfirst.py,这个py文件名字随便起的,记住接下来代码中的爬虫name就行
敲入代码
这串代码,随便爬了一个小说网的某篇小说的其中一章(这篇文章没有记录翻页、下一页)通过xpath,分析出规则,根据规则对 ...