全球主机交流论坛

标题: 写爬虫时遇到个神奇的站点 [打印本页]

作者: hacker5402    时间: 2018-7-24 22:10
标题: 写爬虫时遇到个神奇的站点
本帖最后由 hacker5402 于 2018-7-24 22:11 编辑

写的代理IP爬虫,写的差不多了,在收集代理网站,
收集了8个资源站 都是xpath一匹配就行,偏偏这个例外
这个http://www.goubanjia.com/


一个IP地址 要搞这么多标签搞混吗 就是不让人去爬吧 ..



然后写了段程序去爬。出来是出来了,结果发现request.get每次获取url的内容中的端口号都是变化的!
。。。端口号都是变化的
那其他工具get得到的也是,每次端口都是变化的,chrome检查元素的端口是正确的,但response的端口是变化的
然后去查看这个站里的js文件,发现个可疑的



解密后



大致恢复了下源代码


于是对着一写。。。



水一贴
作者: fei2018    时间: 2018-7-24 22:12
牛逼啊大佬,想跟你学技术
作者: 广东吴彦祖    时间: 2018-7-24 22:12
看不懂 楼下大佬解释下
作者: doruison    时间: 2018-7-24 22:14
排风完全不会,js忘光了
作者: ddosworks    时间: 2018-7-24 22:15
你还没见过生成图片然后取坐标的
作者: hacker5402    时间: 2018-7-24 22:18
ddosworks 发表于 2018-7-24 22:15
你还没见过生成图片然后取坐标的


就是觉得这个一个代理IP而已还至于这样吗..
作者: liang0754    时间: 2018-7-24 22:25
何必呢少年
  1. http://www.66ip.cn/mo.php?tqsl=1000
复制代码


话说你这个 goubanjia == 狗搬家 ?
作者: hacker5402    时间: 2018-7-24 22:41
liang0754 发表于 2018-7-24 22:25
何必呢少年

太多不能用了,这个站也在采集的资源站了,都是定时采集验证入库
作者: 爱吹海绵的泡泡    时间: 2018-7-25 00:19
大佬收徒吗
作者: tims    时间: 2018-7-25 00:25
同楼上,收徒吗
作者: jy02201949    时间: 2018-7-25 00:51
爬虫我会,就是js苦手,反爬的业界毒瘤
作者: 东方星雨    时间: 2018-7-25 08:25
外行,看不懂,怎么破啊?
作者: 左手写爱    时间: 2018-7-25 09:12
为什么要采集做IP代理的这种企业站???
作者: hacker5402    时间: 2018-7-25 09:19
左手写爱 发表于 2018-7-25 09:12
为什么要采集做IP代理的这种企业站???

碰巧看到了,还看到有点反爬就给弄了一下
作者: 爱纯粹    时间: 2018-7-25 09:26
正常操作
作者: jqw1992    时间: 2018-7-25 09:50
用 selenium ,慢点,但是很稳
作者: Abbey    时间: 2018-7-25 10:01
为啥老是有人推荐selenium呢,我一般是实在没办法才会选择selenium,比如模拟登陆支护宝
作者: hacker5402    时间: 2018-7-25 11:05
Abbey 发表于 2018-7-25 10:01
为啥老是有人推荐selenium呢,我一般是实在没办法才会选择selenium,比如模拟登陆支护宝 ...

+1 不是必要我也不喜欢用...
作者: ddosworks    时间: 2018-7-27 15:57
hacker5402 发表于 2018-7-24 22:18
就是觉得这个一个代理IP而已还至于这样吗..


我亲身体会啊  用opencv识图才搞定




欢迎光临 全球主机交流论坛 (https://loc.mjj8.eu.org/) Powered by Discuz! X3.4