标签‘spider’

Jersey2 模拟登陆网站及登陆后301重定向识别

周末群里有人希望帮他搞个程序采集某个网站数据,虽然说没什么技术难点又不缺那点钱,但是好奇心还是比较重,没事看了看,最基本的基于SESSION的认证,POST个用户名密码即可,用java写的话我通常采用HttpClient,很强大,很通用,但是最近时不时有看过Jersey2的一些东西,貌似和我之前熟知的1.x差异挺大,就刚好拿来试试(不是接单帮搞数据,单纯的玩技术,采集别人数据的事我可不做)。

实践下来,发现Jersey2的API写起来更清爽了,因为是用来采集,这里只用了Jersey-client相关功能,期间遇到一些小问题,就是登陆成功后目标网站是301重定向到新页面的,而Jersey2的API调用后还保留在原始页面,最终导致SESSION无效,不能进行下一步操作,Stackoverflow上搜了下,最终解决了,很简单,如下 查看更多...

博客被蜘蛛关注了?或因为PR提高?

有一段没有更新博客了,原因有很多,身边的朋友估计也都知道了,暑假了,不想在家待着,出来找地方打工了,来到了昆山仁宝,据说是世界第二的笔记本生产商,可也不见得有多好,相比去年去过的上海英华达,差远了。题外话到此为止,下面说正题:

因为在外面上网不方便,需要上网吧才能接触到网络,加上上班加班什么的,一直没时间,今天因为朋友发信息说道名网备案的情况,才不得以来网吧了。办完正式就看看博客吧,一看吓一跳,平时没有多少留言的博客,这几天还真增加不少留言,只系统默认评定的垃圾评论就30多条,暂不提通过审核的,先打开垃圾评论看下,却失望了,只有七八条是有实际意义的评论。其余的全部是英文留言,也不带什么链接,不知道是做什么用的。 查看更多...