您当前的位置首页/杂谈/ 正文

网站又推倒重来了

admin 最后更新时间 2018-06-05 11:16:54   279浏览
之前用nodejs写了个爬虫,爬了大约50万的技术类文章,但是大半年了搜索引擎并不怎么收录,现在的蜘蛛确实比以前聪明了一些,对爬虫抓取的文章能够很好的过滤筛选掉。 也许又会说为什么不搞一下伪原创?没必要,我本身就不是为了让搜索引擎收录而作的网站,只是想试试nodejs做爬虫的效率,还有就是测试一个各个搜索引擎是否对抓取的内容能很好的识别。 nodejs做爬虫真的很简单,抓取速度也不错,只是需要注意的是,如果抓取过程中报错中断了,要做一个重启爬虫的机制。 今天直接全部数据删除了,重新来过吧,后面再看看有什么好玩的再弄来试试。