最最简单的爬虫
爬我博客首页每一篇文字的时间和标题
以json的格式输出
var express = require('express');
var cheerio = require('cheerio');
var superagent = require('superagent');
var app = express();
app.get('/', function (req, res, next) {
superagent.get('http://go.kieran.top/')
.end(function (err, sres) {
if (err) {
return next(err);
}
var $ = cheerio.load(sres.text);
var items = [];
$('.post-content time').each(function (id,elem) {
items.push({
time: $(elem).text(),
title: $(elem).next('.title').text(),
});
});
res.send(items);
});
});
app.listen(3000, function () {
console.log('app is listening at port 3000');
});
坑爹的是一开始把 .post-content 这个类写成 .post_content了
页面一直没有任何输出
因为第一次写 所以一直以为程序哪里错了
东改改西改改
过了好久去网页源码里搜索的时候才发现没有这个类.....心塞
效果图还是要有的