通过一个实例来介绍如何编写网络爬虫抓去掘金数据,并存储到MySQL数据库中,以及定时任务爬虫来更新内容
npm install --save request
var request = require('request');
request('http://www.baidu.com', function (error, response, body) {
if (!error && response.statusCode == 200) {
console.log(body);
}
const request=require('request');
const options={
url: 'http://localhost:8080/post',
method:'POST',
json: true,
headers: {
"Content-Type":"application/json"
},
body: {name:"zfpx",age:8}
}
request(options,function (error,response,body) {
if (!error && response.statusCode == 200) {
console.log(body);
} else {
console.error(error);
}
});
const request=require('request');
const options={
url: 'http://localhost:8080/form',
method:'POST',
json: true,
form:{name:'zfpx',age:10}
}
request(options,function (error,response,body) {
if (!error && response.statusCode == 200) {
console.log(body);
} else {
console.error(error);
}
});
const request=require('request');
const fs=require('fs');
var formData = {
name: 'zfpx',
avatar:{
value: fs.createReadStream('avatar.jpg'),
options: {
filename: 'avatar.jpg',
contentType: 'image/jpeg'
}
}
};
request.post({url:'http://localhost:8080/upload', formData}, function (error, response, body) {
if (!error&&response.statusCode==200) {
console.log(body);
} else {
console.log(error);
}
})
cheerio是一个node的库,可以理解为一个Node.js版本的jquery,使用方式和jquery基本相同。
npm install cheerio
let str=`
<h2 class="title">Hello world</h2>
`;
const cheerio=require('cheerio');
const $=cheerio.load(str);
$('h2.title').text('hello there!');
$('h2').addClass('welcome');
console.log($.html());
$(selectior,[context],[root])
let html=`
<ul id="fruits">
<li class="apple">Apple</li>
<li class="orange">Orange</li>
<li class="pear">Pear</li>
</ul>
`;
let cheerio=require('cheerio');
let $=cheerio.load(html);
console.log($('.apple','#fruits').text());
attr(name,value)
console.log($('ul').attr('id'));
$('.apple').attr('id','favorite').attr('class','favorite');
$('.apple').attr({id:'favorite',class:'favorite'});
console.log($('.favorite').html());
console.log($('ul').html());
通过name删除属性
$('.favorite').removeAttr('id');
$('input[type="checkbox"]').prop('checked')
//=> false
$('input[type="checkbox"]').prop('checked', true).val()
//=> ok
$('<div data-apple-color="red"></div>').data()
//=> { appleColor: 'red' }
$('<div data-apple-color="red"></div>').data('apple-color')
//=> 'red'
var apple = $('.apple').data('kind', 'mac')
apple.data('kind')
//=> 'mac'
$('input[type="text"]').val()
//=> input_text
$('input[type="text"]').val('test').html()
//=> <input type="text" value="test"/>
检查匹配的元素是否有给出的类名
$('.pear').hasClass('pear')//=> true
$('apple').hasClass('fruit')//=> false
$('li').hasClass('pear')//=> true
增加class(es)给所有匹配的elements.也可以传函数。
$('.pear').addClass('fruit').html()//=> <li class="pear fruit">Pear</li>
$('.apple').addClass('fruit red').html()//=> <li class="apple fruit red">Apple</li>
从选择的elements里去除一个或多个有空格分开的class。如果className 没有定义,所有的classes将会被去除,也可以传函数
$('.pear').removeClass('pear').html()//=>Pear
$('.apple').addClass('red').removeClass().html()//=>Apple
获得一个在匹配的元素中由选择器滤过的后代
$('#fruits').find('li').length//=> 3
获得通过选择器筛选匹配的元素的parent集合
$('.orange').parents().length// => 2
$('.orange').parents('#fruits').length// => 1
$('.apple').next().hasClass('orange')//=> true
$('.pear').next().html()//=> null
获得本元素之后的所有同级元素
$('.apple').nextAll()//=> [<li class="orange">Orange</li>, <li class="pear">Pear</li>]
$('.apple').nextAll().length//=>2
获得本元素之前的第一个同级元素
$('.orange').prev().hasClass('apple')//=> true
获得本元素前的所有同级元素
$('.pear').prevAll()//=> [<li class="orange">Orange</li>, <li class="apple">Apple</li>]
获得选定范围内的元素数组
$('li').slice(1).eq(0).text()//=> 'Orange'
$('li').slice(1, 2).length//=> 1
获得被选择的同级元素(除去自己)
$('.pear').siblings().length//=> 2
$('.pear').siblings('.orange').length//=> 1
$('.pear').siblings('.pear').length//=> 0
会选择chreeio对象的第一个元素
('#fruits').children().first().text()//=> Apple
会选择chreeio对象的最后一个元素
$('#fruits').children().last().text()//=> Pear
通过索引筛选匹配的元素。使用.eq(-i)就从最后一个元素向前数。
$('li').eq(0).text()//=> Apple
$('li').eq(-1).text()//=> Pear
获被选择元素的子元素
$('#fruits').children().length//=> 3
$('#fruits').children('.pear').text()//=> Pear
迭代一个cheerio对象,为每个匹配元素执行一个函数。要提早跳出循环,返回false.
var fruits = [];
$('li').each(function(i, elem) {
fruits[i] = $(this).text();
});
fruits.join(', ');
//=> Apple, Orange, Pear
迭代一个cheerio对象,为每个匹配元素执行一个函数。Map会返回一个迭代结果的数组。
$('li').map(function(i, el) {
return $(this).attr('class');
}).join(', ');
//=> apple, orange, pear
$('li').filter('.orange').attr('class');//=> orange
$('li').filter(function(i, el) {
// this === el
return $(this).attr('class') === 'orange';
}).attr('class');
//=> orange
在每个元素最后插入一个子元素
$('ul').append('<li class="plum">Plum</li>')
$.html()
//=>
// <li class="apple">Apple</li>
// <li class="orange">Orange</li>
// <li class="pear">Pear</li>
// <li class="plum">Plum</li>//
在每个元素最前插入一个子元素
$('ul').prepend('<li class="plum">Plum</li>')
$.html()
//=>
// <li class="plum">Plum</li>
// <li class="apple">Apple</li>
// <li class="orange">Orange</li>
// <li class="pear">Pear</li>
在每个匹配元素之后插入一个元素
$('.apple').after('<li class="plum">Plum</li>')
$.html()
//=>
// <li class="apple">Apple</li>
// <li class="plum">Plum</li>
// <li class="orange">Orange</li>
// <li class="pear">Pear</li>
在每个匹配的元素之前插入一个元素
$('.apple').before('<li class="plum">Plum</li>')
$.html()
//=>
// <li class="plum">Plum</li>
// <li class="apple">Apple</li>
// <li class="orange">Orange</li>
// <li class="pear">Pear</li>
从DOM中去除匹配的元素和它们的子元素。选择器用来筛选要删除的元素。
$('.pear').remove()
$.html()//=>
// <li class="apple">Apple</li>
// <li class="orange">Orange</li>
替换匹配的的元素
var plum = $('<li class="plum">Plum</li>')
$('.pear').replaceWith(plum)
$.html()
//=>
// <li class="apple">Apple</li>
// <li class="orange">Orange</li>
// <li class="plum">Plum</li>//
清空一个元素,移除所有的子元素
$('ul').empty()$.html()
获得元素的HTML字符串。如果htmlString有内容的话,将会替代原来的HTML
$('.orange').html()
//=> Orange
$('#fruits').html('<li class="mango">Mango</li>').html()
//=> <li class="mango">Mango</li>
获得元素的text内容,包括子元素。如果textString被指定的话,每个元素的text内容都会被替换。
$('.orange').text()//=> Orange
$('ul').text()//=> Apple// Orange// Pear
let debug = require('debug')('app:main');
debug('现在的时间是%s',new Date());
SET DEBUG=app:*
export DEBUG=app:*
cron用来周期性的执行某种任务或等待处理某些事件的一个守护进程
符号 | 含义 |
---|---|
星号(*) | 代表所有可能的值 |
逗号(,) | 可以用逗号隔开的值指定一个列表范围,例如,“1,2,5,7,8,9” |
中杠(-) | 可以用整数之间的中杠表示一个整数范围,例如“2-6”表示“2,3,4,5,6” |
正斜线(/) | 可以用正斜线指定时间的间隔频率,*/10,如果用在minute字段,表示每十分钟执行一次 |
单位 | 范围 |
---|---|
Seconds | 0-59 |
Minutes | 0-59 |
Hours | 0-23 |
Day | 1-31 |
Months | 0-11 |
Day of Week | 0-6 |
var cronJob = require('cron').CronJob;
var job1 = new cronJob("* * * * * *",function(){
console.log('每秒');
});
job1.start();
process.on('uncaughtException',function (err) {
console.error('uncaughtException: %s',erro.stack);
});
pm2是一个功能强大的进程管理器,通过pm2 start
来启动程序, 当该进程异常退出时,pm2会自动尝试重启进程。
npm install pm2 -g
npm2 start
pm2 stop
var request = require('request');
var iconv=require('iconv-lite');
let cheerio=require('cheerio');
request({url: 'http://top.baidu.com/buzz?b=26&c=1&fr=topcategory_c1'
, encoding: null},function(err,response,body){
if(err)
console.error(err);
body = iconv.decode(body, 'gbk').toString();
let $=cheerio.load(body);
let movies=[];
$('.keyword .list-title').each((index,item) => {
let movie=$(item);
movies.push({
name:movie.text()
});
});
console.log(movies);
})
nodemailer是一个简单易用的Node.js邮件发送模块
const nodemailer = require('nodemailer');
let transporter = nodemailer.createTransport({
// host: 'smtp.ethereal.email',
service: 'qq', // 使用了内置传输发送邮件 查看支持列表:https://nodemailer.com/smtp/well-known/
port: 465, // SMTP 端口
secureConnection: true, // 使用了 SSL
auth: {
user: '83687401@qq.com',
// 这里密码不是qq密码,是你设置的smtp授权码
pass: 'gfndwuvvfpbebjdi',
}
});
let mailOptions = {
from: '"83687401" <83687401@qq.com>', // sender address
to: '83687401@qq.com', // list of receivers
subject: 'hello', // Subject line
// 发送text或者html格式
// text: 'Hello world?', // plain text body
html: '<h1>Hello world</h1>' // html body
};
// send mail with defined transport object
transporter.sendMail(mailOptions, (error, info) => {
if (error) {
return console.log(error);
}
console.log('Message sent: %s', info.messageId);
// Message sent: <04ec7731-cc68-1ef6-303c-61b0f796b78f@qq.com>
});
mp.weixin.qq.com
接口