K12教育小初高各个版本教材内的章节数据

K12教育小初高各个版本教材内的章节数据

月光魔力鸭

2018-10-19 08:47 阅读 1058 喜欢 2 K12教材章节 node爬虫

一直在做K12教育方面的产品,不过大都是学校管理层面的,对于教学一直很少触及。当然,这类的产品已经存在不少了,在功能、设计方面我们都会借鉴一些进行改进,其中有一些基础数据,如果也是从头自己收集的话,我想,可能会死的吧...比如:各个学段内的教材和章节信息。

在这里,找了一个“相对”权威的资源网站,然后把这个网站上的所有章节、教材全部爬下来,进行保存数据库,用于我们后续教学方面的基础数据。

这里先说下结果:算上小学、初中、高中三个学段,所有学科下共计5151本册别,所有册别下所包括的章节共计187123个章节。

简单记录下,一是为了后续可能还会有类似的情况而数据丢了,二是为了其他人可能有类似的情况,方便实现。

相关准备

思路

  1. 首先了解下目标网址下章节信息是如何获得的,如果是异步的话,尝试看能否直接通过调用获取,否则的话就通过html解析内容获得数据。
  2. 经过确认后,发现章节信息是从html内的js写死的,根据不同的地址返回不同的章节,所以,我们只需要把所有的地址拿到,然后访问获得章节即可。
  3. 根据学段、学科、出版社进行循环遍历获得所有的册别地址,然后用后续进行轮询。

大体实现

以下主要列一下核心代码,

//根据该函数获得学科、教材、册别等信息
class getHtml {
	constructor(url){
		this.url = url;
	}
	getContent(){
		return new Promise((resolve,reject)=>{
			request.get(this.url)
			.then( res=>{
				resolve(res.text);
			}).catch(err=>{
				reject(err);
			})
		});
	}
	//根据内容获得某一部分的地址
	getGradeHref(text,index){
		var $ = cheerio.load(text);
		var grades = $('.check_choice_list>li').eq(index).find('p a');
		var arr = [];
		grades.each( (index,item)=>{
			arr.push($(item).attr('href'));
		});
		return arr;
	}
	//获得
}
//然后通过该函数进行循环获取所有的地址,然后存储到数据库中,目前共计5151条记录。

然后根据数据库存储的册别地址,一个一个的获取就好了。

//从国家教育资源公共服务平台获取章节目录信息并进行存储

var request = require('superagent');

var cheerio = require('cheerio');

var fs = require('fs');

var query = require('simple-mysql-query');
query({
	host : '127.0.0.1',
	port : '3306',
	user : 'root',
	password : 'root',
	database : 'test'
});

class Fetch{
	constructor(){
		this.suc = 0;
		this.current = null;
		this.err = 0;
	}
	//获得下一个未完成的数据并继续
	getNext(){
		var that = this;
		return new Promise((resolve,reject) => {
			query({
				sql : 'select * from chapterurl where done =0 limit 0,1',params : []
			}).then( rs => {
				var rst = rs[0];
				if(rst.length == 0){
					that.current = null;
					resolve(null);
				}else{
					that.current = rst[0].id;
					resolve(rst[0].url);
				}
			}).catch(err=>{
				reject(err);
			})
		});
	}
	//从页面获得章节信息
	fetchArr( url ){
		var that = this;
		return new Promise((resolve,reject)=> {
			if(url){
				request.get(host+url)
				.set({
					'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
					'Accept-Encoding': 'gzip, deflate',
					'Accept-Language': 'en,zh-CN;q=0.9,zh;q=0.8',
					'Cache-Control': 'no-cache',
					'Connection': 'keep-alive',
					'Cookie': 'UM_distinctid=1667c2776e2ba4-053f6c4dfa889e-8383268-1fa400-1667c2776e367c; USER=40be8854-6a4a-4cdc-95ec-f863add22572; name=value; JSESSIONID=12574E63722E3472694692F8E8F83529; soweb123=so-web06; CNZZDATA1255309935=1698827792-1539679457-http%253A%252F%252Fwww.eduyun.cn%252F%7C1539823023; Hm_lvt_d251d7d8815cdb16dd7b3407d1e80eba=1539681324,1539681583,1539735613,1539824040; CNZZDATA1254936525=38783214-1539681033-http%253A%252F%252Fwww.eduyun.cn%252F%7C1539819962; Hm_lpvt_d251d7d8815cdb16dd7b3407d1e80eba=1539824492',
					'Host': 'so.eduyun.cn',
					'Pragma': 'no-cache',
					'Upgrade-Insecure-Requests': '1',
					'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
				})
				.then( res=> {
					var text = res.text;
					var rs = /booktree.loadtree\((.*)}]\);/.exec(text);
					var get = rs[1]+'}]';
					var arr = JSON.parse(get);
					var arr2 = that.flatt(arr);
					console.log('共计章节数量:'+arr2.length);
					resolve(arr2);
				}).catch(err=>{
					resolve([]);
				})
			}else{
				resolve(null);//null代表结束
			}
		});
	}
	//数据持久-数据库
	store (arr) {
		var that = this;
		//直接一次全部存储
		var sql = 'insert into chapterinfo (bookCatelogId,bookCatelogName,bookId,bookName,isKe,parentId,pubVerID,pubVerName,schoolPhaseId,schoolPhaseName,seqNo,subjectId,subjectName,vNo,zhouCi) values ',
			params = [];
		if(arr === null){
			return -1;//结束
		}else if(arr.length ===  0){
			return new Promise((resolve,reject)=>{
				console.log('本章节虽然可能会成功,但是没有章节数据')
				query({
					sql : 'update chapterurl set done=2 where id=? ',params : [that.current]
				}).then( rs => {
					resolve(1);
				}).catch(err=>{
					resolve(2);
				})
			});
		}
		for(var i =0;i<arr.length;i++){
			var item = arr[i];
			sql += '( ?,?,?,?,?,?,?,?,?,?,?,?,?,?,?)'+(i == arr.length-1 ? '' : ',');
			params = params.concat([item.bookCatelogId,item.bookCatelogName,item.bookId,item.bookName,item.isKe,item.parentId,item.pubVerID,item.pubVerName,item.schoolPhaseId,item.schoolPhaseName,item.seqNo,item.subjectId,item.subjectName,item.vNo,item.zhouCi]);
		}
		return new Promise((resolve,reject) => {
			query([{sql : sql,params : params},{sql : 'update chapterurl set done=1 where id=?',params : [that.current]}]).then( rs => {
				resolve(1);
			}).catch(err=>{
				console.log(err);
				resolve(2)
			});
		});
	}
	//数组扁平化
	flatt (arr) {
		var that = this;
		var newarr = [],flag = true;
		arr.forEach( item => {
			//如果有children就提取出来,放在arr中
			if(item.children && item.children.length > 0){
				var children = item.children;
				item.children = null;
				newarr.push(item);
				newarr = newarr.concat(children);
				flag = false;
			}else{
				newarr.push(item);
			}
		})
		if(flag){
			return newarr;
		}else{
			return that.flatt(newarr);
		}
	}
}

var ins = new Fetch();

function gogogo(){
	ins.getNext()
	.then( url => {
		return ins.fetchArr(url);
	})
	.then( arr => {
		return ins.store(arr);
	})
	.then( rs => {
		if(rs === 1){
			console.log('章节存储成功一个');
			gogogo();
		}else if(rs === 2){
			console.log('章节存储失败,切换下一个')
			gogogo();
		}else if(rs === 0){
			console.log('本章节无数据,切换下一个?如果连续出现请检查')
			gogogo();
		}else if(rs === -1){
			console.log('数据库已经清空,章节全部存储结束')
		}
	})
	.catch(err=> {
		console.log(err);
	})
}

gogogo()

由于是一次性工作,并没有对代码进行细致检查,大体实现到结果就完了。 如果对实现完全不感兴趣,只想得到结果的,那么请访问这里:undefined , 密码是: 46ba


对于教育,我们一直在努力变好!

转载请注明出处: https://chrunlee.cn/article/k12-education-chapter-info.html


感谢支持!

赞赏支持
提交评论
评论信息 (请文明评论)
暂无评论,快来快来写想法...
推荐
Access denied for user 'root'@'localhost' (using password: YES) 碰到一个错误,不知道怎么动了权限导致外网,本地都登录不进去了。
最近入手了华为鲲鹏服务器... 作为一个菜鸡前端,去部署服务器,亚历山大.. 即便是各种抄抄抄也无济于事.
微信dat是用什么软件打开?微信dat是什么?如何查看呢? 微信的dat文件是微信用于缓存PC端微信的图片,然后对图片进行了加密的处理。所以是可以删除的,有些朋友data文件夹下有十几G的,都是可以删除的,但是最好确保这些文件都已经没有用处了再进行删除。 下面给大家介绍一个能够在线解码微信dat的网站。
参与1+X证书制度试点的前四批职业技能等级证书标准(2021年更新版)
2021年度支付宝扫码赚赏金活动又又又开始啦...
最近入手一台小主机,把自己剩余的硬盘都加上去了,想着做个私有云..使用了owncloud,类似的文章很多,不过各有各的坑,当然我这个也肯定有坑,主要是各自的环境还不一样。
业务需求需要一个微信的文章,但是这个文章又不想让所有人知道,只想让参与活动的人看到,那么怎么在不发布微信公众号文章的前提下,拿到文章的永久地址呢?