国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

用TypeScript開發爬蟲程序

開發 前端
目前版本2.0.3,這個版本不再需要使用typings命令了。但是vscode捆綁的版本是1.8的,需要一些配置工作,看本文的處理辦法。

[[175063]]

全局安裝typescript:

  1. npm install -g typescript 

目前版本2.0.3,這個版本不再需要使用typings命令了。但是vscode捆綁的版本是1.8的,需要一些配置工作,看本文的處理辦法。

測試tsc命令:

  1. tsc 

創建要寫的程序項目文件夾:

  1. mkdir test-typescript-spider 

進入該文件夾:

  1. cd test-typescript-spider 

初始化項目:

  1. npm init 

安裝superagent和cheerio模塊:

  1. npm i --save superagent cheerio 

安裝對應的類型聲明模塊:

  1. npm i -s @types/superagent --save  
  2. npm i -s @types/cheerio --save  

安裝項目內的typescript(必須走這一步):

  1. npm i --save typescript 

用vscode打開項目文件夾。在該文件夾下創建tsconfig.json文件,并復制以下配置代碼進去:

  1.     "compilerOptions": { 
  2.         "target""ES6"
  3.         "module""commonjs"
  4.         "noEmitOnError"true
  5.         "noImplicitAny"true
  6.         "experimentalDecorators"true
  7.         "sourceMap"false
  8.      // "sourceRoot""./"
  9.         "outDir""./out" 
  10.     }, 
  11.     "exclude": [ 
  12.         "node_modules" 
  13.     ] 
  14.  

在vscode打開“文件”-“***項”-“工作區設置”在settings.json中加入(如果不做這個配置,vscode會在打開項目的時候提示選擇哪個版本的typescript):

  1.    "typescript.tsdk""node_modules/typescript/lib" 
  2.  

創建api.ts文件,復制以下代碼進去:

  1. import superagent = require('superagent'); 
  2. import cheerio = require('cheerio'); 
  3.  
  4. export const remote_get = function(url: string) { 
  5.  
  6.     const promise = new Promise<superagent.Response>(function (resolve, reject) { 
  7.         superagent.get(url) 
  8.             .end(function (err, res) { 
  9.                 if (!err) { 
  10.                     resolve(res); 
  11.                 } else { 
  12.                     console.log(err) 
  13.                     reject(err); 
  14.                 } 
  15.             }); 
  16.     }); 
  17.     return promise; 
  18.  

創建app.ts文件,書寫測試代碼:

  1. import api = require('./api'); 
  2. const go = async () => { 
  3.     let res = await api.remote_get('http://www.baidu.com/'); 
  4.     console.log(res.text); 
  5. go();  

執行命令:

  1. tsc 

然后:

  1. node out/app 

觀察輸出是否正確。

現在嘗試抓取http://cnodejs.org/的***頁文章鏈接。

修改app.ts文件,代碼如下:

  1. import api = require('./api'); 
  2. import cheerio = require('cheerio'); 
  3.  
  4. const go = async () => { 
  5.     const res = await api.remote_get('http://cnodejs.org/'); 
  6.     const $ = cheerio.load(res.text); 
  7.     let urls: string[] = []; 
  8.     let titles: string[] = []; 
  9.     $('.topic_title_wrapper').each((index, element) => { 
  10.         titles.push($(element).find('.topic_title').first().text().trim()); 
  11.         urls.push('http://cnodejs.org/' + $(element).find('.topic_title').first().attr('href')); 
  12.     }) 
  13.     console.log(titles, urls); 
  14. go();  

觀察輸出,文章的標題和鏈接都已獲取到了。

現在嘗試深入抓取文章內容

  1. import api = require('./api'); 
  2. import cheerio = require('cheerio'); 
  3.  
  4. const go = async () => { 
  5.     const res = await api.remote_get('http://cnodejs.org/'); 
  6.     const $ = cheerio.load(res.text); 
  7.     $('.topic_title_wrapper').each(async (index, element) => { 
  8.         let url = ('http://cnodejs.org' + $(element).find('.topic_title').first().attr('href')); 
  9.         const res_content = await api.remote_get(url); 
  10.         const $_content = cheerio.load(res_content.text); 
  11.         console.log($_content('.topic_content').first().text()); 
  12.     }) 
  13.  
  14. go();  

可以發現因為訪問服務器太迅猛,導致出現很多次503錯誤。

解決:

添加helper.ts文件:

  1. export const wait_seconds = function (senconds: number) { 
  2.     return new Promise(resolve => setTimeout(resolve, senconds * 1000)); 
  3.  

修改api.ts文件為:

  1. import superagent = require('superagent'); 
  2. import cheerio = require('cheerio'); 
  3.  
  4. export const get_index_urls = function () { 
  5.     const res = await remote_get('http://cnodejs.org/'); 
  6.     const $ = cheerio.load(res.text); 
  7.     let urls: string[] = []; 
  8.     $('.topic_title_wrapper').each(async (index, element) => { 
  9.         urls.push('http://cnodejs.org' + $(element).find('.topic_title').first().attr('href')); 
  10.     }); 
  11.     return urls; 
  12. export const get_content = async function (url: string) { 
  13.     const res = await remote_get(url); 
  14.     const $ = cheerio.load(res.text); 
  15.     return $('.topic_content').first().text(); 
  16.  
  17. export const remote_get = function (url: string) { 
  18.  
  19.     const promise = new Promise<superagent.Response>(function (resolve, reject) { 
  20.  
  21.         superagent.get(url) 
  22.             .end(function (err, res) { 
  23.                 if (!err) { 
  24.                     resolve(res); 
  25.                 } else { 
  26.                     console.log(err) 
  27.                     reject(err); 
  28.                 } 
  29.             }); 
  30.     }); 
  31.     return promise; 

修改app.ts文件為:

  1. import api = require('./api'); 
  2. import helper = require('./helper'); 
  3. import cheerio = require('cheerio'); 
  4.  
  5. const go = async () => { 
  6.     let urls = await api.get_index_urls(); 
  7.     for (let i = 0; i < urls.length; i++) { 
  8.         await helper.wait_seconds(1); 
  9.         let text = await api.get_content(urls[i]); 
  10.         console.log(text); 
  11.     } 
  12. go(); 

觀察輸出可以看到,程序實現了隔一秒再請求下一個內容頁。

現在嘗試把抓取到的東西存到數據庫中。安裝mongoose模塊:

  1. npm i mongoose --save 
  2. npm i -s @types/mongoose --save  

然后建立Scheme。先創建models文件夾:

  1. mkdir models 

在models文件夾下創建index.ts:

  1. import * as mongoose from 'mongoose'
  2.  
  3. mongoose.connect('mongodb://127.0.0.1/cnodejs_data', { 
  4.     server: { poolSize: 20 } 
  5. }, function (err) { 
  6.     if (err) { 
  7.         process.exit(1); 
  8.     } 
  9. }); 
  10.  
  11. // models 
  12. export const Article = require('./article');  

在models文件夾下創建IArticle.ts:

  1. interface IArticle { 
  2.     title: String; 
  3.     url: String; 
  4.     text: String; 
  5. export = IArticle; 

在models文件夾下創建Article.ts:

  1. import mongoose = require('mongoose'); 
  2. import IArticle = require('./IArticle'); 
  3. interface IArticleModel extends IArticle, mongoose.Document { } 
  4.  
  5. const ArticleSchema = new mongoose.Schema({ 
  6.     title: { type: String }, 
  7.     url: { type: String }, 
  8.     text: { type: String }, 
  9. }); 
  10.  
  11. const Article = mongoose.model<IArticleModel>("Article", ArticleSchema); 
  12. export = Article;  

修改api.ts為:

  1. import superagent = require('superagent'); 
  2. import cheerio = require('cheerio'); 
  3. import models = require('./models'); 
  4. const Article = models.Article; 
  5.  
  6. export const get_index_urls = async function () { 
  7.     const res = await remote_get('http://cnodejs.org/'); 
  8.  
  9.     const $ = cheerio.load(res.text); 
  10.     let urls: string[] = []; 
  11.     $('.topic_title_wrapper').each((index, element) => { 
  12.         urls.push('http://cnodejs.org' + $(element).find('.topic_title').first().attr('href')); 
  13.     }); 
  14.     return urls; 
  15.  
  16. export const fetch_content = async function (url: string) { 
  17.     const res = await remote_get(url); 
  18.  
  19.     const $ = cheerio.load(res.text); 
  20.     let article = new Article(); 
  21.     article.text = $('.topic_content').first().text(); 
  22.     article.title = $('.topic_full_title').first().text().replace('置頂''').replace('精華''').trim(); 
  23.     article.url = url; 
  24.     console.log('獲取成功:' + article.title); 
  25.     article.save(); 
  26.  
  27. export const remote_get = function (url: string) { 
  28.  
  29.     return new Promise<superagent.Response>((resolve, reject) => { 
  30.         superagent.get(url) 
  31.             .end(function (err, res) { 
  32.                 if (!err) { 
  33.                     resolve(res); 
  34.                 } else { 
  35.                     reject(err); 
  36.                 } 
  37.             }); 
  38.     }); 
  39.  

修改app.ts為:

  1. import api = require('./api'); 
  2. import helper = require('./helper'); 
  3. import cheerio = require('cheerio'); 
  4.  
  5. (async () => { 
  6.  
  7.     try { 
  8.         let urls = await api.get_index_urls(); 
  9.         for (let i = 0; i < urls.length; i++) { 
  10.             await helper.wait_seconds(1); 
  11.             await api.fetch_content(urls[i]); 
  12.         } 
  13.     } catch (err) { 
  14.         console.log(err); 
  15.     } 
  16.  
  17.     console.log('完畢!'); 
  18.  
  19. })();  

執行

  1. tsc 
  2. node out/app  

觀察輸出,并去數據庫檢查一下可以發現入庫成功了!

補充:remote_get方法的改進版,實現錯誤重試和加入代理服務器.放棄了superagent庫,用的request庫,僅供參考:

  1. //config.retries = 3; 
  2. let current_retry = config.retries || 0; 
  3. export const remote_get = async function (url: string, proxy?: string) { 
  4.     //每次請求都先稍等一下 
  5.     await wait_seconds(2); 
  6.     if (!proxy) { 
  7.         proxy = ''
  8.     } 
  9.     const promise = new Promise<string>(function (resolve, reject) { 
  10.         console.log('get: ' + url + ',  using proxy: ' + proxy); 
  11.         let options: request.CoreOptions = { 
  12.             headers: { 
  13.                 'Cookie'''
  14.                 'User-Agent''Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
  15.                 'Referer''https://www.baidu.com/' 
  16.             }, 
  17.             encoding: 'utf-8'
  18.             method: 'GET'
  19.             proxy: proxy, 
  20.             timeout: 3000, 
  21.         } 
  22.         request(url, options, async function (err, response, body) { 
  23.             console.log('got:' + url); 
  24.             if (!err) { 
  25.                 body = body.toString(); 
  26.                 current_retry = config.retries || 0; 
  27.                 console.log('bytes:' + body.length); 
  28.                 resolve(body); 
  29.             } else { 
  30.                 console.log(err); 
  31.                 if (current_retry <= 0) { 
  32.                     current_retry = config.retries || 0; 
  33.                     reject(err); 
  34.                 } else { 
  35.                     console.log('retry...(' + current_retry + ')'
  36.                     current_retry--; 
  37.                     try { 
  38.                         let body = await remote_get(url, proxy); 
  39.                         resolve(body); 
  40.                     } catch (e) { 
  41.                         reject(e); 
  42.                     } 
  43.                 } 
  44.             } 
  45.         }); 
  46.     }); 
  47.     return promise; 
  48.  

另外,IArticle.ts和Article.ts合并為一個文件,可能更好,可以參考我另一個model的寫法:

  1. import mongoose = require('mongoose'); 
  2.  
  3. interface IProxyModel { 
  4.     uri: string; 
  5.     ip: string; 
  6.     port:string; 
  7.     info:string; 
  8. export interface IProxy extends IProxyModel, mongoose.Document { } 
  9.  
  10. const ProxySchema = new mongoose.Schema({ 
  11.     uri: { type: String },// 
  12.     ip: { type: String },// 
  13.     port: { type: String },// 
  14.     info: { type: String },// 
  15. }); 
  16. export const Proxy = mongoose.model<IProxy>("Proxy", ProxySchema);  

導入的時候這么寫就行了:

  1. import { IProxy, Proxy } from './models'

其中Proxy可以用來做new、find、where之類的操作:

  1. let x = new Proxy(); 
  2. let xx = await Proxy.find({}); 
  3. let xxx = await Proxy.where('aaa',123).exec();  

而IProxy用于實體對象的傳遞,例如

  1. function xxx(p:IProxy){ 
  2.  
責任編輯:龐桂玉 來源: segmentfault
相關推薦

2021-05-08 19:16:38

Python開發Emoji

2023-07-12 08:29:58

TypeScrip元組元素

2011-01-27 17:33:10

DalvikAndroidQNX

2010-02-06 14:19:26

ibmdwGoogleMap

2011-08-31 15:15:20

PhoneGap

2010-11-18 15:52:32

QMLMeeGo

2011-05-03 09:14:45

QtOvi商店Symbian

2020-10-14 15:05:02

React應用程序

2020-10-09 07:54:43

PythonJava爬蟲

2024-11-27 06:31:02

2009-09-22 12:22:54

ibmdwLotus

2021-10-11 14:28:25

TypeScript企業級應用

2020-06-03 16:50:24

TypeScriptReact前端

2022-09-14 15:24:57

typescript快排

2020-06-01 09:40:06

開發ReactTypeScript

2024-05-31 12:31:54

C#爬蟲Python

2012-03-15 15:35:51

iUI框架EclipseiOS Web

2021-10-31 21:01:00

數列TypeScriptJava

2011-03-30 10:44:39

COBOL

2025-12-09 06:05:00

點贊
收藏

51CTO技術棧公眾號

中文字幕av一区二区| 污片在线免费看| 福利视频网站| 欧美天堂在线| 亚洲一区二区三区国产| 欧美极品少妇全裸体| 欧美著名女优| 91蜜桃婷婷狠狠久久综合9色| 国内偷自视频区视频综合| 男人的天堂在线免费视频| 蜜臀av性久久久久蜜臀aⅴ流畅| 亚洲美女中文字幕| 国产成人高清精品| 久久久久久毛片| 97超碰在线播放| 综合久久2023| 国产成人av毛片| 亚洲人成欧美中文字幕| 中文字幕视频免费在线观看| 成人h精品动漫一区二区三区| 午夜精品短视频| 国产探花一区二区| 日韩中文字幕亚洲| 成黄免费在线| 欧美视频不卡中文| 最近最好的中文字幕2019免费| 日韩精品久久理论片| 国产精品美女黄网| 亚洲国产高清视频| 国产精品久久久久久久久久久久久久| 国产毛片精品久久| 亚洲天堂第一页| 亚洲第一图区| 宅男噜噜噜66一区二区66| 中国动漫在线观看完整版免费| 久久久不卡网国产精品一区| 婷婷福利视频导航| 亚洲美女视频在线| 一级免费视频| 在线精品观看国产| av免费网站在线观看| 精品捆绑美女sm三区| 黄色软件在线观看| 欧美日韩视频不卡| 91制片在线观看| 精品国产一区a| 欧美精品总汇| 国产精品视频久久久| 99精品综合| 欧美日韩精品免费看| 成人av网址在线观看| 天堂av在线网站| 欧美日韩性视频在线| 亚洲日本高清| 亚洲精品电影在线观看| 欧州一区二区三区| 午夜免费日韩视频| 亚洲永久免费| 自拍偷拍精选| 欧美自拍丝袜亚洲| 天堂精品在线视频| 一级一片免费播放| 亚洲九九爱视频| 大桥未久在线视频| 91av国产在线| 美女高潮久久久| 中国动漫在线观看完整版免费| 日韩视频免费观看高清完整版 | 欧美日韩国产高清一区二区三区| 成人在线观看免费网站| 91精品国产亚洲| 夜夜精品视频| 95影院理论片在线观看| www.99久久热国产日韩欧美.com| 欧洲在线一区| www.成年人视频| 日韩国产一区三区| 久久精品青草| www.男人的天堂| 久久久亚洲福利精品午夜| 国产综合一区二区| 麻豆影视国产在线观看| 国产综合 伊人色| 一区二区在线免费观看| 国产精品视频一区二区三区| 国产又黄又爽免费视频| 日韩欧美亚洲另类制服综合在线| 欧美日韩p片| 热国产热中文视频二区| 久久久久久亚洲精品不卡| 99re免费视频精品全部| 波多野结衣在线高清| 亚洲蜜桃在线| 国产丝袜一区视频在线观看| 天天射—综合中文网| 午夜神马福利影院| 91探花福利精品国产自产在线| 欧美国产欧美亚州国产日韩mv天天看完整 | 欧美成人高清视频| 国产日韩欧美制服另类| 日韩精品视频中文字幕| eeuss影院95999部| 色av中文字幕一区| 久久综合色播五月| 成人国产精品一级毛片视频| 337p日本| 国产66精品久久久久999小说| 日韩视频中午一区| 免播放器亚洲| 日韩护士脚交太爽了| 国产又猛又黄的视频| 欧美国产激情18| 色吊一区二区三区| 久久99精品久久久久婷婷| 日本韩国在线视频爽| 国产精品一色哟哟| 成人两性免费视频| 日韩手机在线导航| 久久夜色精品一区| 亚洲五月综合| 天堂电影一区| 日本高清中文字幕| 久久国产亚洲精品无码| 国产精品永久免费| 中文国产成人精品| 欧美日韩www| 成人涩涩免费视频| 激情91久久| 婷婷综合电影| 高清电影在线观看免费| 2222www色视频在线观看| ijzzijzzij亚洲大全| 国产精品爱久久久久久久| 中文字幕精品网| 欧美一级精品大片| 国产精品日韩成人| 成人午夜激情片| 久久中文在线| 婷婷综合在线| 狠狠做六月爱婷婷综合aⅴ| 欧美欧美在线| 在线能看的av网址| 交100部在线观看| 国模雨婷捆绑高清在线| 成人影院免费观看| 91高清在线| 国产黄色在线免费观看| 国产永久免费高清在线观看| 亚洲国产精品成人一区二区在线| 少妇高潮露脸国语对白| 在线观看国产视频一二三| 国产羞羞视频| 日韩av电影免费| 未来日记在线观看| 国产系列电影在线播放网址| 黄色成人影院| 蜜桃视频www网站在线观看| 国产三级伦理在线| 久久野战av| 高清一区二区三区| 玖玖精品在线| 精品一区不卡| 日韩一区精品字幕| 国产精品123区| 中文字幕一区三区| 91久久线看在观草草青青| 亚洲精品99999| 色多多国产成人永久免费网站| 国模精品视频一区二区| 亚洲资源在线看| 国产伦精品一区二区三区视频黑人| 欧美性天天影院| 国产精品秘入口18禁麻豆免会员 | 是的av在线| 国产美女撒尿一区二区| 黑人一区二区三区四区五区| 日本视频中文字幕一区二区三区| 国产精品一区二区视频| 亚洲一区二区三区在线看| 日韩精品www| 在线播放日韩专区| 成人乱色短篇合集| 国产成人无码av在线播放dvd| 国内精品在线视频| 精品伊人久久| 狠狠色狠狠色综合日日91app| 亚洲欧洲精品一区二区三区不卡| 欧美午夜精品一区二区蜜桃| 九九热视频这里只有精品| 日韩亚洲一区在线播放| 青青草精品视频在线观看| xxx在线免费观看| 亚洲美女黄网| 天天做天天摸天天爽国产一区 | 亚洲 日韩 国产第一| 黄色网络在线观看| 欧美大片黄色| 老司机一区二区三区| 欧美午夜精品久久久久久浪潮 | 依依成人在线|