精通python語(yǔ)言編程;
數(shù)據(jù)采集和數(shù)據(jù)分析方向,掌握爬蟲(chóng)工作原理和反爬蟲(chóng)機(jī)制(Selenium,PhantomJS,Tesseract),scrap" />
熟悉linux shell編程;熟悉Linux系統(tǒng)各類(lèi)服務(wù)環(huán)境的搭建;
精通python語(yǔ)言編程;
數(shù)據(jù)采集和數(shù)據(jù)分析方向,掌握爬蟲(chóng)工作原理和反爬蟲(chóng)機(jī)制(Selenium,PhantomJS,Tesseract),scrapy框架和scrapy-redis分布式框架;
熟悉mysql、mogodb等數(shù)據(jù)庫(kù)操作;
了解基本數(shù)據(jù)結(jié)構(gòu)及算法;
了解FTP、UDP服務(wù)器基礎(chǔ)知識(shí);
了解TCP/IP網(wǎng)絡(luò)通信過(guò)程;
了解numpy、pandas、sklearn等數(shù)據(jù)挖掘庫(kù);
爬取過(guò)的50余個(gè)小語(yǔ)種,數(shù)據(jù)清洗、切分后,作語(yǔ)料庫(kù)語(yǔ)料;爬過(guò)的語(yǔ)種:阿爾巴尼亞,美語(yǔ),馬拉地語(yǔ),旁遮普語(yǔ),卡納達(dá)語(yǔ),馬拉雅拉語(yǔ),烏爾都語(yǔ),印地語(yǔ),比爾哈語(yǔ),歐利亞語(yǔ),泰米爾語(yǔ)等等;(包括新聞,論壇,旅游酒店等網(wǎng)站,每種語(yǔ)言至少2G文本,累計(jì)爬取網(wǎng)站500余個(gè))
爬取過(guò)八千萬(wàn)條電商數(shù)據(jù),進(jìn)行機(jī)器學(xué)習(xí)打分分析;
爬取過(guò)的國(guó)內(nèi)外知名網(wǎng)站:站長(zhǎng)之家、天貓、京東、百度貼吧、當(dāng)當(dāng)、唯品會(huì)、北京法院審判信息網(wǎng)等等;