精通python語(yǔ)言編程；
數(shù)據(jù)采集和數(shù)據(jù)分析方向，掌握爬蟲(chóng)工作原理和反爬蟲(chóng)機(jī)制（Selenium，PhantomJS，Tesseract），scrap" /> 久久天天躁狠狠躁夜夜不卡,国产丝袜一区视频在线观看

成人影片麻豆国产影片免费观看_成人无码网www在线观看_国产激情精品一区二区三区_中文字幕无码av波多野吉衣_欧美日韩国产码高清综合人成

猿急送>

福州其它兼職程序員

ID：131757

小兵兵

爬蟲(chóng)工程師

公司信息：
搜狐科技

工作經(jīng)驗(yàn)：
2年

兼職日薪：
600元/8小時(shí)

兼職時(shí)間：
可工作日遠(yuǎn)程

所在區(qū)域：
福州
全區(qū)

技術(shù)能力

熟悉linux shell編程；熟悉Linux系統(tǒng)各類(lèi)服務(wù)環(huán)境的搭建；
精通python語(yǔ)言編程；
數(shù)據(jù)采集和數(shù)據(jù)分析方向，掌握爬蟲(chóng)工作原理和反爬蟲(chóng)機(jī)制（Selenium，PhantomJS，Tesseract），scrapy框架和scrapy-redis分布式框架；
熟悉mysql、mogodb等數(shù)據(jù)庫(kù)操作；
了解基本數(shù)據(jù)結(jié)構(gòu)及算法；
了解FTP、UDP服務(wù)器基礎(chǔ)知識(shí)；
了解TCP/IP網(wǎng)絡(luò)通信過(guò)程；
了解numpy、pandas、sklearn等數(shù)據(jù)挖掘庫(kù)；

項(xiàng)目經(jīng)驗(yàn)

爬取過(guò)的50余個(gè)小語(yǔ)種，數(shù)據(jù)清洗、切分后，作語(yǔ)料庫(kù)語(yǔ)料；爬過(guò)的語(yǔ)種：阿爾巴尼亞，美語(yǔ)，馬拉地語(yǔ)，旁遮普語(yǔ)，卡納達(dá)語(yǔ)，馬拉雅拉語(yǔ)，烏爾都語(yǔ)，印地語(yǔ)，比爾哈語(yǔ)，歐利亞語(yǔ)，泰米爾語(yǔ)等等；（包括新聞，論壇，旅游酒店等網(wǎng)站，每種語(yǔ)言至少2G文本，累計(jì)爬取網(wǎng)站500余個(gè)）
爬取過(guò)八千萬(wàn)條電商數(shù)據(jù)，進(jìn)行機(jī)器學(xué)習(xí)打分分析；
爬取過(guò)的國(guó)內(nèi)外知名網(wǎng)站：站長(zhǎng)之家、天貓、京東、百度貼吧、當(dāng)當(dāng)、唯品會(huì)、北京法院審判信息網(wǎng)等等；