1.從Pubmed和WOS檢索文獻(xiàn),query關(guān)鍵詞是論文發(fā)表機構(gòu)(affiliation)。然后批量導(dǎo)出完整記錄(包含author, affiliation等)。這兩個網(wǎng)站都有API,WOS有現(xiàn)成的爬蟲工具,乙方可以研究一下。結(jié)果的保存和導(dǎo)出,我希望基于SQL實現(xiàn),因為后續(xù)我每隔一段時間都要重新檢索一次,更新我的數(shù)據(jù)庫。
2.由于論文的共同第一作者/共同通訊,Pubmed和WOS不納入數(shù)據(jù),我需要批量下載這些論文的PDF全文(應(yīng)該可以基于scihub庫或者doi網(wǎng)站直接下載實現(xiàn)),然后判定這些文章是否存在共同一作/共同通訊。(這些文章的作者名單事實上已經(jīng)清楚,乙方需要判定PDF中的腳注或標(biāo)記)