16

學術出版上,資料檢查和資料共用兩個概念有什麼不同?

在帶有互聯網數位化技術深刻烙印的資訊時代,學術出版業正在經歷兩個重要的運動,一個稱為開放獲取(Open Access,簡稱OA),另一個稱為資料共用(Data Sharing)。瞭解這兩個運動的原因和關係,對於廣大科研人員具有重要的現實意義。

從系統工程的觀點來講,一個產品或事物通常可以用品質和成本衡量其屬性。例如,發動機產品包括四大屬性,分別是性能、耐久性、封裝性、成本。前三個屬性綜合起來即構成品質。成本加上利潤就構成價格。縱觀學術出版這一事物,它的所有運動其實也都是圍繞品質和價格這兩個元素進行的。運動不一定就是正確的,它只是代表一種時代聲音或潮流。正確辨析學術出版運動中的正確因素和錯誤,瞭解它們的來龍去脈,是每個科研人員應當具備的能力。

當出版行業產生了壟斷集團和價格暴漲現象後,就爆發了開放獲取運動,即期刊訂閱用戶由於不滿訂閱價格的持續巨幅增長和出版商利潤的暴增而奮起反抗,以拒絕繳費訂閱的方式抗議,並宣導期刊免費向公眾開放。這一行為造成出版商從訂閱用戶那裡收不到錢,轉而向作者收取OA期刊的昂貴版面費(或稱論文處理費),給廣大論文作者造成了不公平的境遇。

當學術出版中頻繁出現資料造假或無法實現可再現性時,為了增強出版品質,期刊要求作者補充資料和方法資訊,以便讓同行評議審稿人和讀者檢查監督,這稱為資料檢查(Data Checking)運動。遺憾的是,作為期刊品質控制的資料檢查運動莫名其妙地被資料共用運動所混淆,以至於目前所謂的“資料共用”其實包含兩方面含義:資料檢查,資料共用。實際上,這兩方面的目的截然不同,應當視為兩個不同的運動。

資料檢查運動的目的是為了便於審稿人檢查資料而防止資料造假,以及便於讀者找到充足的資料和方法資訊而能夠重現論文的結果和結論。由於資料檢查運動的目的是提高期刊論文品質,期刊有權強制性要求作者上傳提供充足的資料備查。多數作者也對這一合理要求表示理解並能夠予以配合。至於備查的資料格式和說明,如果在論文裡面已經標記注釋清楚,對於作者來講並不是很大的資料管理負擔,例如期刊要求作者上傳全部圖表對應的Excel格式的資料。有證據表明,帶有資料檢查要求的論文比沒有這種要求的論文能夠獲得更多的被引用次數,原因大概是由於人們認為經過補充資料檢查的論文更加可信。

資料共用運動的目的是為了把論文中沒有發表的資料拿出來給別人用,以便全世界不再為相同或相似的科研專案支付經費而節省資金,或者以便讓別人有機會做出自己尚未做出或沒有能力做出的科研結論。資料共用運動的這兩個目的在正當性上是非常有爭議的。而且,在不談資料共用報酬或回報的情況下奢談這兩個目的,就是在假設每個人都具備非常崇高的覺悟和全世界沒有科研競爭的壓力。因此,目前的資料共用運動基本上就是一個無法實現的、脫離實際的、烏托邦式的狂想。

下面仔細分析資料共用運動的這兩個目的。在全球範圍內為了實現科研經費節約而共用資料,其主要論據是“所有納稅人有權利使用當初用納稅人的錢資助產生的科研資料”。申請科研經費的目的是為了創造資料。對於公共基金資助的科研專案,杜絕科研經費重複使用和浪費當然是一個美好的想法。但是,要想實現它,需要以下四個機制予以保障,才能讓人敢用、能用、自覺用、用得起

  • 共用的資料必須具有防偽造篡改的協力廠商監督認證資質,以便所有人都能夠放心使用而不會無辜背負學術造假的惡名。
  • 共用的資料必須具有標準完整的說明,包括試驗方法、材料、設備、流程、輸入和輸出的參數數值、假設條件等,以便所有人都能夠像資料產生者那樣準確無誤地使用資料。這要求共用資料的提供者必須具有源動力、自覺性和紀律性以及可遵循的標準化流程。源動力和自覺性來自共用資料後能夠獲得報酬、作者署名或致謝。紀律性來自科研專案驗收時對共用資料的檢查機制。
  • 需要建立一個全球化檢索系統,查找經費申請人所申請的科研專案是否過去已經被別人發佈過共用資料。發佈過的就不予經費支持。這就好比論文查重,能夠防止用過和沒用過共用資料的人去申請重複的科研經費。
  • 消除資料共用的儲存成本。將資料(尤其是大規模原始資料)儲存在公開資料庫的費用可能很高。在版面費高居不下的今天,向作者身上強加資料共用儲存費用,無疑是雪上加霜和不道德的。有人提出作者通過貢獻共用資料來換取版面費的豁免。但是,有些期刊沒有版面費,而有版面費的期刊從賺取版面費改為售賣資料,會在期刊、作者、讀者之間形成一個新的複雜收費——共用資料使用費。

由此可見,這四個機制目前在國內外是完全缺失的,而且構造的難度極大。因此,與其總是呐喊空談資料共用,不如腳踏實地多談一些如何逐步建立這四個保障機制。上述分析是針對公共基金資助的科研專案的資料共用。對於私有資金(例如企業資金)支持的科研項目和政府的機密專案,當然不能實現資料共用,而必須強調資料保密。

為了讓別人有機會做出自己尚未做出或沒有能力做出的科研結論而共用資料,即公佈自己的資料讓別人拿去有機會發論文,這要求從科研成果評價體系中徹底廢除競爭制度和對論文的品質和數量要求,才能使得資料共用者沒有私心地、對資料不做手腳地、誠實主動地共用資料供別人使用或“為別人做嫁衣”。很多研究人員的資金有限,所以他們盡可能從同一組資料中產出很多篇論文。如果共用資料,他們重複利用資料的機會就勢必變小。所有做過科研的人都明白,標記不清或篡改資料是一件防不勝防的事情,必須依靠自覺的學術道德和有效的監管檢查機制才能防止。生存的壓力、競爭的機制、人的私心、追求公平公正是目前全世界無法消除的東西。拋開這些因素而不談共用資料的回報機制,是天真的、不現實的、不道德的做法。對於公共基金資助的科研專案來講,資料製造者目前並沒有從專案經費中獲得足夠多的勞務報酬以至於他們有義務共用自己製造的資料無償給別人使用。很多資料是花費了很大的人力物力獲得的,包含很高的經濟價值。很多作者擔心共用資料後不能獲得回報或甚至不被通知,而且當然不願意讓別人不勞而獲。另外,反對共用資料的人有一個比較充分的理由,即如果強迫一個不願意共用資料的人去公開資料,那麼這種資料是不可靠或不完整的;如果他願意共用資料,所有人其實可以隨時聯繫他索取資料並商談合作條款,而並不需要他在無人索求時先主動把全部資料都交出來,即主動共用資料其實是沒有必要的。因此,與其總是奢談共用資料去無私支援別人發表論文,不如多談一些如何設計一個全球化機制讓所有人都能夠公平地從資料共用中獲得智慧財產權報酬或回報。如果在配套機制不到位的情況下,基金會或期刊強迫作者們共用資料,那麼勢必會造成共用資料的蓄意破壞甚至惡意作假。總之,只有當公平解決了資料所有權和資料格式標準化問題後,資料共用才是一件正確的並能夠實現的善事。

關於資料檢查和資料共用的期刊實踐,PLOS的做法頗具代表性。PLOS相信資料檢查便於複現研究工作,資料共用便於產生新的再分析結果。PLOS要求論文作者必須在投稿時遞交最小資料集,它包含中繼資料和複現研究工作時所需的資料;並澄清說無需提供研究時搜集的所有原始資料,而只需提供與研究相關且重要的基本資料。PLOS要求將資料提供在論文或補充材料中。如果資料儲存在公開知識庫裡,則須提供連結或存取訊號。

需要指出的是,有些作者是積極參與和支持資料共用運動的。目前資料共用的方式有兩種。第一種方式是把研究資料發表在“資料期刊(data journals)”,例如Nature 旗下的Scientific Data、Elsevier旗下的Data in Brief、BMC旗下的GigaScience。資料期刊目前越來越普遍,專門發表資料而非論文,發表的內容包括詳細的資料收集處理方法和軟體選擇等。資料期刊並不對資料進行分析和檢查,而是為同行評議和引用提供原始資料。發表在資料期刊上的文章可以被獨立引用。第二種方式是把研究資料上傳到資料庫,例如Elsevier出版社的Mendeley Data免費資料存儲庫。它能存儲來自所有學科的開放資料,無論其格式,包括原始資料、處理資料、表格、代碼、軟體程式等。上傳到資料庫的資料會被賦予一個可以被獨立引用的DOI號碼,並且連結到期刊的相關論文,使讀者能夠輕鬆查找和重複使用共用資料。其餘的著名資料共用存儲庫包括Zenodo、DataCite、Dryad、Figshare。

綜上所述,開放科學(Open Science)從資源分享、合作共贏的理念上講是具有進步性和值得提倡的。但是,脫離全球化利益保障機制而空談開放合作甚至設置強制性不合理要求,無疑是烏托邦式的幻想,同時在科技倫理上也是不負責任和不道德的運動。另外,需要注意資料檢查和資料共用是兩個不同的概念,需要甄別對待。

X

請訂閱以繼續閱讀

關於科研寫作和學術出版的文章與學術資源,包括:

  • 820 +文章
  • 50+ 免費線上講座
  • 10+ 專家Podcast
  • 10+ 電子書
  • 10+ 檢查清單
  • 50+ 資訊圖
全球科研人調查

大學在研究和學術寫作中應該採取什麼立場?