Hacking Democracy Conference
我們從不當黨產委員會的專案學到了什麼?

資料訓練工作坊後記
Group picture with the speakers
© FNF

2022年12月9日,FNF全球創新中心舉辦了「給民主與人權倡議工作者的資料運用訓練工作坊」,藉由介紹資料科學的知識與訓練,以及台灣轉型正義的資料科學運用實際案例分享,幫助倡議者們更清楚了解如何有系統地搜集、處理資料,並將其轉化為有助於其倡議的資訊。

講座一開始,FNF全球創新中心的總監Anna Marti女士與所有參加者及線上觀眾們介紹了Hacking Democracy Conference計畫的目的,是在於發現與挖掘促進民主的新方法,也是為什麼我們要在這次的會議中介紹資料科學如何能作為民主人權倡議者發現新方法的工具。她也提到,談及資料(data),我們常常會聯想到Excel中一連串的數字,但資料不僅如此,從四位講者身上聆聽更多關於他們處理資料的故事與過程,我們會發現資料是促進民主與人權的重要線索。

不當黨產處理委員會的林聰賢委員,首先與我們分享為什麼黨產會想要發起文本分析系統與數位敘事專題專案,提到他們希望能藉由對歷史的調查,導正過去因為國家威權統治之下而導致不法的情況,促使利用威權統治獲得財產的政黨必須歸還以不法手段取得的財產。在還原真相的過程中,他們善用現代科技,讓調查工作更輕鬆、周全,也進一步幫助他們把調查的成果分享給社會大眾。

在處理轉型正義時,必須研究大量的史料,因涉及財產,所以在黨產會的團隊中,除了歷史、法律背景的專家之外,也有地政、財經等方面的專才,但是,在面對龐大的史料時,如果沒有資料科學工具加以協助,這些擁有不同專業的專家就很難在具備共同的資訊下一起整合他們的工作。這激發了他們想尋求資料科學家們的協助,他們才能更清楚地了解歷史的全貌,理出財產的來龍去脈。在結果呈現方面,黨產會與資料科學家合作,在官網上建立了「史料故事」頁面,整理出一些較有代表性或有趣的故事,並附上史料文件的掃描檔,供大眾閱讀。此外,黨產會也會舉辦講座、小旅行等,帶領民眾親自走訪黨產遺跡與不義遺址。

資料記者與數位敘事編輯簡毅慧女士接著分享她如何利用資料視覺化與資訊圖表等工具優化閱讀體驗。她表示,即便不會寫程式,一般人也能利用許多已經存在在網路上的開源工具製作出數位敘事的報導或調查。從他製作幫助讀者理解黨產會的工作與轉型正義的史料的數位報導經驗,她整理出五個處理議題或新聞的重點步驟:

  1. 聚焦特定切點:找出議題的切入點,幫助大眾了解重點核心
  2. 呈現資訊架構:替長篇幅的文章建立目錄,呈現清晰的架構以幫助讀者預知內容,讓讀者可以主動掌握閱讀議題的重點與順序。
  3. 將資料視覺化,或以互動圖表呈現:將數據、資訊轉化為圖表,清楚展示數據成果與洞察
  4. 資訊摘要與轉譯:擷取重要的資訊,並以白話文改寫法律、政治或會計術語
  5. 素材加工與增加曝光:充分利用影音、圖像素材,以圖文並茂的方式介紹案例和故事,也藉以提高既有素材的曝光

第三位講者,中研院社會學研究所的研究助理李俊穎先生,為我們詳細介紹了他與資料英雄團隊替不當黨產委員會打造的歷史文件搜索優化系統。李先生先說明為什麼需要「斷詞」,這是因為中文與英文不同,中文在書寫時單詞之間不會以空格區隔,因此在處理中文史料時,必須先由斷詞系統分析中文文章,把有意義的字詞一個一個分別出來。為了使斷詞系統運作更精準,他們也開發了一套不當黨產相關史料自定義字典,專門處理專有名詞的實體辨識,特別是當不同的詞指涉同一個人、事、物時,如何讓系統能辨識與歸納。例如:幫助機器學習蔣中正、蔣介石與蔣委員長皆指同一人。或是讓系統學習辨別一個詞語是人、地點、日期還是文物等資訊,藉以提升斷詞工具的精準性。

除了上述兩個工具外,他們也建立了文章的搜尋與推薦系統。搜尋系統就有如大家常用的Google,再進一步結合自定義字典,透過搜尋關鍵字,該系統便能篩選出包含相關特定詞語的文章。推薦系統則能將文章內的詞語拆解開來,以表格的形式呈現,並整理出詞矩陣,列出該詞語在文章中被提及的次數,藉此辨別文章的主題,進而幫助研究員快速閱讀找到相關的史料。

最後,資料科學家蘇彥庭先生向我們展示了專案的成果,包含史料斷詞的實體辨識,以及網絡關係圖,也就是將資料以互動式圖表呈現,透過節點與節點間的連結顯示詞語的重要性,以及在史料中被提到的次數多寡。研究員可以利用網絡關係圖結合推薦系統找到更多相關文獻。

談及專案的未來展望,蘇先生表示,目前仍有一個尚未解決的問題,即史料文件的數位化難度高。但好的數位化資料是資料科學的基石,有一些原始資料的數位化,比如說圖檔或各種無法用機器判讀的資料,在最開始還是需要花費一些人工的整理,讓資料變得得以讓機器快速分析,在這個基礎上,黨產會與資料科學家們也致力應用數位科技,對內利用自然語言處理解決方案,協助研究員在龐大的史料庫中更快速地找到、辨識資料;對外則是利用數位敘事、資料視覺化等工具,幫助民眾更容易理解黨產會的研究成果。

最後,團隊成員皆提到這一套文本系統的設定都是開放原始碼,開放大眾檢視,就連數位敘事視覺化報導的工具,也是盡可能運用現有的開源軟體達成。堅持且實踐開源的設定,意義也在於讓這個促進轉型正義的分析工具能公開透明讓大眾檢驗,即使有偏誤,也能被立即發現並快速修正錯誤。也可以讓想發展類似計畫的朋友,有參考的基礎。

Training workshop by Data for Social Good project of DSP
© FNF

在此案例分享講座之前,本會也委託智庫驅動團隊的資料英雄計畫,對參加的民主人權倡議者提供資料科學的講座與引導討論。希望透過此工作坊與講座,FNF全球創新中心希望能真正幫助民主、自由與人權的倡議者在資料處理上更得心應手,也希望促進議題工作者與資料科學家的跨領域合作。

歷史文件X數位科技:如何打造不當黨產處理委員會的文本分析系統與數位敘事專題

Hacking Democracy Conference四位與談人對資料科學的想法

在12月9日的「給民主與人權倡議工作者的資料運用訓練工作坊 」舉辦之前,讓我們來聽聽與談人分享他們如何建立不當黨產處理委員會的文本分析系統與數位敘事專題計畫!想要聽他們親自講述這些經驗嗎?可以點擊這邊報名工作坊喔!

閱讀全文