軟件所在代碼注釋數據治理方面取得研究進展
文章來源: | 發布時間:2022-07-07 | 【打印】 【關閉】
近日,軟件所互聯網軟件技術實驗室在代碼注釋數據治理方面取得研究進展。該研究針對當前代碼注釋大數據質量治理難的問題,通過分析4個大規模代碼注釋基準數據集,歸納出12種類型的噪聲數據并研發了基于規則的代碼注釋數據噪聲清理工具,能夠高效、精準地自動治理代碼注釋數據質量,為代碼注釋自動生成模型形成高質量數據提供保障,有效促進現有的代碼注釋自動生成模型提升性能。
代碼注釋自動生成技術旨在減輕人工編寫注釋代碼的工作量,從而提高軟件開發效率。目前主流的代碼注釋生成模型大多采用深度學習框架,模型的有效性依賴大規模高質量數據集。然而現實中基準數據集主要采集自真實的開源項目代碼,其數據質量到底如何未有研究深入分析。
針對上述問題,團隊檢測了4個基準數據集中的噪聲,發現這些數據集中都廣泛存在噪聲數據,噪聲數據占比最低31%,最多高達到65%;定義了12種類型的噪聲數據并給出了具體示例;并研發了基于規則的代碼注釋數據噪聲清理工具,治理準確率達到97.5%。最后團隊對比了清理前后的3個最新代碼注釋自動生成模型,發現去除噪聲后,模型的性能普遍提升了21%-27%。
該研究成果的主要貢獻者為軟件所副研究員石琳、博士研究生沐方文、碩士研究生陳嘯和研究員王青。研究成果以“Are We Building on the Rock? On the Importance of Data Preprocessing for Code Summarization”為題被軟件工程領域頂級會議ESEC/FSE 2022錄用。該研究獲國家重點研發計劃項目支持。
代碼注釋數據質量分析方法框架