第七屆國際自然語言處理與中文計算大會(NLPCC 2018)“單文本摘要”技術評測結果公佈,慧科AI實驗室(Wisers AI Lab)以其專有的自動摘要技術從來自世界各地學術界與業界共18支隊伍中脫穎而出,成功獲得第一名。

隨著近些年信息的爆發式增長,人們每天能接觸到海量的文本信息,如新聞、博客、聊天、報告、論文、微博等。從大量文本信息中提取重要的內容,已成為我們的一個迫切需求,而自動文本摘要則提供了一個高效的解決方案。單文本自動摘要技術通過使用計算機軟件及其底層分析算法自動從原始文本中創建一個簡明、全面且反映該文章核心思想的摘要,從而輔助人們實現大量信息的快速閱讀與檢索。甚至更進一步,可以通過在單文本自動分析的基礎上分析多文本,實現對同一事件不同報導的多維度、多角度自動文摘。

慧科(Wisers)奪冠的自動文本摘要技術使用人工智能(AI)與自然語言處理(NLP)技術,支持中英文跨語言自動文章摘要,採用無監督式摘要生成技術,不依賴於訓練數據,可勝任各類文本的自動摘要。

該技術包含兩個重要模塊。第一個內容分析模塊自動分析文本的話題大意,利用統計學和語言學特徵,識別出文本中最精確且全面地涵蓋文本討論主題的重要語句。

第二個摘要編輯模塊,通過精心設計,不僅解決了提取式摘要技術通常因簡單提取句子並拼接所造成的上下文不連貫問題,同時也克服了生成式摘要技術產出句子可讀性差的問題。

慧科奪冠技術的秘訣在於:

  • 通過內容分析與識別檢測並糾正摘要中不清晰的指代表述(例如代詞等)和不完整語段(例如編號不完整的列舉項等);
  • 通過文本去噪和句子壓縮確保最終生成摘要的簡潔度、流利性與可讀性;
  • 集成了基於深度學習和語義嵌入模型的垃圾廣告過濾與話題分割技術,以保證最終摘要的信息多樣性和清潔度。

慧科AI實驗室自動文本摘要技術自2018年1月起已在慧科產品後台廣泛應用,支持日常數據管理與運營。

除獲得自動文本摘要評測第一名之外,慧科AI實驗室的自動話題分類技術也在第七屆國際自然語言處理與中文計算大會(NLPCC 2018)“知乎問題自動標註”技術評測的16支參賽隊伍中名列前四。該評測任務旨在對任意未先指定的知乎問題從超過2萬5千多個可選標籤集中自動判斷話題分類。慧科的自動話題分類技術採用了基於語義向量模型與深度學習相結合的集成學習技術;並且透過高效定制化工具,可快速支持話題擴展。

國際自然語言處理與中文計算大會(NLPCC)是由中國計算機學會中文信息技術專業委員會(CCF TCCI)組織的專注於自然語言處理和中文計算技術領域的一流國際會議。參加者包括來自世界各地自然語言處理和中文計算領域的專家和學者。今年第七屆年會NLPCC 2018將於2018年8月26日至30日在中國呼和浩特舉​​行。

NLPCC評測單元涵蓋自然語言處理和中文計算領域中各種經典和新興的重要課題,受到學術界和業界的廣泛歡迎和參與。本屆評測任務於2018年1月份公佈並開始接受報名,3月份正式啟動,4月底提交結果,5月份結束。每個評測任務統一給參賽隊提供一份供算法開發的訓練數據集,之後由評測任務組織者根據嚴格設計的測試數據集和性能指標對每個參賽隊提交的解決方案進行評估並排名。

慧科AI Lab(Wisers AI Lab)2014年7月成立於香港,專注於以人工智能技術解決中文全媒體資訊自動化分析與大數據情報挖掘,於2016年4月成功獲取香港特別行政區政府逾八百五十萬港幣創新科技基金。團隊由畢業於國際知名院校的AI及計算語言學專家組成。所有成員均擁有碩士以上學位,其中35% 的成員擁有博士學位。

慧科AI Lab 自主研發的,面向實際應用、開放領域、多元化數據的AI分析技術全面涵蓋自動化媒體情報處理與挖掘的各個層面,既包括基於文本分析的實體識別,關係提取,話題分類,情感分析和事件檢測追踪等技術,也包括基於圖像分析的品牌標識和人臉識別技術。以上技術均可以在慧科AI實驗室官網(www.wisers.ai)提供的實時技術演示中獲得體驗。

慧科訊業有限公司是全球領先的全媒體大數據智能商業情報專家,憑藉20年累積的數百億海量媒體數據,先進的人工智能技術,以及科學的分析模型體系,為全球超過2500家客戶提供創新的產品服務和解決方案,助力企業及各類機構做出明智決策。

慧科不僅擁有卓越的數據處理和文本檢索技術,可靠的系統支撐,更擁有業內領先的以自然語言研究為主的人工智能研究院,不斷研發出創新的產品技術應用,助力客戶實現大數據商業價值的轉化。

慧科在香港,澳門,台灣和大陸設有9個辦事處,員工超過900人。慧科團隊創新精進,與頂尖院校保持合作,不斷追求人工智能,自然語言處理(NLP),語言分類學,圖像識別,新興數據技術等領域的突破。

詳細評測結果請參見NLPCC2018大會論文:Li L., Wan X. (2018) Overview of the NLPCC 2018 Shared Task: Single Document Summarization. In: Zhang M., Ng V., Zhao D., Li S., Zan H. (eds) Natural Language Processing and Chinese Computing. NLPCC 2018. Lecture Notes in Computer Science, vol 11109. Springer, Cham