我們的客戶經常詢問 RapidMiner 是否支持繁體中文的處理和進一步的分析,尤其是許多行業裡負責專利查詢比對,或法律、法規追詢,或輿情分析等專業人士,無不希望利用 RapidMiner 來減低人工的需求。RapidMiner 確實允許包含繁體中文的屬性名稱和值。然而,將一段繁體中文文本斷詞以便對文檔進行向量化等預處理,例如使用 TFIDF 值,則需要用戶自己做一些工作。
幸運的是,這個概念很簡單,工作也很簡單。這裡建議的方法是在 RapidMiner 流程中插入一個「執行 Python」運算子,用來運行一段 Python 代碼,專門處理繁文斷詞。除此之外,其餘部分則幾乎與英語或類似語言的典型文本處理和分析流程相同。
在本次網路研討會中,我們先簡單介紹文檔向量化的概念。接著會跑一個機器學習案例來預測英文電影評論的正面性,然後轉為繁中預測;也會討論 RapidMiner 對繁中新聞爬文也有很大幫助的兩個運算子:“Get Page”和“Cut”。最後,我們會以一個簡單的繁中新聞多樣分類的機器學習案例作為結束。
活動時間 : 2022/03/17 (四) 14:00-15:30
活動地點 : 本活動採網路 Live 直播
講師 : 李永嘉博士
原廠認證RapidMiner Grand Master,曾經在密西根大學安那堡校區教了六年的計算機課程,也在紐澤西的 AT&T Labs 帶過數十人的研發團隊,回來台灣後擔任過明基西門子手機的亞洲研發總監,這些年來專注於雲端運算,大數據分析與機器學習方面的顧問工作。
* 本活動免費需事先報名,報名完成後將於活動前一天寄發活動登入連結,歡迎業界先進及專家學者報名參加。
2022.03.17
14:00-15:30
本研討會採網路 Live 直播