使用RapidMiner分析繁體中文文本 進階線上研討會

首頁

>

最新活動

> 活動內文

我們的客戶經常詢問 RapidMiner 是否支持繁體中文的處理和進一步的分析,尤其是許多行業裡負責專利查詢比對,或法律、法規追詢,或輿情分析等專業人士,無不希望利用 RapidMiner 來減低人工的需求。RapidMiner 確實允許包含繁體中文的屬性名稱和值。然而,將一段繁體中文文本斷詞以便對文檔進行向量化等預處理,例如使用 TFIDF 值,則需要用戶自己做一些工作。

幸運的是,這個概念很簡單,工作也很簡單。這裡建議的方法是在 RapidMiner 流程中插入一個「執行 Python」運算子,用來運行一段 Python 代碼,專門處理繁文斷詞。除此之外,其餘部分則幾乎與英語或類似語言的典型文本處理和分析流程相同。

在本次網路研討會中,我們先簡單介紹文檔向量化的概念。接著會跑一個機器學習案例來預測英文電影評論的正面性,然後轉為繁中預測;也會討論 RapidMiner 對繁中新聞爬文也有很大幫助的兩個運算子:“Get Page”和“Cut”。最後,我們會以一個簡單的繁中新聞多樣分類的機器學習案例作為結束。

活動時間 : 2022/03/17 (四) 14:00-15:30

活動地點 : 本活動採網路 Live 直播

講師 :  李永嘉博士
原廠認證RapidMiner Grand Master,曾經在密西根大學安那堡校區教了六年的計算機課程,也在紐澤西的 AT&T Labs 帶過數十人的研發團隊,回來台灣後擔任過明基西門子手機的亞洲研發總監,這些年來專注於雲端運算,大數據分析與機器學習方面的顧問工作。

* 本活動免費需事先報名,報名完成後將於活動前一天寄發活動登入連結,歡迎業界先進及專家學者報名參加。
 

2022.03.17

14:00-15:30

本研討會採網路 Live 直播

隱私權聲明

同意

您於本頁提供之個人資料,本公司將於相關範圍內蒐集、處理及利用,提供我們做聯繫、活動、及行銷宣傳使用。
未經您的許可,本公司不會將您的個人資訊與第三人分享,除非係為完成您所請求的服務或交易所必要或法律要求者。
有關您於本頁提供之個人資料,您得向本公司請求查詢、閱覽、複給副本、補充、更正、停止蒐集/處理/利用、或刪除。