查詢結果分析
來源資料
相關文獻
- Challenges of Statistical and Machine Learning on Supervised Learning with Class-Imbalanced Data
- 合歡山臺灣冷杉土壤之發育與分類
- 探勘不平衡資料集中之突顯樣式--以國道事故資料為實證研究
- 適用於網路入侵偵測不平衡資料之階層式多重分類器
- 改善不平衡資料集中少數類別資料之分類正確性的方法
- 具自適應核形狀參數的徑向基底函數網路
- 運用分類技術發掘潛在中小企業借貸戶之研究
- 以粒子群最佳化演算法結合分類器預測疾病及搜尋變數之研究
- 全民健康保險下疾病分類編碼品質與相關影響因素研究
- Fractal Image Coding Using Projection-Based Classification and Variable Shape Matching
頁籤選單縮合
題名 | Challenges of Statistical and Machine Learning on Supervised Learning with Class-Imbalanced Data=監督式學習方法用於類別不平衡的資料下之統計與機器學習理論的挑戰 |
---|---|
作者姓名(中文) | 林松江; 王彥雯; 張源俊; | 書刊名 | 中國統計學報 |
卷期 | 52:1 2014.03[民103.03] |
頁次 | 頁59-84 |
分類號 | 518 |
關鍵詞 | 分類; 類別不平衡; 不平衡資料; 操作者特徵曲線下的部分面積; 監督式學習; Classification; Class-imbalance; Imbalanced data; pAUC; Supervised learning; |
語文 | 英文(English) |
中文摘要 | 監督式學習 (supervised learning)是利用已知類別的訓練資料 (training data)來建立分類器 (classifier),並以此作為分類新資料的基準。類別不平衡的資料指的是在資料中隸屬於某一類別的資料特別多 ,導致資料類別的分布呈現偏斜 (skew)的分布。在處理分類的問題時,若不考慮類別不平衡這樣的一個現象,將會使得分類器的結果表現不好 ;而傳統的分類方法 ,都是以分類結果的整體正確率 (accuracy)或類似的標準為基準做最佳化而發展出來的,但是,這些方法卻無法正確辨識出稀少卻較為重要的類別。在這篇文章中,我們的重點是在於回顧因應類別不平衡資料分類問題而發展出來的監督式學習方法 ,討論類別不平衡資料出現的情境與分類上造成的困難與挑戰,並介紹幾類目前在統計與機器學習理論下大家的對策,接著討論適合用於此情境下評估分類器表現的指標 ,最後討論未來可能的發展方向與新衍生出的問題,如:多類別的分類問題 (multi-class classifications)、多標籤 (multi-label classifications)的分類問題及海量資料 (big data)的分類問題等。 |
英文摘要 | Supervised learning tries to classify samples based on labeled training data. Class-imbalanced problems mean that the sample size of the some class dominates over others resulting in a skewed class distribution. Therefore, using traditional classification meth ods without considering class distributions and designed to optimize the performance of classifiers based on accuracy or other similar criteria are difficult to figure out the rare but important cases successfully. In this paper, research developments on classification problems under class-imbalanced circumstances are reviewed. We introduced strategies for dealing with class-imbalanced data in binary classification, and then discuss how to evaluate the performance of learning algorithms. Finally, the last section concludes this work and discusses challenge of class-imbalanced problems for multi-class classifications, multi-label classifications and big data classifications in the future. |
本系統之摘要資訊系依該期刊論文摘要之資訊為主。