前几天对行人重试别进行了分类,从数据、特征、目标函数角度作为研究的重点。
这篇文章给涉及到训练数据的选择,可不可以在target中寻找少数量的样本进行标记,但是却能达到很好的效果呢?
在读这篇论文的时候,遇到了一些新的内容,包括如下:
active learning
core-set selection
least confidence uncertaintly sampling
greedy k-centers
这里的active learning 主动学习,是指在训练模型的过程中,一边训练,一边寻找unlabel 数据中的一个或者一批,然后对这些数据进行标记,然后将这些数据再放到训练集中,进行训练。active learning 在训练的过程中,包括五个部分,分别是要训练的模型、未标记的数据集、已经标记的数据集、判定数据对目标模型的作用效果大小的模型、对无标记数据打标签的指导者。核心就是选择数据中的一部分最有价值的数据送入模型进行训练。下面这个图很好的描述了这个过程:
这里的oracle,代表着给数据打标签的部分。
在了解least confidence uncertainly sampel 的时候,需要先了解置信度和置信区间的内容。就看了看置信度和置信区间的内容,到知乎上搜索就有不错的回答。
这里又涉及了贪心算法的内容,greedy algorithm ,贪心算法就是在求解最优解的时候,是从局部看问题的的,每一步只选择当前情况下的最优解,是局部的最优解,贪心法的求解过程大概可以表述为:
Greedy(C) //C是问题的输入集合即候选解集合
{
S={ }; //初始解集合为空集
while (not solution(S)) //集合S没有构成问题的一个解
{
x=select(C); //在候选集合C中做贪心选择
if feasible(S, x) //判断集合S中加入x后的解是否可行
S=S+{x};
C=C-{x};
}
return S;
}