我有一个带有标识符列和每个标识符的 4 个特征列的数据框。这是一个例子:
Código C1 C2 C3 C4
333 ab aa cc
222 cc
111 mm nn xx ff
111 xx
222 nn mm zz
我需要的是通过数据框来查找每个标识符有多少条记录,并对与每个标识符对应的特征进行频率计数,在一列中不考虑它们是否是不同的特征,在另一列中考虑帐户是否不同。换句话说,在我的例子中,答案是:
Código Apariciones Características Características diferentes
111 2 5 4
222 2 4 4
333 1 3 3
我试图做以下事情:
首先获取消除重复的代码列表
codigos = df['codigo']
codigos= codigos.drop_duplicates()
然后尝试执行“for”来记录每个代码的功能数量,如下所示:
for i in codigos.values:
datosindividuales=df[df['codigo']==i]
apariciones=len(datosindividuales)
我不知道如何继续查找功能的频率,我尝试了 groupby 但它没有给我我需要的东西。我是编程新手。我很感激你能帮助我
首先,我们加载您的
dataframe
示例:我们要做的第一件事是制作一个列表,其中包含每个列的值
Codigo
:现在我们只需要计算每个元素的总元素和不同的元素
Codigo
: