Última pergunta sobre Pyspark

2
Respostas

Como concatenar duas colunas no Pyspark, mas afetar a ordem em que as linhas individuais são concatenadas?

Eu tenho um quadro de dados pyspark que se parece com o exemplo abaixo, ignorando a coluna chamada nome, é o que eu preciso criar a partir das colunas lado 1 e lado 2. O problema é que o nome precisa ser o mesmo, independentemente se o lado 1 contém A e o lado 2 B ou o lado 1 B e o lado 2 A; o resultado final precisa ser A/B, então simplesmente conciliar as duas colunas não funciona porque os nomes pareceriam diferentes A/B -B/A. Preciso fazer um agrupamento mais abaixo na linha usando a coluna de nome, por isso preciso que os nomes sejam refletidos corretamente. Alguém poderia me indicar uma maneira que posso usar para fazer isso.

concatenation pyspark

0
Responda

Exibindo Markdown com pyspark

Eu tenho duas colunas em meu dataframe com vários valores exclusivos (etnia, status) e quero ver os valores com a maior ocorrência e exibi-los de forma organizada. Basicamente para se parecer com: leastFreqEthnicity (ocorrências) MostFreqEthnicity (ocorrências), leastFreqStatus (ocorrências), mostFreqStatus (ocorrências)

markdown pyspark

Etiquetas quentes

© 2021   OlaMundo.Org