Última pergunta sobre Apache Spark Sql

1
Responda

Encontre a combinação de duas colunas com valor máximo na terceira coluna do spark sql. Usando esta combinação de colunas, encontre o histórico mínimo e máximo

Eu tenho uma tabela da colmeia com a tabela abaixo. Tenho que encontrar a combinação certa de instância e nome com valor máximo para o último código de ciclo. Tabela Hive também instância múltipla. Para cada instância, encontrei a instância correta, nome que tem o valor máximo para o último código de ciclo.

apache spark apache spark sql

0
Responda

Como posso armazenar o conjunto de dados em cache na etapa intermediária da consulta no spark sql quando tenho a consulta no formato de string e não no formato de API do dataframe?

Estou recebendo algumas entradas do upstream que sãoconsultas sql em forma de string, caminhos de arquivo de entrada e nome de exibição de tabela. Para melhorias no tempo de execução no cluster, quero armazenar em cache meu conjunto de dados para uma consulta e reutilizar o mesmo conjunto de dados para outras consultas.

apache spark apache spark sql

1
Responda

dataframe de achatamento json aninhado spark

Estou tentando criar um dataframe a partir de um jsonString aninhado e dividir em vários frames de dados, ou seja, os dados do elemento externo irão para um dataframe e os dados do filho aninhados irão para outro dataframe. Pode haver vários elementos aninhados. Eu olhei para os outros posts, nenhum deles fornece um exemplo de trabalho para o cenário abaixo. Abaixo está um exemplo em que o número de estados é dinâmico e eu quero armazenar as informações do país e do estado em 2 pastas hdfs separadas. Portanto, o dataframe pai está segurando uma linha como abaixo.

dataframe apache spark apache spark sql

1
Responda

ValidationFailureSemanticException: a especificação da partição contém colunas sem partição

Estou tentando um caso de uso simples de inserção em uma tabela particionada por hive no S3. Estou executando meu código no notebook zeppelin no EMR e abaixo está meu código junto com a captura de tela da saída dos comandos. Eu verifiquei o esquema da tabela hive e dataframe e não há diferença de maiúsculas e minúsculas no nome da coluna. Estou recebendo a exceção mencionada abaixo.

hive hiveql apache spark sql apache spark

Etiquetas quentes

© 2021   OlaMundo.Org