Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Remove namespace 'w' durante a atualização das <mixed-citations> #382

Merged
merged 1 commit into from
Nov 18, 2020

Conversation

joffilyfe
Copy link
Contributor

O que esse PR faz?

Este pull request remove o namespace w durante a atualização das tags <mixed-citations>, esta remoção é necessária já que este namespace não é conhecido pelos XMLs SciELO, suspeita-se que este namespace tenha sido adicionado durante a marcação dos HTML e que não adiciona informação relevante para os nossos XMLs.

Onde a revisão poderia começar?

  • documentstore_migracao/utils/xml.py L:21;

Como este poderia ser testado manualmente?

  • Extraia o artigo de PID S1414-462X2013000100003;
  • Baixe, descompacte e adicione o arquivo de parágrafo [1] dentro da pasta xml/paragraphs do dsm;
  • Execute a atualização das citações (ds_migracao mixed-citations update xml/source);
  • Converta o XML atualizado;
  • Verifique que não houve erro relacionado ao namespace w durante a conversão.

Algum cenário de contexto que queira dar?

N/A

Anexos

[1] - S1414-462X2013000100003.json.zip

Screenshots

N/A

Quais são tickets relevantes?

fix #375

Referências

N/A

Ao atualizarmos as citações dos artigos, é possível que algumas venham
diretamente da base MST com o namespace `w:st` que não nos diz nada nos
dias atuais. Para evitar que os XMLs sejam produzidos de forma errada
é necessário alterar o namespace algo como `w-st`. A informação será
persistida mas sem o contexto de um namespace que nós não conhecemos.
@joffilyfe joffilyfe added the bug Something isn't working label Nov 18, 2020
@robertatakenaka
Copy link
Member

@joffilyfe O mesmo problema não ocorre com <st1:City?

@joffilyfe
Copy link
Contributor Author

@joffilyfe O mesmo problema não ocorre com <st1:City?

Não obtive erros relacionados ao namespace st1, @robertatakenaka, apenas o w faz o XML ser inválido.

@robertatakenaka
Copy link
Member

@joffilyfe O mesmo problema não ocorre com <st1:City?

Não obtive erros relacionados ao namespace st1, @robertatakenaka, apenas o w faz o XML ser inválido.

será que é porque não está "fechando" e então não considera tag?

@joffilyfe
Copy link
Contributor Author

será que é porque não está "fechando" e então não considera tag?

Não tenho propriedade pra te responder essa pergunta mas é curioso que após o XML ser salvo, o namespace st1 some, ele não permanece no XML. No exemplo acima nós obtemos o XML final com a mixed citation assim: <city w-st="on">....</city>.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

Successfully merging this pull request may close these issues.

[dsm][HTML] namespace inválido (w) em XML impede de lidar com o XML
2 participants