Разбор HTML с помощью спрея

Я получаю исключение The entity “nbsp” was referenced, but not declared при синтаксическом анализе допустимого HTML-кода, содержащего объект &nbsp (что делает его недействительным XML; я не контролирую сервер) при разупорядочении HttpEntity в NodeSeq с spray.httpx.unmarshalling.BasicUnmarshallers.NodeSeqUnmarshaller.

Я, вероятно, могу выполнить предварительную обработку HTML для удаления &nbsp, но каков принятый метод анализа HTML (с &nbsp) с помощью Spray?


person kliew    schedule 21.04.2016    source источник


Ответы (1)


Вы можете попробовать написать пользовательский Unmarshaller, который обертывает JSoup.

person Brian Kent    schedule 21.04.2016