У меня есть следующий код:
my ($url) = "http://example.com"
my $m = WWW::Mechanize->new();
$m->get($url);
my $c = $m->content;
my $tree = HTML::TreeBuilder::XPath->new_from_content( $c );
if (my $content = $tree->look_down(_tag => "div", class => "content")) {
$content = $content->as_text();
}
Проблема в том, что когда я анализирую содержимое, часть текста имеет одинарные или двойные кавычки, которые не анализируются правильно. Например, “this”
становится “thisâ€
.
Насколько я понимаю, это какая-то кодировка Windows-1252
. Как я могу это исправить?
Пробовал добавлять binmode STDOUT, ':encoding(utf-8)';
при старте программы, не помогло.
Я пытался добавить $content = utf8::decode($content);
, но это не помогло.