Я пытаюсь найти уникальные и повторяющиеся данные в списке данных с двумя столбцами. Я действительно просто хочу сравнить данные в столбце 1.
Данные могут выглядеть так (разделенные табуляцией):
What are you doing? Che cosa stai facendo?
WHAT ARE YOU DOING? Che diavolo stai facendo?
what are you doing? Qual è il tuo problema amico?
Итак, я играл со следующим:
Сортировка без учета регистра (просто "сортировать", без опции -f) дает мне меньше дубликатов
gawk '{ FS = "\t" ; print $1 }' EN-IT_Corpus.txt | сортировать | uniq -i -D > дубликаты
Сортировка с игнорированием регистра ("sort -f") дает мне больше дубликатов
gawk '{ FS = "\t" ; print $1 }' EN-IT_Corpus.txt | сортировать -f | uniq -i -D > дубликаты
Правильно ли я думаю, что № 2 более точен, если я хочу найти дубликаты без учета регистра, потому что он сначала сортирует его, игнорируя регистр, а затем находит дубликаты на основе отсортированных данных?
Насколько я знаю, я не могу комбинировать команды sort и unique, потому что у sort нет возможности отображать дубликаты.
Спасибо, Стив