1. С 1 марта 2017 на форуме запущен платный закрытый раздел. Вся информация по сабжу ЗДЕСЬ

Удаление дублей строк в большом текстовом файле

Тема в разделе "Софт, инструменты и сервисы для вебмастера", создана пользователем iamincognito, 30 янв 2015.

  1. iamincognito

    iamincognito Контент-генератор

    Пол:
    Мужской
    Преамбула. Достаточно давно пересел для работы на линукс(убунту). Ломка присутствовала, регулярно бесят большие и мелкие неудобства, в частности, с отсутствием альтернатив для некоторого софта (типа кейколлектора) и т.п.

    Но при этом я четко понимаю, что выгод с точки зрения продуктивности больше - многие задачи в линуксе я могу решить в десятки раз быстрее, чем в винде. Вот свежий пример настолько убедителен, что просто не смог удержаться чтобы не запостить сабжик.

    1) Дано: текстовый файл 200+ мегабайт с примерно 5 миллионами строк.
    2) Требуется удалить все дубликаты.
    3) Решение: гуглим пару минут, находим вот этот кусок торта:
    Код:
    awk '!seen[$0]++' source_file > destination_file
    Менее 10 секунд - и все готово. Ну не прелесть, э?
     
    • Нравится Нравится x 2
  2. Alexey

    Alexey Moderator

    Пол:
    Мужской
    а что бы понять это сколько времени уйдёт?

    не вижу ни одного аргумента за линух
    если нравится конечно, то не вопрос!

    KeyWordKeeper может сделает это не за 10 секунд, но явно быстрее, чем я потрачу время на изучение основ работы с другой OS
     
    • Нравится Нравится x 2
  3. Openixxx

    Openixxx Легенда

    ну единственное может быть - в линуксе меньше вероятность подхватить какого нибудь трояна, который уведет пароли от сайтов или кошельков..
     
  4. iamincognito

    iamincognito Контент-генератор

    Пол:
    Мужской
    Да я и не агитирую, в общем-то :) Одонозначно менять ОС только для решения какой-то разовой задачи не стоит. Мне нужно было сделать такой выбор, чтобы иметь ту же среду для работы над проектами и их тестирования, в которой они будут крутиться на сервере. Когда полностью освоился заметил, что стал работать продуктивнее. Во многом из-за того, что избавился от боязни консоли, а ее использование для простых но ресурсоемких операций намного эффективнее визуальных инструментов.
     
    • Нравится Нравится x 1