1. У вас не оплачен доступ к закрытому разделу форума, где происходит 80% общения. Подробнее о закрытом разделе можно прочесть ЗДЕСЬ
  2. Если вы первый раз у нас на форуме, то начать лучше с этой темы

Удаление дублей строк в большом текстовом файле

Тема в разделе "Софт, инструменты и сервисы для вебмастера", создана пользователем iamincognito, 30 янв 2015.

  1. iamincognito

    iamincognito Почетный участник

    Пол:
    Мужской
    Преамбула. Достаточно давно пересел для работы на линукс(убунту). Ломка присутствовала, регулярно бесят большие и мелкие неудобства, в частности, с отсутствием альтернатив для некоторого софта (типа кейколлектора) и т.п.

    Но при этом я четко понимаю, что выгод с точки зрения продуктивности больше - многие задачи в линуксе я могу решить в десятки раз быстрее, чем в винде. Вот свежий пример настолько убедителен, что просто не смог удержаться чтобы не запостить сабжик.

    1) Дано: текстовый файл 200+ мегабайт с примерно 5 миллионами строк.
    2) Требуется удалить все дубликаты.
    3) Решение: гуглим пару минут, находим вот этот кусок торта:
    Код:
    awk '!seen[$0]++' source_file > destination_file
    Менее 10 секунд - и все готово. Ну не прелесть, э?
     
    • Нравится Нравится x 2
  2. Alexey

    Alexey Легенда

    Пол:
    Мужской
    а что бы понять это сколько времени уйдёт?

    не вижу ни одного аргумента за линух
    если нравится конечно, то не вопрос!

    KeyWordKeeper может сделает это не за 10 секунд, но явно быстрее, чем я потрачу время на изучение основ работы с другой OS
     
    • Нравится Нравится x 2
  3. Openixxx

    Openixxx Почетный участник

    ну единственное может быть - в линуксе меньше вероятность подхватить какого нибудь трояна, который уведет пароли от сайтов или кошельков..
     
  4. iamincognito

    iamincognito Почетный участник

    Пол:
    Мужской
    Да я и не агитирую, в общем-то :) Одонозначно менять ОС только для решения какой-то разовой задачи не стоит. Мне нужно было сделать такой выбор, чтобы иметь ту же среду для работы над проектами и их тестирования, в которой они будут крутиться на сервере. Когда полностью освоился заметил, что стал работать продуктивнее. Во многом из-за того, что избавился от боязни консоли, а ее использование для простых но ресурсоемких операций намного эффективнее визуальных инструментов.
     
    • Нравится Нравится x 1